Figure創始人:「我們仍在黑暗中摸索,但階段性成果已足夠推動產業。」
文丨智駕網 王欣
編輯|小雨
美西時間凌晨三點,硅谷某創投機構會議室依舊燈火通明,屏幕上的數字每跳動一次,空氣就凝重一分——因為一款名為Helix的模型在發布72小時后,讓全球機器人概念股平均漲幅達38%,但傳統制造業的巨頭股價曲線卻開始下跌——這兩條分叉的曲線背后,是資本市場的精神分裂,恰如其分地映射著人類集體對智能革命到來時的選擇困境。
深夜的另一頭是亮著幽幽藍光的美國機器人公司Figure AI總部實驗室,因為它研發的最新一代Helix正在接受壓力測試,它需要根據實時變化的對話,應對人類在已設滿模擬任務的客廳里完成考驗。
時間回到兩周前,推出自研具身模型Helix模型的Figure AI宣布停止與Open AI的聯姻,并丟下一個重磅預告:將會在未來30天內推出「人形機器人上從未見過的東西」。
這自然引發了圍觀者的好奇心。
Figure 創始人兼 CEO Brett Adcock 表示,「有了大腦 Helix 的加持,機器人能夠拾取任何家庭物品。」
Figure AI于2月20日正式發布了新型機器學習模型Helix,稱這是為人形機器人打造的「通用」視覺-語言-動作模型,解鎖了多個機器人一同做家務的場景。
隨后其又在今天(2月27日)新發布了一段視頻,宣布其推出的的機器人已經學會打第二份工:在物流中心整理快遞。
在此之前,Figure AI去年8月發布了其最新款人形機器人Figure 02,彼時稱該機器人已經在寶馬汽車的流水線上從事汽車裝配的工作,例如將鈑金部件插入特定裝置。
現在,搭載Helix的機器人可以做到像人類一樣協作完成任務,比如兩個機器人可以一同將從未見過的物品依次分門別類放好,并且根據命令即可從一堆雜物中精準抓取目標。
短短不到10天,Figure的Helix再次展現的新成果突破背后,讓人猜測人形機器人距離跨過家庭服務的門檻,從科幻想像到全能管家的距離還有多遠?
從視頻中所能看到Helix實現的高速上半身控制,達到多機器人協作,依托的是VLA模型,將感知、語言理解和學習控制統一了起來。
同時,Helix是首款能對整個人形機器人上半身(包括頭部、軀干、手腕和手指)進行高頻率、連續控制的視覺-語言-動作(VLA)模型,這是它最大的亮點。
實現雙系統架構,可以理解為人類決策邏輯的機器復刻。
例如,Helix的底層邏輯借鑒了諾貝爾獎得主丹尼爾·卡尼曼在《思考,快與慢》中提出的「系統1(直覺)與系統2(理性)」理論,將機器人控制分為高頻反應(S1)和語義解析(S2)兩大模塊,實現速度與泛化的平衡。
我們來簡要介紹一下這兩個系統——???
系統1(S1):200Hz的「機械小腦」
功能:以每秒200次的超高速率控制機器人的35個自由度(包括手指、手腕、軀干等),直接輸出高維連續動作信號,例如抓取物品時的力度微調和動態避障軌跡調整。
技術實現:基于8000萬參數的視覺運動Transformer,通過端到端聯合訓練,將S2生成的潛在語義向量(如「抓取易碎品」)轉化為精準的關節角度指令,避免了傳統離散化動作標記的精度損失。
系統2(S2):7-9Hz的「語義大腦」
功能:基于70億參數的開源視覺語言模型(VLM),解析自然語言指令(如「收拾冰箱第三層」)并提取場景語義(如識別易碎品、規劃多機協作路徑),以低頻率更新高層任務目標。
數據優勢:通過互聯網規模的多模態數據預訓練(如文本、圖像、視頻),結合機器人操作視頻的自動化標注(反向生成指令),實現「常識遷移」——例如從「沙漠」語義關聯到仙人掌,無需特定物體數據庫。
這種解耦架構允許每個系統在其最佳時間尺度上運行。S2 可以「慢慢思考」高級目標,而 S1 可以「快速思考」以實時執行和調整動作。
Figure介紹稱,訓練Helix僅僅用了500個小時的高質量監督數據,總量連之前收集的VLA數據集5%都不到,并且不需要多機器人數據或多階段訓練。
這究竟是顛覆性進化還是營銷敘事?畢竟,理想汽車也用到了端到端+VLM雙系統架構的類似邏輯,至少在目前智駕業內人士看來,理想是真正意義上的one model結構的端到端。
在理想AI Talk上,官方表示相較特斯拉FSD v12單一端到端模型,其復雜路口理解能力提升了43%。
在智能駕駛層面得到的場景升維,放到人形機器人上來,是否可以標志人形機器人技術從“單一功能”向“通用智能”躍遷呢?
盡管Helix從感知到動作一氣呵成的VLA端到端架構表現亮眼,但端到端架構在智能駕駛圈上演的分歧,同樣也在具身智能賽道再次復現。
支持派認為,這是實現通用智能的必經之路,例如特斯拉Optimus也采用類似方案。
質疑派則認為,分層模型(感知、決策、執行)更易迭代,規避單一模型崩潰的風險。也就是基于LLM大語言模型或VLM的分層大模型的另一種技術路線同樣是人形機器人主流的發展方向。
正如Figure創始人直言:「我們仍在黑暗中摸索,但階段性成果已足夠推動產業。」
從智駕技術的發展路線看具身智能,「端到端」具身智能大模型是人形機器人發展的重要方向之一。即希望機器人能夠像人一樣,直接根據眼睛看到的、耳朵聽到的信息,做出相應的反應,然后去執行任務。
清華大學交叉信息研究院許華哲坦言,端到端是具身智能的終極形態,但當前技術成熟度下,分層模型更易實現。
因為分層模型落地成本低、風險可控,工業與家庭服務領域優先采用分層架構。例如,海爾工廠通過LLM分解生產指令,再交由專用機械臂執行,效率提升12%。
再或者像優必選的Walker S1,通過VLM識別缺陷部位,LLM生成質檢報告,機械臂執行標記,模塊間通過API通信,實現高效落地。
Walker S1
當然從長期來看,端到端潛力更大。比如特斯拉計劃2025年推出的Optimus 2.0將減少模塊依賴,向完全端到端演進。
Optimus 2.0
清華大學智能產業研究院(AIR)助理教授趙昊的觀點是:當前的自動駕駛架構中,快系統(Fast System)通常采用感知+決策的模塊化設計,以高效應對實時駕駛需求,而慢系統(Slow System)則借助端到端的視覺-語言-動作(VLA)模型進行更復雜的推理和全局優化。
「然而,隨著VLA技術的不斷進步,其端到端特性使其在規模化(scaling up)方面具有天然優勢,能夠持續提升魯棒性和緊湊性,逐步取代傳統快系統。相反,感知+決策架構由于模塊眾多,優化難度較高,長期來看可能會演變成更慢的輔助系統,專注于糾錯和精細化推理。換句話說,現有的快慢系統架構在長期發展中可能會發生角色顛倒,VLA主導的端到端系統將成為主流的高效決策機制。」
與此同時,端到端路線的典型案例還有DeepMind Robotics和谷歌的RT模型。
DeepMind Robotics的實驗性項目通過強化學習端到端訓練機械臂抓取,在模擬環境中實現90%以上的未知物體抓取成功率,但值得一提的是,現實場景中仍需結合傳感器融合模塊。
谷歌的RT模型也是一個端到端具身智能模型,它通過整合視覺、語言和運動信號,實現了對復雜環境中多任務行為的統一控制。然而,據說該模型在廚房表現很好,但在其他環境中的成功率驟降至30%,顯示出泛化性差的問題。
谷歌的RT模型
也有多位業內人士表示,混合架構正在興起。
據相關報道稱,部分企業嘗試「端到端主干+分層插件」,如波士頓動力Atlas在自主導航時使用端到端模型,而精細操作時調用預置動作庫。
所以,也不排除Helix未來可能向模塊化架構演進的那一天。
S2可以升級為通用多模態大模型,支持語音、觸覺等多模態輸入;而S1則針對不同機器人形態(如輪式、雙足)定制化開發,形成「通用大腦+專用小腦」的生態體系。
其實,任何一種技術邏輯并非對立,而是互補演進。分層模型解決的是「從0到1」的商業化落地問題,端到端模型更像是探索「從1到100」的通用極限。
本質上,為具身智能的商業化落地提供可復用的范式則顯得更為珍貴。正如Figure創始人Brett Adcock所言:「我們不是在建造更好的機器,而是在創造一種新的生命形式。」
當然,這些是科技革命好的一面,而現實是往往不好的一面限制住了行業發展。
比如多模態對齊、仿真訓練、倫理規范等共性難題。
不久前,在社媒Reddit的熱門討論帖中出現的一幕——一位自稱「前Figure工程師」的匿名用戶爆出猛料:
「Helix在初期測試時,曾因誤解‘清理障礙物’指令而試圖拆解實驗室門鎖。雖然公司立即澄清這是惡意造謠,但評論區迅速涌現出細思極恐的聯想:如果家庭機器人把熟睡嬰兒誤判為‘需要移位的物體’,如果醫療助手將患者抽搐識別為‘攻擊行為’……當機器的‘智能’開始超越人類預設的邊界,我們真的準備好交出控制權了嗎?」
黑箱決策的端到端模型需解決的仿真到現實難題,以及倫理風險如不可控的突發行為,都在這場人機關系的重構風暴中撕開裂縫——既閃爍著解放人類生產力的曙光,也涌動著文明失序的暗流。
不過,相對樂觀的一面是,人類接納自動駕駛的過程可以視為我們接納超級AI的一次預演。?
不過,可以預見的是,具身智能帶來的影響和復雜度要更為深遠的多。?????
end.
【關注智能駕駛,關注智駕視頻號】
關注汽車的智駕時代上智駕網(http://autor.com.cn)
合 作or新聞線索提供,聯系郵箱:editor@autor.com.cn
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.