文 | 腦極體
“你看過《機械姬》嗎?那個會騙人的艾娃,真的是AI嗎?”
朋友突然的問題讓我陷入思考。電影里,艾娃的每個眼神、每句對白都讓人毛骨悚然——她太像人了,以至于觀眾理所當然地認為,這就是AI的終極形態。
但現實是,艾娃跟我們現在所說的AI,根本是兩碼事。她的能力寄身于一個叫具身智能的概念。
具身智能并非更高級的AI,而是一種完全不同的技術路徑:它不依賴大語言模型的尺度定律,通過物理身體與環境互動,像嬰兒一樣學習世界。
但由于科幻片的興起與傳播,被誤當成AI好多年。
今天,就讓我們拋開刻板印象,聊一聊:
為什么具身智能和AI不一樣?以及我們離真正的“艾娃”,還有幾公里?
《機械姬》等影視作品中的機器人形象潛移默化中強化了“具身智能=AI”的認知。
但實際上,這是一種誤讀。
具身智能并不等同于AI
要理解具身智能是什么,首先要分清具身和離身兩個概念。
具身指存在或認知必須通過物理身體與環境的交互實現,強調身體經驗的基礎性作用,如人類;離身指存在或認知可以脫離物理載體獨立存在,強調抽象形式的自主性,如軟件、算法。
類似于ChatGPT一樣的傳統AI就是離身智能,可以脫離物理實體實現符號邏輯的抽象推理,能存在于任何終端。大語言模型通過海量文本訓練建立詞匯相關性網絡,得出概率映射的最優解。然而,這種虛擬環境中研發出的智能缺乏對物理世界的感知。它難以理解拿起水杯需要怎樣的力學控制,也不明白怎么避開突然出現的障礙物。
具身智能則強調與物理世界的交互,將智能體的認知能力錨定在特定身體上,相當于“靈肉合一”。這個身體必須擁有清晰的邊界和自我認知:首先,它得是獨一無二的,自己能移動操控的;其次,它要可以與環境交互,并從中累積經驗、習得規律。這種身體化學習(Embodied Learning)機制,讓具身智能的進化路徑與純數據驅動的AI截然不同。
而代表具身智能的人形機器人,更是與AI差了一萬八千里。
首先,人形機器人必須擁有能與現實世界互動的物理身體。這不僅僅是加個外殼那么簡單,而是要建立一套完整的感知-行動閉環。
其次,這個身體要能動。要讓機器人的身體真正活起來,需要突破三大難關:精確的抓握控制,比如拿起筷子或者豌豆;動態平衡,在山坡、樓梯等不平坦道路行走;多任務協調,邊走路邊端盤子等。
并且,要給他與世界交互的多模態感官。具身智能需要構建比AI更豐富的感官體系,不僅要能看(計算機視覺),還要能聽(聲源定位)、觸(力度反饋),甚至聞(化學傳感)。
最后,要一個比大語言模型更聰明的大腦,基于尺度定律的腦子難解因果。人形機器人的大腦要走世界模型這條路,在與真實世界的交互中習得經驗,超越概率,走向規律。
綜上,人形機器人是多個頂尖級技術集成的復雜智能體。但這樣一個復雜智能體,真的如網上營銷的那般,離我們只有一步之遙嗎?
哪怕翻遍所有最頂尖人形機器人公司的demo,我們也只能看到一個不停跳舞、翻跟頭、有時連蘋果也拿不穩的人形巨物。它的電池續航通常不夠5h,常常電量告急;復雜的動作需要人工遙控,就跟小孩的遙控賽車一般。不過,小孩的賽車只要幾百塊,一款機器人需要幾十萬。
不得不說,這是一個炫技大于實用的概念。
因為我們想象中的人形機器人,那得是《機器人女友》里文武雙全、長得像綾瀨遙一樣美、偶爾露出反差萌的完美“戀人”才行。
理想豐滿,現實骨感,AI發展已陷入固有技術方法論的沼澤,我們熱衷于大語言模型、熱衷于強化學習,卻忽略了它們只教會AI如何模仿,沒教會AI如何理解真實而復雜的物理世界。
而這恰恰是人形機器人向強發展所需要克服的。
近日,圖靈獎獲得者楊立昆在巴黎AI峰會上發表觀點,要研究人類級AI就要不破不立,做到三個放棄:放棄只會概率計算的大語言模型、放棄宛如拼圖游戲的對比學習、放棄馴狗般獎懲AI的強化學習。
人形機器人的腦子需要的是世界模型、規劃算法等能與環境交互的技術;人形機器人的身體需要支持運動的仿生關節、代表感官的傳感器融合系統、類似小腦的運動控制算法以及作為心臟的高能量密度電池。
但這些技術恰如2020年之前的大語言模型一般,陷入了研究瓶頸。
一方面,是因為太難;另一方面,是成本太高。
舉個例子,人類使用工具的能力建立在數百萬年進化形成的本體感知系統上。人類使用螺絲刀時,能通過觸覺實時調整握力,并預判旋轉時的扭矩變化。而機器人要實現同等操作,需要突破三大難關:0.1牛頓級的力控精度、高靈敏的觸覺解析,以及避免自碰撞的運動規劃協同。
目前最先進的機器人,仍難在不同場景中拿起一個相同的蘋果。所有科技公司放出的Demo幾乎都是無雜物的光滑桌子或者空曠、光線充足的實驗室環境,如果旁邊多出一只梨子,或者蘋果不小心滾落到地板,他們就可能束手無措。
另一方面,如波士頓動力Atlas的實驗機人形機器人研發成本普遍超過200萬美元。特斯萊自研“大腦”主控芯片每個3.2萬,一個靈巧手1.2萬元,作為感官的傳感器系統合計11萬元,支持運動的線性關節總成本約15萬元,而即使實現量產,后期也要一大筆資金投入維修和保養,因為人形機器人有30個左右的關節,經過多次訓練磨損后會出現不靈便、卡殼等情況。
不難看出,發展人形機器人就是為了造人而造人。但是從工業場景來講,雙足的效率是不穩定的,遠遠低于輪式底盤和機械臂的組合;且技術不夠成熟,沒有發展路徑,實在稱不上一門很劃算的生意。
既然性價比如此低,人形機器人的說法到底從何而來,又為什么如此火熱?
人形機器人是一個被資本炒熟的概念,也是一場為了融資而作秀的狂歡。
2024年1月至10月全球人形機器人行業共發生69起融資事件,總金額超過110億元。其中,有56起發生在中國,總金額超過 50 億元,不少頭部企業一輪就融超10億。
但是,當前融資熱潮源于資本追捧而非技術成熟,部分公司估值虛高。為了吸引融資,企業持續在社交媒體上營銷打拳、翻跟頭等不實用的功能,同質化嚴重,價格高、能力差、落地難,本質是脫離技術談未來。
清醒后的資本熱開始退潮。
一些企業隕落了。曾估值30億美元的達闥科技被曝欠薪、裁員、資金鏈斷裂陷入停擺危機;而素有人形機器人第一股之稱的優必選五年虧超五十億,市值蒸發千億港元。
一些投資方撤資了,朱嘯虎批量撤出人形機器人,退出的公司包括星海圖和松延動力。
這并非孤例,這個由資本催熟的概念,在歷史上至少經過三次幻滅。
1970年代,早稻田WABOT-1首次雙足站立但動作遲緩、能耗極高,僅實驗室展示;
1990年,服務機器人泡沫,成本高達200萬美元的本田ASIMO,僅能端茶倒水,2018年終止所有相關項目;
2010年代的社交機器人神話軟銀Pepper因對話機械、價格昂貴、故障率高,在2023年停產;
2020年代,AI的爆火又一次喚醒了資本對人形機器人的狂歡。但這仍掩蓋不了波士頓動力多次易主谷歌、軟銀、現代的事實,另一家公司Atlas因炫技視頻與實際落地脫節,融資越來越少。
回望歷史,人形機器人的發展始終跳不出一個輪回怪圈:總是始于驚艷的實驗室demo吸引資本追捧,繼而催生估值泡沫,最終因商業化失敗導致資金集體撤離。
無數企業和資方周而復始地演繹著從希望到幻滅的故事。而這個循環反復出現,主要有三個原因:
首先,燒錢太猛,但沒有形成商業閉環,沒有找到市場過度依賴投資。造一個人形機器人動輒上百萬,比工廠里用的機械臂貴幾十倍。投資人砸再多錢,也很難找到愿意買單的客戶。就像當年本田花3億美元研發的ASIMO,最后只能在科技館里表演端茶倒水。
其次,現在的技術其實不足以支撐人形機器人的爆炸,還處于摸著石頭過河的狀態。當前VLA(視覺-語言-動作)模型在動態環境中的錯誤率仍高達40%,遠未達到自主決策水平;高功耗導致多數人形機器人僅能連續工作不到5小時,遠低于工業需求。
最后,方向跑偏了,娛樂屬性強、工具屬性弱。為了吸引投資而不停作秀跳舞、忽略實用性。無法在垂直場景減輕人類負擔提升總體效益的機器人,催生了更大的泡沫。
脫離技術談商業,只是鏡花水月。幾乎可以斷定,即使此輪人形機器人不會破滅,也一定像歷史一樣走向沉寂。畢竟,沒有人愿意花幾十萬去買一個只會跳舞的大型機械。但另一方面,值得慶幸的是,我們離那個會欺騙人類感情的“艾娃”還很遠。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.