網易首頁 > 網易號 > 正文申請入駐

我們又忘了，人形機器人≠AI

2025-04-10 19:19:14　來源: 鈦媒體APP

北京舉報

分享至

文 | 腦極體

“你看過《機械姬》嗎？那個會騙人的艾娃，真的是AI嗎？”

朋友突然的問題讓我陷入思考。電影里，艾娃的每個眼神、每句對白都讓人毛骨悚然——她太像人了，以至于觀眾理所當然地認為，這就是AI的終極形態。

但現實是，艾娃跟我們現在所說的AI，根本是兩碼事。她的能力寄身于一個叫具身智能的概念。

具身智能并非更高級的AI，而是一種完全不同的技術路徑：它不依賴大語言模型的尺度定律，通過物理身體與環境互動，像嬰兒一樣學習世界。

但由于科幻片的興起與傳播，被誤當成AI好多年。

今天，就讓我們拋開刻板印象，聊一聊：

為什么具身智能和AI不一樣？以及我們離真正的“艾娃”，還有幾公里？

《機械姬》等影視作品中的機器人形象潛移默化中強化了“具身智能=AI”的認知。

但實際上，這是一種誤讀。

具身智能并不等同于AI

要理解具身智能是什么，首先要分清具身和離身兩個概念。

具身指存在或認知必須通過物理身體與環境的交互實現，強調身體經驗的基礎性作用，如人類；離身指存在或認知可以脫離物理載體獨立存在，強調抽象形式的自主性，如軟件、算法。

類似于ChatGPT一樣的傳統AI就是離身智能，可以脫離物理實體實現符號邏輯的抽象推理，能存在于任何終端。大語言模型通過海量文本訓練建立詞匯相關性網絡，得出概率映射的最優解。然而，這種虛擬環境中研發出的智能缺乏對物理世界的感知。它難以理解拿起水杯需要怎樣的力學控制，也不明白怎么避開突然出現的障礙物。

具身智能則強調與物理世界的交互，將智能體的認知能力錨定在特定身體上，相當于“靈肉合一”。這個身體必須擁有清晰的邊界和自我認知：首先，它得是獨一無二的，自己能移動操控的；其次，它要可以與環境交互，并從中累積經驗、習得規律。這種身體化學習（Embodied Learning）機制，讓具身智能的進化路徑與純數據驅動的AI截然不同。

而代表具身智能的人形機器人，更是與AI差了一萬八千里。

首先，人形機器人必須擁有能與現實世界互動的物理身體。這不僅僅是加個外殼那么簡單，而是要建立一套完整的感知－行動閉環。

其次，這個身體要能動。要讓機器人的身體真正活起來，需要突破三大難關：精確的抓握控制，比如拿起筷子或者豌豆；動態平衡，在山坡、樓梯等不平坦道路行走；多任務協調，邊走路邊端盤子等。

并且，要給他與世界交互的多模態感官。具身智能需要構建比AI更豐富的感官體系，不僅要能看（計算機視覺），還要能聽（聲源定位）、觸（力度反饋），甚至聞（化學傳感）。

最后，要一個比大語言模型更聰明的大腦，基于尺度定律的腦子難解因果。人形機器人的大腦要走世界模型這條路，在與真實世界的交互中習得經驗，超越概率，走向規律。

綜上，人形機器人是多個頂尖級技術集成的復雜智能體。但這樣一個復雜智能體，真的如網上營銷的那般，離我們只有一步之遙嗎？

哪怕翻遍所有最頂尖人形機器人公司的demo，我們也只能看到一個不停跳舞、翻跟頭、有時連蘋果也拿不穩的人形巨物。它的電池續航通常不夠5h，常常電量告急；復雜的動作需要人工遙控，就跟小孩的遙控賽車一般。不過，小孩的賽車只要幾百塊，一款機器人需要幾十萬。

不得不說，這是一個炫技大于實用的概念。

因為我們想象中的人形機器人，那得是《機器人女友》里文武雙全、長得像綾瀨遙一樣美、偶爾露出反差萌的完美“戀人”才行。

理想豐滿，現實骨感，AI發展已陷入固有技術方法論的沼澤，我們熱衷于大語言模型、熱衷于強化學習，卻忽略了它們只教會AI如何模仿，沒教會AI如何理解真實而復雜的物理世界。

而這恰恰是人形機器人向強發展所需要克服的。

近日，圖靈獎獲得者楊立昆在巴黎AI峰會上發表觀點，要研究人類級AI就要不破不立，做到三個放棄：放棄只會概率計算的大語言模型、放棄宛如拼圖游戲的對比學習、放棄馴狗般獎懲AI的強化學習。

人形機器人的腦子需要的是世界模型、規劃算法等能與環境交互的技術；人形機器人的身體需要支持運動的仿生關節、代表感官的傳感器融合系統、類似小腦的運動控制算法以及作為心臟的高能量密度電池。

但這些技術恰如2020年之前的大語言模型一般，陷入了研究瓶頸。

一方面，是因為太難；另一方面，是成本太高。

舉個例子，人類使用工具的能力建立在數百萬年進化形成的本體感知系統上。人類使用螺絲刀時，能通過觸覺實時調整握力，并預判旋轉時的扭矩變化。而機器人要實現同等操作，需要突破三大難關：0.1牛頓級的力控精度、高靈敏的觸覺解析，以及避免自碰撞的運動規劃協同。

目前最先進的機器人，仍難在不同場景中拿起一個相同的蘋果。所有科技公司放出的Demo幾乎都是無雜物的光滑桌子或者空曠、光線充足的實驗室環境，如果旁邊多出一只梨子，或者蘋果不小心滾落到地板，他們就可能束手無措。

另一方面，如波士頓動力Atlas的實驗機人形機器人研發成本普遍超過200萬美元。特斯萊自研“大腦”主控芯片每個3.2萬，一個靈巧手1.2萬元，作為感官的傳感器系統合計11萬元，支持運動的線性關節總成本約15萬元，而即使實現量產，后期也要一大筆資金投入維修和保養，因為人形機器人有30個左右的關節，經過多次訓練磨損后會出現不靈便、卡殼等情況。

不難看出，發展人形機器人就是為了造人而造人。但是從工業場景來講，雙足的效率是不穩定的，遠遠低于輪式底盤和機械臂的組合；且技術不夠成熟，沒有發展路徑，實在稱不上一門很劃算的生意。

既然性價比如此低，人形機器人的說法到底從何而來，又為什么如此火熱？

人形機器人是一個被資本炒熟的概念，也是一場為了融資而作秀的狂歡。

2024年1月至10月全球人形機器人行業共發生69起融資事件，總金額超過110億元。其中，有56起發生在中國，總金額超過 50 億元，不少頭部企業一輪就融超10億。

但是，當前融資熱潮源于資本追捧而非技術成熟，部分公司估值虛高。為了吸引融資，企業持續在社交媒體上營銷打拳、翻跟頭等不實用的功能，同質化嚴重，價格高、能力差、落地難，本質是脫離技術談未來。

清醒后的資本熱開始退潮。

一些企業隕落了。曾估值30億美元的達闥科技被曝欠薪、裁員、資金鏈斷裂陷入停擺危機；而素有人形機器人第一股之稱的優必選五年虧超五十億，市值蒸發千億港元。

一些投資方撤資了，朱嘯虎批量撤出人形機器人，退出的公司包括星海圖和松延動力。

這并非孤例，這個由資本催熟的概念，在歷史上至少經過三次幻滅。

1970年代，早稻田WABOT-1首次雙足站立但動作遲緩、能耗極高，僅實驗室展示；

1990年，服務機器人泡沫，成本高達200萬美元的本田ASIMO，僅能端茶倒水，2018年終止所有相關項目；

2010年代的社交機器人神話軟銀Pepper因對話機械、價格昂貴、故障率高，在2023年停產；

2020年代，AI的爆火又一次喚醒了資本對人形機器人的狂歡。但這仍掩蓋不了波士頓動力多次易主谷歌、軟銀、現代的事實，另一家公司Atlas因炫技視頻與實際落地脫節，融資越來越少。

回望歷史，人形機器人的發展始終跳不出一個輪回怪圈：總是始于驚艷的實驗室demo吸引資本追捧，繼而催生估值泡沫，最終因商業化失敗導致資金集體撤離。

無數企業和資方周而復始地演繹著從希望到幻滅的故事。而這個循環反復出現，主要有三個原因：

首先，燒錢太猛，但沒有形成商業閉環，沒有找到市場過度依賴投資。造一個人形機器人動輒上百萬，比工廠里用的機械臂貴幾十倍。投資人砸再多錢，也很難找到愿意買單的客戶。就像當年本田花3億美元研發的ASIMO，最后只能在科技館里表演端茶倒水。

其次，現在的技術其實不足以支撐人形機器人的爆炸，還處于摸著石頭過河的狀態。當前VLA（視覺－語言－動作）模型在動態環境中的錯誤率仍高達40%，遠未達到自主決策水平；高功耗導致多數人形機器人僅能連續工作不到5小時，遠低于工業需求。

最后，方向跑偏了，娛樂屬性強、工具屬性弱。為了吸引投資而不停作秀跳舞、忽略實用性。無法在垂直場景減輕人類負擔提升總體效益的機器人，催生了更大的泡沫。

脫離技術談商業，只是鏡花水月。幾乎可以斷定，即使此輪人形機器人不會破滅，也一定像歷史一樣走向沉寂。畢竟，沒有人愿意花幾十萬去買一個只會跳舞的大型機械。但另一方面，值得慶幸的是，我們離那個會欺騙人類感情的“艾娃”還很遠。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.