機器人巡邏、扭秧歌、煎蛋、進廠打工……
今年春晚之后,
人形機器人從科幻片場走入現實,
一夜成為“賽博頂流”。
宇樹Unitree因太火爆遭斷貨下架,
多家機器人公司宣布加速出貨,
業界宣布“2025年有望成為機器人量產元年”。
上海浦東的智元數據集采廠,機器人正在跟人類“學做家務”
來自硅谷的人形機器人Figure02,已經能夠行云流水地操作一些簡單的家務活
與此同時,全國多地出臺新政
支持具身智能機器人的產業發展。
在上海浦東,全國首個“人形機器人訓練場”啟用,
通過收集、整理機器人的動作捕捉數據,
給機器人造出更好的“超級大腦”。
姚卯青本科畢業于清華大學,博士畢業于美國南加州大學,曾經是Google和Oracle高級工程師,現在為智元合伙人、具身業務部總裁
國內的人形機器人“進化”到哪一步了?
機器人成為家庭標配,還有多遠?
等機器人養老,現實嗎?
3月初,一條采訪了前谷歌高級工程師、
智元機器人合伙人姚卯青,
姚卯青預測:
“人形機器人走進家庭,還需5年左右時間,
價格最終大概能降到10萬元以內。”
同時,更多的安全和倫理問題也在未來等著我們……
編輯:韓嘉琪
責編:陳子文
新加坡的社交機器人Dexie,上班時“活力滿滿”,下班后“高位截癱”
兩年前,活力女孩“Dexie”空降新加坡的一家養老院,宣布要成為老年人的新型養老搭子。
Dexie是一個人形機器人,顏值在線,有柔軟觸感的硅膠皮膚,還會把嘴巴嘟成圓圓的“O”字。每天早晨,它都會坐著帶領老人們做健身操,一邊唱歌,一邊拍手。
但其他時間里,Dexie更像一個“高位截癱”的大號娃娃,只能靠身下的“輪椅”緩緩移動,既無法直立行走,也不能在行動上給予老人幫助。
日本軟銀推出的類人機器人Pepper,情商很高,但不會干活,2020年正式退役
主打陪伴,一直是過去10年來人形機器人的招牌賣點。2015年,日本軟銀推出主打“類人機器人Pepper,Pepper身高1米2,有靈動的大眼睛、帶獨立關節的5指,腳部是一個能夠平穩移動的輪盤,可以識別人類的情緒、和人類對話,擅長眨眼賣萌。問世之初,Pepper曾在一分鐘內被搶購一空,很多公司、銀行、餐廳都請它當人氣迎賓。
但在2020年夏天,Pepper宣布停產。上市一段時間后,Pepper的軟肋暴露——可愛但不中用。雖然Pepper擁有看似靈活的手指,但實際的抓握能力很弱,甚至很難平穩地端送一杯水,除了四處移動,跟大家甜言蜜語,很難指望它承擔什么其他重任。
這是人形機器人曾經不被看好的原因:一個只會給足情緒價值的“社交達人”。
美國波士頓勞力推出的“Atlas”,曾經被稱為人形機器人界的“王者”,但因為苦于商業變現,被公司多次易手
另一方面,人形機器人的研發極度燒錢,不確定性很高、回報周期漫長,初代的人形機器人公司大多都陷入了財政危機,其中就包括于2013年推出過“雙足機器人天花板”Atlas的美國公司波士頓動力。
直到2022年底,ChatGPT的橫空出世讓AI技術發生了質的飛躍,這才給沉寂許久的人形機器人行業重新點燃了希望。
嵌入大語言模型后,機器人有了更強的自然語言與推理能力,不再只是按部就班地執行指令,而是能夠理解人類意圖,像人一樣思考和決策。
宇樹科技的機械狗與機器人
很快,國內的人形機器人企業開始密集生長。智元機器人、銀河通用等新興創業公司成立,小米、蔚來、小鵬等車企紛紛入局,宇樹科技也在這一階段從“機械狗”轉向了“機器人”的研發。
由于整個行業仍在初期探索階段,所以各家公司的技術路線五花八門。有的企業是“造身派”,關注機器人本體,包括電機、傳感器、控制器、減速機等硬件;有的公司是“造腦派”,把更多的精力投入在AI模型、軟件算法上。
宇樹機器人在今年的春晚上表演扭秧歌
機器人長出雙腿雙手,有了“人樣”還遠遠不夠。作為一種通用形態,一個合格的人形機器人必須能夠勝任各種環境里的各種任務。既不能只是會跳舞的耍寶戲精,也不能只是高情商的對話音箱。
機器人要去完成一件任務,需要的是交互操作的能力,姚卯青告訴一條:“要有對環境的理解和預測,對(空間)幾何的一些理解規劃。”
想象這樣一個場景:小朋友在客廳玩耍打鬧,人形機器人需要把煮好的雞蛋和米粥端到餐桌上,避免把湯汁灑在到處走動的小朋友身上,還要把凌亂的餐桌整理出放菜的空間,最后為孩子們盛粥、剝雞蛋。
電影《機械姬》
這套動作背后,需要機器人能夠感知環境,能預判熊孩子的跑動軌跡;也需要做任務規劃,端菜時同步餐桌整理;還需要恰當好處的力度控制,剝開雞蛋殼卻不會把雞蛋捏碎。
于是,“具身智能”的概念隨即被提出——人形機器人要用身體感知世界、認識世界、與環境互動。
要獲得這種能力,對機器人的AI能力和硬件基礎都提出了極高的要求。機器人不僅需要發達的“神經”(觸覺傳感器),也需要一個能調整重心的腳踝(動態平衡算法),以及能從摔跤中總結經驗的數字大腦(強化學習的能力)。
而這也意味著,我們期待人形機器人用數年時間追趕人類用上百萬年進化出的復雜智能。
位于上海浦東的智元數據集采廠,總面積達3000多平方米
在上海浦東,一個3000平米的機器人“訓練基地”里,一百多臺人形機器人日日夜夜地接受超高強度的集訓。
這些機器人像懵懂的人類幼仔一樣,通過觸摸、試錯感知物理世界:在臥室區疊褲子、燙衣服,在廚房炒菜、榨果汁、刷盤子,在客廳插花、拖地板、整理雜亂的桌面……每個機器人身邊都配備了一名“導師”——頭戴VR設備的數據采集員,他們用手柄遠程示范動作,給機器人示范動作,抓、握、提、拉、倒,一個小動作要不厭其煩地重復200遍左右。
數據集采員耐心“教授” 機器人每一個動作
這是智元的數據采集超級工廠,也是全球唯二規模化的機器人數據采集中心。整個工廠分為5大類場景:家居、餐廳、工業、商超和辦公,總共有100位采集員分日班和夜班教學,此外,還有30多位數據審核員和10位數據運營管理人員,確保數據的有效性。
一天下來,工廠能夠生產3萬到5萬條真機數據——即通過機器人實操采集到的環境感知、動作軌跡、力學反饋等包含多維度信息的數據。
有時候,機器人也會“開小差”,水壺沒拿穩、炒菜調料撒多了、花瓶打翻了……數采員就會耐心地給它們糾錯。
機器人在練習刷馬桶
這些機器人訓練成果如何?姚卯青介紹:“現在仍處在比較早期的階段,一個機器人在它見過的桌面上倒水,有90%左右的成功率。”對于它沒見過的場景和物品,機器人可能就會措手不及。另外,這些動作主要還是一些單點的能力,還不太能串起來多種動作。
為了讓機器人擁有在不同場景里“舉一反三”的泛化能力,采集員要不斷地調試環境,比如改變光線和光源位置,倒水時更換不同造型的水杯,調整物體擺放的位置等等。
數據采集,是構建機器人“AI能力”(“腦力”)的基礎工程。通過收集視覺、觸覺、關節運動軌跡等多維度物理交互數據,然后再給多模態大模型提供認知養料,最終才能被部署到機器人本體,完成從數字認知到物理執行的閉環進化。
“擎天柱”的數據采集員需要穿戴動作捕捉設備為機器人采集數據,撰寫日報,時薪高達48美元(約合344元人民幣)
但數據匱乏,是具身智能機器人發展道路上的最大瓶頸。
姚卯青坦言:“機器人的數據太少了,很難跟大語言模型的數量級去相提并論。”究其原因,是因為大語言模型的訓練依賴的是互聯網上的海量文本,而具身智能機器人依賴的是真實世界的物理交互數據。比如機器人每學倒一次水,都需要采集員記錄手臂軌跡、握力變化、水溫觸感等多維度信息。
擎天柱在工廠裝電池
這也意味著真機數據的集采成本高昂。英偉達研究中心的工作人員曾對媒體透露,光讓特斯拉的人形機器人“擎天柱”把電池放進盒子這一個動作,就需要40人的團隊進行數據集采;如果讓擎天柱具備真正的“下廠工作”的能力,需要數百萬小時的數據訓練,花費至少上億美元。
為了解決這個困境,全球有多家人形機器人公司開源了自己的數據集,其中就包括國內的智元、傅利葉等公司,希望能夠推動行業內的技術共享。
智元機器人通過最新的GO-1通用具身基座大模型,可以完成送餐任務
除了“1V1的人類教學”,還有一種性價比更高的培訓方式也在同步進行——通過給機器人“投喂”大量的人類教學視頻和圖文,幫助它們理解人類的動作操作。
今年3月,智元機器人發布了全國首個“通用具身基座大模型”,通過分析人類家務視頻,比如觀看短視頻網站上的烹飪教程,就可以讓機器人在還未進行實操(零樣本)的情況下,也能推理出一些做飯的簡單常識,比如“水燒開會冒泡”“土豆需要削皮”等等。
本照片由一條編輯部使用AI生成
機器人進家的最大難點在于什么?
市面上,一些人形機器人的“下半身”發育已經相對成熟,可以跑跳、爬坡、扎馬步,音樂響起,還能來段廣場舞、做后空翻。但這些任務,更像是逢年過節拉家里的小朋友展示才藝,離真正的日常應用還有十萬八千里。
“上半身”,才是進家干活的關鍵。姚卯青拆解了上半身操作的兩個難點:對動作的精度要求很高、和物體有復雜的交互。“像做飯、倒水、端茶、開門,有千百種的操作種類,而且上半身的軌跡會非常復雜。而下半身,和物體沒有復雜交互,無外乎就是邁步子這樣一種形態。”
機器人手部的柔韌性、靈活性比起人類還相距甚遠
很多動作,對人類輕而易舉,但對機器人來說卻難如登天。“比如插USB這個小動作,它對動作的精度要求非常高,二是沒法只依賴視覺的輸入就去判斷是否成功”,姚卯青解釋,人在插USB、充電器的時候,經常要反復嘗試,機器人同樣,“它還需要很多力矩的反饋來去實現這種閉環控制。”
再比如簡單的揉面團、切菜,也對機器人手部的靈活和柔韌性提出了極高的要求。手是人體關節最集中、感覺最集中的區域之一,也是人形機器人最難模擬的部位。“很多機器人只有一個兩指的夾爪,只能像一雙筷子一樣去夾取東西。”
德國協作機器人公司NEURA 的“靈巧手”
目前有一些機器人已經擁有了靈巧手,但它的自由度跟人的手還是相差甚遠。“人的手應該有20多個自由度,現在市面上量產的機械手很多只有6、7個。”
成本也是大問題,在手上每增加一個自由度,就要加多加塞一套電機、編碼器和傳動裝置,一雙“像人的手”往往價格不菲,可高達10萬元一只。此外,靈巧手很重,“現在一只手可能要一公斤多,怎么才能把它做到小型化、輕量化,這個也比較難。”
近一年來,社交媒體上陸續出現了“養老人形機器人”的風聲,但姚卯青認為,這些產品大多都還停留在概念階段。
斯坦福聯合谷歌推出的“保姆機器人”,外形粗獷,泛化能力也被廣泛質疑
人形機器人養老,最大的軟肋就是“體力不支”,即機器人的載重能力不達標。當下,人形機器人的手臂負重通常在5公斤左右,根本無法像人類護工一樣給老人提供基礎的翻身、看護服務,更別說安全準確地拖動一位100多斤的成年人。
“某些專用形態的機器人,可以做到比較大的力矩,因為可以犧牲掉很多構型,包括成本,還有體積上的限制。”
比如,2024年,美國斯坦福大學聯合谷歌推出的“保姆機器人”Mobile ALOHA,能做飯、洗衣、擦玻璃、澆花,但外形上,和“人”沾不上半點關系,更像是兩只能夠移動的機械臂。但即使如此,它的成本也要高達3.2萬美元。
2024年,優必選機器人已經率先進廠測試
最近,多家機器人公司開始了量產試水階段。去年下半年,傅利葉的雙足人形機器人GR-1交付超過100臺;今年1月,智元下線了1000臺人形機器人。此外,國內的30多家企業已經宣布將于今年進行商業化量產,主要針對B端。
但距離年產幾十萬臺的量產規模,還要3到5年。姚卯青預測:“進入家庭,需要5年,最終大概能降到10萬元以內。”
此外,一臺人形機器人的成本依舊高昂。特斯拉擎天柱,僅材料費就高達4.13萬美元一臺(約合人民幣29.9萬);優必選的Walker系列在2021年至2023年的銷售均價為598萬元;宇樹“會扭秧歌”的Unitree G1雖然價格一度低達9.9萬元,但有不少買家在網上吐槽,“更像是一個動作絲滑的大號玩具。”
除了成本,還有供應鏈問題。能夠生產高精度、高性能零部件的廠商數量依然有限,“現在量產過程中的難點(之一)是供應鏈不是很成熟,所以還很難做到大規模下的高良率、一致性等等。”
Figure機器人在物流中心進行快遞分揀工作,但“手速”比起人類還差一大截
在進入家庭之前,工業場景是人形機器人的應用第一站。
2024年,全球多家公司的人形機器人率先開始“進廠擰螺絲”。這些機器人從最簡單的搬運、分揀任務開始練習,在不同場景里試錯,一步步累積經驗,然后再“上手”更復雜、更精密的操作任務。
由OpenAI投資的、來自硅谷的Figure 02已經可以每天工作20小時,成為機器人屆的“卷王”;來自深圳的優必選Walker S1 批量進入5G智慧工廠,能夠和其他的機器人搭子團隊合作;樂聚機器人的“夸父”也扎入江浙滬的多家工廠里,進行驗證測試。
不過,流水線更像是機器人的“新手村”,家庭空間才是“地獄難度”的考核。工業環境下,機器人的工作高度重復,場景相對單一固定。但家庭環境里,“人”是最大的不確定因素,機器人撞上車間的貨物沒有大礙,但是不小心傷到人就會后果慘重。
本照片由一條編輯部使用AI生成
這對機器人的安全性提出了極高的要求。
“現在普遍來講,全尺寸1米7的人形機器人整機能做到這種50公斤左右,算是一個比較不錯的水平。但一個100多斤的機器人摔倒了,其實很難一個人去把它扶起來,而且很可能把地板砸一個洞。”姚卯青告訴我們。
機械臂的力度堪比泰森,也是行業普遍的擔憂。2022年,在莫斯科的一場國際象棋比賽上,一名7歲的男孩因為搶先一步出棋,被機器人對手夾住了手指,造成指骨骨折。機械臂自重大、速度快,殺傷力不可低估。
某發布會上,人形機器人突然抽搐摔倒
因此,給機器人“減重”(輕量化)是未來機器人量產的必經之路,更輕的自重也可以提升機器人的動作準確性。
另一個“安全紅燈”來自于電池。目前人形機器人主流使用的鋰電池,耗電量很大,續航時間短,大多只能持續2小時左右。春晚的舞臺上,機器人表演結束后,還是需要被舞者扶著脖子下臺,跳完舞累趴下的情況也常有發生。
當人與人形機器人共居的那天接近,更多的倫理問題也會涌現——機器人究竟是家庭一員還是只是一個工具?如何保證機器人的數據安全,避免泄露住戶隱私?安全責任應該如何界定?
也許就像汽車普及前需要交通法一樣,在迎接“人形機器人進家”之前,我們還需要新的文明規則和倫理框架。未來,仍有漫漫長路。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.