- 作者| 金旺
- 欄目| 機器人新紀元
2023年的人形機器人熱潮,以迅雷不及掩耳之勢席卷了全球。
這年8月,在WRC 2023上,優必選董事長兼CEO周劍在演講中分析人形機器人未來趨勢和優必選發展歷路時,優必選新一代人形機器人也悄然出現在了未來規劃中。
這款當時并未對外透露太多信息的人形機器人,正是這年年底與周劍一同在優必選上市現場完成敲鑼儀式的Walker S。
這之后,我們看到,Walker S開始進入汽車工廠,在工業場景中進行實地測試,例如在汽車工廠流水線上與人類協作完成汽車裝配、質檢任務。
自著手研發人形機器人到真正讓人形機器人進入到汽車工廠中,算上初代原型機,優必選研發團隊先后研發了五代產品,技術攻關了近十二年。
近期,人工智能技術再次迎來范式突破,人形機器人也在大模型的加持下進入實際產業場景。
優必選科技副總裁、研究院執行院長焦繼超告訴科技行者,“在大模型的加持下,人形機器人的能力得到了極大的提升,尤其是在實際使用和用戶體驗上都有了不小的進步。”
“這讓人形機器人在實際場景中具備了更強的魯棒性和適應性。”
01 落地前夜
2024年4月1日,優必選與百度官宣合作,優必選人形機器人Walker S接入百度文心大模型,在大模型的加持下,人形機器人學會了疊衣服、學會了分揀歸類。
這次演示中,在現場工程師的配合下,Walker S也多了幾分靈性。
優必選是國內最早做人形機器人的商業團隊之一,早在2016年,優必選開始研發第一代人形機器人原型機,和大多數追求人形機器人技術自研的團隊一樣,優必選先從人形機器人下半身和運動控制算法做起。
在之后的幾年里,優必選人形機器人以每1-2年進行一次大版本迭代的速度,學會了越來越多人類的技能,也變得越來越智能。
實際上,優必選研究院早在2016年就已經成立,焦繼超告訴科技行者,“研究院很早就以人形機器人量產落地為目標,從軟硬件兩方面進行了技術拆解和全棧技術自研。”
例如,硬件方面,優必選重點自研了人形機器人的一體化關節,優必選Walker S上搭載的最新自研一體化關節,峰值扭矩已經達到了300N.m。
軟件方面,優必選則是劃分出了多模態感知、定位導航、運動控制、語音交互,以及現在與大模型相關的技術,不斷進行著技術攻關。
以涉及目標檢測、識別、語義分割等技術的定位導航和路徑規劃技術為例:
早年間,人形機器人定位導航和路徑規劃技術普遍基于預設路徑方式,這一技術路徑的好處是算法模型簡單,但由于只能實現固定位置移動和操作,這一階段的人形機器人更多被用于科研領域,難以在商用場景發揮太大作用。
區別于傳統預設路徑技術路線,人工智能技術的突破讓自主決策和自主路徑規劃成為可能。
優必選最早是在導航系統中加入了自主規劃能力。
“導航系統中的自主規劃實現起來相對簡單,主要解決的是計算從A點到B點的最短路徑,以及一些避障問題,”焦繼超告訴科技行者。
而將語義感知、手眼協同上的運動控制加入到優必選人形機器人的網絡系統中,是2021年的事兒。
2021年7月7日,在WRC 2021開幕當天,優必選新一代人形機器人Walker X正式對外發布。
Walker X身高1.3米,體重63kg,最快行走速度能夠達到3km/h,在步態規劃、柔順力控、視覺感知、語音交互等方面進行了一系列技術提升。在WRC 2021現場,優必選演示了Walker X上樓梯、下象棋、單腿平衡、手眼協同等能力。
據焦繼超透露,“在這一代人形機器人上,我們已經在驗證語義VSLAM這樣的全自主規劃技術。”
以手眼協調為例,當Walker X通過視覺系統識別到需要抓取的物體后,它會自己識別出抓取點的位置、規劃出抓取該物體的路徑,自主完成這一任務的執行過程。
這之后的兩年里,優必選研究院繼續對用于人形機器人的語義VSLAM算法進行優化,經過多次技術迭代后,如今,這套算法已經可以讓Walker S進入汽車工廠,去到實際工業場景中真正做一些事。
02 中樞神經大模型
“現在Walker S上用的語義VSLAM系統和特斯拉Optimus的類似,都是通過對被識別物體進行特征提取,然后與空間位置信息進行關聯,并通過端側控制器實現完全自主的端到端路徑規劃和運動控制。”
談及如今Walker S的自主定位導航能力,焦繼超如是說。
實際上,從Walker X進化到Walker S,優必選研究院對人形機器人關鍵技術進行了全方位的升級,Walker S的身高按照平均男性身高重新設計成了170cm,關節扭矩做到了300N.m,控制器算力也升級到了200T。
更重要的是,這一年,優必選為Walker S接入了大模型。
焦繼超告訴科技行者,“大模型解決的是人形機器人泛化性的問題。”
在此之前,人形機器人進入到實際應用場景中時,遇到最大的問題是“非標”問題,這是因為傳統基于決策樹或狀態機構建的算法模型普遍遵循參數模型化思路,基于這一思路構建起的模型適應能力很差,一旦人形機器人的應用場景發生變化,模型就需要迭代,甚至重寫。
這就造成了要將人形機器人部署到實際應用環境中,就需要針對不同應用場景中的問題逐個解決。
有了大模型后,人形機器人的算法模型的適應性和泛化能力得到了極大的提升,再讓人形機器人進入新場景時,只需要讓人形機器人進行簡單適配,就能夠在不同場景中進行應用。
這時,優必選需要花更多時間解決的問題已經轉變為,當面對具體場景時,如何提高模型的魯棒性,讓人形機器人因大模型提升的適應性和部署效率能夠在真實應用環境中得到切實落地。
焦繼超和他的團隊想到的辦法是,將大模型輕量化,轉換為“小模型”應用到人形機器人上,在人形機器人上形成端到端的AI能力。
接著再通過優必選這些年積累的數據、場景,將搭載這些AI模型的人形機器人快速推到客戶的實際應用場景中進行測試,焦繼超和他的團隊再從中總結、抽取出共性任務和功能進行適配和解耦,優化端側“小模型”。
焦繼超以Walker S已經進入到的工業場景為例介紹稱,“不同工廠環境中有80%的功能需求是通用的,我們只需要針對剩余20%的需求,根據用戶需求和場景變化,通過現場采集數據進行算法模型迭代。”
這樣就避免了以往針對每個新需求都要從頭開發算法模型的困境。
不過,焦繼超也指出,大模型雖然可以提升人形機器人的泛化能力,但就人形機器人的基礎功能而言,并不是模型越大越好。
在優必選的人形機器人系統中,多模態感知、運動控制、定位導航等模塊,優必選研發團隊都會結合不同的深度學習小模型來實現,只有當涉及到抽象任務拆解和推理,大模型將會發揮類似中樞神經的重要作用。
這其中,大模型解決的最重要的是決策問題。
焦繼超解釋稱,“在人形機器人幾個功能模塊中,決策是最抽象,也是最難做的一個模塊,因為需要根據不同的感知信息來進行推理,它有更多的推理過程,而這是大模型擅長的。”
在前不久優必選官方發布的搭載百度文心一言大模型的Walker S進行智能分揀視頻中,Walker S正是通過調用文心一言大模型進行的子任務拆解和推理,配合視覺語言模型保證檢測精度和泛化抓取,這才有了當時的演示效果。
焦繼超告訴科技行者,“如今的Walker S從感知到決策都已經接入了不同的AI模型,再輔以大模型的智能調度,Walker S實現了一定意義上的全AI能力。”
然而,大模型雖然帶來了泛化能力,讓人形機器人走到了真實場景中,但也帶來了對海量數據的需求。
03 破壁數據瓶頸
大模型熱潮背后,本質上是一次人工智能范式的升級。
上一代人工智能是以卷積神經網絡為標準網絡架構,如今的大模型背后,則是以Transformer為標準網絡架構。
“數據和場景的不斷積累,推動了人工智能在網絡架構上的技術進步,”焦繼超如是說。
與此同時,大模型相關技術的出現,在一定程度上又反過來解決了人工智能數據量不足的這一瓶頸問題。
在優必選內部,就用于人形機器人訓練的數據的收集有這樣一個“二八定律”:
用于人形機器人訓練的20%的數據,由真實的機器人在實際場景中進行遙操作收集而來,80%的數據則是在仿真環境下生成而來。
就前者而言,焦繼超告訴科技行者,“人形機器人區別于其他機器人的靈巧操作,例如工具使用、工廠中的零件分揀,這些需要通過收集真實環境中的現場數據獲得,另一方面,諸如桌椅板凳、地面墻面、人類和環境等通用目標識別,則可以通過我們此前基于其他類型機器人積累的數據來直接訓練人形機器人。”
就后者而言,如今業界普遍應用的方法是Sim2Real,也就是在仿真環境下生成數據,大模型的本質是生成式AI,生成人形機器人的訓練數據,自然也成了其能力之一。
為此,優必選自己搭建了人形機器人智能仿真系統UNDERS2,通過這一系統,優必選可以低成本地為人形機器人模擬和生成多樣化的場景。
當然,大模型的生成魔力在人形機器人領域應用僅僅一年有余,在進行具體人形機器人的模型訓練過程中依然存在不少問題。
數據可信是焦繼超看到的第一個問題。
以最近很火的Sora為例,當它基于真實世界中的數據生成新的場景數據時,可能會遵循物理規律,也能夠像在真實世界中一樣進行合理分布,但無法保證所生成的數據可信度。
數據冗余是焦繼超看到的第二個問題。
基于已知數據生成的新數據,可能生成了10萬張,甚至100萬張圖片,但最終真正有用的可能只有6萬張或8萬張,其余的新增數據都是沒什么用的冗余數據。
在這個過程中,如何生成或甄別高可信數據,以及如何盡量避免生成大量冗余數據,就成了人形機器人大模型發展過程中的一個不可忽視的問題。
“數據確實是現在人形機器人發展的一大瓶頸”,焦繼超如是說。
如何提升數據質量和可信度,在人形機器人訓練階段、測試驗證階段如何設定真實數據與生成數據的比例,每個人形機器人團隊都有自己的經驗。
而用于端到端大模型訓練的數據集,也將是人形機器人接下來行業競爭的一大壁壘。
04 讓人形機器人先進入工廠
2022年12月,谷歌RT-1模型發布。
這是一個機器人端到端模型,只要通過圖像或文本輸入一段任務描述,就可以控制機器人執行相應的動作。
憑借在指定環境中高達97%的任務執行成功率,谷歌的RT系列在全球范圍內迅速獲得了廣泛的關注。然而,在這一項目中,依然存在一個不可忽視的短板,那就是場景泛化能力。
同樣關注到這一項目的焦繼超解釋稱,“谷歌RT系列用到的是強化學習算法,強化學習的優點是能夠構建一個純端到端的控制模型,但是它對動態環境的響應能力和適應性一直比較差。”
實際上,焦繼超在做人形機器人時,也會遇到一些人稱用強化學習已經能夠讓人形機器人實現怎樣的能力,這時,焦繼超通常會再問一個問題:這樣的人形機器人在動態場景運行的怎么樣?
“很多基于強化學習的人形機器人,往往在同一個場景中加一個動態目標,運動能力很可能就會‘失效’。”
焦繼超告訴科技行者,泛化能力往往取決于兩項指標,一是數據,二是技術路線。
優必選的技術路線是通過大模型做決策控制,通過結合深度學習的小模型構建功能模塊,來構建擁有泛化能力的人形機器人。
優必選真正開始結合大模型技術做人形機器人研究,是在2023年,當深入其中后,焦繼超發現依然有不少難題,諸如數據場景夠不夠,如何做模型與動作的匹配,端側模型如何做輕量化。
要解決這些問題,需要大量的算法研發、優化和驗證工作,焦繼超和他的團隊前前后后花了有一年多的時間,將定位精度做到了±3cm,定位頻率做到了20幀/秒,這才讓優必選的Walker S真正有了落地能力。
在這個過程中,國內一些汽車廠商開始找到優必選,希望能夠與優必選合作,將人形機器人應用到汽車生產環節。
之所以汽車廠商想要將人形機器人應用到汽車生產工廠中,是因為伴隨著老齡化加劇,這些工廠已經面臨著招工難的問題。
一邊是年輕人不再愿意進入工廠做這些枯燥的工作,工廠招工面臨難題,另一面則是人工成本越來越高,導致最終產品是否依然能夠在全球市場競爭中依然擁有足夠的競爭力的問題。
這使得即便現在人形機器人還難以高效地在工廠中執行任務,汽車廠商依然愿意提前布局,為未來做技術儲備。
而之所以人形機器人普遍會將汽車工廠作為第一個落地應用場景,焦繼超稱,“主要是因為工廠是一個通用性比較高,也是一個比較可控的場景。”
實際上,用于工廠場景的人形機器人,也將是首先進入批量生產的人形機器人。
焦繼超告訴科技行者,量產是人形機器人區別于產品研發另一個重要階段。
如果是產品研發,實驗室有一兩臺人形機器人搭建成功就可以對外發布,而如果是量產,則對人形機器人的穩定性、可靠性,以及人形機器人的生產制造工藝有著很高的要求,即便是百分之一的誤差,都會造成很大影響。
優必選針對工廠場景應用的人形機器人,如今也有了明確計劃:
今年內進入新能源汽車產線實訓,并在年底前完成交付,明年將進行小批量交付。
這一年,在大模型的加持下,人形機器人繼續加速進化,在工業場景中開始尋找破壁的機會。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.