作者| 金旺
欄目| 機器人新紀元
當14臺人形機器人在NVIDIA CES 2025發布會上緩緩升起時,NVIDIA創始人黃仁勛稱,“通用機器人的ChatGPT時刻即將到來。”
這是CES 2025的一個高光時刻,也注定將會是全球機器人產業發展的一個歷史時刻。
作為如今全球算力供應商,NVIDIA的機器人版圖這些年也在徐徐展開。
尤其是在這波由生成式AI推動的人形機器人浪潮下,在數據和模型成為驅動機器人商業落地的關鍵時,NVIDIA構建了一套完整的Isaac GR00T Blueprint,為通用機器人的訓練提供了一個數字孿生訓練場。
在這個數字孿生訓練場中,藏著的是NVIDIA的三臺計算機和一套工作流,以及黃仁勛看到的“通用機器人的ChatGPT時刻”。
01 破解人形機器人的數據難題
2021年8月,在特斯拉第一屆人工智能日上,當特斯拉創始人馬斯克用“皮套人”偽裝的人形機器人登上舞臺的那一刻,機器人產業迎來了一個全新的開端,尤其是人形機器人,進入到了一個資本紅利期。
與此同時,隨著2022年11月ChatGPT的面世,以生成式AI為代表的人工智能技術浪潮的來臨,為機器人產業再添一把火,具身智能涌現,機器人產業隨之也迎來了一個技術紅利期。
在過去兩年里,僅僅是在國內,就涌入了數十家人形機器人初創團隊,而在這波由人工智能、具身智能催生的人形機器人熱潮中,數據成了機器人進化的一大難題。
以全球矚目的ChatGPT為例,其背后的大模型早在2022年6月迭代到GPT-3時,參數規模就已經達到1750億,而據中國信通院分析數據顯示,大模型的知識密度還在以平均每8個月翻一番的速度增強。
正因如此,才有了GPT系列大模型展現出的越來越超乎想象的知識問答、圖文生成能力。
相較于基于海量互聯網數據訓練出的圖文大模型,具身大模型可用的數據量,尤其是聚焦到機器人領域,就顯得有些捉襟見肘,以至于不少機器人企業內部都組建了數據采集部門,通過遙操作方式為機器人采集來自真實世界中的數據。
例如,谷歌DeepMind團隊與斯坦福團隊在2024年1月共同推出的Mobile ALOHA,就是一套基于遙操作模式進行數據采集的低成本開源機器人。
與此同時,特斯拉2024年在大量招聘機器人“數據采集員”,這些“數據采集員”通過穿戴動捕設備和VR設備來為Optimus采集數據,國內智元機器人也于2024年在上海臨港區投建了數據采集超級工廠,而出自這一工廠的機器人百萬真機數據集AgiBot World在2024年年底由智元機器人對外開源。
不過,由人類“數據采集員”從真實世界中采集數據,這一模式往往費時又費力。
在近日的NVIDIA媒體研討會上,銀河通用創始人兼CTO王鶴將機器人與汽車作對比指出,“對于用戶而言,開車是剛需,將車賣給用戶后,用戶會自愿駕駛汽車,這些汽車廠商數據采集的成本可以是負數,但是對于人形機器人而言,如果沒有功能,就沒人愿意購買,更沒人愿意遙操作機器人采集數據,人形機器人公司在這方面只能冷啟動。”
谷歌曾經就組建過一支16人的機器人研究團隊,這支團隊在谷歌山景城辦公室的3個廚房中,用13個機器人,花了17個月的時間,采集到了13萬條來自真實世界的數據,為了采集這些數據,谷歌花費了上千萬美元。
那么,是否還有其它更高效率、更低成本的方法,可以破解人形機器人的數據難題?
NVIDIA給出的答案是,通過仿真環境提供合成數據。
仿真并不是什么新概念,在芯片設計領域,芯片在制造之前都需要進行仿真,以確保最終制造出的芯片功能完美無缺。
NVIDIA機器人與邊緣計算副總裁Deepu Talla指出,“由于仿真技術的精度不足,導致仿真技術過往這些年里并沒有在機器人領域得到很好的應用,Omniverse的出現,縮小了仿真與真實世界之間的差距。”
Omniverse是NVIDIA專為虛擬協作和物理級準確實時模擬打造的開放式3D仿真平臺,這一平臺在2021年發布后,就因高精度真實世界仿真能力被《時代》周刊評選為2021年最佳發明之一。
而就在剛剛過去的CES 2025上,繼在GTC 2024上發布Project GR00T人形機器人基礎模型后,NVIDIA創始人黃仁勛再次對外發布了世界基礎模型Cosmos。
據Deepu Talla介紹,“NVIDIA Cosmos是一個‘世界基礎模型’,可以生成高度逼真、類似視頻游戲的環境,用于機器人訓練,通過將少量的現實世界數據與使用像NVIDIA Cosmos這樣的工具生成的大規模合成數據相結合,我們可以克服機器人技術中數據稀缺的問題。”
不過,在CES 2025上,黃仁勛面向機器人領域對外發布的,不僅僅有世界基礎模型Cosmos,還有面向機器人研發的一套完整的工作流。
02 “三臺計算機”和“一套工作流”
2012年,是ImageNet挑戰賽舉辦的第三年,這一年,多倫多大學教授Geoffrey Hinton帶著他的兩位學生Alex Krizhevsky和Ilya Sutskever參加了這場比賽,并憑借AlexNet模型一舉拿下了這屆大賽的冠軍。
計算機圖像識別是人工智能領域一個重要分支,AlexNet模型之所以能在這屆大賽中拿下冠軍,是因為它以當時大家都不看好的卷積神經網絡結構為基礎,獨辟蹊徑地摒棄了逐層無監督方法,通過有監督學習方法大大提升了圖像識別的準確率。
在2012年的ImageNet挑戰賽中,AlexNet模型圖像識別準確率達到了驚人的84%。
當然,AlexNet模型還有另一個獨特之處,那就是摒棄了當時主流的通用處理器,換上了兩個更適合深度學習模型訓練場景的NVIDIA GTX 580,盡管當時的GTX 580主流應用場景依然是電子游戲。
這一年之后,卷積神經網絡在學術界重回主流視野,以深度學習為代表的人工智能技術開始成為全球科技領域的焦點。
NVIDIA是在2016年的GTC大會上,正式對外發布了首款針對深度學習場景的GPU,DGX-1,也是在這一年,NVIDIA首次將GTC大會帶到了中國,黃仁勛在發布會現場宣布,“我們不再是一個半導體公司,而是一個人工智能計算公司。”
值得注意的是,NVIDIA的第一臺DGX-1 AI超級計算機,是由黃仁勛捐贈給了當時剛剛成立不久的OpenAI。
鮮為人知的是,OpenAI成立之初內部就有設立機器人研發團隊,OpenAI CEO Sam Altman相信人形機器人是通用人工智能的未來,也希望通過機器人推動通用人工智能技術落地。
實際上,DGX后來也成了NVIDIA進軍機器人領域的第一臺計算機。
1月7日,CES 2025的開幕主題演講中,機器人成了NVIDIA重點關注領域之一,為此,黃仁勛還在演講中正式發布了面向包括人形機器人在內的物理AI領域打造的三臺計算機。
人形機器人在開發過程中,由于涉及包括AI模型訓練、機器人運動仿真在內的大量計算,為此,NVIDIA面向物理AI和機器人訓練、仿真、運行構建了三臺計算機,這三臺計算機分別為:
用于AI模型訓練的超級計算機NVIDIA NeMo、用于軟件開發和仿真測試運行在NVIDIA OVX服務器上的Omniverse和Isaac Sim,以及用于機器人本地部署的機器人專用計算平臺Jetson Thor。
這其中,NVIDIA針對具有智能大腦的計算平臺的布局可以追溯至10年前。
2014年,NVIDIA面向嵌入式場景推出了Jetson TK1,自那時起,Jetson系列計算平臺開始成為機器人端側算力的重要支撐。
2018年又推出了Jetson Xavier,2022年推出的Jetson Orin性能更是較上一代Xavier提升了10倍。
而即將推出的Jetson Thor是為滿足人形機器人對算力的巨大需求而設計,可以說是目前最強嵌入式AI計算平臺。
Isaac Sim則是NVIDIA在2019年對外發布的,基于Omniverse的仿真平臺,用于在物理的虛擬環境中仿真和測試AI驅動的機器人。
在今年的CES上,針對機器人的合成運動生成,NVIDIA再次發布了一個名為NVIDIA Isaac GR00T Blueprint的仿真工作流,基于此,機器人可以從少量人類示范中生成大量合成運動數據集,極大降低了在真實世界中收集廣泛、高質量數據的難度和成本。
這套工作流共分為四步:
第一步,GR00T-Teleop借助Apple Vision Pro在數字孿生環境中捕捉人類動作,這些人類動作被記錄下來作為金標準,并在仿真環境中由機器人模仿學習;
第二步,GR00T-Mimic將捕捉到的人類示范動作擴展為更大的合成運動數據集;
第三步,基于Omniverse和Cosmos平臺構建的GR00T-Gen通過域隨機化和3D提升技術,指數級擴增這個數據集;
第四步,擴增后的數據集作為機器人策略的輸入,在Isaac Lab中教會機器人如何在其環境中高效且安全地移動和互動。
作為國內人形機器人領域明星企業銀河通用的創始人,王鶴同樣相信合成數據是推動人形機器人智能發展的關鍵,他們也是最早基于NVIDIA Isaac Sim和Omniverse和成機器人操作數據,并研發出了機器人VLA模型的團隊。
據王鶴透露,“銀河通用已經訓練出了全球第一個10億級參數規模的端到端具身抓取基礎大模型GraspVLA,基于這一模型的機器人具備泛化抓取能力,即使面對一些特殊零件抓取任務,只需要采集100條數據并掌握零件名稱后,就能實現對這一零件的泛化抓取。”
不過,對于NVIDIA而言,通過這樣三臺計算機和一套工作流并不是為了制造人形機器人,Deepu Talla解釋稱,“我們的目標是打造一個平臺,讓每個人都能創建自己的機器人。”
03 通用機器人的ChatGPT時刻
據《中國人形機器人創新發展報告 2025》統計數據顯示,2024年中國人形機器人整機企業有79家,市場規模約為27.6億元,預計2025年將翻倍至53億元,2029年有望達750億元。
市場規模階躍式增長,是人形機器人產業熱潮的真實寫照。
為什么我們需要機器人,尤其是人形機器人?
Deepu Talla認為,現在至少有三個原因正在讓機器人變得不可或缺:
第一,危險工作,例如礦工或其它在危險環境中工作的人員,機器人可以替代人類承擔這些危險任務;
第二,勞動力短缺,人口短缺已經成為一個全球趨勢,未來將會由機器人彌補因人口短缺帶來的勞動力不足的問題;
第三,養老需求,人口老齡化是如今另一個社會問題,尤其是伴隨著人類壽命越來越長,我們未來將需要一個機器人來幫助解決老年人護理和陪伴問題。
然而,作為全球科技領域終極難題,人形機器人一直難以在養老看護、社會服務,以及更多商用場景中得到落地。
以生成式AI、大模型為代表的人工智能技術的突破和迅猛發展,讓機器人運動控制能力有了泛化的可能,也讓我們看到了人形機器人在現實場景落地的可能。
于是,在GTC 2024上,黃仁勛將來自全球不同國家的9款明星人形機器人請到了舞臺上,讓全世界看到了人形機器人正在加速照進現實,彼時一并發布的,還有NVIDIA首個人形機器人通用基礎模型 Project GR00T。
而在過去一年里,我們看到,國內包括宇樹、傅利葉、銀河通用、智元機器人在內的多家團隊的機器人進入工業、零售等場景中,開始測試人形機器人的實際應用能力。
然而,在人形機器人進入真實場景后,由于訓練數據不足,數據越發成為機器人突破的瓶頸,NVIDIA Isaac GR00T Blueprint的發布,從根本上解決了這一問題。
正是在解決了這一問題后,在CES 2025上,當再次將來自全球不同國家的14款人形機器人請到舞臺上時,黃仁勛給出了他的斷言,“通用機器人的ChatGPT時刻即將到來。”
也是在這時,特斯拉官宣將在2025年量產數千臺人形機器人,國內多家明星企業更是早在2024年相繼對外公布了人形機器人量產計劃。
2025年,我們迎來了人形機器人第一個量產之年,也將迎來通用機器人的ChatGPT時刻。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.