好飯不怕晚,原來(lái)2025 GTC還有精彩內(nèi)容有待發(fā)掘!
RoboX將一場(chǎng)主題為「人形機(jī)器人的崛起」的圓桌內(nèi)容進(jìn)行了翻譯和整理,供大家參考。此次的圓桌討論嘉賓包括:
- Aaron Saunders——波士頓動(dòng)力CTO
- Bernt Bornich——1X創(chuàng)始人兼CEO
- Deepak Pathak——Skild AI的CEO兼聯(lián)合創(chuàng)始人
- Jim Fan——英偉達(dá)首席研究科學(xué)家/高級(jí)研究經(jīng)理
- Pras Velagapudi——Agility機(jī)器人 CTO
為何機(jī)器人開(kāi)始突飛猛進(jìn)?
【Jim Fan】-英偉達(dá):
機(jī)器人作為與AI一樣古老的領(lǐng)域,之所以在過(guò)去發(fā)展得如此艱難,是因?yàn)榉夏S克悖論。
該悖論表明,一些對(duì)人類來(lái)說(shuō)簡(jiǎn)單的事情,對(duì)機(jī)器而言卻非常困難,反之亦然。那么,現(xiàn)在究竟發(fā)生了哪些變化呢?
一是模型方面。由于大型基礎(chǔ)模型如LLM以及ChatGPT的出現(xiàn),我們現(xiàn)在擁有了能夠進(jìn)行推理的模型,以及能理解計(jì)算機(jī)視覺(jué)、開(kāi)放詞匯表及三維視覺(jué)世界的多模態(tài)模型。
在討論通用機(jī)器人之前,你需要先有一個(gè)優(yōu)秀的視覺(jué)系統(tǒng)。隨著其他模型變得越來(lái)越好,我們可以更系統(tǒng)地應(yīng)對(duì)機(jī)器人技術(shù)的問(wèn)題。
二是數(shù)據(jù)方面。與LLM不同,就像Ilya Sutskever說(shuō)的:“互聯(lián)網(wǎng)是AI的化石燃料”。
然而,機(jī)器人技術(shù)還沒(méi)有化石燃料,必須依靠生成數(shù)據(jù),以及大規(guī)模收集數(shù)據(jù)。而仿真技術(shù),尤其是GPU加速模擬技術(shù)的到來(lái),真正讓這些問(wèn)題變得更加可解——現(xiàn)在你可以在大約3小時(shí)的計(jì)算時(shí)間內(nèi),生成相當(dāng)于10年的訓(xùn)練數(shù)據(jù)。
三是硬件方面。一些杰出的創(chuàng)始人帶來(lái)的先進(jìn)機(jī)器人硬件,不僅更優(yōu)秀,價(jià)格也更親民。比如今年,我們看到硬件的價(jià)格大概在4萬(wàn)美元左右,這差不多是一輛車的價(jià)格。而在2001年,NASA建造的Robonaut,作為最早的主要人形機(jī)器人之一,造價(jià)高達(dá)150萬(wàn)美元。
這些條件,讓我們超越了數(shù)據(jù)悖論。
(Jim Fan)
【Aaron Saunders】-波士頓動(dòng)力:
我認(rèn)為仿真到現(xiàn)實(shí)的差距縮小,是一個(gè)重大進(jìn)展——我們現(xiàn)在能夠以高于實(shí)時(shí)的速度,表示真實(shí)世界的物理特性,這能夠加速探索仿真方案,以開(kāi)發(fā)新的AI技術(shù)。
另外,許多組件的商品化,消費(fèi)電子行業(yè)的發(fā)展帶來(lái)了電池、攝像頭等技術(shù)的進(jìn)步,這些技術(shù)用于感知、觀察世界和計(jì)算。
回顧過(guò)去10到15年,大多數(shù)機(jī)器人都裝滿了印刷電路板和電線,電池容量很小。現(xiàn)在這一切都改變了:我們可以放入大量的計(jì)算資源,安裝微小而高效的傳感器。
組件的商品化不僅僅是為了降低成本,更是將全球供應(yīng)鏈中的「部件拼圖」組合在一起。
【Deepak Pathak】-Skild AI:
AI的本質(zhì)就是為機(jī)器人而生的。如果你回顧圖靈最初的文獻(xiàn),當(dāng)他談?wù)揂I時(shí),實(shí)際就是指向機(jī)器人的。
他提到,可以將機(jī)器人放在「教室」里,隨著學(xué)習(xí)時(shí)間的推移,它會(huì)成長(zhǎng)為「成年人」,這是一個(gè)令人著迷的想法。
到目前為止,機(jī)器人技術(shù)主要屬于控制論的領(lǐng)域。
在二戰(zhàn)期間,控制論因其在飛機(jī)、導(dǎo)彈等方面的應(yīng)用而大放異彩。后來(lái)由于圖靈的影響,機(jī)器人技術(shù)開(kāi)始興起,人們開(kāi)始思考工具有哪些。
但這與最初的精神并不一致,也不是孩子式的學(xué)習(xí)——在孩子學(xué)習(xí)走路時(shí),你不會(huì)先教他們微積分,而是讓他們通過(guò)經(jīng)驗(yàn)來(lái)學(xué)習(xí)如何移動(dòng)關(guān)節(jié)并學(xué)會(huì)行走。
因此,真正改變的是我們對(duì)待機(jī)器人的方式——從編程經(jīng)驗(yàn)轉(zhuǎn)向通過(guò)經(jīng)驗(yàn)學(xué)習(xí)
(Deepak Pathak)
【Bernt Bornich】-1X:
互聯(lián)網(wǎng)就像一個(gè)接近30年的「巨大人類實(shí)驗(yàn)」,全世界的人們都在貢獻(xiàn)數(shù)據(jù),創(chuàng)建了巨大的數(shù)據(jù)源,以便訓(xùn)練AI。
現(xiàn)在我們要做的,是再次請(qǐng)求所有人,在接下來(lái)的30年里繼續(xù)貢獻(xiàn),不過(guò)這次是讓你們自己變成機(jī)器人。
當(dāng)然這不是真的,但目前已有的數(shù)據(jù)是推動(dòng)AI前進(jìn)的原因。而現(xiàn)在的問(wèn)題是,我們?nèi)绾卫矛F(xiàn)有的數(shù)據(jù)來(lái)引導(dǎo)機(jī)器人進(jìn)步?因?yàn)橹挥羞_(dá)到一定水平,它們才能開(kāi)始在現(xiàn)實(shí)世界中學(xué)習(xí)。
比如說(shuō),當(dāng)你要求機(jī)器人從冰箱里拿一瓶可樂(lè),如果它能做到一半的成功率,那就有了可行的實(shí)現(xiàn)路徑。因?yàn)樵诖嘶A(chǔ)上,只要重復(fù)運(yùn)行足夠多次,最終它就能非常擅長(zhǎng)這一任務(wù)。
各種多模態(tài)LLM雖然還不能完全解決機(jī)器人問(wèn)題,但這種方法可以使系統(tǒng)變得足夠有用,從而創(chuàng)建一個(gè)高效的數(shù)據(jù)飛輪,而不需要你對(duì)機(jī)器人做的每一件事都進(jìn)行遠(yuǎn)程操作。這也許也能通往通用人工智能,我們拭目以待。
(Bernt Bornich)
【Pras Velagapudi】-Agility Robotics:
機(jī)器人的兩大挑戰(zhàn)是:第一,硬件很難;第二,世界是非結(jié)構(gòu)化的。
回顧AI和機(jī)器人技術(shù)的發(fā)展歷程,你會(huì)發(fā)現(xiàn)機(jī)器人技術(shù)的一大塊工作都是在解決硬件難題,包括微型化傳感器如MEMS、執(zhí)行器和驅(qū)動(dòng)技術(shù)以及能量存儲(chǔ)技術(shù)等都需要被攻克。
從AI的角度來(lái)看,我們基本上是從解決結(jié)構(gòu)化問(wèn)題,逐步過(guò)渡到解決非結(jié)構(gòu)化的難題。從處理Query到API,再到簡(jiǎn)化世界模型,直至現(xiàn)在的非結(jié)構(gòu)化世界模型,每一個(gè)環(huán)節(jié)都在提升AI平臺(tái),找到新的數(shù)據(jù)攝取方式。
目前,這些積累最終達(dá)到一個(gè)臨界點(diǎn),我們可以著手解決與非結(jié)構(gòu)化方式與世界互動(dòng)的完整問(wèn)題了。
(Pras Velagapudi)
如何看待基礎(chǔ)模型的爆發(fā)式增長(zhǎng)
【Jim Fan】- 英偉達(dá):
如何構(gòu)建通用大腦呢?我認(rèn)為主要有兩個(gè)原則:
第一個(gè)原則:模型本身要盡可能簡(jiǎn)單,盡可能端到端。
以自然語(yǔ)言處理(NLP)領(lǐng)域舉例,在ChatGPT出現(xiàn)之前,NLP領(lǐng)域有點(diǎn)混亂——文本摘要、機(jī)器翻譯、代碼生成等都要用完全不同的數(shù)據(jù)Pipeline、訓(xùn)練協(xié)議和模型架構(gòu),有時(shí)還不僅僅是單一模型。
然后,ChatGPT徹底改變了這一切,因?yàn)樗芎?jiǎn)單。
它將任何文本映射到任何其他文本,可以統(tǒng)一所有的數(shù)據(jù)、所有的問(wèn)題到一個(gè)模型中,這是機(jī)器人技術(shù)應(yīng)該借鑒的地方。
第二個(gè)原則:數(shù)據(jù)Pipeline實(shí)際上會(huì)非常復(fù)雜。
數(shù)據(jù)是個(gè)大問(wèn)題。對(duì)于GR00T而言,數(shù)據(jù)策略可以組織成一個(gè)金字塔。
頂端是真實(shí)世界中通過(guò)遠(yuǎn)程操作收集的真實(shí)機(jī)器人數(shù)據(jù),這是最高質(zhì)量的數(shù)據(jù)。但這也相當(dāng)有限,可擴(kuò)展性不高。
金字塔中部是仿真的部分,類似ISSAC這樣的物理引擎可以生成大量數(shù)據(jù)。而在金字塔的底部,仍然是來(lái)自互聯(lián)網(wǎng)的所有多模態(tài)數(shù)據(jù),但利用方式略有不同。
我們用它們來(lái)訓(xùn)練視覺(jué)語(yǔ)言模型,這些模型可以成為視覺(jué)語(yǔ)言動(dòng)作模型的基礎(chǔ)。因此,金字塔的最后一層實(shí)際上是超越傳統(tǒng)圖形引擎的神經(jīng)模擬——你可以提示一個(gè)視頻生成模型,并要求它幻想出一個(gè)新的人形機(jī)器人軌跡。
視頻模型學(xué)習(xí)物理規(guī)律的能力非常強(qiáng),以至于它能夠在像素層面給你提供物理上精確的軌跡。
【Aaron Saunders】-波士頓動(dòng)力:
將產(chǎn)品交付給客戶時(shí),我們需要確保系統(tǒng)和功能的安全性。
目前我們正處于構(gòu)建數(shù)據(jù)集非常早期的階段,在追求終極的強(qiáng)大狀態(tài)的同時(shí),不能把工具箱都扔掉。
我們必須通過(guò)應(yīng)用工具來(lái)保障穩(wěn)定——機(jī)器人技術(shù)有一大套積累了70年的工具箱,其中一些工具仍適用于解決現(xiàn)實(shí)世界的問(wèn)題,尤其面對(duì)有潛在風(fēng)險(xiǎn)的機(jī)器人和功能時(shí),一旦失去信任,就再也無(wú)法挽回了。
(Aaron Saunders)
【Bernt Bornich】-1X
通過(guò)早期和近期LLM的經(jīng)驗(yàn)教訓(xùn),會(huì)發(fā)現(xiàn)「多樣性」被低估了。
在LLM發(fā)展的早期,有很多公司嘗試訓(xùn)練模型來(lái)創(chuàng)作詩(shī)歌。他們會(huì)用世界上最好的詩(shī)篇來(lái)訓(xùn)練模型,但這實(shí)際上并不奏效。因?yàn)槟阈枰诜浅6鄻踊臄?shù)據(jù)上進(jìn)行訓(xùn)練,而不僅僅是與寫詩(shī)相關(guān)的數(shù)據(jù)。
這一點(diǎn)對(duì)于機(jī)器人技術(shù)來(lái)說(shuō),顯然也是成立的。在處理小規(guī)模數(shù)據(jù)集時(shí),限制我們更多是數(shù)據(jù)的多樣性,而非數(shù)據(jù)量。
因此,關(guān)鍵在于如何盡可能多地涵蓋不同環(huán)境中的各種任務(wù)。最好還能包含盡可能多的噪音和動(dòng)態(tài)因素,這樣你就能理解實(shí)際任務(wù)的要求。
我最喜歡的例子是打開(kāi)洗衣機(jī):我們會(huì)看到洗衣機(jī)的圓形入口,知道要把衣服放進(jìn)去,然后嘗試打開(kāi)它;如果打不開(kāi),可能會(huì)尋找卡扣,一切操作都很好理解。
而今天的機(jī)器人完全不具備這種能力,它們更像是在學(xué)習(xí)重復(fù)某種動(dòng)作。這就是為什么要讓機(jī)器人廣泛應(yīng)用于實(shí)際環(huán)境中,并獲取多樣化數(shù)據(jù)。我們認(rèn)為這一切必須發(fā)生在人們中間,發(fā)生在家庭里——要在確保機(jī)器的能量不至于造成危險(xiǎn)的前提下,考慮如何將這種方法與經(jīng)典工具箱結(jié)合起來(lái)。
【Deepak Pathak】-Skild AI
我們要部署不同種類、形態(tài)的機(jī)器人,它們的共享大腦是什么?這里有兩個(gè)關(guān)鍵點(diǎn):
第一點(diǎn)、當(dāng)一個(gè)人類控制機(jī)器人時(shí),他們不需要知道電機(jī)的具體細(xì)節(jié)。這可以證明,一個(gè)大腦可以使用來(lái)自任何地方的數(shù)據(jù),來(lái)控制機(jī)器人。
第二點(diǎn)、現(xiàn)實(shí)中并沒(méi)有現(xiàn)成的數(shù)據(jù),但人類有大量數(shù)據(jù)。我們就像是生物機(jī)器人,有運(yùn)動(dòng)神經(jīng)元和感覺(jué)神經(jīng)元。感覺(jué)神經(jīng)元將信號(hào)從你的傳感器傳送到大腦,而運(yùn)動(dòng)神經(jīng)元?jiǎng)t將信號(hào)從大腦傳送到肌肉。
我們存在一個(gè)可以控制所有硬件的大腦,能夠生成機(jī)器人技術(shù)中非常關(guān)鍵的數(shù)據(jù)。關(guān)于人類肢體如何運(yùn)作的知識(shí),這些都可以用來(lái)補(bǔ)充仿真。
【Bernt Bornich】-1X
這些數(shù)據(jù)的確極其有用,但它與其他數(shù)據(jù)并不是互相排斥的。
【Pras Velagapudi】-Agility Robotics
作為一名經(jīng)常遠(yuǎn)程操作機(jī)器人的人員,我可以肯定地說(shuō),人腦非常擅長(zhǎng)遠(yuǎn)程操作各種平臺(tái),但并非所有情況下都能達(dá)到相同的水平。
硬件確實(shí)可以造成差異,我曾遠(yuǎn)程操控過(guò)1X機(jī)器人,那是一次很棒的體驗(yàn);另外我也操控過(guò)一些工業(yè)機(jī)器人,可體驗(yàn)并不好。
可見(jiàn),硬件起著重要作用,并且確實(shí)定義了某些性能特征。
基于這些差異,我們需要投入一定的精力來(lái)構(gòu)建合適的硬件,使其易于控制,擁有合適的傳感能力,以及合適的慣性特性,使其在現(xiàn)實(shí)世界中能有效工作。
【Bernt Bornich】-1X
我們現(xiàn)在討論的主要是控制架構(gòu)「自上而下」的方式,但我認(rèn)為「自下而上」的學(xué)習(xí)方式也很有趣,比如學(xué)習(xí)靈巧性。
我們不知道如何建立一個(gè)快且好的遠(yuǎn)程操作系統(tǒng),來(lái)提供觸覺(jué)反饋等,但是機(jī)器人本身卻能很好地學(xué)習(xí)這些技能。
你可以給它一堆物體讓它把玩,然后在遠(yuǎn)程操作界面上添加一個(gè)抽象層,指導(dǎo)機(jī)器完成任務(wù),允許系統(tǒng)學(xué)習(xí)靈巧性。
【Aaron Saunders】-波士頓動(dòng)力
當(dāng)我們?cè)噲D將大腦與硬件分離時(shí),如要視任務(wù)而定:當(dāng)任務(wù)集只涉及質(zhì)量無(wú)關(guān)緊要的對(duì)象時(shí),那么可以將大腦與身體的很多部分分離。
但現(xiàn)實(shí)情況是,如今機(jī)器人的目標(biāo)超出了這一范疇——如果希望機(jī)器人抬起大型、重型、復(fù)雜的物體,或者想要觸摸鋒利的金屬部件、處理高溫物體,甚至用機(jī)器人完全代替人類操作高危工作,那么大腦和硬件必須協(xié)同進(jìn)化。
要知道,執(zhí)行器的質(zhì)量,和內(nèi)部摩擦程度,對(duì)于在仿真中準(zhǔn)確運(yùn)行非常重要。
我認(rèn)為還需要更多時(shí)間,才能完全理解像GR00T這樣的模型如何在A型機(jī)器人和B型機(jī)器人上部署。因?yàn)槲疫€不認(rèn)為我們有足夠的數(shù)據(jù)點(diǎn)來(lái)讓一個(gè)模型在所有不同類型的機(jī)器人上部署,并且還不會(huì)造成行為差異。
【Deepak Pathak】-Skild AI
也可能反過(guò)來(lái),一種硬件可以搭載許多大腦。(是的,當(dāng)然。)英偉達(dá)就是一個(gè)例子,一種硬件上有很多公司致力于構(gòu)建大腦。
【JimFan】-英偉達(dá)
我想談?wù)勔粋€(gè)非常有趣、也極具挑戰(zhàn)性的話題——跨實(shí)體化。對(duì)于模型而言,跨實(shí)體化意味著什么?
我們不妨先思考一下自己,實(shí)際上人類非常擅長(zhǎng)跨實(shí)體化。
當(dāng)你開(kāi)始玩一個(gè)游戲,其實(shí)就是在進(jìn)行跨實(shí)體化。比如你在游戲中駕駛一輛車或扮演某個(gè)奇怪的角色,有時(shí)甚至是非人類的角色,你會(huì)逐漸掌握如何在游戲中控制那個(gè)身體。所以人類的大腦非常擅長(zhǎng)跨實(shí)體化。
我同意Aaron的觀點(diǎn),目前討論完全零樣本跨實(shí)體化還為時(shí)過(guò)早。這意味著你帶一個(gè)機(jī)器人過(guò)來(lái),模型就能神奇地工作。
我們現(xiàn)在還無(wú)法做到這一點(diǎn),但終將到達(dá)那里。實(shí)現(xiàn)這一目標(biāo)的方法,就是擁有大量不同的機(jī)器人硬件,甚至更多的仿真機(jī)器人硬件。
以前,我們的研究小組做了一項(xiàng)非常有趣的工作——MetaMorph。我們?cè)诜抡嬷谐绦蚧闪藬?shù)千個(gè)簡(jiǎn)單的機(jī)器人,它們有著不同的關(guān)節(jié)連接方式。有些看起來(lái)像蛇,有些像蜘蛛,非常奇特。然后我們對(duì)機(jī)器人的身體進(jìn)行標(biāo)記化,將其轉(zhuǎn)化為一系列整數(shù)。這樣就可以應(yīng)用Transformer和注意力機(jī)制,通過(guò)一千個(gè)實(shí)體生成第一千零一個(gè)實(shí)體。
但這只是一個(gè)非常初步的實(shí)驗(yàn),不過(guò)我相信,如果我們能夠擁有一種通用描述語(yǔ)言,并且有各種不同類型的現(xiàn)實(shí)和仿真機(jī)器人,就可以對(duì)其進(jìn)行標(biāo)記化,從中獲取大量數(shù)據(jù),從而形成一個(gè)實(shí)體宇宙和向量空間,也許新的機(jī)器人會(huì)在這個(gè)分布范圍內(nèi)誕生。
不過(guò),即使在同一代機(jī)器人內(nèi)部,也存在跨實(shí)體化的問(wèn)題,更不用說(shuō)跨代際、跨公司了。所以這正在成為一個(gè)真正的難題,我們才剛剛觸及表面。
【Aaron Saunders】-波士頓動(dòng)力
老實(shí)說(shuō),目前數(shù)據(jù)的多樣性還不足。如果你看看類人機(jī)器人領(lǐng)域,它們基本上都在處理相似的東西,也就是對(duì)人類身體的復(fù)制。而在波士頓動(dòng)力,我們決定只為抓手設(shè)計(jì)三根手指。
這與完全仿人手的趨勢(shì)背道而馳,因?yàn)槲覀儼l(fā)現(xiàn)人類非常擅于將自己映射到三根手指上——你可以讓一名遠(yuǎn)程操作員操作三指抓手,在經(jīng)過(guò)幾小時(shí)的訓(xùn)練后,他們幾乎能完成用五根手指所能做的所有事情。因此,我認(rèn)為在這方面還有很大的探索空間。
由于大家都在努力打基礎(chǔ),現(xiàn)在還不夠大膽。一旦這些模型開(kāi)始展示出泛化能力,人們就會(huì)開(kāi)始突破,這可能是好事也可能是壞事——我們可能會(huì)得到一些看起來(lái)讓人感到害怕的機(jī)器人。
但我認(rèn)為,光是操作臂就存在如此豐富的機(jī)會(huì),未來(lái)幾年的發(fā)展著實(shí)令人興奮。
【Jim Fan】- 英偉達(dá)
是的,Aaron,給我一千個(gè)不同的Atlas,我會(huì)為你解決這個(gè)問(wèn)題。(好的,成交。)
(待續(xù))
下半場(chǎng)的議題包括「當(dāng)前硬件的最大挑戰(zhàn)」、「對(duì)2-5年內(nèi)的發(fā)展預(yù)判」等,各位嘉賓的討論也會(huì)更加激烈。敬請(qǐng)關(guān)注RoboX,留意下期內(nèi)容。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.