作者| 金旺
欄目| 機器人新紀元
隨著通用人工智能的浪潮來襲,具身智能也隨之成了一個熱門研究方向。
尤其是在GTC 2024上,黃仁勛官宣人形機器人通用基礎模型GR00T發布后,讓AGI+人形機器人成了一個全球熱門課題。
在近日上海舉辦的首屆具身智能大會上,科技行者在現場聆聽了國內眾多專家、學者、科學家對于這一話題的激情研討和觀點碰撞。
有專家認為,通用人工智能是人類一個永恒的目標,但很可能永遠都達不到;有專家認為,大家對大數據和大模型關注度太高了,現在的人形機器人應該更多關注機器人本體。
而關于具身智能,身為北京大學計算機學院前沿計算研究中心(CFCS)助理教授、博士生導師,同時又是銀河通用機器人公司創始人的王鶴認為,谷歌RT-2和Figure給出的不是最優解,三維視覺小模型+基礎大模型會是實現具身智能的一條路徑。
為什么谷歌的RT-2和Figure給出的不是最優解?
三維視覺小模型+基礎大模型又是一條怎樣的具身智能路徑呢?
關于這些問題,王鶴在具身智能大會具身多模態大模型論壇上給出了解釋,科技行者就這一演講關鍵內容進行了不改變原意的整理:
01 機器人從動嘴到動手有多難?
最近,具身多模態大模型非常火,我們看到了OpenAI和Figure的聯合演示,我們也知道英偉達最近在GTC 2024上宣布了他們的Project GR00T計劃。
這其中,一個重要問題是,通用機器人必須擁有一套通用的模型。
這樣的模型有人叫它機器人基礎大模型(Robotic Foundational Model),也有人叫它具身多模態大模型(Enbodied Multimodal Large Model)。
它的本質是什么?
本質是能夠將語言、視覺和其它機器人本體(包括本體傳感器)在內的融合信息當作輸入信息,輸出一定是動作,不只是動動嘴。
具身多模態大模型和非具身多模態大模型最大的區別是,能不能輸出讓機器人運動起來的動作指令。
這樣的具身多模態大模型是我們今天要討論的問題。
實際上,這樣的工作并非如今才開始,谷歌是最早對這一問題進行探索的公司,他們這幾年在RT系列上的工作備受全球關注。
例如,RT-1上就搭載了谷歌多模態大模型和多模態動作小模型,其中,大模型負責的是控制指令分解,例如打開抽屜、將物體從抽屜里拿出來等。
RT-2是一個更加端到端的系統,它的模型可以直接輸出動作,而且是在一個完全開放環境中進行操作,可以做到“把香蕉放到第二個位置”、”把草莓放到正確的碗里“,什么是“正確的”碗里,在這里很重要。
這其實是把多模態大模型背后的理解、規劃、動作模型輸出的交互能力融為了一體。這樣的模型是端到端的視覺-語言-動作模型,直接輸出機器人末端六自由度的位姿。
這類模型的出現,是否就意味著今天已經有了具身多模態大模型或機器人基礎模型了呢?
我個人的答案是,不是。
如果“是”的話,英偉達也就不用再發布Project GR00T計劃了。
02 兩大難題:泛化能力、響應速度
那么它的問題在哪里呢?
第一個問題是泛化性差。
谷歌RT系列的動作數據來自于1-3個廚房,谷歌在山景城辦公室3個廚房中,一個16人的團隊用13個機器人,花了17個月的時間,采集到了13萬條數據。
這些數據雖然覆蓋了移動、抓取、放下這些移動場景中很多任務,但是場景非常單一,只是在谷歌的廚房里。
所以我們發現,谷歌這一模型在他們的廚房里執行任務的成功率相當高,在RT-1的論文中的數據顯示,在這個場景中,它執行任務的成功率高達97%。
但一旦出了這個廚房,到了一個不熟悉的環境中,RT-1執行任務的成功率就會大幅下降。
RT-2通過把互聯網上的視頻作為輔助訓練數據,這在一定程度上提升了模型的泛化能力,但是由于進行數據采集的廚房里桌子的高度是固定的,一旦在真實世界里桌子的高度與訓練數據中桌子的高度有較大差異,就無法再執行這樣的動作。
也就是說,谷歌RT-2用的多模態模型無法輸出與訓練數據高度差異較大的桌子上動作的能力。
即便如此,收集這些數據,谷歌依然花了上千萬美金。
第二個問題是慢。
谷歌RT-2這樣的端到端大模型,用55B的模型,運動頻率只能做到1-3Hz,實際視頻中展示出的運動效果都經過了加速。
而Figure和OpenAI展示出的Demo是原倍數播放的,動作一氣呵成,看起來非常舒服。
Figure背后的模型有多快呢?
據Figure給出的官方說法是,這個模型能達到200Hz的輸出頻率,也就是說,它執行動作的延時只有5ms,谷歌如果將模型壓縮到5B,也只能達到50Hz,延時依然有200ms,比Figure慢了幾十倍。
Figure的技術雖然快,雖然絲滑,但它背后也是基于一個單一任務場景進行了大量的數據采集,實際上也不具備泛化性。
真正又快、又有泛化性的技術可能是什么樣的呢?
03 具身智能關鍵:三維視覺小模型
我認為一種有效的途徑是使用三維視覺小模型。
三維視覺小模型的好處是,三維視覺具有幾何的泛化性,它看到的物體幾何即使顏色不一樣,場景發生變化后,同一個物體的幾何也擁有極大的相似性。
把各種物體放到足夠多場景中進行仿真,甚至把傳感器都放進去仿真,我們就有可能通過合成數據和Sim2Real訓練出一個又快、泛化能力又強的三維小模型。
今天我分享的是我們的三層級具身多模態大模型系統:
在這個系統中,底層是硬件層。
中間層是具身智能的技能模型。它們通過三維視覺和仿真數據Sim2Real學習到一系列技能,包括可泛化的自動建圖、可泛化的地圖導航、物體抓取、關節類物體操作、移動抓取操作、疊衣服、掛衣服等技能,這些都是三維視覺小模型。
上層是任務規劃模型。用GPT-4V、Emu2等多模態大模型做任務規劃者,通過它們來調用中間層的小模型。
一個指令進來后,大模型負責安排調用哪個小模型,小模型執行完后,大模型看結果狀況,再研究下一步應該如何做。
例如,如何做到開放指令中的“關”。
這需要覆蓋很多任務,例如,怎么打開一個從未見過的家用電器的門、拉抽屜、提蓋子、打開微波爐,用榨汁機等,我們可以把它通俗地歸納為泛化的家用電器操作。
這其中有一個共性是,這些物體都有很多零部件,我們操作這些家用電器時要按按鈕、拉把手等。所以我們在2023年CVPR的論文GAPartNet提出了一個數據集,總結了家用電器9種常見的零部件,包括直線型把手、圓形把手、轉鈕、按鈕、拉的蓋子、轉的蓋子等。
我們將真實世界里80%-90%的家用電器、家具上要用手操作的零部件進行了合成,形成了一個合成數據集,基于這個數據集,我們可以做到跨場景、跨類別的泛化。
例如,一個機器人從未見過的柜子,我們可以分割出它的抽屜、把手,標注出把手的的位姿,這樣就可以實現跨類別、跨物體的泛化位姿。
這個位姿是一個類別級位姿,可以告訴我們從哪個方向去接近它、沿哪個方向去拉。
這樣的能力就能讓機器人去執行開門、拉抽屜等動作。
這些都是基于三維視覺看到零部件的點云以后,進行的感知+位姿估計+動作組合,這樣的模型還可以在沒有見過的物體類別上得到零部件的位姿和操作方法。
有了這些能力后,大模型如何調用這些小模型的API讓機器人工作,就是我們最近在做的工作。
例如,我們看到一個從來沒見過的微波爐,我們發現,GPT-4V不是完全知道,但是它不清楚微波爐有哪些零部件。我們把基于三維視覺數據訓練出的零部件分割和檢測模型,先把這個三維點云里所有零部件的數據檢測出來,然后作為prompt告訴GPT-4V,讓GPT-4V生成關于這個場景的一個綜合的描述。
這樣的描述可以是:這是一個微波爐,上面有一個轉的門,有一個直線型的手,有一個按鈕。
這時,只要給GPT-4V幾個API端口,它就可以跨物體類別去調用這些API。
對于我們微波爐這個例子來說,它就調用了抓取、繞軸轉90°的API,這其中,抓取、繞軸轉、90°都是它自己填寫的。
我們的三維視覺小模型負責告訴它抓的位置、轉軸的位置,生成圓周的軌跡,這樣就形成了機器人的動作。
在這個操作過程中,我們發現會遇到門強拉不開的問題。
由于知道這個門的位姿,將相應的位姿反饋給機器人,告訴它門實際上只轉了零點幾度后,它會根據上一次描述中的按鈕,執行按按鈕操作。
這樣,GPT4V作為一個大腦,不斷反饋下一步應該怎么做、重新規劃方案,就可以將門打開了。
這就體現了大模型和三維視覺小模型互動,共同完成機器人操作任務。
那么什么是未來的多模態具身大模型或機器人基礎模型?
我們今天給大家的一個思路是,類似于Figure的GPT-4V大模型在頂層,中間層是一些響應很快的小模型,我們用的是三維視覺小模型,最后形成了可泛化的任務執行能力。
那么,什么是終極具身智能呢?
什么時候我們能做到類腦模型,把所有的模態數據全放到數據集中,還能擁有足夠快的響應速度,還能聽得懂語義,就能做到真正的具身智能。
這也是我們接下來要研究的問題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.