近年來,機器人取得了顯著進展,能表演雜技、跳舞、聽從指令,甚至完成疊衣服、擦桌子等復(fù)雜任務(wù)。但機器人面臨的最大挑戰(zhàn)并非靈活性,而是泛化能力——在新環(huán)境中正確完成任務(wù)的能力。
想象一個你家中的清潔機器人:每個家庭布局不同,物品擺放各異,機器人必須在多個層面上實現(xiàn)泛化。低層面上,它需學(xué)會如何抓起未曾見過的勺子或盤子;高層面上,它要理解任務(wù)語義,如衣服應(yīng)放進洗衣籃、用何種工具擦拭溢出物。實現(xiàn)這種能力既依賴強大的操作技能,也需要常識理解,而現(xiàn)實中可用于訓(xùn)練的數(shù)據(jù)又極其有限,這進一步增加了困難。
即使近年來的機器人在靈巧性方面有所突破,往往也是基于特定場景和相似數(shù)據(jù)訓(xùn)練出來的。
因此,如果我們希望機器人成為我們?nèi)粘I畹囊徊糠?/strong>,在我們的家中、雜貨店、辦公室、醫(yī)院和其他“雜亂”的環(huán)境中工作,機器人就必須具備更加強大的泛化能力。
今天,美國具身智能公司 Physical Intelligence推出了一個基于π0的視覺-語言-動作(VLA)模型 π0.5,其利用異構(gòu)任務(wù)的協(xié)同訓(xùn)練來實現(xiàn)廣泛的泛化,可以在全新的家中執(zhí)行各種任務(wù)。
實驗表明,這種知識遷移對于有效的泛化至關(guān)重要,而且他們首次證明,端到端學(xué)習(xí)型機器人系統(tǒng)可以在全新的家庭中執(zhí)行長程靈巧操作技能,例如清潔廚房或臥室。
π0.5 是如工作的?
π0.5 背后的主要原理是異構(gòu)數(shù)據(jù)的共同訓(xùn)練:通過在各種不同的數(shù)據(jù)源上訓(xùn)練 VLA 模型,不僅可以教它如何物理地執(zhí)行不同的技能,還可以教它如何理解每項技能的語義背景,推斷任務(wù)的高級結(jié)構(gòu),甚至從其他機器人轉(zhuǎn)移物理行為。
協(xié)同訓(xùn)練的概念很簡單:由于 VLA 源自通用的視覺語言模型(VLM),因此它們可以在包含動作、圖像、文本和其他多模態(tài)標(biāo)注(例如邊界框)的任意組合的示例上進行訓(xùn)練。這包括通用的多模態(tài)任務(wù),如圖像字幕、視覺問答或物體檢測;面向機器人的任務(wù),如帶有動作的機器人演示;以及“高級”機器人示例,這些示例由帶有適當(dāng)語義行為標(biāo)記的觀察結(jié)果組成。演示還包含“口頭指令”,即一個人通過自然語言一步步指導(dǎo)機器人完成一項復(fù)雜任務(wù)。該模型既可以對下一步要執(zhí)行的語義步驟進行高級推理(類似于思路鏈推理),也可以進行低級預(yù)測,以向機器人的關(guān)節(jié)輸出運動指令。
圖|π0.5 的協(xié)同訓(xùn)練任務(wù)示意圖,其中包括來自多種不同機器人類型的各種機器人數(shù)據(jù)源,以及包括高級子任務(wù)指令、指示和網(wǎng)絡(luò)數(shù)據(jù)在內(nèi)的多模態(tài)數(shù)據(jù)。
雖然協(xié)同訓(xùn)練的基本原理并非新事物,但訓(xùn)練一個能夠廣泛泛化的 VLA 需要合理地組合協(xié)同訓(xùn)練任務(wù)。VLA 需要由多種協(xié)同訓(xùn)練任務(wù)組成的“課程”,以便在所有必要的抽象層次上實現(xiàn)泛化。在實驗中,他們訓(xùn)練了 π0.5 模型的不同版本,這些版本排除了完整訓(xùn)練混合的不同部分,只留下使用在實驗中使用的相同機器人收集的移動操作數(shù)據(jù)(約 400 小時)。
圖|評估完整的 π0.5 訓(xùn)練混合與排除各種數(shù)據(jù)源的消減相比。網(wǎng)絡(luò)數(shù)據(jù)(WD)在泛化到分布外對象方面的差異最大,而來自其他機器人(ME 和 CE)的數(shù)據(jù)在所有評估條件下都很重要。
他們評估了兩種實驗條件:全面清潔任務(wù);以及分布外泛化(OOD)評估,要求機器人將提示中指示的特定物體移入抽屜。對于這兩種評估,都測量了成功率和語言理解率。在所有情況下,來自其他機器人(ME 和 CE)的數(shù)據(jù)對策略性能產(chǎn)生了巨大影響。在 OOD 案例中,他們還發(fā)現(xiàn)與包含網(wǎng)絡(luò)數(shù)據(jù)(WD)的策略性能存在差異,這提高了機器人正確識別數(shù)據(jù)中未包含的新物體類別的能力。
為了更好地量化 π0.5 能夠?qū)崿F(xiàn)的泛化程度,他們進行了一項擴展研究,其中改變了訓(xùn)練數(shù)據(jù)中不同環(huán)境的數(shù)量。他們還在比較中加入了基線模型,該模型使用所有其他數(shù)據(jù)源的數(shù)據(jù)外,還直接使用來自測試環(huán)境的數(shù)據(jù)進行訓(xùn)練。該模型(用水平綠線表示)可以直觀地了解,如果消除了泛化到新環(huán)境的挑戰(zhàn),VLA 在該場景中的表現(xiàn)如何。
圖|評估在與訓(xùn)練混合中的其他數(shù)據(jù)集共同訓(xùn)練時,性能如何隨訓(xùn)練環(huán)境的數(shù)量而變化。當(dāng)使用所有可用的訓(xùn)練環(huán)境時(圖中最右邊一點),π0.5(黃色)與直接在測試環(huán)境(綠色)中訓(xùn)練的基線模型性能相似。
這些結(jié)果不僅表明,π0.5 的泛化性能會隨著訓(xùn)練集中不同環(huán)境數(shù)量的增加而穩(wěn)步提升,而且僅僅經(jīng)過大約 100 個訓(xùn)練環(huán)境,它的性能就接近了直接在測試環(huán)境中訓(xùn)練的基線模型。
訓(xùn)練和推理
π0.5 構(gòu)建于 π0 VLA 基礎(chǔ)之上,經(jīng)過聯(lián)合訓(xùn)練,能同時輸出動作和文本標(biāo)簽,因此可在高層和低層控制機器人。在運行時,它先生成一個文本形式的“高級”動作,再細(xì)化為一組連續(xù)的低級關(guān)節(jié)動作(每組稱為一個 50 步的“動作塊”)來執(zhí)行該動作。
這一流程延續(xù)了他們此前的Hi Robot系統(tǒng)思路,不同之處在于 π0.5 將高級決策與低級控制統(tǒng)一由同一模型完成,類似于“思維鏈”模式。
模型本身包含離散自回歸 token 解碼和通過流匹配進行的連續(xù)解碼,例如 π0。離散解碼路徑用于推斷高級動作,而連續(xù)流匹配路徑用于推斷低級運動命令。
圖|π0.5 使用的高層/低層推理程序。該模型首先生成一個用語言表達的高級動作,基本上是“告訴自己”應(yīng)該采取什么步驟來完成任務(wù),然后利用其流程匹配動作專家來選擇運動指令。
如果換個房子試試呢?
他們通過讓 π0.5 控制機械手,在訓(xùn)練數(shù)據(jù)中從未見過的新房屋中完成清潔任務(wù),以評估其泛化能力。對 VLA 來說,這是極具挑戰(zhàn)的測試。盡管 VLA 曾展現(xiàn)出出色的泛化能力,如理解語義指令、與人互動、組合技能等,但這些能力多在與訓(xùn)練環(huán)境相似的場景中實現(xiàn)。
此前,他們的π0-FAST雖能通過DROID 系統(tǒng)推廣到新環(huán)境,但僅限于如移動物體等簡單任務(wù)。而此次實驗中,π0.5 被放入全新家庭,需完成收拾碗碟、整理床鋪、清潔地板等復(fù)雜任務(wù)。這些任務(wù)不僅耗時,還要求機器人執(zhí)行如用海綿擦拭等復(fù)雜動作,理解任務(wù)語義,并將其拆解為多個環(huán)節(jié),每步都需與正確的物體互動。
最后,π0.5 模型可以接受不同粒度的語言命令,從“把盤子放進水槽”這樣的高級提示,到指示模型拾取特定物體或朝特定方向移動的詳細(xì)單個命令。他們在下方視頻中展示了一些語言跟隨的示例。
下一步:更泛化的物理智能
這項工作表明,VLA 能夠?qū)崿F(xiàn)出色的泛化能力,即便面對如清潔廚房或臥室這樣復(fù)雜且多變的機器人任務(wù),也能有效應(yīng)對。π0.5 能夠讓機器人完成在訓(xùn)練數(shù)據(jù)中從未遇到過的新家庭環(huán)境的清潔任務(wù)。
盡管 π0.5 還不夠完美,常在高級語義推理和動作執(zhí)行指令方面出現(xiàn)錯誤,但研究人員希望,通過讓機器人從多樣的知識來源中學(xué)習(xí),π0.5 能夠幫助我們更接近實現(xiàn)廣泛泛化、靈活應(yīng)變的物理智能。
目前,這些機器人可以通過語言反饋進行改進;未來,它們還可能借助自主經(jīng)驗,在更少監(jiān)督的情況下不斷優(yōu)化,或在不熟悉的情境中主動請求幫助和建議。盡管如此,在知識遷移、模型構(gòu)建技術(shù),以及數(shù)據(jù)來源的多樣性等方面,仍有大量進步空間。
參考鏈接:https://www.pi.website/blog/pi05
整理:與可
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.