剛剛,F(xiàn)igure AI 發(fā)布了 首個通用視覺-語言-行動(VLA)模型——Helix ,其能像人類一樣推理,將感知、語言理解和學(xué)習(xí)控制融為一體,可以 通過自然語言直接控制人形機(jī)器人整個上半身 。
Helix 可以在沒有任何特定任務(wù)演示或大量手動編程的情況下,快速生成長程、協(xié)作性的靈巧操作。 其實(shí)現(xiàn)了多個“首個” :
完整的上半身控制 :Helix 是首個能夠?qū)φ麄€人形上半身(包括手腕、軀干、頭部和單個手指)輸出高速率連續(xù)控制的 VLA。
多機(jī)器人協(xié)作 :Helix 是首個可在兩個機(jī)器人上同時運(yùn)行的 VLA,使它們能夠解決共享的長程操作任務(wù),操作它們從未見過的物品。
可直接商用 :Helix 是首個在完全板載嵌入式低功耗 GPU 上運(yùn)行的 VLA,可立即投入商業(yè)部署。
配備了 Helix 的 Figure 機(jī)器人只需根據(jù)自然語言提示,就能拾取幾乎任何小型家用物品 ,包括數(shù)以千計它們從未見過的物品。
例如,當(dāng)被要求“拾起沙漠中的物品”時,Helix 會識別出玩具仙人掌,選擇最近的手,并執(zhí)行精確的運(yùn)動指令將其牢牢抓住。
與之前的方法不同,Helix 使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重來學(xué)習(xí)所有行為——拾取和放置物品、使用抽屜和冰箱以及跨機(jī)器人交互——而無需針對具體任務(wù)進(jìn)行微調(diào)。
Figure AI 在 X 上表示,“ 機(jī)器人的功能如果不發(fā)生重大變化,就無法進(jìn)入家庭領(lǐng)域,現(xiàn)在,我們的機(jī)器人幾乎可以處理任何家庭用品 。”
在正式介紹 Helix 之前,我們一起欣賞一下官方短片 :
技術(shù)報告:
https://www.figure.ai/news/helix
人形機(jī)器人的“New Scaling”
家庭是機(jī)器人技術(shù)面臨的最大挑戰(zhàn)。與受控的工業(yè)環(huán)境不同,家庭中充斥著無數(shù)物品——精致的玻璃器皿、皺巴巴的衣物、散落的玩具——每件物品的形狀、大小、顏色和質(zhì)地都難以預(yù)測。機(jī)器人要想在家庭中發(fā)揮作用,就必須能夠按需生成智能的新行為,尤其是針對它們從未見過的物體。
當(dāng)前的機(jī)器人技術(shù)如果不作出重大改變,就無法在家庭中使用。目前,即使是教機(jī)器人學(xué)會一種新行為,也需要大量的人力:要么是數(shù)小時的博士級專家手工編程,要么是數(shù)千次的演示。如果考慮到家庭問題的實(shí)際規(guī)模,這兩種方式的成本都非常高。
圖|獲取機(jī)器人新技能的不同方法的 Scaling 曲線。在傳統(tǒng)的啟發(fā)式操作中,技能會隨著手動編寫腳本的博士們而增長;在傳統(tǒng)的機(jī)器人模仿學(xué)習(xí)中,技能隨著收集到的數(shù)據(jù)增長;而在 Helix 中,新技能可以用語言即時指定。
Figure AI 團(tuán)隊認(rèn)為,人工智能的其他領(lǐng)域已經(jīng)掌握了這種即時泛化的方法,如果能夠 簡單地將視覺語言模型(VLM)中捕捉到的豐富語義知識直接轉(zhuǎn)化為機(jī)器人動作 ,將從根本上改變機(jī)器人技術(shù)的發(fā)展軌跡。
突然間,只需用自然語言與機(jī)器人對話,就能立即獲得曾經(jīng)需要數(shù)百次演示的新技能。但關(guān)鍵問題是: 他們?nèi)绾螐?VLM 中提取所有這些常識性知識,并將其轉(zhuǎn)化為可通用的機(jī)器人控制呢 ?
于是,他們構(gòu)建了 Helix。
Helix:用于整個上半身控制的“系統(tǒng) 1、系統(tǒng) 2”VLA
Helix 是首創(chuàng)的 “系統(tǒng) 1、系統(tǒng) 2 ”VLA 模型,用于對整個仿人上半身進(jìn)行高速、靈巧的控制。
之前的方法面臨著一個基本的權(quán)衡:VLM 骨架通用但不快速,而機(jī)器人視覺運(yùn)動策略快速但不通用。Helix 通過兩個互補(bǔ)系統(tǒng)解決了這一問題,這兩個系統(tǒng)經(jīng)過端對端訓(xùn)練,可以進(jìn)行通信:
系統(tǒng) 2:經(jīng)過互聯(lián)網(wǎng)訓(xùn)練的板載 VLM,工作頻率為 7-9 Hz,用于場景理解和語言理解,可廣泛應(yīng)用于各種物體和環(huán)境。
系統(tǒng) 1:快速反應(yīng)視覺運(yùn)動策略,將系統(tǒng) 2 生成的潛在語義表征轉(zhuǎn)化為 200 Hz 的精確連續(xù)機(jī)器人動作。
這種解耦架構(gòu)允許每個系統(tǒng)以其最佳時間尺度運(yùn)行。系統(tǒng) 2 可以“慢思考”高層次目標(biāo),而系統(tǒng) 1 則可以“快思考”實(shí)時執(zhí)行和調(diào)整動作。例如,在協(xié)作行為中,系統(tǒng) 1可快速適應(yīng)伙伴機(jī)器人不斷變化的動作,同時保持系統(tǒng) 2 的語義目標(biāo)。
與現(xiàn)有方法相比,Helix 的設(shè)計具有幾大優(yōu)勢:
速度和通用性:Helix 的速度可與專門的單任務(wù)行為克隆策略相媲美,同時還能對數(shù)千個新測試對象進(jìn)行零樣本泛化。
可擴(kuò)展性:Helix 可直接輸出高維動作空間的連續(xù)控制,避免了先前 VLA 方法中使用的復(fù)雜動作 token 化方案,這些方案在低維控制設(shè)置中取得了一定成功,但在高維仿人控制中面臨擴(kuò)展挑戰(zhàn)。
結(jié)構(gòu)簡單:Helix 使用標(biāo)準(zhǔn)架構(gòu)——系統(tǒng) 2 使用開源、開放權(quán)重的 VLM,系統(tǒng) 1 使用基于 transformer 的簡單視覺運(yùn)動策略。
關(guān)注分離:將系統(tǒng) 1 和系統(tǒng) 2 分離開來后,可以分別對每個系統(tǒng)進(jìn)行迭代,而不必受制于尋找統(tǒng)一的觀察空間或動作表示法。
模型和訓(xùn)練細(xì)節(jié)
1.數(shù)據(jù)
他們收集了一個高質(zhì)量、多機(jī)器人、多操作員的數(shù)據(jù)集,其中包含各種遠(yuǎn)程操作行為,總計約 500 小時。為了生成受自然語言約束的訓(xùn)練對,他們使用了自動標(biāo)注 VLM 來生成后見(hindsight)指令。VLM 處理來自機(jī)載機(jī)器人攝像頭的分段視頻片段,并給出提示:“你會給機(jī)器人下達(dá)什么指令,以實(shí)現(xiàn)視頻中的動作?所有在訓(xùn)練過程中處理過的項目都不在評估范圍內(nèi),以防止污染。
2.架構(gòu)
這一系統(tǒng)由兩個主要部分組成:系統(tǒng) 2 是 VLM 骨干,系統(tǒng) 1 是潛條件視覺運(yùn)動 transformer。系統(tǒng) 2 基于一個 7B 參數(shù)的開源、開放權(quán)重 VLM,并在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練。它將單目機(jī)器人圖像和機(jī)器人狀態(tài)信息(包括手腕姿勢和手指位置)投射到視覺語言嵌入空間后進(jìn)行處理。結(jié)合指定所需行為的自然語言指令,系統(tǒng) 2 將所有與任務(wù)相關(guān)的語義信息提煉為一個連續(xù)的潛在向量,并將其傳遞給系統(tǒng) 1,作為其底層動作的條件。
系統(tǒng) 1 是一個 8000 萬參數(shù)的交叉注意力編碼器-解碼器 transformer,用于處理底層控制。它依靠一個完全卷積、多尺度的視覺骨干網(wǎng)進(jìn)行視覺處理,該骨干網(wǎng)由完全在模擬中完成的預(yù)訓(xùn)練初始化而成。系統(tǒng) 1 接收與系統(tǒng) 2 相同的圖像和狀態(tài)輸入,但處理頻率更高,以實(shí)現(xiàn)反應(yīng)更靈敏的閉環(huán)控制。來自系統(tǒng) 2 的潛向量被投射到系統(tǒng) 1 的 token 空間,并與來自系統(tǒng) 1 視覺骨干的視覺特征沿序列維度進(jìn)行串聯(lián),從而提供任務(wù)條件。
系統(tǒng) 1 以 200hz 的頻率輸出完整的上半身仿人控制,包括所需的手腕姿勢、手指彎曲和外展控制,以及軀干和頭部方向目標(biāo)。他們在動作空間中添加了一個合成的“任務(wù)完成百分比”動作,使 Helix 能夠預(yù)測自己的終止條件,從而更容易地對多個學(xué)習(xí)行為進(jìn)行排序。
3.訓(xùn)練
Helix 采用完全端到端訓(xùn)練方式,通過標(biāo)準(zhǔn)回歸損耗將原始像素和文本指令映射為連續(xù)動作。梯度通過用于調(diào)節(jié)系統(tǒng) 1 行為的潛在通信向量從系統(tǒng) 1 反向傳播到系統(tǒng) 2,從而對兩個組件進(jìn)行聯(lián)合優(yōu)化。Helix 無需針對特定任務(wù)進(jìn)行適應(yīng)性調(diào)整;它只需保持單一的訓(xùn)練階段和單一的神經(jīng)網(wǎng)絡(luò)權(quán)重集,而無需單獨(dú)的動作頭或每個任務(wù)的微調(diào)階段。
在訓(xùn)練過程中,他們會在系統(tǒng) 1 和系統(tǒng) 2 輸入之間添加一個時間偏移。該偏移量經(jīng)過校準(zhǔn),與系統(tǒng) 1 和系統(tǒng) 2 部署推理延遲之間的差距相匹配,確保在訓(xùn)練中準(zhǔn)確反映部署過程中的實(shí)時控制要求。
4.優(yōu)化的流推理
Helix 的訓(xùn)練設(shè)計可在 Figure 機(jī)器人上實(shí)現(xiàn)高效的模型并行部署,每個機(jī)器人都配備了雙低功耗嵌入式 GPU。推理流水線分為系統(tǒng) 2(高級潛規(guī)劃)和系統(tǒng) 1(低級控制)模型,每個模型都在專用 GPU 上運(yùn)行。系統(tǒng) 1 作為異步后臺進(jìn)程運(yùn)行,消耗最新觀測數(shù)據(jù)(機(jī)載攝像頭和機(jī)器人狀態(tài))和自然語言指令。它不斷更新共享內(nèi)存中的潛在向量,該向量對高級行為意圖進(jìn)行編碼。
系統(tǒng) 1 作為一個獨(dú)立的實(shí)時進(jìn)程執(zhí)行,維持著整個上半身平滑動作所需的關(guān)鍵 200Hz 控制回路。它同時獲取最新的觀測數(shù)據(jù)和最新的系統(tǒng) 2 潛在向量。系統(tǒng) 2 和系統(tǒng) 1 推理之間固有的速度差異自然會導(dǎo)致系統(tǒng) 1 以更高的時間分辨率處理機(jī)器人的觀察結(jié)果,從而為反應(yīng)控制創(chuàng)建更緊密的反饋回路。
這種部署策略有意反映了訓(xùn)練中引入的時間偏移,最大限度地縮小了訓(xùn)練-推理分布差距。異步執(zhí)行模型允許兩個進(jìn)程以各自的最佳頻率運(yùn)行,允許以最快的單任務(wù)模仿學(xué)習(xí)策略速度運(yùn)行 Helix。
表現(xiàn)怎么樣?
1.精細(xì)的 VLA 整個上半身控制
Helix 能以 200Hz 的頻率協(xié)調(diào) 35-DoF 的動作空間,控制從單個手指運(yùn)動到末端執(zhí)行器軌跡、頭部注視和軀干姿勢等一切動作。頭部和軀干控制帶來了獨(dú)特的挑戰(zhàn),因為它們的移動會同時改變機(jī)器人所能觸及的范圍和所能看到的范圍,從而形成反饋回路,這在歷史上曾造成不穩(wěn)定。
機(jī)器人在調(diào)整軀干以獲得最佳觸及范圍的同時,還能用頭部平穩(wěn)地跟蹤雙手,同時保持手指的精確控制以進(jìn)行抓取。從歷史上看,在如此高維的動作空間中實(shí)現(xiàn)如此高的精確度,即使是對單個已知任務(wù)而言,也是極具挑戰(zhàn)性的。研究團(tuán)隊表示,目前還沒有任何 VLA 系統(tǒng)能夠在保持跨任務(wù)和跨對象通用能力的同時,實(shí)現(xiàn)如此程度的實(shí)時協(xié)調(diào)。
2.零樣本多機(jī)器人協(xié)調(diào)
他們在一個極具挑戰(zhàn)性的多機(jī)器人操控場景中將 Helix 推向了極限:兩個 Figure 機(jī)器人之間的協(xié)作零樣本雜貨存儲。
結(jié)果顯示,機(jī)器人成功地操縱了全新的雜貨——在訓(xùn)練過程中從未遇到過的物品——展示了在不同形狀、尺寸和材料上的強(qiáng)大泛化能力。此外,兩個機(jī)器人使用相同的 Helix 模型權(quán)重進(jìn)行操作,無需進(jìn)行特定的機(jī)器人訓(xùn)練或明確的角色分配。它們通過自然語言提示實(shí)現(xiàn)協(xié)調(diào),例如“將一袋餅干遞給你右邊的機(jī)器人”或“從你左邊的機(jī)器人手中接過一袋餅干并將其放入打開的抽屜”。這標(biāo)志著首次展示了多個機(jī)器人使用 VLA 進(jìn)行靈活、擴(kuò)展的協(xié)作操縱,特別是在成功處理全新物體方面意義重大。
3.智能涌現(xiàn)——“撿起任何東西”
他們發(fā)現(xiàn),配備 Helix 的 Figure 機(jī)器人只需接收“拿起 [X]”的指令,就能拿起幾乎任何小型家用物品。在系統(tǒng)測試中,機(jī)器人成功處理了雜亂物品中的數(shù)千件新奇物品——從玻璃器皿和玩具到工具和衣物——而無需任何事先演示或定制編程。
尤其值得注意的是,Helix 是如何在互聯(lián)網(wǎng)規(guī)模的語言理解和精確的機(jī)器人控制之間架起橋梁的。例如,當(dāng)提示“拿起沙漠中的物品”時,Helix 不僅能識別出符合這一抽象概念的玩具仙人掌,還能選擇最近的手,并執(zhí)行精確的運(yùn)動指令,牢牢地抓住它。
這種通用的“從語言到行動”的抓取能力為在非結(jié)構(gòu)化環(huán)境中部署人形機(jī)器人開辟了令人興奮的新可能性。
“僅僅觸及了可能的表面”
在這項研究中,Helix 展現(xiàn)出了訓(xùn)練效率高且僅需要單一權(quán)重集的特點(diǎn)。
在訓(xùn)練效率方面,Helix 以極少的資源實(shí)現(xiàn)了強(qiáng)大的對象泛化能力。研究團(tuán)隊總共使用了約 500 小時的高質(zhì)量監(jiān)督數(shù)據(jù)對 Helix 進(jìn)行訓(xùn)練,其規(guī)模僅為之前收集的 VLA 數(shù)據(jù)集的一小部分(<5%),并且不依賴于多機(jī)器人-具身收集或多階段訓(xùn)練。他們注意到,這種收集規(guī)模與現(xiàn)代的單任務(wù)模仿學(xué)習(xí)數(shù)據(jù)集更相近。盡管對數(shù)據(jù)的要求相對較低,但 Helix 仍能擴(kuò)展到更具挑戰(zhàn)性的上半身人形控制動作空間,并提供高速率、高維度的輸出。
同時,Helix 只需一個統(tǒng)一的模型,就能在不同任務(wù)中實(shí)現(xiàn)強(qiáng)大的性能。只需使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重(系統(tǒng) 2 為 7B,系統(tǒng) 1 為 8000 萬),Helix 就能在各種容器中拾取和放置物品,操作抽屜和冰箱,協(xié)調(diào)靈巧的多機(jī)器人交接,并操控數(shù)千種新奇物品。
研究團(tuán)隊表示,雖然這些早期成果確實(shí)令人興奮,但這僅僅觸及了可能的表面。他們急切地想知道,當(dāng)他們將 Helix 的規(guī)模擴(kuò)大 1000 倍甚至更多時會發(fā)生什么。
整理:學(xué)術(shù)君
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.