內(nèi)容來自:機(jī)器之心
李飛飛「具身智能」又出新研究了。
「機(jī)器人學(xué)習(xí)領(lǐng)域中的一個『圣杯』級挑戰(zhàn)是執(zhí)行通用的日常家庭移動操作任務(wù)。借助一款新型雙臂移動機(jī)器人,我們的最新成果 ——BEHAVIOR Robot Suite(簡稱 BRS)正在嘗試攻克這一極為困難且尚未解決的難題!」
在日常生活中,你有沒有想過這樣一個問題,即機(jī)器人究竟需要具備哪些能力才能真正幫助人類完成家務(wù)任務(wù)?BRS 就是為了解決這項任務(wù)而誕生的 —— 簡單來講,BRS 就是一個綜合性框架,用于掌握機(jī)器人多樣化家庭任務(wù)中移動全身操作。無論是倒垃圾、擺放衣物還是清潔馬桶,BRS 都能讓機(jī)器人應(yīng)對這些日常實(shí)用活動。
例如,基于 BRS 的機(jī)器人可以幫助用戶撿垃圾:
將扔在地上的物體重新放在架子上:
還能幫你清潔馬桶,看起來是一個任勞任怨的機(jī)器人:
Party 過后幫你收拾桌子:
還能幫你去衣柜拿衣服:
這么全能的機(jī)器人是如何實(shí)現(xiàn)的呢?我們接著往下看。
方法介紹
論文主頁:https://behavior-robot-suite.github.io/
機(jī)器人需要具備哪些關(guān)鍵能力才能有效執(zhí)行日常家務(wù)?
通過分析,研究團(tuán)隊確定了成功執(zhí)行這些任務(wù)所必需的三項全身控制能力:雙手協(xié)調(diào)、穩(wěn)定精確的導(dǎo)航以及廣泛的末端執(zhí)行器可達(dá)性。
例如,搬運(yùn)大型重物需要雙手操作,而在房屋中檢索工具則依賴于穩(wěn)定精確的導(dǎo)航。復(fù)雜任務(wù) —— 如一邊拿著雜貨一邊開門,需要協(xié)調(diào)運(yùn)用這兩種能力。此外,日常物品分布在不同位置和高度,這要求機(jī)器人能夠相應(yīng)地調(diào)整其觸及范圍。
經(jīng)過精心設(shè)計的機(jī)器人硬件,配備雙臂、移動底座和靈活軀干,是實(shí)現(xiàn)全身操作的關(guān)鍵。
然而,這類復(fù)雜設(shè)計給策略學(xué)習(xí)方法帶來了重大挑戰(zhàn),尤其是在數(shù)據(jù)采集規(guī)模化和全身協(xié)調(diào)動作方面。
為應(yīng)對這些挑戰(zhàn),研究團(tuán)隊推出了 BRS,旨在通過全身操作技術(shù)解決各種真實(shí)家庭任務(wù)。
BRS 有兩項關(guān)鍵創(chuàng)新,兩者協(xié)同解決機(jī)器人硬件和學(xué)習(xí)方面的挑戰(zhàn)。
JoyLo(Joy-Con on Low-Cost Kinematic-Twin Arms);
WB-VIMA(Whole-Body VisuoMotor Attention)。
JoyLo
為實(shí)現(xiàn)對高自由度移動機(jī)械臂的流暢控制,同時便于為后續(xù)策略學(xué)習(xí)收集數(shù)據(jù),研究團(tuán)隊推出了 JoyLo —— 一種構(gòu)建經(jīng)濟(jì)實(shí)惠的全身遠(yuǎn)程操作界面的通用框架。
研究團(tuán)隊在 R1 機(jī)器人上實(shí)現(xiàn)了 JoyLo,設(shè)計目標(biāo)如下:
高效的全身協(xié)調(diào)控制系統(tǒng),實(shí)現(xiàn)復(fù)雜動作的流暢銜接;
豐富的用戶反饋機(jī)制,帶來直觀的遠(yuǎn)程操作體驗(yàn);
確保高質(zhì)量的示范動作,提升策略學(xué)習(xí)效果;
低成本實(shí)現(xiàn)方案,大幅提高系統(tǒng)可及性;
實(shí)時、便捷的控制器設(shè)計,確保操作無縫順暢。
項目還提到,JoyLo 的成本總共不到 500 美元,團(tuán)隊還貢獻(xiàn)了物料清單和組裝說明。
物料清單地址:https://behavior-robot-suite.github.io/docs/sections/joylo/overview.html#bill-of-materials-bom
組裝說明:https://behavior-robot-suite.github.io/docs/sections/joylo/step_by_step_assembly_guidance.html
WB-VIMA 策略
WB-VIMA 是一種模仿學(xué)習(xí)算法,旨在通過利用機(jī)器人的固有運(yùn)動學(xué)層次結(jié)構(gòu)來建模全身動作。
WB-VIMA 的一個關(guān)鍵見解是,機(jī)器人關(guān)節(jié)之間存在強(qiáng)烈的相互依賴關(guān)系 —— 上游鏈接(例如軀干)的小幅移動可能會導(dǎo)致下游鏈接(例如末端執(zhí)行器)的大幅位移。為了確保所有關(guān)節(jié)之間的精確協(xié)調(diào),WB-VIMA 將下游組件的動作預(yù)測條件化于上游組件的預(yù)測,從而實(shí)現(xiàn)更同步的全身運(yùn)動。
此外,WB-VIMA 通過自注意力動態(tài)聚合多模態(tài)觀察,使其能夠?qū)W習(xí)表現(xiàn)力強(qiáng)的策略,同時減輕對本體感知輸入的過擬合。
實(shí)驗(yàn)
實(shí)驗(yàn)探討了以下問題:
Q1:BRS 支持哪些類型的家庭任務(wù)?
Q2:JoyLo 與其他方法相比表現(xiàn)如何?
Q3:WB-VIMA 是否優(yōu)于基線方法?
Q4:哪些組件促成了 WB-VIMA 的有效性?
對于問題 1:BRS 適用于各種家庭任務(wù),比如扔垃圾:
機(jī)器人先是導(dǎo)航到客廳中的垃圾袋旁邊,將其撿起(子任務(wù) 1),然后將垃圾攜帶到一扇關(guān)閉的門前(子任務(wù) 2),打開門(子任務(wù) 3),移動到室外,并將垃圾袋放入垃圾桶(子任務(wù) 4)。
又比如,機(jī)器人打掃餐桌。機(jī)器人從客廳出發(fā),導(dǎo)航到廚房的洗碗機(jī)(子任務(wù) 1)并打開洗碗機(jī)(子任務(wù) 2)。然后,它移動到游戲桌(子任務(wù) 3)收集碗(子任務(wù) 4)。最后,機(jī)器人返回洗碗機(jī)(子任務(wù) 5),將碗放入洗碗機(jī)內(nèi)并關(guān)閉洗碗機(jī)(子任務(wù) 6)。穩(wěn)定且精確的導(dǎo)航是完成這一任務(wù)的最關(guān)鍵能力。
對于問題 2:JoyLo 能夠?yàn)椴呗詫W(xué)習(xí)提供高質(zhì)量的數(shù)據(jù)
研究團(tuán)隊對 10 名參與者進(jìn)行了全面的用戶研究,以評估 JoyLo 的效果及其收集數(shù)據(jù)對策略學(xué)習(xí)的適用性。下圖為將 JoyLo 與 VR 控制器和 Apple Vision Pro 進(jìn)行比較。
效率優(yōu)勢:
JoyLo 整體任務(wù)成功率是 VR 控制器的 5 倍(Apple Vision Pro 無人完成全任務(wù));
中位完成時間較 VR 控制器縮短 23%;
在鉸接物體操作等精細(xì)任務(wù)中表現(xiàn)突出。
用戶研究結(jié)果(10 名參與者)。
用戶體驗(yàn):
所有參與者最終評價 JoyLo 為最友好交互;
70% 用戶最初認(rèn)為 IK 更直觀,但實(shí)操后偏好逆轉(zhuǎn);
用戶反饋 IK 方法在移動底座 / 軀干控制上存在顯著困難。
用戶研究參與者的人口統(tǒng)計數(shù)據(jù)和調(diào)查結(jié)果。
對于問題 3:WB-VIMA 始終優(yōu)于基線方法
實(shí)驗(yàn)顯示,WB-VIMA 在所有任務(wù)中全面超越基準(zhǔn)方法:端到端任務(wù)成功率比 DP3 高 13 倍,比 RGB-DP 高 21 倍;平均子任務(wù)表現(xiàn)分別優(yōu)于 DP3(1.6 倍)和 RGB-DP(3.4 倍)。
五項代表性家庭活動的成功率。「ET」表示整個任務(wù),「ST」表示子任務(wù)。
評估期間的安全違規(guī)情況。WB-VIMA 與環(huán)境物體的碰撞極少,且?guī)缀醪粫蚴┘舆^度力量而導(dǎo)致電機(jī)失去動力。
對于問題 4:WB-VIMA 組件對任務(wù)性能的影響
研究團(tuán)隊針對 WB-VIMA 展開消融實(shí)驗(yàn),分別移除自回歸全身動作去噪和多模態(tài)觀察注意力機(jī)制模塊。實(shí)驗(yàn)表明,任一組件缺失均導(dǎo)致性能顯著下降:在「將物品放上架子」及「整理衣物」任務(wù)的「打開衣柜」子任務(wù)中,移除自回歸去噪模塊使成功率驟降 53%;而多模態(tài)注意力機(jī)制缺失則全面削弱各任務(wù)表現(xiàn)。
「放置物品到架子上」和「鋪展衣物」任務(wù)的消融實(shí)驗(yàn)結(jié)果。
最后,研究團(tuán)隊還展示了幾個失敗案例。包括:
1) 盡管機(jī)器人已經(jīng)抓住把手,但未能完全打開洗碗機(jī);
2) 未能按下沖水按鈕;
3) 未能從地板上拾起垃圾袋;
4) 未能抬起地上的箱子;
5) 未能關(guān)閉衣柜門。
了解更多內(nèi)容,請查看原論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.