衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
機(jī)器狗不語(yǔ),只是一味地在北大未名湖畔撿垃圾。
好了明說(shuō)吧,垃圾是擺拍的道具,但這長(zhǎng)脖子的狗子,是真的有點(diǎn)功夫在身上的!
背后算法QuadWBG,搭載了模塊化框架,包含運(yùn)動(dòng)、感知、操作和規(guī)劃四個(gè)模塊;首次在移動(dòng)抓取任務(wù)中引入通用定向可達(dá)性映射(Generalized Oriented Reachability Map),提升機(jī)器人在六自由度基座下的全身操作泛化能力。
并且結(jié)合強(qiáng)化學(xué)習(xí)與運(yùn)動(dòng)規(guī)劃,使抓取成功率從以往的30%左右,拉升到89%。
項(xiàng)目背后團(tuán)隊(duì)來(lái)自北大、銀河通用、多倫多大學(xué)和智源研究院,相關(guān)論文已被ICLR 2025接收。
該工作的一作Jilong Wang對(duì)量子位表示,這項(xiàng)關(guān)于Loco-manipulation的創(chuàng)新成果,其中的操作能力可以從狗子身上泛化到人形機(jī)器人身上。
現(xiàn)在很多機(jī)器人廠(chǎng)商的機(jī)器人,更加擅長(zhǎng)的是運(yùn)動(dòng)控制(而不是操作能力)。
我們希望能把模型操作能力賦能更多機(jī)器人本體,不管是人形還是別的。
Local-Manipulation創(chuàng)新成果
俗話(huà)說(shuō)得好(不是),狗好,垃圾壞。
于是在北大校園里的各個(gè)角落,就出現(xiàn)了宇樹(shù)機(jī)器狗B1如下的繁忙身影。
在QuadWBG的加持下,這只狗子不僅可以在現(xiàn)實(shí)世界中,從不同位置對(duì)地面上的物體進(jìn)行抓取。
還可以很精確地在雜亂環(huán)境中抓住透明or鏡面物體,然后放進(jìn)身上的小背簍里。
先來(lái)個(gè)前情提要——
該團(tuán)隊(duì)的任務(wù)是給定一個(gè)目標(biāo)物體的位置,機(jī)器狗需要高效地接近目標(biāo)物體并最終抓取目標(biāo)物體。
機(jī)器人本體由四足機(jī)器狗、6自由度機(jī)械臂和平行抓夾組成。
機(jī)械臂末端安裝了一個(gè)RGBD攝像頭,成為了長(zhǎng)頸狗子的眼睛,用來(lái)獲取場(chǎng)景的RGB和紅外信息。
如果要把任務(wù)歸類(lèi),這是一個(gè)非常典型的Local-Manipulation(運(yùn)動(dòng)——操作一體化)任務(wù),它通常指智能體通過(guò)物理身體與環(huán)境進(jìn)行局部交互,以實(shí)現(xiàn)特定任務(wù)的能力。
而「上肢(機(jī)械臂)+足式機(jī)器人」的Local-Manipulation最早于2023年被提出,后來(lái)不斷快速發(fā)展。
值得注意的是,針對(duì)足式機(jī)器人的Local-Manipulation,不能直接將抓取檢測(cè)結(jié)果應(yīng)用于機(jī)械臂運(yùn)動(dòng)規(guī)劃,因?yàn)樗雎粤吮倔w和機(jī)械臂運(yùn)動(dòng)之間所需的協(xié)調(diào)。
而且由于動(dòng)作維度不斷拓寬,現(xiàn)實(shí)世界的物理交互又非常復(fù)雜,加上地形、視覺(jué)等,準(zhǔn)確度和通用性仍然被限制了。
不過(guò)現(xiàn)在,端到端的RL已經(jīng)提高了運(yùn)動(dòng)技能,推動(dòng)了全身運(yùn)動(dòng)與操作端到端策略的發(fā)展,使機(jī)器狗子們能夠執(zhí)行需要運(yùn)動(dòng)并且與物體交互無(wú)縫協(xié)調(diào)的任務(wù)。
Just like在未名湖畔撿垃圾的小狗子。
解密時(shí)刻!
北大校園里勤勤懇懇的小狗子,之所以能精確識(shí)別并抓取地上的各種垃圾,是因?yàn)镼uadWBG借鑒了多種抓取檢測(cè)技術(shù)的成功經(jīng)驗(yàn),通過(guò)將抓取姿態(tài)檢測(cè)與運(yùn)動(dòng)規(guī)劃相結(jié)合。
值得一提的是,這也是首次在移動(dòng)抓取任務(wù)中引入通用定向可達(dá)性映射,提升機(jī)器人在六自由度基座下的全身操作泛化能力。
可以精準(zhǔn)抓取透明物體,哪怕它們擠在一起:
還可以堅(jiān)持不懈地瘋狂撿拾,把各種材質(zhì)的各種物體裝進(jìn)背篼里:
最后,結(jié)合RL與運(yùn)動(dòng)規(guī)劃,在仿真環(huán)境中,無(wú)論物體的大小或幾何復(fù)雜性如何,狗子在所有測(cè)試物體上均取得了顯著更高的成功率,性能非常穩(wěn)定。
在實(shí)際操作中,狗子在14個(gè)不同物體實(shí)例、配置和環(huán)境中的全身抓取成功率達(dá)到了89%。
而在此之前的SOTA,僅在30%左右。
針對(duì)任務(wù)中較難的透明物體抓取,10次連續(xù)抓取也取得了80%的單次抓取成功率。
這是怎么做到的?
Jilong Wang解釋道,其核心創(chuàng)新,在于模塊化結(jié)構(gòu)和通用定向可達(dá)性映射。
兩大核心創(chuàng)新
通用定向可達(dá)性映射,即GROM,是QuadWBG的兩大創(chuàng)新之一。
它是4個(gè)模塊中“規(guī)劃模塊”的產(chǎn)物。
因此,在對(duì)話(huà)過(guò)程中,Jilong Wang按照模塊執(zhí)行任務(wù)的邏輯和順序來(lái)向量子位介紹了該工作的2大創(chuàng)新點(diǎn)。
至于為什么要做模塊化,Jilong Wang給出的解釋是:“因?yàn)楝F(xiàn)在端到端還不足以產(chǎn)生足夠精確的結(jié)果,而模組能夠讓它產(chǎn)生很精確的全身數(shù)據(jù),然后我們又把現(xiàn)實(shí)世界的數(shù)據(jù)提供給端到端的模型進(jìn)行訓(xùn)練。”
也就是說(shuō),團(tuán)隊(duì)還是希望用模型自身的能力對(duì)現(xiàn)實(shí)世界進(jìn)行感知,然后規(guī)劃運(yùn)動(dòng),而不是人工手動(dòng)設(shè)計(jì)。
最后的目標(biāo)是實(shí)現(xiàn)端到端操作,這樣也就“沒(méi)有仿真環(huán)境和現(xiàn)實(shí)環(huán)境的gap了”,還很省錢(qián)。
話(huà)不多說(shuō),先來(lái)看看模塊化結(jié)構(gòu)這個(gè)創(chuàng)新點(diǎn)——
QuadWBG是一個(gè)模塊化通用四足全身抓取框架,該框架包含運(yùn)動(dòng)、感知、操作和規(guī)劃四個(gè)模塊。
第一個(gè),運(yùn)動(dòng)模塊,見(jiàn)上圖A。
它負(fù)責(zé)將本體感知信息(包含當(dāng)前運(yùn)動(dòng)指令,關(guān)節(jié)位置與速度等)編碼成隱式狀態(tài)信息,并通過(guò)多層感知器(MLP)生成動(dòng)作來(lái)滿(mǎn)足當(dāng)前運(yùn)動(dòng)指令的要求,從而實(shí)現(xiàn)魯棒的移動(dòng)能力。
第二個(gè),感知模塊,見(jiàn)上圖B。
為了實(shí)現(xiàn)實(shí)時(shí)跟蹤和精確的抓取姿態(tài)預(yù)測(cè),感知模塊利用ASGrasp接收紅外圖像和RGB圖像作為輸入,能夠預(yù)測(cè)精確的深度信息。
隨后,預(yù)測(cè)的深度點(diǎn)云被輸入到GSNet中,從而生成更精確的六自由度抓取姿態(tài)。
第三個(gè),操作模塊,見(jiàn)上圖C。
操作模塊采用了一種運(yùn)動(dòng)規(guī)劃方法,以解決全身RL策略在末端執(zhí)行器控制中的不精確性問(wèn)題。
該系統(tǒng)在2個(gè)不同的階段運(yùn)行:跟蹤階段和抓取階段。
首先是跟蹤階段,團(tuán)隊(duì)將安裝的攝像頭運(yùn)動(dòng)限制在一個(gè)預(yù)定義的跟蹤球體內(nèi),并使用可達(dá)性映射(RM,Reachability Map)來(lái)定義跟蹤球體。
在該空間內(nèi),任意方向上都存在有效的反向運(yùn)動(dòng)學(xué)(IK,Inverse Kinematics)解。
切換機(jī)制基于RM和閾值可達(dá)性標(biāo)準(zhǔn)構(gòu)建。
在每個(gè)規(guī)劃步驟中,團(tuán)隊(duì)使用RM計(jì)算所選抓取姿態(tài)的可達(dá)性;一旦達(dá)到閾值,系統(tǒng)將切換到抓取階段。
其運(yùn)動(dòng)規(guī)劃器在線(xiàn)生成軌跡,使系統(tǒng)能夠在向目標(biāo)移動(dòng)時(shí)適應(yīng)小的意外運(yùn)動(dòng)。
第四個(gè),規(guī)劃模塊,見(jiàn)上圖D。
規(guī)劃模塊基于目標(biāo)抓取位姿,利用通用定向可達(dá)性映射來(lái)生成移動(dòng)指令。
現(xiàn)存的ORM(Oriented Reachability Map)能夠高效地表示相對(duì)于TCP(Tool Center Point)坐標(biāo)系的潛在基座位姿。
然而,ORM有其限制性——機(jī)器人基座必須在平坦表面上。
對(duì)此,QuadWBG項(xiàng)目中的銀河通用團(tuán)隊(duì)提出了GORM,它支持六自由度的機(jī)器人基座放置,對(duì)于世界坐標(biāo)系中的任意目標(biāo)位姿,均可通過(guò)RM的逆運(yùn)算計(jì)算潛在的基座到世界的分布。
一旦定義了目標(biāo)位姿,GORM將提供高質(zhì)量潛在基座位姿的分布。
團(tuán)隊(duì)訓(xùn)練高層策略以最小化當(dāng)前基座位姿與最近可行位姿之間的距離,以鼓勵(lì)機(jī)器人移動(dòng)到基座位姿候選位置。
Jilong Wang進(jìn)一步解釋了這一創(chuàng)新性貢獻(xiàn):
它本身的意義就是在6D空間中給任意位姿,GORM能通過(guò)解析的方式告訴你,基座出現(xiàn)在哪個(gè)范圍、哪個(gè)分布是最利于去抓取物體的。
△藍(lán)色箭頭是最佳位姿的向量表示
由于GORM在目標(biāo)位姿坐標(biāo)系中定義,因此只需計(jì)算一次,使其非常高效且非常適合并行訓(xùn)練。
One More Thing
然鵝,由于每次抓取前都要計(jì)算出最佳位姿,這就導(dǎo)致了目前的一個(gè)局限性:
即便緊挨在一起的兩三個(gè)垃圾,機(jī)器狗也不能通過(guò)一次識(shí)別、一次移動(dòng)就連續(xù)抓取n個(gè)。
它必須得經(jīng)歷“識(shí)別——移動(dòng)到最佳位姿——抓取——再識(shí)別——移動(dòng)到新的最佳位姿——抓取”這樣的過(guò)程。
具體表現(xiàn)就像下面這張圖中這樣:
撿完一個(gè)垃圾后,機(jī)器狗必須得退兩步,重新識(shí)別,然后再根據(jù)新規(guī)劃的最佳位姿,靠近垃圾,然后抓取。
不過(guò)!
Jilong Wang表示,團(tuán)隊(duì)正在想辦法解決這個(gè)問(wèn)題,希望實(shí)現(xiàn)狗子不需要退回去,看一次就能把運(yùn)動(dòng)范圍內(nèi)的垃圾都撿起來(lái)。
減少狗子的工作量,提高效率。
畢竟保護(hù)動(dòng)物,人人有責(zé)——哪怕是機(jī)器動(dòng)物(doge)。
[1]https://quadwbg.github.io/
[2]https://arxiv.org/abs/2411.06782
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.