網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

讓宇樹(shù)機(jī)器狗在北大未名湖畔撿垃圾，銀河通用干的

2025-03-28 12:46:19　來(lái)源: 量子位

北京舉報(bào)

分享至

衡宇發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

機(jī)器狗不語(yǔ)，只是一味地在北大未名湖畔撿垃圾。

好了明說(shuō)吧，垃圾是擺拍的道具，但這長(zhǎng)脖子的狗子，是真的有點(diǎn)功夫在身上的！

背后算法QuadWBG，搭載了模塊化框架，包含運(yùn)動(dòng)、感知、操作和規(guī)劃四個(gè)模塊；首次在移動(dòng)抓取任務(wù)中引入通用定向可達(dá)性映射（Generalized Oriented Reachability Map），提升機(jī)器人在六自由度基座下的全身操作泛化能力。

并且結(jié)合強(qiáng)化學(xué)習(xí)與運(yùn)動(dòng)規(guī)劃，使抓取成功率從以往的30%左右，拉升到89%。

項(xiàng)目背后團(tuán)隊(duì)來(lái)自北大、銀河通用、多倫多大學(xué)和智源研究院，相關(guān)論文已被ICLR 2025接收。

該工作的一作Jilong Wang對(duì)量子位表示，這項(xiàng)關(guān)于Loco-manipulation的創(chuàng)新成果，其中的操作能力可以從狗子身上泛化到人形機(jī)器人身上。

現(xiàn)在很多機(jī)器人廠(chǎng)商的機(jī)器人，更加擅長(zhǎng)的是運(yùn)動(dòng)控制（而不是操作能力）。
我們希望能把模型操作能力賦能更多機(jī)器人本體，不管是人形還是別的。

Local-Manipulation創(chuàng)新成果

俗話(huà)說(shuō)得好（不是），狗好，垃圾壞。

于是在北大校園里的各個(gè)角落，就出現(xiàn)了宇樹(shù)機(jī)器狗B1如下的繁忙身影。

在QuadWBG的加持下，這只狗子不僅可以在現(xiàn)實(shí)世界中，從不同位置對(duì)地面上的物體進(jìn)行抓取。

還可以很精確地在雜亂環(huán)境中抓住透明or鏡面物體，然后放進(jìn)身上的小背簍里。

先來(lái)個(gè)前情提要——

該團(tuán)隊(duì)的任務(wù)是給定一個(gè)目標(biāo)物體的位置，機(jī)器狗需要高效地接近目標(biāo)物體并最終抓取目標(biāo)物體。

機(jī)器人本體由四足機(jī)器狗、6自由度機(jī)械臂和平行抓夾組成。

機(jī)械臂末端安裝了一個(gè)RGBD攝像頭，成為了長(zhǎng)頸狗子的眼睛，用來(lái)獲取場(chǎng)景的RGB和紅外信息。

如果要把任務(wù)歸類(lèi)，這是一個(gè)非常典型的Local-Manipulation（運(yùn)動(dòng)——操作一體化）任務(wù)，它通常指智能體通過(guò)物理身體與環(huán)境進(jìn)行局部交互，以實(shí)現(xiàn)特定任務(wù)的能力。

而「上肢（機(jī)械臂）+足式機(jī)器人」的Local-Manipulation最早于2023年被提出，后來(lái)不斷快速發(fā)展。

值得注意的是，針對(duì)足式機(jī)器人的Local-Manipulation，不能直接將抓取檢測(cè)結(jié)果應(yīng)用于機(jī)械臂運(yùn)動(dòng)規(guī)劃，因?yàn)樗雎粤吮倔w和機(jī)械臂運(yùn)動(dòng)之間所需的協(xié)調(diào)。

而且由于動(dòng)作維度不斷拓寬，現(xiàn)實(shí)世界的物理交互又非常復(fù)雜，加上地形、視覺(jué)等，準(zhǔn)確度和通用性仍然被限制了。

不過(guò)現(xiàn)在，端到端的RL已經(jīng)提高了運(yùn)動(dòng)技能，推動(dòng)了全身運(yùn)動(dòng)與操作端到端策略的發(fā)展，使機(jī)器狗子們能夠執(zhí)行需要運(yùn)動(dòng)并且與物體交互無(wú)縫協(xié)調(diào)的任務(wù)。

Just like在未名湖畔撿垃圾的小狗子。

解密時(shí)刻！

北大校園里勤勤懇懇的小狗子，之所以能精確識(shí)別并抓取地上的各種垃圾，是因?yàn)镼uadWBG借鑒了多種抓取檢測(cè)技術(shù)的成功經(jīng)驗(yàn)，通過(guò)將抓取姿態(tài)檢測(cè)與運(yùn)動(dòng)規(guī)劃相結(jié)合。

值得一提的是，這也是首次在移動(dòng)抓取任務(wù)中引入通用定向可達(dá)性映射，提升機(jī)器人在六自由度基座下的全身操作泛化能力。

可以精準(zhǔn)抓取透明物體，哪怕它們擠在一起：

還可以堅(jiān)持不懈地瘋狂撿拾，把各種材質(zhì)的各種物體裝進(jìn)背篼里：

最后，結(jié)合RL與運(yùn)動(dòng)規(guī)劃，在仿真環(huán)境中，無(wú)論物體的大小或幾何復(fù)雜性如何，狗子在所有測(cè)試物體上均取得了顯著更高的成功率，性能非常穩(wěn)定。

在實(shí)際操作中，狗子在14個(gè)不同物體實(shí)例、配置和環(huán)境中的全身抓取成功率達(dá)到了89%。

而在此之前的SOTA，僅在30%左右。

針對(duì)任務(wù)中較難的透明物體抓取，10次連續(xù)抓取也取得了80%的單次抓取成功率。

這是怎么做到的？

Jilong Wang解釋道，其核心創(chuàng)新，在于模塊化結(jié)構(gòu)和通用定向可達(dá)性映射。

兩大核心創(chuàng)新

通用定向可達(dá)性映射，即GROM，是QuadWBG的兩大創(chuàng)新之一。

它是4個(gè)模塊中“規(guī)劃模塊”的產(chǎn)物。

因此，在對(duì)話(huà)過(guò)程中，Jilong Wang按照模塊執(zhí)行任務(wù)的邏輯和順序來(lái)向量子位介紹了該工作的2大創(chuàng)新點(diǎn)。

至于為什么要做模塊化，Jilong Wang給出的解釋是：“因?yàn)楝F(xiàn)在端到端還不足以產(chǎn)生足夠精確的結(jié)果，而模組能夠讓它產(chǎn)生很精確的全身數(shù)據(jù)，然后我們又把現(xiàn)實(shí)世界的數(shù)據(jù)提供給端到端的模型進(jìn)行訓(xùn)練。”

也就是說(shuō)，團(tuán)隊(duì)還是希望用模型自身的能力對(duì)現(xiàn)實(shí)世界進(jìn)行感知，然后規(guī)劃運(yùn)動(dòng)，而不是人工手動(dòng)設(shè)計(jì)。

最后的目標(biāo)是實(shí)現(xiàn)端到端操作，這樣也就“沒(méi)有仿真環(huán)境和現(xiàn)實(shí)環(huán)境的gap了”，還很省錢(qián)。

話(huà)不多說(shuō)，先來(lái)看看模塊化結(jié)構(gòu)這個(gè)創(chuàng)新點(diǎn)——

QuadWBG是一個(gè)模塊化通用四足全身抓取框架，該框架包含運(yùn)動(dòng)、感知、操作和規(guī)劃四個(gè)模塊。

第一個(gè)，運(yùn)動(dòng)模塊，見(jiàn)上圖A。

它負(fù)責(zé)將本體感知信息（包含當(dāng)前運(yùn)動(dòng)指令，關(guān)節(jié)位置與速度等）編碼成隱式狀態(tài)信息，并通過(guò)多層感知器（MLP）生成動(dòng)作來(lái)滿(mǎn)足當(dāng)前運(yùn)動(dòng)指令的要求，從而實(shí)現(xiàn)魯棒的移動(dòng)能力。

第二個(gè)，感知模塊，見(jiàn)上圖B。

為了實(shí)現(xiàn)實(shí)時(shí)跟蹤和精確的抓取姿態(tài)預(yù)測(cè)，感知模塊利用ASGrasp接收紅外圖像和RGB圖像作為輸入，能夠預(yù)測(cè)精確的深度信息。

隨后，預(yù)測(cè)的深度點(diǎn)云被輸入到GSNet中，從而生成更精確的六自由度抓取姿態(tài)。

第三個(gè)，操作模塊，見(jiàn)上圖C。

操作模塊采用了一種運(yùn)動(dòng)規(guī)劃方法，以解決全身RL策略在末端執(zhí)行器控制中的不精確性問(wèn)題。

該系統(tǒng)在2個(gè)不同的階段運(yùn)行：跟蹤階段和抓取階段。

首先是跟蹤階段，團(tuán)隊(duì)將安裝的攝像頭運(yùn)動(dòng)限制在一個(gè)預(yù)定義的跟蹤球體內(nèi)，并使用可達(dá)性映射（RM，Reachability Map）來(lái)定義跟蹤球體。

在該空間內(nèi)，任意方向上都存在有效的反向運(yùn)動(dòng)學(xué)（IK，Inverse Kinematics）解。

切換機(jī)制基于RM和閾值可達(dá)性標(biāo)準(zhǔn)構(gòu)建。

在每個(gè)規(guī)劃步驟中，團(tuán)隊(duì)使用RM計(jì)算所選抓取姿態(tài)的可達(dá)性；一旦達(dá)到閾值，系統(tǒng)將切換到抓取階段。

其運(yùn)動(dòng)規(guī)劃器在線(xiàn)生成軌跡，使系統(tǒng)能夠在向目標(biāo)移動(dòng)時(shí)適應(yīng)小的意外運(yùn)動(dòng)。

第四個(gè)，規(guī)劃模塊，見(jiàn)上圖D。

規(guī)劃模塊基于目標(biāo)抓取位姿，利用通用定向可達(dá)性映射來(lái)生成移動(dòng)指令。

現(xiàn)存的ORM（Oriented Reachability Map）能夠高效地表示相對(duì)于TCP（Tool Center Point）坐標(biāo)系的潛在基座位姿。

然而，ORM有其限制性——機(jī)器人基座必須在平坦表面上。

對(duì)此，QuadWBG項(xiàng)目中的銀河通用團(tuán)隊(duì)提出了GORM，它支持六自由度的機(jī)器人基座放置，對(duì)于世界坐標(biāo)系中的任意目標(biāo)位姿，均可通過(guò)RM的逆運(yùn)算計(jì)算潛在的基座到世界的分布。

一旦定義了目標(biāo)位姿，GORM將提供高質(zhì)量潛在基座位姿的分布。

團(tuán)隊(duì)訓(xùn)練高層策略以最小化當(dāng)前基座位姿與最近可行位姿之間的距離，以鼓勵(lì)機(jī)器人移動(dòng)到基座位姿候選位置。

Jilong Wang進(jìn)一步解釋了這一創(chuàng)新性貢獻(xiàn)：

它本身的意義就是在6D空間中給任意位姿，GORM能通過(guò)解析的方式告訴你，基座出現(xiàn)在哪個(gè)范圍、哪個(gè)分布是最利于去抓取物體的。

△藍(lán)色箭頭是最佳位姿的向量表示

由于GORM在目標(biāo)位姿坐標(biāo)系中定義，因此只需計(jì)算一次，使其非常高效且非常適合并行訓(xùn)練。

One More Thing

然鵝，由于每次抓取前都要計(jì)算出最佳位姿，這就導(dǎo)致了目前的一個(gè)局限性：

即便緊挨在一起的兩三個(gè)垃圾，機(jī)器狗也不能通過(guò)一次識(shí)別、一次移動(dòng)就連續(xù)抓取n個(gè)。

它必須得經(jīng)歷“識(shí)別——移動(dòng)到最佳位姿——抓取——再識(shí)別——移動(dòng)到新的最佳位姿——抓取”這樣的過(guò)程。

具體表現(xiàn)就像下面這張圖中這樣：

撿完一個(gè)垃圾后，機(jī)器狗必須得退兩步，重新識(shí)別，然后再根據(jù)新規(guī)劃的最佳位姿，靠近垃圾，然后抓取。

不過(guò)！

Jilong Wang表示，團(tuán)隊(duì)正在想辦法解決這個(gè)問(wèn)題，希望實(shí)現(xiàn)狗子不需要退回去，看一次就能把運(yùn)動(dòng)范圍內(nèi)的垃圾都撿起來(lái)。

減少狗子的工作量，提高效率。

畢竟保護(hù)動(dòng)物，人人有責(zé)——哪怕是機(jī)器動(dòng)物（doge）。

[1]https://quadwbg.github.io/

[2]https://arxiv.org/abs/2411.06782

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.