衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
機器狗不語,只是一味地在北大未名湖畔撿垃圾。
好了明說吧,垃圾是擺拍的道具,但這長脖子的狗子,是真的有點功夫在身上的!
背后算法QuadWBG,搭載了模塊化框架,包含運動、感知、操作和規劃四個模塊;首次在移動抓取任務中引入通用定向可達性映射(Generalized Oriented Reachability Map),提升機器人在六自由度基座下的全身操作泛化能力。
并且結合強化學習與運動規劃,使抓取成功率從以往的30%左右,拉升到89%。
項目背后團隊來自北大、銀河通用、多倫多大學和智源研究院,相關論文已被ICLR 2025接收。
該工作的一作Jilong Wang對量子位表示,這項關于Loco-manipulation的創新成果,其中的操作能力可以從狗子身上泛化到人形機器人身上。
現在很多機器人廠商的機器人,更加擅長的是運動控制(而不是操作能力)。
我們希望能把模型操作能力賦能更多機器人本體,不管是人形還是別的。
Local-Manipulation創新成果
俗話說得好(不是),狗好,垃圾壞。
于是在北大校園里的各個角落,就出現了宇樹機器狗B1如下的繁忙身影。
在QuadWBG的加持下,這只狗子不僅可以在現實世界中,從不同位置對地面上的物體進行抓取。
還可以很精確地在雜亂環境中抓住透明or鏡面物體,然后放進身上的小背簍里。
先來個前情提要——
該團隊的任務是給定一個目標物體的位置,機器狗需要高效地接近目標物體并最終抓取目標物體。
機器人本體由四足機器狗、6自由度機械臂和平行抓夾組成。
機械臂末端安裝了一個RGBD攝像頭,成為了長頸狗子的眼睛,用來獲取場景的RGB和紅外信息。
如果要把任務歸類,這是一個非常典型的Local-Manipulation(運動——操作一體化)任務,它通常指智能體通過物理身體與環境進行局部交互,以實現特定任務的能力。
而「上肢(機械臂)+足式機器人」的Local-Manipulation最早于2023年被提出,后來不斷快速發展。
值得注意的是,針對足式機器人的Local-Manipulation,不能直接將抓取檢測結果應用于機械臂運動規劃,因為它忽略了本體和機械臂運動之間所需的協調。
而且由于動作維度不斷拓寬,現實世界的物理交互又非常復雜,加上地形、視覺等,準確度和通用性仍然被限制了。
不過現在,端到端的RL已經提高了運動技能,推動了全身運動與操作端到端策略的發展,使機器狗子們能夠執行需要運動并且與物體交互無縫協調的任務。
Just like在未名湖畔撿垃圾的小狗子。
解密時刻!
北大校園里勤勤懇懇的小狗子,之所以能精確識別并抓取地上的各種垃圾,是因為QuadWBG借鑒了多種抓取檢測技術的成功經驗,通過將抓取姿態檢測與運動規劃相結合。
值得一提的是,這也是首次在移動抓取任務中引入通用定向可達性映射,提升機器人在六自由度基座下的全身操作泛化能力。
可以精準抓取透明物體,哪怕它們擠在一起:
還可以堅持不懈地瘋狂撿拾,把各種材質的各種物體裝進背篼里:
最后,結合RL與運動規劃,在仿真環境中,無論物體的大小或幾何復雜性如何,狗子在所有測試物體上均取得了顯著更高的成功率,性能非常穩定。
在實際操作中,狗子在14個不同物體實例、配置和環境中的全身抓取成功率達到了89%。
而在此之前的SOTA,僅在30%左右。
針對任務中較難的透明物體抓取,10次連續抓取也取得了80%的單次抓取成功率。
這是怎么做到的?
Jilong Wang解釋道,其核心創新,在于模塊化結構和通用定向可達性映射。
兩大核心創新
通用定向可達性映射,即GROM,是QuadWBG的兩大創新之一。
它是4個模塊中“規劃模塊”的產物。
因此,在對話過程中,Jilong Wang按照模塊執行任務的邏輯和順序來向量子位介紹了該工作的2大創新點。
至于為什么要做模塊化,Jilong Wang給出的解釋是:“因為現在端到端還不足以產生足夠精確的結果,而模組能夠讓它產生很精確的全身數據,然后我們又把現實世界的數據提供給端到端的模型進行訓練。”
也就是說,團隊還是希望用模型自身的能力對現實世界進行感知,然后規劃運動,而不是人工手動設計。
最后的目標是實現端到端操作,這樣也就“沒有仿真環境和現實環境的gap了”,還很省錢。
話不多說,先來看看模塊化結構這個創新點——
QuadWBG是一個模塊化通用四足全身抓取框架,該框架包含運動、感知、操作和規劃四個模塊。
第一個,運動模塊,見上圖A。
它負責將本體感知信息(包含當前運動指令,關節位置與速度等)編碼成隱式狀態信息,并通過多層感知器(MLP)生成動作來滿足當前運動指令的要求,從而實現魯棒的移動能力。
第二個,感知模塊,見上圖B。
為了實現實時跟蹤和精確的抓取姿態預測,感知模塊利用ASGrasp接收紅外圖像和RGB圖像作為輸入,能夠預測精確的深度信息。
隨后,預測的深度點云被輸入到GSNet中,從而生成更精確的六自由度抓取姿態。
第三個,操作模塊,見上圖C。
操作模塊采用了一種運動規劃方法,以解決全身RL策略在末端執行器控制中的不精確性問題。
該系統在2個不同的階段運行:跟蹤階段和抓取階段。
首先是跟蹤階段,團隊將安裝的攝像頭運動限制在一個預定義的跟蹤球體內,并使用可達性映射(RM,Reachability Map)來定義跟蹤球體。
在該空間內,任意方向上都存在有效的反向運動學(IK,Inverse Kinematics)解。
切換機制基于RM和閾值可達性標準構建。
在每個規劃步驟中,團隊使用RM計算所選抓取姿態的可達性;一旦達到閾值,系統將切換到抓取階段。
其運動規劃器在線生成軌跡,使系統能夠在向目標移動時適應小的意外運動。
第四個,規劃模塊,見上圖D。
規劃模塊基于目標抓取位姿,利用通用定向可達性映射來生成移動指令。
現存的ORM(Oriented Reachability Map)能夠高效地表示相對于TCP(Tool Center Point)坐標系的潛在基座位姿。
然而,ORM有其限制性——機器人基座必須在平坦表面上。
對此,QuadWBG項目中的銀河通用團隊提出了GORM,它支持六自由度的機器人基座放置,對于世界坐標系中的任意目標位姿,均可通過RM的逆運算計算潛在的基座到世界的分布。
一旦定義了目標位姿,GORM將提供高質量潛在基座位姿的分布。
團隊訓練高層策略以最小化當前基座位姿與最近可行位姿之間的距離,以鼓勵機器人移動到基座位姿候選位置。
Jilong Wang進一步解釋了這一創新性貢獻:
它本身的意義就是在6D空間中給任意位姿,GORM能通過解析的方式告訴你,基座出現在哪個范圍、哪個分布是最利于去抓取物體的。
△藍色箭頭是最佳位姿的向量表示
由于GORM在目標位姿坐標系中定義,因此只需計算一次,使其非常高效且非常適合并行訓練。
One More Thing
然鵝,由于每次抓取前都要計算出最佳位姿,這就導致了目前的一個局限性:
即便緊挨在一起的兩三個垃圾,機器狗也不能通過一次識別、一次移動就連續抓取n個。
它必須得經歷“識別——移動到最佳位姿——抓取——再識別——移動到新的最佳位姿——抓取”這樣的過程。
具體表現就像下面這張圖中這樣:
撿完一個垃圾后,機器狗必須得退兩步,重新識別,然后再根據新規劃的最佳位姿,靠近垃圾,然后抓取。
不過!
Jilong Wang表示,團隊正在想辦法解決這個問題,希望實現狗子不需要退回去,看一次就能把運動范圍內的垃圾都撿起來。
減少狗子的工作量,提高效率。
畢竟保護動物,人人有責——哪怕是機器動物(doge)。
[1]https://quadwbg.github.io/
[2]https://arxiv.org/abs/2411.06782
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.