研究團隊由來自北京通用人工智能研究院(BIGAI)、清華大學和北京大學的跨專業研究者組成,致力于具身智能領域的前沿研究。團隊成員在開發高效、智能的通用機器人技術,特別是機械靈巧手操作方面,擁有豐富的研究經驗。一作為北京通用人工智能研究院研究員李愷林,其它作者為清華大學博士生李浦豪、北京通用人工智能研究院研究員劉騰宇、北京大學博士生李宇飏;通訊作者為北京通用人工智能研究院研究員黃思遠。
近年來,具身智能領域發展迅猛,使機器人在復雜任務中擁有接近人類水平的雙手操作能力,不僅具有重要的研究與應用價值,也是邁向通用人工智能的關鍵一步。
目前,數據驅動的具身智能算法仍需要精確、大規模且高度靈活的靈巧手動作序列。然而,傳統的強化學習或真機遙操作方法通常難以高效獲取此類數據。
為了解決這一問題,北京通用人工智能研究院聯合清華大學、北京大學的研究人員提出了一種兩階段方法——ManipTrans,可在仿真環境中高效地將人類雙手操作技能遷移至機器人靈巧手。
- 論文地址:MANIPTRANS: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning
- 論文鏈接:https://arxiv.org/pdf/2503.21860
- 項目主頁:https://maniptrans.github.io
- 代碼與數據集:https://github.com/ManipTrans/ManipTrans
ManipTrans首先利用通用軌跡模仿器的預訓練模型模仿人類手部動作;然后針對不同的操作技能,引入殘差學習模塊,結合基于物理的交互約束進行精細調整(如圖 1 所示)。該方法將動作模仿與物理約束分離,使復雜的雙手任務學習更加高效,執行更加精準。
基于ManipTrans,研究團隊同時發布了大規模靈巧手操作數據集DexManipNet,涵蓋了如蓋筆帽、擰瓶蓋等此前未曾深入探索的任務。
圖1. 基于ManipTrans實現相同操作技能的跨型號靈巧手技能遷移
研究背景
人類雙手在與環境交互中發揮著關鍵作用,這激發了對機器人靈巧手操作的廣泛研究。如何快速獲取大規模、精確且接近人類水平的靈巧手操作數據,已成為亟待解決的問題。
現有的基于強化學習的方法需要精心設計針對特定任務的獎勵函數,這通常限制了任務的復雜性,并可能導致機器人動作的不自然;另一類基于遙操作的方法成本高昂、效率低下,且所采集的數據通常針對特定的本體,缺乏通用性。
目前,一種有潛力的解決方案是通過模仿學習,將人類的操作動作遷移到仿真環境中的靈巧手上,以生成自然的「手-物交互」。然而,實現精確且高效的遷移并非易事。由于人手和機器人手在形態上的差異,直接進行姿態重定向的效果并不理想。并且,盡管動作捕捉得到的數據相對準確,但在高精度任務中,誤差的累積仍可能導致任務失敗。此外,雙手操作引入了高維度的動作空間,顯著增加了高效策略學習的難度,因此,先前的大多數工作通常止步于單手的抓取任務。
研究方法
圖2. 本文提出的ManipTrans方法框架圖
針對上述挑戰,本文提出了一種簡潔而有效的方法——ManipTrans(如圖 2 所示),旨在實現操作技能,特別是雙手協同技能,在仿真環境下從人手向機械靈巧手的遷移。核心思想是將遷移過程劃分為兩個階段:第一階段,實現手部運動的軌跡模仿;第二階段,在滿足物理交互約束的前提下,對動作進行微調。
具體而言,首先預訓練一個通用模型,以準確模仿人類手指的運動;在此基礎上,引入殘差學習模塊,對靈巧手的動作進行微調,著重針對以下兩點:1)確保手指與物體表面的穩定接觸;2)協調雙手,保證復雜情況下雙手操作的高精度和高保真執行。
本文將該問題建模為隱式馬爾可夫決策過程(MDP),在兩個階段均采用 PPO 算法以最大化折扣回報。在第一階段,設計獎勵函數,約束靈巧手跟隨參考的人手軌跡,同時確保動作的穩定性和平滑性。其中,手指模仿獎勵函數「鼓勵」靈巧手的關鍵點位置與人手保持一致,特別是與物體接觸最頻繁的拇指、食指和中指的指尖位置是否對齊,此設計有效解決了形態不一致的問題。
在第二階段,殘差模塊輸出動作的補償項,通過與第一階段的動作相加,實現微調。該模塊額外考慮了以下信息:1)物體的質心位置和所受重力,以增強對力矩的感知;2)基于空間基點集(BPS)表示的物體形狀;3)靈巧手關鍵點與物體的空間位置關系;4)仿真環境提供的指尖接觸力。第二階段特別加入了接觸力獎勵函數,鼓勵更加穩定的手物接觸。在訓練過程中,引入了隨機參考狀態初始化和課程學習策略,提高了收斂速度和訓練穩定性。
綜上,ManipTrans的設計在第一階段緩解人手與靈巧手之間的形態差異,在第二階段捕捉細微的交互動作。通過將手指模仿與物理交互約束解耦,顯著降低了動作空間的復雜度,同時提升了訓練效率。本文在一系列復雜的單手和雙手操作任務中,驗證了該方法的有效性和高效性,任務甚至涵蓋了鉸鏈物體的操作。為評估該方法的泛化能力,本文進行了跨本體的實驗,驗證了ManipTrans可應用于具有不同自由度和形態的靈巧手,無需額外參數調節。此外,基于ManipTrans方法得到的雙手操作數據,也在真機部署中得到了驗證。
DexManipNet 數據集
圖3. 靈巧手白板寫字
圖4. 雙手舀取物體
基于ManipTrans方法,本研究將兩個大型「手-物交互」數據集(OakInk V2 和 FAVOR)遷移至靈巧手,構建了DexManipNet數據集。該數據集涵蓋了 61 種具有挑戰性的任務,包含對 1200 多件物體的 3300 條靈巧手操作序列,總計約 134 萬幀的數據量。其中,約有 600 個序列涉及復雜的雙手操作任務(如圖 3、圖 4 所示),充分展示了機器人在高難度操作場景下的能力。
圖5. 靈巧手撥開牙膏蓋
圖6. 雙手協同完成傾倒入試管操作
此外,研究人員在真機平臺上重放(replay)了DexManipNet的數據軌跡,使用了兩臺有 7 個自由度的機械臂和一對靈巧手,部署結果展示了此前未曾實現的精細靈巧操作能力。例如,在「撥開牙膏蓋」的任務中,左手穩固握持牙膏管,右手的拇指和食指靈巧地撥開小巧的牙膏蓋,這些細微而復雜的動作往往難以通過遙操作精確捕捉(如圖 5、圖 6 所示)。
實驗結果
表1.ManipTrans與基線方法定量對比
本文將ManipTrans與兩大類現有方法——基于強化學習的方法和基于優化的方法,進行了對比評估。結果顯示,ManipTrans在各項指標上均優于基線方法,展現了在單手和雙手操作任務中的高精度(如表 1 所示)。定性和定量分析證實了,ManipTrans的兩階段遷移框架能夠有效捕捉手指的細微運動并與物體的交互,提高了任務成功率和運動的真實感。
圖7. 跨本體遷移實驗
圖8. 雙手操作鉸鏈物體
此外,研究展示了ManipTrans在不同型號靈巧手上的可擴展性。該框架僅依賴人類手指與靈巧手關鍵點之間的對應關系,無需過多參數調整即可適配不同形態和自由度的靈巧手(如圖 7 所示)。文章還在鉸鏈物體操作數據集 ARCTIC 上進行了驗證。通過對獎勵函數的微調,添加鉸鏈物體運動角度獎勵,成功實現了靈巧手對鉸鏈物體的指定角度旋轉操作(如圖 8 所示),展現了ManipTrans方法在復雜操作任務中的潛力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.