網易首頁 > 網易號 > 正文申請入駐

實現人類靈巧雙手技能向機器人遷移，通研院開源MANIPTRANS框架

2025-04-24 23:07:22　來源: DeepTech深科技

北京舉報

分享至

人類的雙手是自然界演化的奇跡，其無與倫比的靈巧性、精確度和適應性使我們能夠與物理世界進行復雜而細致的交互。在機器人學領域，復現這種能力，特別是需要雙手協同配合的復雜操作，一直是科學家和工程師們追求的“圣杯”之一。盡管在單臂操作和基礎抓取方面已取得長足進步，但要讓機器人擁有媲美人類的雙手操作能力，仍面臨巨大挑戰。近期，由北京通用人工智能研究院（BIGAI，Beijing Institute for General Artificial Intelligence）、清華大學和北京大學的聯合團隊共同開發了一種名為 MANIPTRANS 的方法，成功實現了人類雙手操作技能向仿真環境中機器人靈巧手的高效遷移，為解決這一難題提供了全新思路。

“先模仿，后精調”： MANIPTRANS 的兩階段技能遷移框架

“人手在與環境交互中扮演核心角色，這自然激發了對靈巧機器人操作的廣泛研究。”該研究的第一作者、BIGAI 研究員李愷林解釋道，“然而，如何快速獲取大規模、精確且接近人類水平的靈巧操作數據，用于訓練 AI 智能體，仍然是一個亟待解決的關鍵問題。”

項目自 2024 年 8 月啟動，最初的目標是訓練通用的靈巧手技能模型，但很快便遇到了數據稀缺的瓶頸。傳統強化學習（RL，Reinforcement Learning）方法通常需要復雜的獎勵設計且效率低下，而遙操作（Teleoperation）成本高昂且數據通用性差。

（來源：研究團隊）

面對困境，團隊將目光轉向了相對豐富的人類手-物交互 MoCap 數據集，萌生了設計算法工具將其轉化為可在仿真環境中執行的靈巧手動作的想法。基于 Isaac Gym 仿真平臺，他們開始了探索。初期，簡單的抓取任務進展順利，但隨著任務難度提升，尤其是在需要雙手協作和高技巧的動作上，簡單的強化學習方法暴露出訓練時間長、難以獲得理想姿態的問題。

正是在攻克這些難題的過程中，團隊意識到必須將復雜的遷移問題進行分解，決定不再試圖一步到位地同時學習模仿運動和處理復雜的物理交互，而是將其拆解為兩個循序漸進的階段。

圖丨 MANIPTRANS 流程（來源：arXiv）

首先，針對直接遷移中形態差異和運動誤差累積的問題，研究團隊設計了第一階段的核心——第一階段的核心——通用的“軌跡模仿器”（）。此階段的目標被限定為：只學習模仿人類手部的運動軌跡，暫時忽略與物體的交互。通過利用大規模的 MoCap 手部運動數據進行預訓練（采用強化學習 PPO 算法，獎勵側重于跟蹤精度和平滑性），這個模仿器能夠學習到一種“理解”人類手部運動模式的能力，有效地將人類的運動意圖映射到不同形態的機械手上，從而在很大程度上克服了形態差異帶來的障礙，并為后續任務提供了一個平滑、自然的運動基線。這個階段的成功，意味著機器人“看懂”了人類是怎么動的。

第一階段解決了“形似”的問題，但生成的動作可能還不滿足物理規律或無法有效操作物體。因此，第二階段的關鍵任務是引入物理世界的約束，實現精確、穩定的交互。為了應對物理交互的復雜性和高維動作空間的挑戰，MANIPTRANS 采用了殘差學習（Residual Learning）的策略。它不再學習完整的動作，而是訓練一個“殘差模塊”R來學習一個微小的修正量（）。這個模塊會接收更豐富的狀態信息，包括物體的實時狀態（姿態、速度、形狀等）以及至關重要的模擬指尖接觸力。基于這些交互信息，殘差模塊計算出對第一階段模仿動作的必要微調。最終輸出的動作（）既保留了第一階段模仿動作的自然流暢性，又確保了動作滿足物理約束，能夠穩定地抓握物體、施加合適的力并實現雙手協同。這種增量式的學習方式極大地簡化了學習復雜物理動態和高維協調的難度。

“當我們持續改進殘差策略時，終于成功地讓左右靈巧手實現了協同操作：左手抓取筆帽，右手握住筆身，并將筆身自然、流暢地插入筆帽中。這個動作不僅需要精準的抓握能力，更要求雙手之間高度的協同配合。當時，團隊的每一個人都感到非常有成就感。這次成功證明了我們的 MANIPTRANS 方法在解決遷移過程中問題的有效性，是項目的一個重要里程碑。”李愷林回憶道。

MANIPTRANS 這種將“運動模仿”與“交互精調”解耦的兩階段設計，正是其成功的關鍵。它巧妙地將原本高度復雜的學習問題分解為兩個難度相對較低的子問題。通過首先建立良好的運動基礎，再專注于物理交互的精調，極大地降低了學習所需探索的動作空間維度，顯著提升了訓練效率和最終的性能。這使得 MANIPTRANS 能夠高效地將復雜的人類技能，特別是以前難以處理的雙臂操作技能，成功遷移到靈巧機械手上。

基于 MANIPTRANS，研究團隊構建了 DexManipNet 數據集，將多個代表性手-物交互數據集（包括 FAVOR 和 OakInk-V2）遷移到靈巧手上。目前該數據集包含 3.3K 個機器人手操作片段，涵蓋 1.2K 個物體，總計 134 萬幀，其中約 600 個序列涉及復雜雙手任務，覆蓋了 61 種不同任務類型，如筆帽插入、瓶蓋擰開和化學實驗操作等。

“DexManipNet 作為當前靈巧手操作領域支持復雜雙手任務最多、數據量最大的數據集之一，我們有理由相信，基于該數據集可以訓練出多種機器人操作技能模型，在仿真或真實環境中實現更通用、更靈巧、雙手協作程度更高的靈巧手操作。”李愷林表示。

成功率、精度與效率全面領先現有方法

為了驗證 MANIPTRANS 的有效性，研究團隊在 OakInk-V2 的驗證集上進行了嚴格的定量評估，并與幾種基線方法進行了比較，包括僅使用強化學習從頭訓練（RL-Only），以及先進行姿態重定向再應用殘差學習（Retarget+Residual）。

實驗結果顯示，在任務成功率方面，MANIPTRANS 表現最佳，對于單手任務和更具挑戰性的雙手任務，其成功率分別達到了 58.1% 和 39.5%，顯著高于 RL-Only 方法（34.3%/12.1%）和 Retarget+Residual 方法（47.8%/13.9%），證明了其在可靠完成復雜模仿任務方面的能力。

圖丨強化學習組合基線的定量比較（來源：arXiv）

在模仿精度方面，MANIPTRANS 同樣全面領先。對于成功完成的任務，其平均物體旋轉誤差（）低至 8.60 度，位移誤差（）僅為 0.49 厘米。手部動作的模仿精度也更高，平均關節位置誤差（）為 2.15 厘米，關鍵的指尖位置誤差（）則為 1.36 厘米。這些數據均優于所有對比的基線方法，例如，其指尖位置誤差相較于 Retarget+Residual 方法降低了約 22%。

除了精度和成功率，MANIPTRANS 在訓練效率上也表現突出。在與另一先進方法 QuasiSim 的對比中（針對特定任務），MANIPTRANS 僅需約 15 分鐘的微調即可達到穩健結果，遠快于 QuasiSim 所需的數十小時優化時間。

此外，研究團隊還測試了 MANIPTRANS 在不同形態機械手（如 Shadow Hand, Allegro Hand 等）上的通用性，結果顯示無需特殊調整即可獲得一致、流暢且精確的性能。

為了測試其能力，研究團隊還將 DexManipNet 中的雙手軌跡在真實硬件上成功重放，展示了靈活自然的靈巧操作能力，包括擰開牙膏蓋、向試管傾倒試劑等高精度任務。

通往通用靈巧操作之路

盡管能力領先，但研究團隊也表示當前的 MANIPTRANS 還存在一些局限性。MANIPTRANS 雖然對中等噪聲具有一定的魯棒性，但如果輸入的 MoCap 數據噪聲過大，或者仿真中使用的物體模型不夠精確（尤其是對于鉸接物體），其性能可能會受到影響。

更重要的是，雖然 MANIPTRANS 在技能遷移方面取得了重大進展，但要實現真正的人類水平靈巧性，仍需進一步突破。研究團隊表示，當前系統與人類手部操作相比仍有較大差距，主要體現在缺乏主動規劃和調整力度以適應不同物體的能力（泛化性不足），以及缺乏基于物理常識對復雜任務進行自主分析、推理和規劃的能力。要達到人類水平，未來的研究需要在更大規模的數據學習（融合視覺與觸覺）和對物理世界的更深層理解（實現自主規劃與調整）兩方面取得突破。

團隊正在積極規劃未來的研究方向。他們期待開發出更具泛化性的算法，例如從互聯網海量的操作視頻中學習新技能，以提升靈巧手在更復雜任務上的表現。集成更先進的觸覺感知也是一個重要的方向，盡管目前觸覺傳感器的硬件設計和算法融合仍是挑戰，但其對于實現更精細、更魯棒的操作至關重要。此外，將 MANIPTRANS 應用于改進實時遙操作，實現“AI 輔助遙操作”，也是一個充滿潛力的探索方向。

研究團隊已將 MANIPTRANS 的代碼、訓練好的模型以及 DEXMANIPNET 數據集全部開源，希望能以此推動整個領域的進步（項目地址：https://maniptrans.github.io/）。他們真誠地希望學術界和工業界的同行能夠參與進來，利用 MANIPTRANS 遷移更多數據，并將更先進的靈巧手設計適配到該框架中，通過集思廣益、協同合作，共同促進靈巧機器人操作技術的發展。

圖丨相關論文（來源：arXiv）

相關論文已被 2025 年計算機視覺和模式識別會議（CVPR，Conference on Computer Vision and Pattern Recognition）接收，并以《MANIPTRANS：通過殘差學習實現高效靈巧的雙手操作遷移》（MANIPTRANS: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning）為題發表在預印本平臺arXiv上。北京通用人工智能研究院研究科學家李愷林是第一作者，北京通用人工智能研究院研究科學家、通用視覺實驗室負責人黃思遠擔任通訊作者。

參考資料：

1.https://arxiv.org/abs/2503.21860

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.