移動操作賦予了機器人跨越大空間執行復雜操作任務的能力。隨著智能機器人系統的日益普及,家庭服務、制造和物流等領域對機器人移動操作能力提出了迫切需求,但要想機器人在非結構化環境中執行如協助人們的日常生活等多樣化任務,仍面臨重大挑戰。
要想實現移動操作,機器人就必須能夠對移動基座和機械臂進行全身控制。目前現有的移動操作框架可分為模塊化和端到端兩類。其中,模塊化移動操作框架通常是對導航和固定基座模塊進行分別訓練,不僅需進行大量訓練,同時也會導致誤差累積。端到端方法則主要通過模仿學習直接預測基于視覺觀察的移動操作動作,該方法雖實現了導航和操作動作的聯合優化,卻依賴專家軌跡學習,其訓練成本相對較高,這在一定程度上限制了數據集規模和泛化能力。
相比之下,在多樣化操作任務重展現出強大泛化能力的視覺-語言-動作 (VLA) 模型,能夠直接基于RGB視覺觀察輸出末端執行器的7自由度動作,且無需依賴預測的對象類別和姿態,有望為機器人移動操作領域帶來新改變,但VLA模型同時也存在專注于固定基座任務,無法生成移動基座和機械臂之間的協同動作的問題
▍提出策略遷移框架MoManipVLA,實現多樣化任務與環境高度泛化
針對VLA模型在移動操控領域的應用挑戰,來自北京郵電大學、南洋理工大學和清華大學的研究人員攜手合作進行了深入研究,并提出了一種高效策略遷移框架 MoManipVLA。該框架通過將預先訓練VLA模型從固定基座操作環境遷移到移動操作環境中,實現了移動操作策略在不同任務和環境中的高度泛化。
具體來說,研究團隊利用預先訓練的 VLA 模型生成具有高泛化能力的末端執行器的航點,并為移動基座和機械臂設計了旨在最大限度提高軌跡物理可行性的運動規劃目標。此外,研究團隊還提出了一個高效的雙層目標優化框架用于軌跡生成,實現了以零樣本方式調整機器人基座的位置,并確保從固定基座 VLA 模型預測的航點在移動操作中切實可行。
通過在OVMM 和現實世界中進行大量實驗,研究團隊驗證了MoManipVLA框架的有效性。實驗結果顯示,MoManipVLA的成功率較當前最先進的移動操縱技術高出4.2%。同時,得益于預訓練VLA模型的強大泛化能力,該框架在現實世界部署時的訓練成本僅需50個樣本。
該研究成果的相關論文“MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation”目前已被IEEE國際計算機視覺與模式識別會議(CVPR2025)接受。論文作者包括北京郵電大學智能工程與自動化學院研究生吳振宇,南洋理工大學周宇恒、王子偉,清華大學自動化系博士生徐修偉等人。通訊作者為北京郵電大學智能工程與自動化學院閆海濱教授。
那么,該成果具體是如何實現的呢?接下來,和機器人大講堂一起來深入了解!
▍現實部署僅需50個樣本,MoManipVLA具體如何實現?
MoManipVLA框架的核心在于將預訓練的固定基座VLA模型策略有效遷移到移動操作任務中。其總體框架設計巧妙,旨在聯合生成移動基座和機械臂的軌跡,以實現高泛化能力。
在工作流程中,MoManipVLA首先利用預訓練的VLA模型,根據環境觀察和人類指令,預測出最優的末端執行器路徑點。隨后,系統聯合規劃基座和機械臂的軌跡,以確保末端執行器能夠準確、高效地到達這些路徑點。
為了實現這一目標,研究團隊首先設計了詳細的運動規劃目標,這些目標充分考慮了軌跡的安全性、平滑性和可達性,以最大化軌跡的物理可行性。在軌跡規劃過程中,路徑點首先從基座坐標系轉換到世界坐標系,然后系統通過最小化一個綜合成本函數來優化整個軌跡。該成本函數涵蓋了可達性成本、平滑性成本和碰撞成本,確保了軌跡在物理上的可行性和安全性。
由于移動基座和機械臂的位姿搜索空間龐大且復雜,直接搜索最優解極具挑戰性。為此,研究團隊提出了一種雙層軌跡優化框架。在上層優化中,系統搜索基座的最優位姿,為機械臂位姿的搜索提供基礎;在下層優化中,則在給定的搜索空間內尋找最優的機械臂位姿,以遵循預訓練的VLA模型的指導完成任務。
為了應對搜索空間龐大且可能非凸的問題,研究采用了雙退火搜索算法進行目標優化,并利用基于梯度的局部優化器SLSQP來進一步細化解決方案。這種方法不僅提高了軌跡生成的效率,還有效避免了陷入局部最優的風險。
通過一系列創新方法,MoManipVLA框架幾乎無需額外的訓練成本,即可成功將預訓練的固定基座VLA模型策略遷移到移動操作任務中。
▍OVMM與現實世界雙重測試,驗證MoManipVLA框架有效性
為了驗證MoManipVLA框架的有效性,研究團隊在OVMM基準測試集和現實世界中進行了全面的實驗。
在OVMM基準測試集中,研究團隊將MoManipVLA框架所提策略與當前最先進的移動操控策略進行了全面對比。實驗結果顯示,MoManipVLA在總體成功率上實現了4.2%的增益,同時在部分成功率上也取得了11.2%的提升。特別是在Pick成功率方面,MoManipVLA方法比最先進方法高出12.4%。這一結果有效證明了MoManipVLA框架能夠將預訓練的VLA模型策略成功且高效地轉移到移動操作任務中。
為了深入探究MoManipVLA框架中運動規劃目標各成本項的作用,研究團隊還進行了消融實驗。他們分別刪除了可達性、平滑度和碰撞項,并仔細評估了這些變動對成功率和效率的影響。實驗結果表明,每個成本項都對整體成功率的提高有著明顯的貢獻。其中,可達性對成功率的提升最為顯著,這主要是因為移動操作任務需要在較大的區域內與目標進行交互,而基座的位置往往限制了代理的到達能力。這一發現進一步驗證了移動操控任務中,移動基座和手臂的協同控制以確保末端執行器的可達性是性能的關鍵瓶頸,也是將預訓練的VLA模型有效轉移到移動操控任務中的關鍵所在。
在算法優化方面,研究團隊對雙層目標優化方法和普通雙退火搜索算法進行了對比實驗。盡管普通雙退火搜索算法在成功率上表現出色,但雙層目標優化方法在降低延遲方面顯著優于前者。這一結果表明,雙層目標優化方法在避免搜索缺陷、提高算法效率方面具有明顯優勢。
為了公平且全面地評估MoManipVLA框架的移動操作策略,研究團隊還利用真實對象蒙版和Detic等視覺基礎模型生成的對象蒙版進行了實驗。但由于家庭環境中的物體通常擺放雜亂無章,會導致視覺感知質量大幅下降,在使用視覺輸入時,總體成功率遠低于使用真實蒙版的方法。
在真實世界實驗中,研究團隊采用了hexman echo plus base和RM65機械臂組件構成的離線移動平臺,并利用nvblox重建場景ESDF(歐幾里得符號距離場)和Grounding SAM(語義分割和匹配)獲取機械臂和目標物體的掩碼。實驗過程中,他們遵循ORB-SLAM(同時定位與地圖構建)設置,并使用英特爾Realsense T265跟蹤攝像頭獲取實時攝像頭姿勢和基準姿勢。實驗結果顯示,MoManipVLA框架僅需50個樣本即可完成微調,并在移動操作任務上實現了40%的成功率。在更具挑戰性的抽屜打開任務中,盡管需要滿足物理約束并避免與鉸鏈物體運動發生碰撞難度更高,其成功率也達到了10%。
參考文章:
https://arxiv.org/html/2503.13446v1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.