網易首頁 > 網易號 > 正文申請入駐

具身交互推理: 圖像-思考-行動交織思維鏈讓機器人會思考、會交互

2025-04-27 11:28:47　來源: 機器之心Pro

北京舉報

分享至

OpenAI 的 o1 系列模型、Deepseek-R1 帶起了推理模型的研究熱潮，但這些推理模型大多關注數學、代碼等專業領域。如何將這種深度推理模型擴展到智能體和具身領域，讓機器人通過思考和推理來完成復雜具身交互等任務？

近期，來自浙江大學、中科院軟件所和阿里巴巴的團隊提出了Embodied-Reasoner，讓機器人或智能體擁有深度思考和交互決策能力，從而在真實物理世界完成環境探索、隱藏物體搜索、交互和搬運等長序列復雜任務。

可以想象，未來某一天，機器人能夠幫你在房間里找鑰匙、信用卡等容易遺忘的小物件。它可以觀察房間、分析和思考，然后一步一步地搜索，最后幫你找到它們。

論文標題：Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks
論文地址：https://arxiv.org/abs/2503.21696
項目主頁：https://embodied-reasoner.github.io
代碼地址：
https://gitee.com/agiros/EmbodiedReasoner
https://github.com/zwq2018/embodied_reasoner
HuggingFace：https://huggingface.co/datasets/zwq2018/embodied_reasoner

視頻鏈接：https://mp.weixin.qq.com/s/yO0uylWGF8Mv7T9y1tjDcA

簡介

盡管深度思維模型在數學和編碼任務上展現出卓越的推理能力，但不同于數學、代碼等文字模態上的推理，具身領域的推理有幾個重要的挑戰需要解決：

首先，具身模型不同于單輪聊天對話，需要通過交互方式運行。它們必須持續與環境交互，收集視覺反饋，并基于這些反饋做出合理的行動（文本模態）。因此，模型每次需要處理多輪次的、圖文交織的冗長輸入，而后產生連貫、符合上下文的推理和決策。
其次，與數學任務主要依賴于邏輯推理和專業知識不同，具身場景中推理還需要更豐富的能力，包括多模態的感知、基于物理世界的常識推斷、空間關系理解、時序的推理以及面對環境交互失敗后的自我反思等能力，這些都對大模型提出了更高要求。
最后，當前的 LLM 主要以語言形式輸出，無法直接控制機器人執行物理交互。因此，如何設計合理的語義動作空間讓「思考」和「行動」解耦也是一個難點

如剛才視頻中展示的具體例子，當具身智能體在未知房間中搜索隱藏物體時，它必須利用物理常識推斷潛在的搜索區域（步驟 1、3），理解物體的空間關系以規劃高效的探索路徑（步驟 1、5），并運用時序推理回憶先前嘗試中的相關線索（步驟 9），同時反思先前的失敗。這些多方面的推理要求對多模態模型提出了挑戰。

實驗發現，即使是像 OpenAI o3-mini 這樣的先進 LLM，在這些具身交互任務中也經常難以展現可靠的推理和決策，容易出現重復的搜索或前后不一致的行為

基于上述挑戰，團隊提出了 Embodied-Reasoner，將深度思考能力擴展到具身交互任務。其關鍵的兩點包括：

純文本模態上的推理似乎無法解決這種長序列的具身任務。因此，Embodied-Reasoner 設計了圖文交織的思維鏈：觀察-思考-行動，三者相互交織構成真正的多模態思維鏈。這個設計類似于最近剛剛推出的 OpenAI 的 o3 和 o4-mini 模型，集成了圖片編輯（縮放、裁剪等）等中間動作，也創造了圖文交織的多模態思維鏈。
設計了多樣化的思考因子適應不同的交互階段，包括情景分析、任務規劃、空間推理、行為反思和多重驗證等。這些多樣化的思考因子能夠促進模型從不同角度進行推理和思考。

為了開發這種能力，如上圖所示，我們構建了一個數據引擎，自動合成連貫的觀察-思考-行動軌跡，引入了具身場景下多樣化的思考過程，例如情境分析、空間推理、自我反思、任務規劃和自我驗證。這些連貫的、圖像-文本交錯的軌跡引導模型學習如何基于其交互歷史和空間布局進行規劃和推理，從而提升其空間和時間推理能力。

此后，我們引入了一個三階段迭代訓練流程，結合了模仿學習、自我探索和自我糾正微調。該流程首先利用合成軌跡進行模仿學習以培養基本交互能力，然后通過拒絕采樣微調增強探索能力，最后經反思調優培養自我糾正能力。

下面是一個具體的例子：

如上圖所示，模型需要空間推理能力來理解廚房布局和物體關系，基于常識知識推斷潛在位置（冰箱、餐桌），系統地搜索未探索區域，并通過實時觀察調整計劃，同時避免重復搜索。

技術方案

任務定義

任務環境：使用廣泛采用的 AI2-THOR 模擬器構建了具身任務環境，該模擬器提供物理模擬和實時視覺觀測。實驗使用 120 個獨特的室內場景（如廚房）以及 2,100 個可交互物體（如信用卡和微波爐）。實驗通過 AI2-THOR 的 API 控制機器人的移動（如向前移動）和交互（如拾取物體），同時在每一步返回視覺觀察。

任務類別：機器人初始化在未知房間的一個角落，視野有限，即只能看到房間的一部分。本節設計了日常生活中四種常見的交互任務，復雜度依次增加：

搜索：在未知房間中搜索物體，如鑰匙鏈。它可能放置在某處或隱藏在容器內。
操作：搜索后與物體交互，如「找到一盞燈并打開開關」。
運輸：找到隱藏物體后，將其運輸到另一個位置。這涉及多個搜索和操作步驟。
復合任務：按順序涉及多個運輸任務，如「將雞蛋放入微波爐，加熱后放在桌子上。之后，找到……」。

動作定義：雖然 AI2-THOR 提供了許多低層級的動作，但本節的任務側重于高級規劃和推理，而非運動控制。此外，低級動作可能導致過多交互，因此本節在原子動作基礎上封裝了 9 個高級動作：觀察、向前移動、導航至 {}、放入 {}、拾取 {}、切換 {}、關閉 {}、打開 {}、終止。

「觀察-思維-行動」交織的思維鏈合成

為了開發適用于具身場景的 o1 風格推理模型，本節首先設計了一個需要高級規劃和推理，而非低級運動控制的具身任務，即搜索隱藏物體。接著，基于模擬器設計了一個數據引擎，用于合成交互式推理語料庫：任務指令和相應的關鍵動作序列。

每個動作產生一個視覺觀察，形成交互軌跡。最后，數據引擎為每個動作生成多種思考鏈，如情境分析、任務規劃、空間推理、反思和驗證，創建了一個具有觀察-思考-行動上下文的交互式推理語料庫。

指令合成（Instruction Synthesis）
基于物理環境約束設計多樣化任務模板（如「將 A 從容器取出放入 B」）。
通過物體屬性篩選可行組合（A 需為可拾取物，B 需為容器）。
利用 GPT-4o 進行指令風格多樣化處理。
通過指令組合構建不同難度梯度的任務。
動作序列合成（Action Sequence Synthesis）
從屬關系圖：數據引擎使用模擬器的元數據構建一個從屬關系圖。
關鍵動作序列：數據引擎利用構建的從屬關系圖和合成的指令模板推導出完成任務所需的最小動作序列（關鍵動作）。
添加額外的搜索過程：除了關鍵動作序列外，數據引擎還通過插入額外的搜索過程來合成探索路徑。
觀察-動作序列中插入多樣化的思考過程

模型訓練策略

多輪對話格式：考慮到交互軌跡遵循交織的圖像-文本格式（觀察-思考-行動），Embodied-Reasoner 將其組織為多輪對話語料庫。在每個回合中，觀察到的圖像和模擬器的反饋作為用戶輸入，而思考和行動則作為助手輸出。在訓練過程中，我們僅對思考和行動 token 計算損失。

為了增強推理能力，Embodied-Reasoner 設計了三個訓練階段：模仿學習、拒絕采樣微調和反思調優，這些階段將通用視覺語言模型逐步提升為具有深度思考能力的具身交互模型：

第一階段模仿學習：使用數據引擎生成少量的指令-軌跡對，大多數包含有限的搜索過程或僅由關鍵動作組成（觀察-思考-關鍵動作）。然后在此數據集上微調 Qwen2-VL-7B-Instruct，使其學會理解交織的圖像-文本上下文，輸出推理和動作 token。經過微調得到 Embodied-Interactor。
第二階段拒絕采樣微調，學習搜索：使用上一階段的模型采樣大量生成軌跡進行進一步訓練，并且使用數據引擎來評估這些采樣軌跡。該階段一共保留了 6,246 個成功軌跡進行微調，最后得到 Embodied-Explorer。

第三階段反思微調：上一階段的模型有時會產生不合理的動作，特別是在長序列交互任務中，如幻覺。此外，機器人經常會遇到臨時硬件故障，這要求模型能夠對不合理行為進行自我反思，識別異常狀態，并及時糾正。如上圖所示，第三階段使用 Embodied-Explorer 在先前任務上采樣大量軌跡。對于失敗的軌跡，我們定位第一個錯誤動作并構建自我糾正軌跡。對于成功的軌跡，我們插入異常狀態來模擬硬件故障。這一步驟補充了 2,016 條反思軌跡（每條軌跡平均 8.6 步）。

交織思維鏈分析

統計結果：我們為三個訓練階段合成了 9,390 個獨特的任務指令及其觀察-思考-行動軌跡，即〈場景, 指令, 交織的多模態思維鏈〉。如下面表格所示，在第一階段，數據引擎合成了 1,128 條軌跡數據。在第二階段，通過拒絕采樣保留了 6,246 條探索軌跡。在第三階段，數據引擎合成了 2,016 條自我糾正軌跡。所有合成的數據集涵蓋 107 個多樣化的室內場景（如廚房和客廳），包括 2,100 個可交互物體（如雞蛋、筆記本電腦）和 2,600 個容器（如冰箱、抽屜）。所有軌跡包含 64K 張第一人稱視角的觀察圖像和 8M 個思考 token。

測試任務：此外，我們在 12 個全新場景中構建了 809 個測試案例，這些場景與訓練場景不同。然后，人工設計了任務指令并標注相應的關鍵動作和最終狀態：〈指令，關鍵動作，最終狀態〉。值得注意的是，測試集還包含 25 個精心設計的超長序列決策任務，每個任務涉及四個子任務的組合，并涵蓋至少 14 個、最多 27 個關鍵動作。

思考模式的分布：本節統計了所有軌跡中五種思考模式的頻率。如下圖所示，Task Planning 和 Spatial Reasoning 出現最頻繁，分別為 36.6k 和 26.4k 次。這意味著每條軌跡包含約四次 Task Planning 和三次 Spatial Reasoning。此外，Self-Reflection 通常在搜索失敗后出現，每條軌跡平均出現兩次。這些多樣化的思考促進了模型的推理能力。

思考模式之間的轉換：五種思考模式之間的轉移概率如下圖所示。實驗發現它們之間的關系是靈活的，取決于具體情況。通常從 Situation Analysis 開始，隨后是 Task Planning（55%）和 Spatial Reasoning（45%）。在導航到未知區域時，它經常依賴 Spatial Reasoning（Action→S：42%）。如果搜索嘗試失敗，它會轉向 Self-Reflection（Action→R：33%），當（子）任務完成時，它有時會進行 Double Verification（Action→V：3%，S→V：6%）。這種多樣化的結構使模型能夠學習自發思考和靈活適應性。

實驗分析

對比實驗

實驗對比了通用的 VLMs 和近期出現的視覺推理模型，例如 o1、Claude-3.7-sonnet-thinking 等。

從上表的實驗結果來看，Embodied-Reasoner 顯著優于所有推理模型和 VLMs，成功率比 GPT-o1 高出 9.6%，比 GPT-o3-mini 高出 24%，比 Claude-3.7-Sonnet-thinking 高出 13%。它在搜索效率和任務完成度方面也明顯領先，尤其在復雜任務（如復合和運輸任務）上表現更為突出，在復合任務上比第二好的模型 GPT-4o 高出 39.9%。通過三階段訓練（模仿學習、拒絕采樣調優和自我糾正軌跡微調），模型性能從基礎的 14.7% 逐步提升至 80.9%，減少了其他模型常見的重復搜索和不合理規劃問題，展現出更強的深度思考和自我反思能力，盡管規模小于先進推理模型。

分析：深度思考范式如何增強具身搜索任務？

對長序列任務更具魯棒性：Embodied-Reasoner 在處理復雜的長序列決策任務時表現出顯著優勢。實驗結果顯示，當任務所需的關鍵動作數量增加時，基線模型的成功率急劇下降，特別是在任務超過五個動作時。而 Embodied-Reasoner 在大多數復雜情況下仍能保持超過 60% 的成功率，展現出對長序列任務的強大魯棒性。

自發地為復雜任務生成更長的推理鏈：面對復雜任務時，Embodied-Reasoner 會自動生成更深入的思考過程。數據顯示，隨著任務復雜度增加，其輸出 token 從 1,000 增長到 3,500 左右，幾乎是 Gemini-2.0-flash-thinking 的五倍。這種深度思考能力使其能夠規劃更高效的搜索路徑并避免冗余動作，而其他模型如 Gemini-2.0-flash-thinking 則無法通過擴展推理時間來應對更復雜的具身任務。

深度思考減輕了重復搜索行為：實驗引入重復探索率（RER）來衡量模型在軌跡中重復導航到同一區域的頻率。Embodied-Reasoner 和 Explorer 在所有任務類型中都表現出顯著較低的 RER。在復合任務中，Embodied-Explorer 的 RER 僅為 26%，而 GPT-o3-mini 和 Qwen2-VL-72B 分別達到 54% 和 43%。Embodied-Reasoner 通過回憶過去觀察、反思先前探索動作并制定新計劃，增強了時序推理能力，有效減少了重復搜索行為。

真實世界實驗

為了評估 Embodied-Reasoner 的泛化能力，本節設計了一個關于物體搜索的真實世界實驗，涵蓋三個場景中的 30 個任務：6 個廚房任務、12 個浴室任務和 12 個臥室任務。在測試過程中，人類操作員手持攝像機捕捉實時視覺輸入。模型分析每張圖像并生成動作命令，然后由操作員執行這些動作。

上圖展示了一個例子：「你能幫我找到咖啡并加熱它嗎？」Embodied-Reasoner 在兩次探索（步驟 1、2）后排除了臺面和餐桌，最終在櫥柜中找到咖啡（#7）并將其放入微波爐加熱（#11）。然而，實驗觀察到 OpenAI o3-mini 未能制定合理的計劃，先前往微波爐而不是搜索咖啡。此外，它經常忘記搜索并表現出重復搜索行為，這與本章節之前的分析一致。

視頻鏈接：https://mp.weixin.qq.com/s/yO0uylWGF8Mv7T9y1tjDcA

總結

Embodied-Reasoner 的貢獻包括：

一個將深度思考擴展到具身場景的框架，解決了交互式推理的獨特挑戰；
一個數據引擎，合成多樣化的多模態思維鏈，包含交錯的觀察、思考和行動；
一個三階段訓練流程，逐步增強交互、探索和反思能力；
廣泛的評估，相比最先進模型取得了顯著改進，特別是在復雜的長序列交互任務中。

Embodied-Reasoner 已發布于 AGIROS 智能機器人操作系統開源社區。AGIROS 智能機器人操作系統開源社區由中國科學院軟件研究所發起，旨在通過凝聚智能機器人操作系統產學研用各方力量，共同推動智能機器人操作系統技術及生態的發展，全面推進智能機器人領域的開源開放協同創新，為智能機器人產業夯實基礎。

研究團隊來自浙江大學、中科院軟件所、阿里巴巴和中科南京軟件技術研究院，在多模態模型、具身智能體、機器人共用算法框架技術等方面擁有豐富的研究經驗。共同一作為張文祺（浙江大學博士生）與王夢娜（中科院軟件所碩士生），通訊作者為中科院軟件所副研究員李鵬與浙大莊越挺教授。該團隊曾開發了數據分析智能體 Data-Copilot，在 github 上獲得超過 1500 stars, 開發multimodal textbook，首月在huggingface上超過15000次下載。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.