網易首頁 > 網易號 > 正文申請入駐

DeepResearcher：交大、SII首個真實環境強化學習AI研究者模型

2025-04-03 18:21:51　來源: 機器之心Pro

北京舉報

分享至

上海交通大學與 SII 聯合發布了 DeepResearcher，代碼訓練框架完全開源。這是首個在真實網絡環境中通過強化學習訓練的 AI 研究模型。

隨著大型語言模型（LLMs）推理能力的飛速發展，OpenAI、Google 和 XAI 等科技巨頭紛紛推出了備受歡迎的 Deep Research 產品。這些工具能幫助用戶整合海量網絡信息，解決復雜問題，大大提升研究效率。

但現有系統存在兩大痛點：一方面，商業產品如 OpenAI 的 Deep Research 完全是 "黑盒"，其技術細節不對外公開；另一方面，開源項目往往依賴人工設計的工作流程，導致行為僵化、泛化能力差，在復雜研究場景中表現脆弱。

DeepResearcher 通過強化學習擴展（RL scaling）在真實網絡環境中訓練，自發形成了令人驚嘆的研究能力。以圖中所示的例子為證：在回答問題時，DeepResearcher 不只是簡單搜索信息，而是展現出人類才有的復雜行為模式 —— 自主規劃研究步驟、動態調整搜索策略、交叉驗證不同來源的信息。

特別值得注意的是，當面對 "誰是電影先驅" 這類開放性問題時，DeepResearcher 不會盲目接受首次搜索結果，而是主動開展第二輪更精確的搜索以驗證信息準確性，確保最終答案的可靠性。這種自發形成的交叉驗證行為，是 AI 真正理解 "研究" 本質的體現！

雖然近期研究嘗試將強化學習與信息檢索結合，但它們大多基于本地知識庫模擬搜索，而非在真實網絡環境中訓練。這就像在 "模擬水池" 里學游泳，而非真正的 "大海" 中歷練。

而 DeepResearcher 嘗試解決這個問題，它直接與實時搜索引擎互動，在真實互聯網的復雜環境中學習研究技能。就像人類研究者一樣，它能自主規劃研究路徑、交叉驗證信息、動態調整策略，甚至在信息不足時坦誠承認限制。

這一開創性工作不僅填補了開源 Deep Research 領域的關鍵空白，也為理解如何培養 AI 的真實研究能力提供了全新視角。

論文標題：DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments
論文地址：https://github.com/GAIR-NLP/DeepResearcher/blob/main/resources/DeepResearcher.pdf
代碼地址：https://github.com/GAIR-NLP/DeepResearcher
模型地址：https://huggingface.co/GAIR/DeepResearcher-7b

結果總結

DeepResearcher 在多個問答數據集上超過所有基線，與基于提示工程的智能體相比，DeepResearcher 在研究任務完成度方面最高可提升 28.9 分。相較于基于 RAG 的強化學習（RL）智能體，DeepResearcher 的提升幅度最高可達 7.2 分。這在知識范圍超出維基百科的 Bamboogle 測試集上尤為明顯。
真實搜索環境的直接交互不僅僅是一個實現細節，而是構建能夠在真實世界應用中高效執行研究任務的自主系統的關鍵組成部分。
再利用真實環境進行強化學習訓練后，模型展示出規劃、反思、交叉驗證等行為，并能保持誠實回答。

一、為什么要在真實環境做端到端 RL scaling

在開發真正有效的深度研究代理時，訓練環境的選擇至關重要。與傳統的基于本地 RAG 的 RL 訓練相比，在真實網絡環境中進行強化學習訓練具有本質上的優勢，這些優勢是任何模擬環境都無法替代的。

真實網絡環境具有高度的不確定性和復雜性

網絡上的信息并非靜態固定的知識庫，而是動態變化的、多樣化的、有時甚至是相互矛盾的內容集合。在這樣的環境中訓練，模型必須學會應對真實世界的挑戰：評估信息的可靠性、處理不完整或過時的數據、從噪聲中提取有價值的信號，以及整合來自不同領域的知識。相比之下，本地 RAG 環境過于 "干凈" 和可控，它假設所有必要信息都已存在于固定知識庫中，這一假設在真實的深度研究場景中幾乎不成立。

真實環境還要求模型發展復雜的信息整合能力。模型需要學習從多個來源收集信息，并通過批判性思維將這些信息合成為連貫的答案。它必須權衡不同信息源的可靠性，識別并解決矛盾的觀點，并以人類可理解的方式呈現結果。這種復雜的信息處理能力只能在面對真實信息源的多樣性和不可預測性時才能真正發展起來。

RL Scaling 是泛化能力的保障

RL Scaling 訓練是確保模型泛化能力的關鍵機制。通過在海量真實網絡查詢中不斷試錯和優化，模型能夠逐步建立起對搜索策略的深刻理解，而非簡單記憶特定查詢 - 響應對。這種理解體現在多個層面：

模型學會了如何根據問題性質構建有效的搜索查詢
它能夠識別哪些搜索結果值得深入探索，哪些可以忽略
在初始搜索失敗時，它能夠調整策略，嘗試不同的關鍵詞或搜索角度
面對復雜問題，它能夠分解為多個子問題并逐一解決

這些能力使得 DeepResearcher 能夠處理訓練中從未見過的問題類型，表現出真正的泛化能力，而非僅依賴于參數化記憶。

端到端訓練讓模型擺脫工作流的桎梏

傳統的提示工程方法通常預設了固定的工作流程：先做 A，再做 B，最后做 C。這種方法在處理標準問題時可能有效，但面對復雜多變的研究任務時往往顯得僵化。通過端到端的 RL 訓練，DeepResearcher 能夠：

自主發現最優的研究路徑，而非遵循預定義的工作流。
根據問題的實際需求靈活調整搜索深度和廣度。
在搜索過程中根據新發現的信息動態調整研究方向。
發展出人類設計者可能未曾預料到的創新性問題解決策略。

這種自主性使 DeepResearcher 能夠應對各種研究場景，包括那些需要高度創造性和適應性的復雜問題。模型不再被限制在設計者的思維框架內，而是能夠探索更廣闊的解決方案空間。

通過在真實網絡環境中進行 RL Scaling 和端到端訓練，DeepResearcher 打破了傳統研究代理的限制，為 AI 輔助研究開辟了新的可能性。

二、如何解決真實環境 RL Scaling 的工程挑戰

在真實網絡環境中進行強化學習面臨許多本地 RAG 環境中不存在的技術挑戰。研究團隊通過創新方法解決了這些問題，確保系統能夠在開放網絡環境中穩定高效地運行。

處理大量并發請求

強化學習訓練過程中，特別是使用 GRPO 算法時，系統需要為每個問題并行生成多個獨立軌跡（在實現中是 16 個），這產生了海量并發請求。單一服務器會被網站反爬措施限流，且這些請求需要實時處理以保證訓練效率。為此，研究團隊設計了分布式 CPU 服務器集群架構，實現了高效的任務分配機制，并建立了請求隊列和負載均衡系統，保證每臺服務器所需要處理的任務量接近。

應對網絡爬取與 API 限制

真實網絡環境中，網站反爬措施、API 限制和網絡延遲是不可避免的挑戰。網站可能在檢測到大量請求時返回無關內容或拒絕響應，而搜索引擎 API 通常有嚴格的頻率限制和使用成本。為解決這些問題，研究團隊實現了智能重試機制，能在遇到臨時故障時自動調整策略；構建了高效的緩存命中系統，相同查詢在一定時間內（如 7 天）直接從緩存獲取結果；同時開發了請求分散策略，動態監控 API 使用情況并調整請求節奏，避免觸發限制的同時控制成本。

多代理框架優化信息提取

網頁內容通常結構復雜且冗長，與查詢相關的信息可能只占很小一部分。為高效提取有價值信息，研究團隊設計了多代理協作框架，讓專門的閱讀代理負責內容提取工作。系統將長網頁分割成可管理的小段，閱讀代理從頁面開始部分順序處理，基于當前查詢和已收集信息動態決定是否繼續讀取。如果前幾部分主要包含無關內容，系統會判斷整個網頁可能不值得深入，從而跳過后續內容。這種漸進式處理方法不僅提高了計算效率，還能更準確地識別和提取相關信息。

三、DeepResearcher 訓練架構

DeepResearcher 的深度研究軌跡

在 DeepResearcher 的推理軌跡中，智能體會根據用戶問題和觀測結果進行迭代推理與工具選擇，在動態的真實世界環境中通過網頁搜索解決問題。

推理（Reasoning）：DeepResearcher 在執行具體動作之前必須先進行推理。每次推理過程都被封裝在
標簽內，遵循 DeepSeek-R1 的設定。
網頁搜索工具（Web Search Tool）：DeepResearcher 通過生成JSON 格式的請求來調用網頁搜索工具。搜索結果以結構化格式返回，每條結果包含標題（title）、URL 和摘要（snippet）。當前實現使用固定的top-k（如 10）作為搜索結果的檢索參數。未來工作可以探索基于 LLM 的動態參數優化以提升搜索效率。
網頁瀏覽智能體（Web Browsing Agent）：網頁瀏覽智能體為 DeepResearcher 系統提供可靠、與問題相關、且可增量更新的信息。具體而言，它對每個查詢維護一個短期記憶庫。當收到網頁瀏覽請求時，智能體首先處理 URL 的第一頁內容，然后基于查詢、歷史記憶和新獲取的網頁內容執行兩種操作：
1. 判斷是否需要繼續讀取下一個 URL / 頁面片段，或者停止瀏覽。
2. 將相關信息追加到短期記憶庫。
當智能體決定停止瀏覽時，它會整理短期記憶庫中的新增信息并將其返回給 DeepResearcher 系統。
回答生成（Answering）：當模型判斷已獲取足夠信息后，它會生成最終答案，并將其封裝在標簽內返回給用戶。

訓練方法

該項目采用強化學習（Reinforcement Learning, RL）訓練智能體。本節概述了具體如何利用 RL 框架進行訓練，以及在其中使用的具體算法和工具。

GRPO 算法

在本研究中，研究團隊采用群體相對策略優化（Group Relative Policy Optimization, GRPO）算法。GRPO 通過利用參考策略以及由現有策略，生成的一組 rollout 來優化當前策略。具體而言，給定 G 個 rollout：

其中，每個輸入 x 服從經驗分布 D（即 x～D），GRPO 使用這些軌跡來估計基準（baseline），而無需單獨訓練一個評論模型（critic）。隨后，通過最大化以下目標函數來優化當前策略：

觀查掩碼（Masking Observations）

工具的輸出是一個觀察結果，而不是期望模型產生的輸出。因此研究團隊還使用掩碼來防止工具的輸出參與訓練，只允許模型的響應對訓練過程做出貢獻。

獎勵函數

使用F1 分數作為獎勵函數，并對格式錯誤的回復處以懲罰。

格式懲罰（Format Penalty）：如果答案格式不正確（例如缺少標簽或存在結構性錯誤），智能體將受到-1的懲罰。
F1 獎勵（F1 Reward）：如果答案格式正確，獎勵將基于詞級別 F1 分數，該指標用于衡量生成答案相對于參考答案的準確性。F1 分數越高，獎勵越高。

四、實驗結果解讀

實驗結果充分證明了 DeepResearcher 的強大性能和泛化能力，同時明確顯示了在真實環境中訓練的關鍵優勢。

卓越的性能與強大的泛化能力

DeepResearcher 在各類評估基準上均表現出色。在訓練領域內的測試中（包括 NQ、TriviaQA、HotpotQA 和 2Wiki 數據集），系統比提示工程 Agent 提高了 28.9 點的性能，比基于 RAG 的 RL Agent 提高了高達 7.2 點。這一結果特別顯著，因為它表明即使在高度競爭的基準測試中，真實環境訓練仍能帶來明顯的性能提升。

更令人印象深刻的是系統在領域外（OOD）數據集上的表現。在MuSiQue、Bamboogle 和 PopQA這三個與訓練數據差異較大的測試集上，DeepResearcher 一致超越所有其他基線方法。這種跨領域的泛化能力證明系統不只是記住了特定分布的問答模式，而是真正學習了通用的研究技能。模型能夠將在一種問題類型上學到的推理和搜索策略遷移到全新的問題領域，這對于實際應用至關重要。

真實環境訓練的決定性優勢

研究團隊的實驗設計特別突顯了真實環境訓練相對于模擬環境的優勢。尤其是在 Bamboogle 測試集上，這個基準特意包含了需要超出維基百科知識范圍的問題。在這一挑戰上，DeepResearcher 顯著優于所有僅使用本地 RAG 的方法。

最具說服力的是其中的對比實驗：即使允許 R1-Searcher（一個在本地 RAG 上訓練的系統）在推理階段訪問真實網絡搜索，它的性能仍然遠低于 DeepResearcher。這一結果清晰地表明，僅僅在推理階段使用真實搜索是不夠的，真正的關鍵在于訓練過程中直接與真實環境互動。

五、RL scaling 后的涌現行為

此外，研究團隊的定性分析揭示了 DeepResearcher 通過端到端的 RL scaling，DeepResearcher 展現出多種非預期的認知能力，這些能力是自然涌現的，而非人工編程設計的結果。在問題求解過程中，DeepResearcher 展現出了初步規劃、跨來源交叉驗證答案、通過反思調整研究方向，以及在無法找到確切答案時保持誠實等能力。這些能力構成了深度研究智能體的重要特征，并反映了人類研究者所重視的核心技能。

1. 規劃能力

DeepResearcher 能夠在開始搜索前先制定初步計劃，確定關鍵子問題和搜索策略，類似人類研究者的工作方法。

2. 交叉驗證行為

系統會自動從多個來源獲取信息并進行交叉驗證，在遇到矛盾信息時，會基于可靠性和一致性進行判斷，大大提高了答案準確性。

3. 反思和調整研究策略

當發現當前搜索路徑無效時，DeepResearcher 能夠反思已獲取的信息，重新調整搜索方向。這種自適應行為使其能夠克服初始搜索策略的局限性。

4. 誠實與透明

當無法找到確切答案時，系統會坦誠表明限制，而不是編造信息。這種誠實行為對于研究代理至關重要。

訓練演化趨勢

實驗還發現了幾個有趣的訓練動態：

性能隨強化學習逐步提升，F1 分數從 0.375 穩步增長到約 0.55。模型在強化學習過程中性能不斷提高，表現出穩步優化的趨勢。
隨著訓練進展，模型處理困難問題時會使用更多推理步驟和工具調用，隨著訓練的進行，不同難度水平下的工具調用次數也在增加。其中，4-hop（四跳問題）在 34 輪訓練后仍保持增長趨勢，這表明模型在處理更復雜問題時，仍在學習如何檢索更多信息以提高推理能力。
所有推理步數設定下，響應長度均呈持續增長趨勢，表明模型在訓練過程中不斷擴展其推理過程。隨著推理復雜度的提高，模型能夠適應性的生成越來越詳細的響應，包括雙重檢查、細化和規劃等高級推理行為。

六、總結與意義

DeepResearcher 代表了 AI 輔助研究的重大突破，首次在真實網絡環境中成功實現大規模強化學習訓練。該研究的意義主要體現在以下幾個方面：

學術貢獻

提出了 DeepResearcher，一種突破性的強化學習擴展方法，使大型語言模型（LLMs）能夠在真實世界的網頁搜索環境中高效運行。與依賴靜態知識庫或受控檢索環境的現有方法不同，DeepResearcher 訓練智能體直接與實時搜索引擎交互，使其能夠應對開放網絡中固有的復雜性和動態變化（如 API 限制、網頁解析、反爬機制）。這種直接接觸動態搜索環境，使 DeepResearcher 在任務完成度和研究能力方面，相較于基于提示工程（prompt-engineered）和基于 RAG 的強化學習方法均實現了顯著提升。并開展了廣泛實驗，證明了真實環境訓練的顯著優勢。
提出了專為真實網絡環境設計的 RL 框架，實現迭代推理、搜索，及多源信息整合。通過采用端到端訓練框架，DeepResearcher 突破了人工設計的固定流程，使智能體能夠自主學習問題求解策略。這種方法不僅克服了真實世界網頁搜索中的獨特挑戰，如網絡延遲和反爬蟲機制，還構建了一種穩健的多智能體架構，提升了智能體從網頁中收集多樣化信息的能力。最終，該系統展現出多種高級認知行為，包括規劃（planning）、交叉驗證（cross-validation）、反思（reflection）和誠實性（honesty），這些能力對于自主研究智能體至關重要。
觀察并分析了系統的涌現行為，為未來研究提供了寶貴見解。DeepResearcher 的成功標志著LLM智能體發展中的重要里程碑。這一方法為構建更具適應性、智能性的系統提供了前景廣闊的路徑，使其能夠解決復雜的開放域問題，并應用于現實世界的各類任務。

實際意義

為構建真正可靠、靈活的深度研究系統提供了新范式。
減少了對人工設計固定工作流的依賴，使系統更具自主性、適應性和探索行為。
展示了在復雜、開放環境中強化學習的潛力，證明在真實環境中擴展強化學習可以大幅提升研究性能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.