網易首頁 > 網易號 > 正文申請入駐

清華黃高團隊：強化學習無法誘發新的推理能力？｜今日熱門論文

2025-04-21 20:25:37　來源: 學術頭條

北京舉報

分享至

速覽熱門論文

1. 清華黃高團隊：強化學習無法誘發新的推理能力

2. NodeRAG：利用異構節點構建基于圖形的 RAG

3. 睡眠時計算：有效降低測試時計算要求

4. Meta 提出“感知編碼器”，圖像視頻理解 SOTA

5. 不要蒸餾！CMU 團隊提出「反蒸餾采樣」

6. WORLDMEM：利用記憶庫增強世界模擬

7. 利用「專家失敗」提高 agent 微調性能

1. 清華黃高團隊：強化學習無法誘發新的推理能力

研究表明，基于可驗證獎勵的強化學習（RLVR）有望提升大語言模型（LLM）在數學與編程任務中的推理能力。普遍觀點認為，RLVR 能夠推動模型持續自我優化，從而習得超出其基礎模型能力的新型推理能力。

然而，清華大學自動化系黃高副教授團隊對此提出了重新審視。他們通過在更大 k 值下測量 pass@k 指標，對該假設進行了系統評估，旨在探究不同模型系列與基準下的推理能力上限。

令人意外的是，RLVR 并未顯著引入全新的推理模式。雖然在較小的 k 值（如 k=1）下，RL 訓練模型在性能上優于其基礎模型，但在更高的 k 值下，基礎模型卻能取得與 RL 模型相當甚至更優的 pass@k 分數。此外，RL 模型生成的大多數推理路徑實際上已包含在基礎模型的采樣分布中，這表明 RL 模型的推理表現主要源自對基礎模型能力的重加權，而非學習到新的能力。

進一步分析顯示，RL 訓練通過調整模型的輸出分布，使其更傾向于采樣能獲得獎勵的路徑，從而提升生成正確答案的概率。這一機制在提高效率的同時，也導致模型在推理空間中的覆蓋范圍變窄。相似現象亦在 RLVR 訓練的視覺推理任務中得以觀察。

此外，研究還指出，相較于 RLVR，“知識蒸餾”（distillation）更有可能真正向模型注入新的知識，從而拓展其推理能力邊界。

這些發現凸顯了 RLVR 在提升 LLM 推理能力方面的局限性，促使我們必須從更根本的層面重新審視強化學習在推理能力塑造中的作用，并思考是否亟需更優的訓練范式。

論文鏈接：https://arxiv.org/abs/2504.13837

2. NodeRAG：利用異構節點構建基于圖形的 RAG

檢索增強生成（RAG）使大語言模型（LLM）能夠訪問外部和私人語料庫，從而在特定領域做出與事實一致的響應。通過利用語料庫的固有結構，基于圖的 RAG 方法通過建立知識圖索引和利用圖的結構特性，進一步豐富了這一過程。然而，目前基于圖的 RAG 方法很少優先考慮圖結構的設計。設計不當的圖不僅會阻礙各種圖算法的集成，還會導致工作流程不一致和性能下降。

為了進一步釋放圖在 RAG 中的潛力，來自哥倫比亞大學、賓夕法尼亞大學和里海大學的研究團隊提出了 NodeRAG，這是一個以圖為中心的框架，引入了異構圖結構，可以將基于圖的方法無縫、整體地集成到 RAG 工作流中。通過與 LLM 的能力緊密結合，該框架可確保端到端流程的充分內聚和高效。

實驗證明，NodeRAG 與 GraphRAG 和 LightRAG 等以前的方法相比，不僅在索引時間、查詢時間和存儲效率方面具有性能優勢，而且在多跳基準和使用最少檢索 token 的開放式頭對頭評估中提供了更強的問題解答性能。

論文鏈接：https://arxiv.org/abs/2504.11544

3. 睡眠時計算：有效降低測試時計算要求

擴展測試時計算已成為大語言模型（LLM）解決棘手問題的關鍵要素，但同時也帶來了高延遲和高推理成本。

在這項工作中，來自 Letta 和加州大學伯克利分校的研究團隊提出了睡眠時計算（sleep-time compute），它允許模型在提出查詢之前離線“思考”上下文：通過預測用戶可能提出的查詢并預先計算有用的數量，有效降低測試時的計算要求。

為了證明這一法的有效性，他們創建了兩個推理任務的修改版本——Stateful GSM-Symbolic 和 Stateful AIME。他們發現，在這兩個任務上，睡眠時計算可以將達到相同準確度所需的測試時計算量減少約 5 倍；通過調整睡眠時計算的規模，他們可以進一步提高這個兩個任務的準確度，分別提高 13% 和 18%。

他們還提出了 Multi-Query GSM-Symbolic，通過在每個上下文中包含多個相關查詢來擴展 GSM-Symbolic。通過使用 Multi-Query GSM-Symbolic，在同一上下文的相關查詢中分攤睡眠時計算，他們可以將每次查詢的平均成本降低 2.5 倍。

此外，他們還進行了其他分析，以了解睡眠時計算何時更有效，結果發現用戶查詢的可預測性與睡眠時計算的有效性密切相關。最后，他們進行了一項案例研究，將睡眠時計算應用到現實的代理 SWE 任務中。

論文鏈接：https://arxiv.org/abs/2504.13171

4. Meta 提出“感知編碼器”，圖像視頻理解 SOTA

在這項工作中，Meta 團隊提出了感知編碼器（PE），這是一種通過簡單的視覺語言學習訓練出來的 SOTA 圖像和視頻理解編碼器。

傳統上，視覺編碼器依賴于各種預訓練目標，每個目標都是為特定的下游任務（如分類、字幕或定位）定制的。令人驚訝的是，在擴大精心調整的圖像預訓練方案并使用視頻數據引擎進行改進后，他們發現，僅憑視覺語言對比訓練就能為所有這些下游任務生成強大、通用的嵌入。唯一需要注意的是：這些嵌入都隱藏在網絡的中間層中。為了將它們提取出來，他們提出了兩種對齊方法，一種是用于多模態語言建模的語言對齊，另一種是用于密集預測的空間對齊。

連同核心對比檢查點，PE 模型系列在各種任務中都取得了 SOTA，包括零樣本圖像和視頻分類與檢索；文檔、圖像和視頻問答；以及檢測、深度估計和跟蹤等空間任務。

論文鏈接：https://arxiv.org/abs/2504.13181

5. 不要蒸餾！CMU 團隊提出「反蒸餾采樣」

模型在生成擴展推理軌跡的同時，會無意中產生豐富的 token 序列，從而促進模型的蒸餾。認識到這一點后，模型所有者可能會尋求既能限制提煉效果又不影響模型性能的采樣策略。

在這項工作中，卡內基梅隆大學團隊提出了“反蒸餾采樣”（Antidistillation Sampling），通過策略性地修改模型的下一個 token 概率分布，這一方法可以毒化推理軌跡，使其蒸餾效果降低，同時保留模型的實用性。

論文鏈接：https://arxiv.org/abs/2504.13146

6. WORLDMEM：利用記憶庫增強世界模擬

世界模擬因其能夠模擬虛擬環境和預測行動后果而越來越受歡迎。然而，有限的時間上下文窗口往往導致無法保持長期一致性，特別是在保持三維空間一致性方面。

在這項工作中，南洋理工大學 S-Lab 團隊提出了 WorldMem，這是一個利用由存儲記憶幀和狀態（如姿勢和時間戳）的記憶單元組成的記憶庫來增強場景生成的框架。這一方法采用了一種記憶注意力機制，可以根據記憶幀的狀態有效提取其中的相關信息，因此即使在視角或時間存在明顯偏差的情況下，也能準確重建之前觀察到的場景。

此外，通過在狀態中加入時間戳，這一框架不僅能模擬靜態世界，還能捕捉其隨時間的動態演變，從而在模擬世界中實現感知和互動。在虛擬和真實場景中進行的實驗，驗證了這一方法的有效性。

論文鏈接：https://arxiv.org/abs/2504.12369

7. 利用「專家失敗」提高 agent 微調性能

大語言模型（LLM）已顯示出作為 agent 的巨大潛力，在需要多輪推理和互動的任務中表現出色。拒絕采樣微調（RFT）已成為將 LLM 微調為 agent 的有效方法：它首先模仿專家生成的成功軌跡，然后通過對成功的、自我生成的軌跡進行迭代微調，進一步提高 agent 技能。然而，由于專家（如 GPT-4）主要在較簡單的子任務上取得成功，而 RFT 本身偏向于較簡單的場景，因此許多復雜的子任務仍未解決，長期處于分布外（OOD）狀態。

在研究這些具有挑戰性的子任務時，來自加州大學洛杉磯分校的研究團隊及其合作者發現，之前失敗的專家軌跡往往能提供有價值的指導，例如計劃和關鍵行動，從而顯著提高 agent 的探索效率并獲得關鍵技能。受這些觀察結果的啟發，他們提出了“探索專家失敗”（EEF），它能從失敗的專家軌跡中識別出有益的行動，并將其整合到訓練數據集中。潛在的有害行為會被仔細排除，以防止模型學習過程受到污染。通過利用專家失敗中的有利行動，EEF 成功解決了一些以前無法解決的子任務，并提高了 agent 微調性能。

值得注意的是，這一方法在 WebShop 中的勝率達到了 62%，超過了 RFT（53. 6%）和 GPT-4（35.6%）。

論文鏈接：https://arxiv.org/abs/2504.13145

整理：學術君

如需轉載或投稿，請直接在公眾號內留言

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.