網易首頁 > 網易號 > 正文申請入駐

R2前奏？DeepSeek聯合清華新論文找到強化學習新方法：27B模型“干翻”671B

2025-04-04 18:24:13　來源: AI寒武紀

江蘇舉報

分享至

來自DeepSeek和清華的一篇新研究《通用獎勵模型的推理時擴展》（Inference-Time Scaling for Generalist Reward Modeling）找到強化學習新方法

強化學習（RL）已被廣泛應用于大語言模型（LLM）的大規模訓練后階段。近期，通過強化學習來激勵LLM推理能力的研究表明，恰當的學習方法能夠實現有效的推理時性能擴展（inference-time scalability）。然而，強化學習面臨的一個關鍵挑戰是，如何在那些沒有明確答案或規則的通用領域中，為LLM獲取準確的獎勵信號

在這篇論文中，DeepSeek研究了如何針對通用查詢，通過增加推理計算量來改進獎勵建模（RM）——即實現通用獎勵模型（generalist RM）的推理時可擴展性；并進一步探討了如何通過合適的學習方法，提升性能-計算量擴展（performance-compute scaling）的有效性

在獎勵模型方面，研究人員采用了逐點生成式獎勵建模（pointwise generative reward modeling, GRM），因為它對不同的輸入類型具有靈活性，并具備推理時擴展的潛力。在學習方法上，DeepSeek提出了自洽原則評價微調（Self-Principled Critique Tuning, SPCT）：通過在線強化學習來培養GRM中可擴展的獎勵生成行為，使其能夠自適應地生成評價原則并給出精準的評價，最終形成了DeepSeek-GRM模型

此外，為了實現有效的推理時擴展，使用并行采樣來增加計算量使用，并引入了一個元獎勵模型（meta RM）來指導投票過程，以獲得更好的擴展性能

實驗證明，SPCT顯著提升了GRM的質量和可擴展性，在多個獎勵模型基準測試中表現優于現有方法和模型，且沒有引入嚴重偏見；并且，它能取得比訓練時擴展（training-time scaling，即單純增大模型規模）更好的性能

以下是詳細解讀

DeepSeek的解法：Pointwise GRM + SPCT + Meta RM

他們提出了一套組合拳：

基礎架構：Pointwise Generative Reward Model (GRM)

是什么：這是一種生成式的獎勵模型，它不直接輸出分數，而是生成評價性的文本（Critique），比如“回答1在邏輯上更清晰，但細節不足...最終得分[[8, 6]]分（滿分10）”。分數是從這些文本里提取出來的

為什么選它：因為它天然靈活，既能評判單個回答，也能同時評判多個回答（Pointwise）；而且生成的評價文本本身就有多樣性，為推理時擴展提供了可能

核心訓練方法：Self-Principled Critique Tuning (SPCT)

靈感來源：研究人員發現，如果給獎勵模型提供一些好的評價原則（Principles），比如“評分原則1：邏輯連貫性（權重35%）；原則2：信息完整性（權重20%）...”，獎勵模型的評分質量能顯著提升

SPCT怎么做：這是一種結合了拒絕采樣微調（Rejective Fine-Tuning, RFT）和基于規則的在線強化學習（Rule-based Online RL的方法

?RFT (冷啟動)：先用一些有標注的數據微調GRM，讓它學會生成符合格式的原則和評價，并過濾掉明顯錯誤的評價。
?Online RL (核心)：讓GRM自己實時生成評價原則和對應的評價文本，然后根據預設規則（比如生成的評價結果是否與真實偏好一致）給予獎勵信號，通過RL不斷優化GRM，讓它學會動態地、針對性地生成高質量的原則和準確的評價。這很關鍵，模型不再依賴固定的原則，而是學會了“自己思考該怎么評”

推理時擴展策略：并行采樣 + 投票/Meta RM

并行采樣與投票：推理時，讓GRM對同一個問題和若干回答，并行生成k份不同的“原則+評價+分數”。因為每次生成的原則可能不同，評價角度也不同，最后把這k次評分（比如通過簡單投票或加總）綜合起來，得到一個更魯棒、更精細的最終獎勵。采樣次數k越多，相當于考慮的評價維度越豐富，結果越好

Meta RM (裁判的裁判)：為了解決并行采樣中可能出現的低質量評價干擾結果的問題，他們還訓練了一個元獎勵模型（Meta RM）。這個Meta RM專門用來判斷GRM生成的某一份“原則+評價”的質量高低。在最終投票時，可以用Meta RM篩選掉低質量的評價，或者給高質量的評價更高的權重，進一步提升擴展的效果

效果炸裂：推理擴展 > 訓練擴展？

說了這么多，效果如何？

性能超越：基于Gemma-2-27B訓練的DeepSeek-GRM-27B，在多個RM基準測試上，顯著優于之前的同類方法（包括LLM-as-a-Judge、PairRM等），并且和Nemotron-4-340B、GPT-40這些強大的閉源模型表現相當

推理時擴展性超強：

通過增加采樣次數k，DeepSeek-GRM的性能持續提升，效果遠超其他模型

最驚人的是：在Reward Bench測試集上，DeepSeek-GRM-27B通過推理時擴展（k=32采樣+Meta RM引導投票），其性能竟然可以媲美甚至超過DeepSeek自家訓練的671B MoE模型的零樣本推理性能！這意味著，用增加推理計算量的方式，可以在小模型上達到甚至超越巨大模型的性能，這在成本和效率上意義重大！

偏見更少：相比Scalar或Semi-scalar RM，GRM在不同類型的任務上表現更均衡，偏見更小

SPCT很關鍵：消融實驗證明，SPCT中的原則生成和在線RL部分都至關重要。即使沒有RFT冷啟動，在線RL也能大幅提升性能

給大家用deepseek來個可視化總結

參考：

https://arxiv.org/abs/2504.02495

?星標AI寒武紀，好內容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.