此前有消息稱 DeepSeek 或將提前推出原定于在五月份初發布的 R2 模型。消息是否屬實還有待考量,不過在此之前,DeepSeek 剛剛新發布的一項關于推理時縮放的新研究,或許能讓我們窺到 R2 的一角。
當前主流的 AI 模型大多采用了強化學習(Reinforcement Learning,RL),尤其是基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)作為后訓練的核心方法。其核心在于訓練一個獎勵模型(Reward Model, RM)來模擬人類偏好,并指導 LLM 優化。但傳統 RLHF 依賴大量人類標注,成本高昂且擴展性受限,尤其難以處理復雜和主觀性強的任務。因此,構建更強大、更通用的獎勵模型成為突破瓶頸的關鍵。
現有獎勵模型范式,如標量評分(Scalar RM)或成對比較(Pairwise RM),在通用性和靈活性上存在局限。同時,隨著推理時縮放(增加推理計算量)越發成為一個性能提升的重要途徑,如果獎勵模型能在推理時通過更多計算變得更準確,將直接提升 LLM 的對齊效果。
在此背景下,DeepSeek 聯合清華大學的研究團隊,提出了一種名為 DeepSeek-GRM 的通用獎勵模型及其訓練方法 SPCT(Self-Principled Critique Tuning,自我原則化批判調優),旨在解決通用獎勵模型的構建難題,并系統探索利用推理時間縮放提升其性能的潛力。
相關論文以《通用獎勵模型的推理時縮放》(Inference-Time Scaling for Generalist Reward Modeling)為題發表在預印本平臺 arXiv 上。
圖丨相關論文(來源:arXiv)
研究首先關注獎勵模型的結構范式。團隊認為,為了實現通用性和充分利用推理時間縮放的潛力,需要一種更靈活、表達能力更強的范式。他們最終選擇了生成式獎勵建模(Generative Reward Modeling, GRM),并具體采用了逐點式(Pointwise)的評分機制。
Pointwise GRM 的工作方式與傳統 RM 不同。它不直接輸出分數或排序,而是針對輸入的查詢和一組(一個或多個)待評價的回答,生成一段結構化的評價文本。
這段文本通常包含兩個主要部分:首先,模型會根據當前的輸入內容,自適應地生成一系列評價原則,這些原則定義了評價的關注點和標準,有時還會附帶各個原則的相對重要性(權重);其次,模型會基于這些生成的原則,對每一個回答進行詳細的分析和批判,說明其優缺點。最后,通過預設的解析規則,從生成的批判文本中提取出對每個回答的具體評分。
圖丨獎勵生成的不同范式(來源:arXiv)
這種 Pointwise GRM 范式展現出兩大關鍵優勢:一是輸入靈活性。無論是評價單個回答,比較一對回答,還是需要對多個回答進行獨立評分和排序,都可以使用統一的框架和模型進行處理,極大地拓寬了模型的應用范圍。
二是推理時縮放潛力。由于模型的核心行為是生成文本,因此在推理時進行多次采樣變得非常自然且有意義。每次采樣可能產生不同的評價原則側重和批判分析角度。通過綜合這些多樣化的評價結果,有望獲得比單次生成更全面、更魯棒、更精細的最終評分,為利用推理計算提升獎勵質量提供了可能。
選擇了合適的模型范式后,關鍵在于如何有效訓練,使 GRM 具備強大的通用評價能力,并能真正從推理時間縮放中受益。為此,團隊設計了提出了一種名為 SPCT 的學習框架。
SPCT 的核心思想在于,對于通用的評價任務,預先定義一套固定的、普適的評價標準(原則)是非常困難的。更有效的方式是讓模型學會根據具體的輸入(查詢和回答)動態地、自適應地生成最相關的評價原則,并基于這些原則進行準確的批判。這意味著模型需要從被動應用規則,轉變為主動構建評價框架。
研究團隊通過初步實驗驗證了原則的重要性:直接使用模型生成的原則效果有限,但如果提供經過篩選的高質量原則,獎勵模型的準確性會顯著提高。這表明,能否生成“好的原則”是實現高質量獎勵的關鍵。SPCT 的目標就是訓練模型掌握這種生成高質量原則和準確批判的能力。
SPCT的訓練過程包含兩個階段:
圖丨SPCT 的示意圖(來源:arXiv)
第一階段是拒絕式微調(Rejective Fine-Tuning, RFT),作為模型的冷啟動。此階段使用預訓練的 LLM 作為基礎模型。研究人員利用包含查詢、回答和人類偏好標簽的獎勵模型數據集,讓模型嘗試生成“原則+批判”文本并提取評分。
關鍵在于“拒絕式”采樣策略:如果模型生成的評分結果與已知的人類偏好不符(例如,將較差的回答評為更優),則該次生成的訓練數據被視為“不正確”而被拒絕;另一方面,如果對于某個輸入,模型連續多次生成的評分結果都與人類偏好完全一致,這可能表明該任務過于簡單,缺乏足夠的學習信號,這類數據也會被視為“太容易”而被拒絕。
通過這種方式,模型得以專注于學習那些具有挑戰性且能幫助其更好理解人類偏好的樣本,從而快速掌握生成指定格式文本和初步區分回答優劣的能力。此階段還結合了“提示式采樣”(輸入中包含最優答案信息)和“非提示式采樣”,以平衡學習過程。
第二階段是基于規則的在線強化學習(Rule-Based Online RL)。RFT 階段提供了基礎能力,但要讓模型的原則生成和批判能力持續提升,適應更廣泛場景,并為推理時間縮放做好準備,需要在線優化的介入。
在此階段,GRM 模型作為 RL 中的策略,根據實時輸入的查詢和回答,生成原則、批判并提取評分。研究人員設計了一套簡單的準確性規則作為獎勵信號:如果模型給出的評分能夠正確地將最優回答排在首位(與數據集標簽一致),則獲得正獎勵(+1),否則獲得負獎勵(-1)。這個獎勵信號用于更新 GRM 模型的參數。
這個在線過程持續激勵模型去探索和學習如何生成那些能更可靠地區分回答質量的原則和批判邏輯。這種訓練方式旨在內化模型的評價能力,使其在面對新情況時也能做出良好判斷,這對于推理時間縮放的有效性至關重要。研究團隊還發現,通過適當調整 KL 散度懲罰(一種防止模型在優化過程中偏離初始狀態過遠的正則化技術),可以有效保證生成文本格式的穩定性,并避免模型產生不必要的行為偏差。
經過 SPCT 訓練的 DeepSeek-GRM 模型,具備了通過增加推理階段計算量來提升性能的潛力。研究團隊重點研究并實現了兩種推理時間縮放策略:
第一種是基于投票的縮放(Voting with Generated Rewards)。這是一種相對直接的方法。對于給定的查詢和一組待評價的回答,使用訓練好的 DeepSeek-GRM 模型,設置一定的采樣隨機性(例如,temperature > 0),并行地進行 k 次獨立的推理。每次推理都會生成一套可能不同的原則、批判和相應的評分。
最后,將這 k 次推理得到的評分進行聚合。對于 Pointwise 評分,通常的做法是將每個回答在 k 次采樣中獲得的分數相加或取平均,得到最終的綜合評分,具體公式如下:
這種方法的好處在于,它不僅通過聚合多個評價視角來提高結果的魯棒性,而且通過求和等方式,實際上增加了最終獎勵值的范圍和粒度(Granularity),使得模型能夠更好地區分質量相近的回答。為了減少潛在的順序影響,每次采樣前還會對輸入回答的順序進行隨機排列。
第二種是更進一步的元獎勵模型引導的投票(Meta Reward Modeling Guided Voting)。簡單投票假設每次采樣的結果質量相當,但在實際中,部分采樣可能由于隨機性或模型局限而產生較低質量或有偏見的評價。
為了解決這個問題,研究團隊提出訓練一個元獎勵模型(Meta Reward Model, Meta RM)。這個 Meta RM 的作用是評估 DeepSeek-GRM 生成的每一次“原則+批判”輸出的質量或可靠性。Meta RM 本身通常也是一個簡單的獎勵模型(例如標量 RM),它通過學習判斷 GRM 的輸出是否與基準(如人類偏好)一致來進行訓練。
在推理時,首先讓 DeepSeek-GRM 生成 k 份評價結果,然后使用Meta RM對這 k 份結果進行評分,篩選出評分最高的 k_meta (k_meta ≤ k) 份結果,最后只基于這些被認為是高質量的評價結果進行投票聚合。這種方法通過引入一個“質量過濾器”,可以有效地剔除噪聲采樣,使得最終的聚合結果更加準確,從而更充分地發揮推理時間縮放的優勢。
研究團隊在多個主流的獎勵模型評估基準(包括 Reward Bench, PPE, RMB, ReaLMistake)上,對 DeepSeek-GRM 模型(基于不同尺寸的基礎模型)及其推理時間縮放策略進行了全面的實驗評估,并與多種公開的和其他基線方法進行了對比。
實驗結果清晰地展示了該研究方法的有效性:首先,即使在不進行推理時間縮放的基礎設置下,經過 SPCT 訓練的 DeepSeek-GRM 模型在整體性能上已優于同等規模的多種基線獎勵模型,并展現出與一些大型閉源模型相競爭的實力。
其次,SPCT 訓練方法的有效性也得到了證實,相比僅進行 RFT 冷啟動,完整的 SPCT 流程帶來了顯著的性能提升,消融實驗也證實了其關鍵組件(如原則生成、在線 RL)的貢獻。
圖丨不同方法和模型在 RM 基準上的整體結果(來源:arXiv)
再次,DeepSeek-GRM 展現了優秀的推理時間縮放特性,隨著采樣次數 k 的增加,模型性能持續穩定提高,尤其是在 Meta RM 的引導下,提升效果更為明顯。
值得關注的是,實驗數據表明,通過推理時間縮放(例如,在 27B 模型上進行 32 次采樣并使用 Meta RM),其性能提升的幅度有時可以達到甚至超過通過數倍增加模型參數(訓練時間縮放)所帶來的提升,顯示出推理時間縮放在提升獎勵模型質量方面可能具有更高的計算效率。
最后,相比一些偏科嚴重的標量或半標量模型,DeepSeek-GRM 在不同類型任務和評價維度上的表現更為均衡,展現出更好的通用性和更少的領域偏見。
不過,雖然 SPCT 在提升 GRM 的性能和推理時間可擴展性方面取得了顯著成功,但該方法目前也存在一些局限性。
首先,生成式獎勵模型的效率本質上落后于同等規模的標量獎勵模型,這限制了其在在線強化學習管道中的大規模使用。不過,由于他們采用并行采樣進行推理時間擴展,使用合理數量(如 8 個)樣本進行獎勵生成的延遲不會顯著增加。
其次,在特定領域(如可驗證任務)上,DeepSeek-GRM 仍落后于標量模型。這可能是因為標量獎勵模型捕獲了推理查詢和回答的隱藏特征,而 GRM 需要更強的推理能力來全面檢查回答。不過,標量獎勵模型存在嚴重的偏差和可擴展性問題。
研究團隊指出,未來的研究方向包括:工具集成、原則和批評生成范式的分解、在 LLM 離線評估中的應用以及長視野推理的探索。他們相信,具有增強可擴展性和效率的 GRM 可以作為通用獎勵系統的多功能接口,推動 LLM 后訓練和推理的前沿發展。
參考資料:
1. https://arxiv.org/abs/2504.02495
排版:KIK
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.