網易首頁 > 網易號 > 正文申請入駐

DeepSeek R2來了？全新推理時Scaling論文聯手清華震撼發布！

2025-04-04 17:36:45　來源: 新智元

北京舉報

分享至

新智元報道

編輯：Aeneas 犀牛

【新智元導讀】DeepSeek新論文來了！在清華研究者共同發布的研究中，他們發現了獎勵模型推理時Scaling的全新方法。

DeepSeek R2，果然近了。

最近，DeepSeek和清華的研究者發表的這篇論文，探討了獎勵模型的推理時Scaling方法。

論文地址：

https://arxiv.org/abs/2504.02495

現在，強化學習（RL）已廣泛應用于LLM的大規模后訓練階段。

通過RL激勵LLMs的推理能力表明，采用合適的學習方法，就有望實現有效的推理時可擴展性。

然而，RL面臨的一個關鍵挑戰，就是在可驗證問題或人工規則之外的多種領域中，為LLMs獲得準確的獎勵信號。

是否有可能通過增加推理計算資源，來提升通用查詢場景下獎勵建模（RM）的能力，即通用RM在推理階段的可擴展性呢？

DeepSeek和清華的研究者發現，在RM方法上采用點式生成式獎勵建模（Pointwise Generative Reward Modeling, GRM），就能提升模型對不同輸入類型的靈活適應能力，并具備推理階段可擴展的潛力。

為此，他們提出一種自我原則點評調優（Self-Principled Critique Tuning, SPCT）的學習方法。

通過在線RL訓練促進GRM生成具備可擴展獎勵能力的行為，即能夠自適應生成評判原則并準確生成點評內容，從而得到DeepSeek-GRM模型。

他們提出了DeepSeek-GRM-27B，它是基于Gemma-2-27B經過SPCT后訓練的。

可以發現，SPCT顯著提高了GRM的質量和可擴展性，在多個綜合RM基準測試中優于現有方法和模型。

研究者還比較了DeepSeek-GRM-27B與671B的更大模型的推理時間擴展性能，發現它在模型大小上的訓練時間擴展性能更好。

另外，他們還引入一個元獎勵模型（meta RM）來引導投票過程，以提升擴展性能。

總體來說，研究者的三個貢獻如下。

1.提出了一種新方法——自我原則點評調優（SPCT），用于推動通用獎勵建模在推理階段實現有效的可擴展性，最終構建出DeepSeek-GRM系列模型。同時引入了元獎勵模型（meta RM），進一步提升推理擴展性能。

2.SPCT顯著提升了GRM在獎勵質量和推理擴展性能方面的表現，超過了現有方法及多個強勁的公開模型。

3.將SPCT的訓練流程應用于更大規模的LLM，并發現相比于訓練階段擴大模型參數量，推理階段的擴展策略在性能上更具優勢。

SPCT

受到初步實驗結果的啟發，研究者為點式生成式獎勵模型（pointwise GRM）開發了一種新穎的方法，使其能夠學習生成具有適應性和高質量的原則，以有效指導點評內容的生成。

這一方法被稱為自我原則點評調優（Self-Principled Critique Tuning，SPCT）。

如圖3所示，SPCT包括兩個階段。

1.拒絕式微調（rejective fine-tuning）作為冷啟動階段

2.基于規則的在線強化學習（rule-based online RL），通過提升生成的原則和點評內容來強化通用獎勵的生成過程。

另外，SPCT還可以促進GRM在推理階段的可擴展行為。

將「原則」從理解轉向生成

研究者發現，適當的原則可以在一定標準下引導獎勵生成，這對于生成高質量獎勵至關重要。

然而，在大規模通用獎勵建模中，如何有效生成這些原則仍是一個挑戰。

為此，他們提出將「原則」從一種理解過程解耦出來，轉變為獎勵生成的一部分，也就是說，不再將原則視為預處理步驟，而是納入獎勵生成流程中。

形式化地說，當原則是預定義時，原則可用于引導獎勵生成。

研究者讓GRM自行生成原則，并基于這些原則生成點評內容，形式化表達如下：

其中，p_θ是用于生成原則的函數，由參數θ表示，且與獎勵生成函數r_θ共享同一個模型架構。

這一轉變使原則能夠根據輸入問題及其回答內容進行動態生成，從而使獎勵生成過程更加自適應。

此外，通過對GRM進行后訓練，可進一步提升所生成原則與對應點評內容的質量與細致程度。

當GRM能夠在大規模條件下生成多樣化、高質量的原則時，其輸出的獎勵將更加合理且具備更高的細粒度，而這一能力正是推理階段可擴展性的關鍵所在。

基于規則的強化學習

為了同時優化GRM中的原則與點評內容的生成，研究者提出了SPCT方法，它結合了拒絕式微調（rejective fine-tuning）與基于規則的強化學習（rule-based RL）。

其中，拒絕式微調作為冷啟動階段。

拒絕式微調（Rejective Fine-Tuning，冷啟動）

這一階段的核心思想是讓GRM適應不同輸入類型，并以正確的格式生成原則與點評內容。

與以往工作混合使用單個、成對和多個回答的RM數據并使用不同格式不同，研究者采用了點式GRM（pointwise GRM），以在相同格式下靈活地對任意數量的回答進行獎勵生成。

在數據構建方面，除了通用指令數據外，研究者還從具有不同回答數量的RM數據中采樣預訓練GRM在給定查詢與回答下的軌跡。

對于每個查詢及其對應的回答，研究者執行了N_RFT次采樣。

他們統一了拒絕策略：若模型預測的獎勵與真實獎勵不一致（錯誤），或該組查詢與回答在所有N_RFT次采樣中全部預測正確（太簡單），則拒絕該軌跡。

形式化地，令r_i表示第i個回答y_i對查詢x的真實獎勵，預測得到的點式獎勵

被認為是正確的，當且僅當：

該條件保證真實獎勵中只有一個最大值。

然而，正如以往研究所指出的，預訓練的GRM在有限采樣次數下，往往難以為部分查詢及其回答生成正確的獎勵。

因此，研究者引入了提示式采樣（hinted sampling）：將

作為提示，附加到GRM的提示語中，以期提高預測獎勵與真實獎勵的一致性。

可以發現，與之前的研究不同，提示采樣的軌跡在某些情況下會捷徑式簡化點評生成，特別是在推理任務中。

這表明：在線強化學習對于GRM仍是必要的，并具有潛在優勢。

基于規則的強化學習

在SPCT的第二階段，研究者使用基于規則的在線強化學習對GRM進一步微調。

具體而言，我們采用了GRPO的原始設定，并使用基于規則的結果獎勵（rule-based outcome rewards）。

在rollout過程中，GRM根據輸入查詢與回答生成原則與點評，然后提取預測獎勵并通過準確性規則與真實獎勵進行對比。

與DeepSeek-AI不同的是，研究者不再使用格式獎勵，而是采用更高的KL懲罰系數，以確保輸出格式正確并避免產生嚴重偏差。

形式化地，對于第i個輸出o_i（給定查詢x和回答

），其獎勵定義為

其中，點式獎勵

是從o_i中提取的。

該獎勵函數鼓勵GRM通過在線優化生成的原則與點評內容，正確地區分最優回答，從而提升推理階段的可擴展性。

此外，這種獎勵信號可無縫對接任何偏好數據集與標注的LLM回答。

SPCT的推理時Scaling

為了進一步提升DeepSeek-GRM在生成通用獎勵上的性能，研究團隊探索了如何利用更多的推理計算，通過基于采樣的策略來實現有效的推理時擴展。

通過生成獎勵進行投票

逐點GRM（pointwise GRMs）投票過程被定義為將獎勵求和：

因為S_(i,j)通常被設定在一個小的離散范圍內（比如{1,...,10}），所以投票過程實際上將獎勵空間擴大了k倍，讓GRM能生成大量原則（principles），從而提升最終獎勵的質量和細膩度。

直觀來說，如果把每個原則看作一種判斷視角的代表，那么更多的原則就能更準確地反映真實分布，從而帶來擴展的有效性。

值得一提的是，為了避免位置偏差并增加多樣性，研究人員在采樣前會對回答進行隨機打亂。

元獎勵模型引導投票

DeepSeek-GRM的投票過程需要多次采樣，但由于隨機性或模型本身的局限性，生成的某些原則和評論可能會出現偏見或者質量不高。

因此，研究團隊訓練了一個元獎勵模型（meta RM）來引導投票過程。

這個meta RM是一個逐點標量模型，訓練目標是判斷DeepSeek-GRM生成的原則和評論是否正確。

引導投票的實現很簡單：meta RM為k個采樣獎勵輸出元獎勵（meta rewards），然后從這些獎勵中選出前k_meta（k_meta ≤ k）個高質量的獎勵進行最終投票，從而過濾掉低質量樣本。

獎勵模型結果

不同方法和模型在RM基準測試上的總體結果如表2所示。

結果顯示，DeepSeek-GRM-27B在整體性能上超過了基線方法，并且與一些強大的公開RM（如Nemotron-4-340B-Reward和GPT-4o）表現相當。

如果通過推理時擴展（inference-time scaling），DeepSeek-GRM-27B還能進一步提升，達到最佳整體結果。

不同方法和模型在RM基準測試上的總體結果。下劃線數字表示最佳性能，粗體數字表示基線方法和本文方法中的最佳性能，斜體字表示標量或半標量RM。對于meta RM指導的投票，k_meta = 1/2k

推理時擴展性

不同方法的推理時擴展結果如表3所示，整體趨勢見圖1。

研究人員發現，在最多8個樣本的情況下，DeepSeek-GRM-27B的性能提升最高，超越了貪婪解碼和采樣結果。

隨著推理計算量增加（最多32個樣本），DeepSeek-GRM-27B展現出進一步提升性能的潛力。meta RM也在每個基準測試中證明了其過濾低質量軌跡的有效性。

總之，SPCT提升了GRM的推理時擴展性，而meta RM進一步增強了整體擴展性能。

消融研究

表4展示了所提SPCT不同組件的消融研究結果。

令人驚訝的是，即使沒有使用拒絕采樣的評論數據進行冷啟動，經過在線強化學習（online RL）后，通用指令調整的GRM仍然顯著提升（66.1 → 68.7）。

此外，非提示采樣似乎比提示采樣更重要，可能是因為提示采樣軌跡中出現了捷徑。這表明在線訓練對GRM的重要性。

與之前研究一致，研究團隊確認通用指令數據對GRM性能至關重要。他們發現，原則生成對DeepSeek-GRM-27B的貪婪解碼和推理時擴展性能都至關重要。

在推理時擴展中，meta RM指導的投票在不同k_meta下表現出魯棒性。

推理與訓練成本擴展

研究團隊進一步研究了DeepSeek-GRM-27B在不同規模LLM后訓練下的推理時和訓練時擴展性能。

模型在Reward Bench上測試，結果如圖4所示。

他們發現，使用32個樣本直接投票的DeepSeek-GRM-27B可以達到與671B MoE模型相當的性能，而meta RM指導的投票僅用8個樣本就能取得最佳結果，證明了DeepSeek-GRM-27B在推理時擴展上的有效性，優于單純擴大模型規模。

此外，他們用包含300個樣本的降采樣測試集測試了DeepSeek-R1，發現其性能甚至不如236B MoE RFT模型，這表明延長推理任務的思維鏈并不能顯著提升通用RM的性能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Scaling Law無法無限擴展？科學家揭示低精度訓練的極限

DeepTech深科技 2024-11-13 21:38:25
2 跟貼 2
美國關稅棒打實驗室！儀器耗材、版面費瘋狂漲價，引發囤貨潮，科研人：已成為第一批受害者

生物學霸 2025-04-11 17:58:25
0 跟貼 0

福州大學發表最新Science論文

生物世界 2025-04-11 15:34:01
0 跟貼 0

“天衍”量子計算云平臺訪問量突破2700萬

經濟觀察報 2025-04-11 14:59:02
1 跟貼 1
復旦教授：WTO有缺陷，有人只搶紅包卻不發紅包

ConfusionMax 2025-04-11 06:30:28
8765 跟貼 8765

200B參數擊敗滿血DeepSeek-R1，豆包推理模型Seed-Thinking-v1.5

機器之心Pro 2025-04-11 11:54:20
14 跟貼 14

商湯具身智能大招!最強多模態大模型登場,給機器人裝上大腦和眼睛

智東西 2025-04-11 12:04:27
0 跟貼 0
大模型推理無損加速6.5倍!EAGLE-3碾壓一切、延續Scaling Law能力

機器之心Pro 2025-04-10 11:18:12
3 跟貼 3

首發凝光影像和夜神五攝系統，OPPO發布Find X8 Ultra旗艦新品 | 科技前線

鈦媒體APP 2025-04-11 10:03:23
22 跟貼 22
鴻蒙智行新品發布會定檔4月中旬將推出問界M8和智能眼鏡新品

PConline太平洋科技 2025-04-09 21:13:07
2 跟貼 2
富士一次成像新品相機發布，4月8日套裝預售價999元

南方都市報 2025-04-08 21:25:10
59 跟貼 59
AI看柯南2分鐘揪真兇，商湯600B多模態MoE推理封神！交互記憶全線升級

新智元 2025-04-11 17:46:51
1 跟貼 1
千人見證，正式發布！龍蟠1號API SQ系列新品震撼上市

中國潤滑油信息網 2025-04-11 18:10:33
0 跟貼 0
清華朱令遭2次中毒真實影像，返校一個月再次病倒，頭發全部掉光

全州老謝 2025-04-11 14:44:00
1 跟貼 1
如果高考有象棋這門課就憑這盤棋考不上北大也能弄個清華

陌生模特 2025-04-10 10:15:38
0 跟貼 0
全球首個Linux開發本：50TOPS算力，DeepSeek已配好，可隨地開發

量子位 2025-04-11 20:12:52
10 跟貼 10
清華團隊突破算力難題：4090顯卡跑“滿血版”DeepSeek-R1

每日經濟新聞 2025-02-15 22:40:54
0 跟貼 0
“清華演都不演了”，第2名逆襲成功后遭質疑，背景被網友扒出

熙熙說教 2025-04-11 19:12:13
17 跟貼 17
清華團隊將彈簧圈“變身”軟體機器人，可不依賴傳感器自主避障

DeepTech深科技 2025-04-11 19:15:44
0 跟貼 0
考研清華，筆試斷崖式領先的第一被淘汰，原因曝光，讓人看清現實

蝴蝶花雨話教育 2025-04-11 06:10:34
0 跟貼 0
被舉報逃課，轉專業夢碎！唐尚珺大學還能好好讀嗎｜大象夜讀

大象新聞 2025-04-11 20:10:04
3 跟貼 3
為啥都想讓孩子考清華，打卡清華說出真實感受，聽學霸講考學秘密

四川小志 2025-04-10 10:33:43
0 跟貼 0
DeepSeek談藝 | 龐茂琨：肉身與風景兼具西方實體感與東方含蓄韻

文化視界網 2025-04-11 17:47:08
0 跟貼 0
專家：不用太擔心關稅現在要看的是中美雙方誰扛不住

海外網 2025-04-11 21:21:05
2638 跟貼 2638
商洛市司法局舉辦智慧司法新引擎：DeepSeek助力司法行政數字化轉型應用專題培訓會

西北信息報 2025-04-11 14:57:05
0 跟貼 0
躺平拿證還有官方背書？DeepSeek“考證班”亂象調查

齊魯壹點 2025-04-11 16:00:09
0 跟貼 0
問答環節（日本經歷、職業規劃、天真、推理卡）第一集

獨夫之心 2025-04-10 08:25:46
0 跟貼 0
父親清華母親中三，然后練了個小號，最后全家考慮遷祖墳！

星辰小生活 2025-04-11 15:22:28
0 跟貼 0
清華大學錄取通知書和一個億你怎么選？還得小孩哥

粵語經典歌單 2025-04-10 13:12:52
0 跟貼 0
我真的沒哭就是眼睛吹風了，老師不上清華是因為我不想嗎

麻花娛樂ya 2025-04-10 19:58:07
0 跟貼 0
50天極限上岸清華，毛同學的考研經歷

荔枝新聞 2025-04-09 17:23:54
0 跟貼 0
紅旗到了三河也要變綠！“紅十字綠”被緊急拆除，當地這樣回應

垛垛糖 2025-04-11 13:33:59
5008 跟貼 5008
國外警察實拍，六輛車每一輛敢開過去，真正的規則威懾力！

河馬搞笑君 2025-04-10 14:05:41
1 跟貼 1
助力孫穎莎世界杯奪冠五個策略！馬琳排首位

奇聞空間 2025-04-11 11:28:18
0 跟貼 0
清華教授張小琴：來自“人文清華”的《守望與思索》

人文社會 2025-04-11 09:19:40
0 跟貼 0
因天氣原因，清華、北大暫停周末校園參觀活動

澎湃新聞 2025-04-11 10:02:27
0 跟貼 0
國安新聲清華力量 | 第十個全民國家安全教育日活動一覽

清華國防 2025-04-11 20:49:14
0 跟貼 0
商湯日日新SenseNova V6多模態融合大模型發布

經濟觀察報 2025-04-11 12:17:09
0 跟貼 0
費高云主政合肥，曾長期在江蘇工作

上觀新聞 2025-04-11 20:43:18
749 跟貼 749
京東：將推出2000億出口轉內銷扶持計劃

澎湃新聞 2025-04-11 17:43:07
5346 跟貼 5346

新智元

AI產業主平臺領航智能+時代

12510文章數 66010關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

健康

旅游

家居

手機

手機 / 數碼

房產 / 家居

DeepSeek R2來了？全新推理時Scaling論文聯手清華震撼發布！

單臺年入20萬！首批人形機器人致富者來了

專家：不用太擔心關稅 現在要看的是中美雙方誰扛不住

專家：不用太擔心關稅 現在要看的是中美雙方誰扛不住

球迷天天罵，但我們要進歐冠了

汪小菲馬筱梅婚禮又有了耐人尋味的新聞

造假累計數百億 揭秘東旭集團造假手法

25款風云A8/T9/T10齊上市 多款車型發布一口價

態度原創

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

在中國，到底哪些人在吃“偉哥”？

熱聞|清明假期將至，熱門目的地有哪些?

浪漫與優雅 不被定義的現代法式

iQOO Z10 Turbo系列再次被確認：真機已現身，性能配置也已清晰

專家：不用太擔心關稅現在要看的是中美雙方誰扛不住

專家：不用太擔心關稅現在要看的是中美雙方誰扛不住

造假累計數百億揭秘東旭集團造假手法

25款風云A8/T9/T10齊上市多款車型發布一口價

浪漫與優雅不被定義的現代法式