99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

R2前奏?DeepSeek聯合清華新論文找到強化學習新方法:27B模型“干翻”671B

0
分享至


來自DeepSeek和清華的一篇新研究《通用獎勵模型的推理時擴展》(Inference-Time Scaling for Generalist Reward Modeling)找到強化學習新方法


強化學習(RL)已被廣泛應用于大語言模型(LLM)的大規模訓練后階段。近期,通過強化學習來激勵LLM推理能力的研究表明,恰當的學習方法能夠實現有效的推理時性能擴展(inference-time scalability)。然而,強化學習面臨的一個關鍵挑戰是,如何在那些沒有明確答案或規則的通用領域中,為LLM獲取準確的獎勵信號

在這篇論文中,DeepSeek研究了如何針對通用查詢,通過增加推理計算量來改進獎勵建模(RM)——即實現通用獎勵模型(generalist RM)的推理時可擴展性;并進一步探討了如何通過合適的學習方法,提升性能-計算量擴展(performance-compute scaling)的有效性

在獎勵模型方面,研究人員采用了逐點生成式獎勵建模(pointwise generative reward modeling, GRM),因為它對不同的輸入類型具有靈活性,并具備推理時擴展的潛力。在學習方法上,DeepSeek提出了自洽原則評價微調(Self-Principled Critique Tuning, SPCT):通過在線強化學習來培養GRM中可擴展的獎勵生成行為,使其能夠自適應地生成評價原則并給出精準的評價,最終形成了DeepSeek-GRM模型

此外,為了實現有效的推理時擴展,使用并行采樣來增加計算量使用,并引入了一個元獎勵模型(meta RM)來指導投票過程,以獲得更好的擴展性能

實驗證明,SPCT顯著提升了GRM的質量和可擴展性,在多個獎勵模型基準測試中表現優于現有方法和模型,且沒有引入嚴重偏見;并且,它能取得比訓練時擴展(training-time scaling,即單純增大模型規模)更好的性能

以下是詳細解讀

DeepSeek的解法:Pointwise GRM + SPCT + Meta RM

他們提出了一套組合拳:

基礎架構:Pointwise Generative Reward Model (GRM)

是什么:這是一種生成式的獎勵模型,它不直接輸出分數,而是生成評價性的文本(Critique),比如“回答1在邏輯上更清晰,但細節不足...最終得分[[8, 6]]分(滿分10)”。分數是從這些文本里提取出來的


為什么選它:因為它天然靈活,既能評判單個回答,也能同時評判多個回答(Pointwise);而且生成的評價文本本身就有多樣性,為推理時擴展提供了可能

核心訓練方法:Self-Principled Critique Tuning (SPCT)

靈感來源:研究人員發現,如果給獎勵模型提供一些好的評價原則(Principles),比如“評分原則1:邏輯連貫性(權重35%);原則2:信息完整性(權重20%)...”,獎勵模型的評分質量能顯著提升

SPCT怎么做:這是一種結合了拒絕采樣微調(Rejective Fine-Tuning, RFT)和基于規則的在線強化學習(Rule-based Online RL的方法

  • ?RFT (冷啟動):先用一些有標注的數據微調GRM,讓它學會生成符合格式的原則和評價,并過濾掉明顯錯誤的評價。

  • ?Online RL (核心):讓GRM自己實時生成評價原則和對應的評價文本,然后根據預設規則(比如生成的評價結果是否與真實偏好一致)給予獎勵信號,通過RL不斷優化GRM,讓它學會動態地、針對性地生成高質量的原則和準確的評價。這很關鍵,模型不再依賴固定的原則,而是學會了“自己思考該怎么評”

推理時擴展策略:并行采樣 + 投票/Meta RM

并行采樣與投票:推理時,讓GRM對同一個問題和若干回答,并行生成k份不同的“原則+評價+分數”。因為每次生成的原則可能不同,評價角度也不同,最后把這k次評分(比如通過簡單投票或加總)綜合起來,得到一個更魯棒、更精細的最終獎勵。采樣次數k越多,相當于考慮的評價維度越豐富,結果越好

Meta RM (裁判的裁判):為了解決并行采樣中可能出現的低質量評價干擾結果的問題,他們還訓練了一個元獎勵模型(Meta RM)。這個Meta RM專門用來判斷GRM生成的某一份“原則+評價”的質量高低。在最終投票時,可以用Meta RM篩選掉低質量的評價,或者給高質量的評價更高的權重,進一步提升擴展的效果

效果炸裂:推理擴展 > 訓練擴展?

說了這么多,效果如何?

性能超越:基于Gemma-2-27B訓練的DeepSeek-GRM-27B,在多個RM基準測試上,顯著優于之前的同類方法(包括LLM-as-a-Judge、PairRM等),并且和Nemotron-4-340B、GPT-40這些強大的閉源模型表現相當


推理時擴展性超強

通過增加采樣次數k,DeepSeek-GRM的性能持續提升,效果遠超其他模型

最驚人的是:在Reward Bench測試集上,DeepSeek-GRM-27B通過推理時擴展(k=32采樣+Meta RM引導投票),其性能竟然可以媲美甚至超過DeepSeek自家訓練的671B MoE模型的零樣本推理性能!這意味著,用增加推理計算量的方式,可以在小模型上達到甚至超越巨大模型的性能,這在成本和效率上意義重大!


偏見更少:相比Scalar或Semi-scalar RM,GRM在不同類型的任務上表現更均衡,偏見更小

SPCT很關鍵:消融實驗證明,SPCT中的原則生成在線RL部分都至關重要。即使沒有RFT冷啟動,在線RL也能大幅提升性能

給大家用deepseek來個可視化總結


參考:

https://arxiv.org/abs/2504.02495

?星標AI寒武紀,好內容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
直沖34℃后大降溫!暴雨、雷暴大風、大霧…浙江接下來天氣太復雜!

直沖34℃后大降溫!暴雨、雷暴大風、大霧…浙江接下來天氣太復雜!

FM93浙江交通之聲
2025-04-08 06:25:59
我就不走!尹錫悅為何還不搬出總統府?李在明或將再次辭職

我就不走!尹錫悅為何還不搬出總統府?李在明或將再次辭職

平祥生活日志
2025-04-08 06:19:39
CCTV5直播!中國女足VS泰國隊爭冠,孫雯督戰,贏球=第7次奪冠

CCTV5直播!中國女足VS泰國隊爭冠,孫雯督戰,贏球=第7次奪冠

何老師呀
2025-04-07 23:36:39
屆時C羅42!DeepSeek預測:C羅在2026年底至2027年初達成千球

屆時C羅42!DeepSeek預測:C羅在2026年底至2027年初達成千球

直播吧
2025-04-07 12:40:04
4000萬,加盟火箭!休城撿了大便宜,他將會成為球隊未來的核心

4000萬,加盟火箭!休城撿了大便宜,他將會成為球隊未來的核心

呆哥聊球
2025-04-07 15:59:21
1970年正部級干部主動離休,婉拒組織對其安排:我要回鄉還債

1970年正部級干部主動離休,婉拒組織對其安排:我要回鄉還債

紅色風云
2025-04-07 09:53:24
003航母還沒正式服役呢,江南船廠又給了個大驚喜,一艘...

003航母還沒正式服役呢,江南船廠又給了個大驚喜,一艘...

小宇宙雙色球
2025-04-06 21:02:34
g與π2極為接近,巧合還是必然?

g與π2極為接近,巧合還是必然?

返樸
2025-04-07 11:12:07
記者:CBA本土得分王林葳將參加2025年NBA選秀

記者:CBA本土得分王林葳將參加2025年NBA選秀

懂球帝
2025-04-08 07:49:17
中國被美抓住兩大軟肋,面臨三大危險,有4場戰爭向中國逼近!

中國被美抓住兩大軟肋,面臨三大危險,有4場戰爭向中國逼近!

人間六月天
2024-02-21 13:49:33
“史上最強”靶向藥登場! 70%肺癌患者近乎臨床治愈,五年不進展

“史上最強”靶向藥登場! 70%肺癌患者近乎臨床治愈,五年不進展

史小紀
2025-04-06 11:16:22
李嘉誠兒子為她癡迷,林丹為她背叛孕妻,這位世界小姐到底憑什么

李嘉誠兒子為她癡迷,林丹為她背叛孕妻,這位世界小姐到底憑什么

葡萄說娛
2025-04-08 11:25:42
人才啊!房子賣掉買黃金:黃金將來能漲到3000元每克.....

人才啊!房子賣掉買黃金:黃金將來能漲到3000元每克.....

小人物看盡人間百態
2025-04-06 21:45:43
1-1后!意甲爭冠前景:那不勒斯差國米3分,后7場全勝或有望逆轉

1-1后!意甲爭冠前景:那不勒斯差國米3分,后7場全勝或有望逆轉

體育知多少
2025-04-08 07:26:14
《碟中諜8》發布正式預告:阿湯哥開航空母艦

《碟中諜8》發布正式預告:阿湯哥開航空母艦

TVB的四小花
2025-04-08 00:31:02
瓜迪奧拉:努內斯不適合踢中場,他不夠聰明和沉著冷靜

瓜迪奧拉:努內斯不適合踢中場,他不夠聰明和沉著冷靜

雷速體育
2025-04-07 17:40:10
難怪美國對我們下“死手”,德國媒體一針見血,中國做了什么?

難怪美國對我們下“死手”,德國媒體一針見血,中國做了什么?

月凌渡
2025-03-18 16:08:56
想回頭也難了!寧愿“自毀前程”也要取悅美國,中國決定撤離援助

想回頭也難了!寧愿“自毀前程”也要取悅美國,中國決定撤離援助

科學知識點秀
2025-04-05 08:20:05
4 月星運大爆發!4 大生肖存款狂飆,福運亨通,財富一路綠燈

4 月星運大爆發!4 大生肖存款狂飆,福運亨通,財富一路綠燈

老六師傅
2025-04-07 21:00:37
馬龍:國王灰熊都在拼 火箭的情況也不好說 最后3場我們必須拼命

馬龍:國王灰熊都在拼 火箭的情況也不好說 最后3場我們必須拼命

直播吧
2025-04-07 15:20:03
2025-04-08 12:19:00
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
617文章數 254關注度
往期回顧 全部

教育要聞

特別優秀可超50歲,長江大學這個學院面向全球招聘院長!

頭條要聞

美方威脅進一步對華加征50%關稅 商務部回應

頭條要聞

美方威脅進一步對華加征50%關稅 商務部回應

體育要聞

極限一穿四,他把韓國主場打到靜音

娛樂要聞

尷尬!甲亢哥想聯動大張偉,卻被迫錄節目

財經要聞

"中國版平準基金"橫空出世 央行表態

科技要聞

特朗普堅持征收關稅 周一美科技股劇烈震蕩

汽車要聞

一季度車企銷量:下沉與上行,覺醒與迷惘

態度原創

本地
時尚
家居
手機
公開課

本地新聞

我在新昌當女主|大佛寺氛圍感拉滿 古偶頂流機位GET

別再披頭散發了!今春流行“奶奶發飾”,好看巨顯臉小

家居要聞

現代風格 年輕簡約

手機要聞

華為 Vision 智慧屏 5 開啟預售:首次升級鴻蒙 AI,小藝大模型

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 清河县| 宁国市| 屏南县| 平武县| 昌吉市| 峨边| 大丰市| 泰兴市| 宝清县| 阿拉善盟| 徐闻县| 勐海县| 苍梧县| 卫辉市| 阜阳市| 兴城市| 治多县| 北海市| 侯马市| 静宁县| 临澧县| 同江市| 哈密市| 安宁市| 于都县| 偏关县| 谢通门县| 会东县| 连城县| 靖州| 平南县| 沧州市| 江门市| 长春市| 临湘市| 澳门| 和政县| 平果县| 红桥区| 洛阳市| 隆德县|