99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

R2前奏?DeepSeek聯合清華新論文找到強化學習新方法:27B模型“干翻”671B

0
分享至


來自DeepSeek和清華的一篇新研究《通用獎勵模型的推理時擴展》(Inference-Time Scaling for Generalist Reward Modeling)找到強化學習新方法


強化學習(RL)已被廣泛應用于大語言模型(LLM)的大規模訓練后階段。近期,通過強化學習來激勵LLM推理能力的研究表明,恰當的學習方法能夠實現有效的推理時性能擴展(inference-time scalability)。然而,強化學習面臨的一個關鍵挑戰是,如何在那些沒有明確答案或規則的通用領域中,為LLM獲取準確的獎勵信號

在這篇論文中,DeepSeek研究了如何針對通用查詢,通過增加推理計算量來改進獎勵建模(RM)——即實現通用獎勵模型(generalist RM)的推理時可擴展性;并進一步探討了如何通過合適的學習方法,提升性能-計算量擴展(performance-compute scaling)的有效性

在獎勵模型方面,研究人員采用了逐點生成式獎勵建模(pointwise generative reward modeling, GRM),因為它對不同的輸入類型具有靈活性,并具備推理時擴展的潛力。在學習方法上,DeepSeek提出了自洽原則評價微調(Self-Principled Critique Tuning, SPCT):通過在線強化學習來培養GRM中可擴展的獎勵生成行為,使其能夠自適應地生成評價原則并給出精準的評價,最終形成了DeepSeek-GRM模型

此外,為了實現有效的推理時擴展,使用并行采樣來增加計算量使用,并引入了一個元獎勵模型(meta RM)來指導投票過程,以獲得更好的擴展性能

實驗證明,SPCT顯著提升了GRM的質量和可擴展性,在多個獎勵模型基準測試中表現優于現有方法和模型,且沒有引入嚴重偏見;并且,它能取得比訓練時擴展(training-time scaling,即單純增大模型規模)更好的性能

以下是詳細解讀

DeepSeek的解法:Pointwise GRM + SPCT + Meta RM

他們提出了一套組合拳:

基礎架構:Pointwise Generative Reward Model (GRM)

是什么:這是一種生成式的獎勵模型,它不直接輸出分數,而是生成評價性的文本(Critique),比如“回答1在邏輯上更清晰,但細節不足...最終得分[[8, 6]]分(滿分10)”。分數是從這些文本里提取出來的


為什么選它:因為它天然靈活,既能評判單個回答,也能同時評判多個回答(Pointwise);而且生成的評價文本本身就有多樣性,為推理時擴展提供了可能

核心訓練方法:Self-Principled Critique Tuning (SPCT)

靈感來源:研究人員發現,如果給獎勵模型提供一些好的評價原則(Principles),比如“評分原則1:邏輯連貫性(權重35%);原則2:信息完整性(權重20%)...”,獎勵模型的評分質量能顯著提升

SPCT怎么做:這是一種結合了拒絕采樣微調(Rejective Fine-Tuning, RFT)和基于規則的在線強化學習(Rule-based Online RL的方法

  • ?RFT (冷啟動):先用一些有標注的數據微調GRM,讓它學會生成符合格式的原則和評價,并過濾掉明顯錯誤的評價。

  • ?Online RL (核心):讓GRM自己實時生成評價原則和對應的評價文本,然后根據預設規則(比如生成的評價結果是否與真實偏好一致)給予獎勵信號,通過RL不斷優化GRM,讓它學會動態地、針對性地生成高質量的原則和準確的評價。這很關鍵,模型不再依賴固定的原則,而是學會了“自己思考該怎么評”

推理時擴展策略:并行采樣 + 投票/Meta RM

并行采樣與投票:推理時,讓GRM對同一個問題和若干回答,并行生成k份不同的“原則+評價+分數”。因為每次生成的原則可能不同,評價角度也不同,最后把這k次評分(比如通過簡單投票或加總)綜合起來,得到一個更魯棒、更精細的最終獎勵。采樣次數k越多,相當于考慮的評價維度越豐富,結果越好

Meta RM (裁判的裁判):為了解決并行采樣中可能出現的低質量評價干擾結果的問題,他們還訓練了一個元獎勵模型(Meta RM)。這個Meta RM專門用來判斷GRM生成的某一份“原則+評價”的質量高低。在最終投票時,可以用Meta RM篩選掉低質量的評價,或者給高質量的評價更高的權重,進一步提升擴展的效果

效果炸裂:推理擴展 > 訓練擴展?

說了這么多,效果如何?

性能超越:基于Gemma-2-27B訓練的DeepSeek-GRM-27B,在多個RM基準測試上,顯著優于之前的同類方法(包括LLM-as-a-Judge、PairRM等),并且和Nemotron-4-340B、GPT-40這些強大的閉源模型表現相當


推理時擴展性超強

通過增加采樣次數k,DeepSeek-GRM的性能持續提升,效果遠超其他模型

最驚人的是:在Reward Bench測試集上,DeepSeek-GRM-27B通過推理時擴展(k=32采樣+Meta RM引導投票),其性能竟然可以媲美甚至超過DeepSeek自家訓練的671B MoE模型的零樣本推理性能!這意味著,用增加推理計算量的方式,可以在小模型上達到甚至超越巨大模型的性能,這在成本和效率上意義重大!


偏見更少:相比Scalar或Semi-scalar RM,GRM在不同類型的任務上表現更均衡,偏見更小

SPCT很關鍵:消融實驗證明,SPCT中的原則生成在線RL部分都至關重要。即使沒有RFT冷啟動,在線RL也能大幅提升性能

給大家用deepseek來個可視化總結


參考:

https://arxiv.org/abs/2504.02495

?星標AI寒武紀,好內容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
玥兒又有新動態!爺爺汪則翰露面,與張蘭避嫌,還差點成大S繼父

玥兒又有新動態!爺爺汪則翰露面,與張蘭避嫌,還差點成大S繼父

蕭佉影視解說
2025-04-27 12:43:54
富士山頂遇險的中國留學生,為撿落下的東西,兩次登山兩次被救

富士山頂遇險的中國留學生,為撿落下的東西,兩次登山兩次被救

東京在線
2025-04-27 23:43:21
博主:山西男籃現在傷兵滿營,三名外援&張寧&原帥等都有傷在身

博主:山西男籃現在傷兵滿營,三名外援&張寧&原帥等都有傷在身

雷速體育
2025-04-27 13:41:07
官宣喜訊,25歲李盈盈終于等到,期待大事解決,父母欣喜

官宣喜訊,25歲李盈盈終于等到,期待大事解決,父母欣喜

樂聊球
2025-04-27 15:01:03
關稅打壓!兩家知名船東宣布暫停航線

關稅打壓!兩家知名船東宣布暫停航線

龍de船人
2025-04-27 21:37:58
醫生出軌4人,致2人懷孕,目前已有身孕7個月,原配出身不簡單

醫生出軌4人,致2人懷孕,目前已有身孕7個月,原配出身不簡單

魔都姐姐雜談
2025-04-27 11:08:52
糖尿病人吃肉是一門重要課程,4種肉堅決不吃,吃肉時注意3點

糖尿病人吃肉是一門重要課程,4種肉堅決不吃,吃肉時注意3點

老張話健康
2025-04-27 23:29:35
楊天真和沙溢證明了一件事,瘦下來后顏值不一定能提升

楊天真和沙溢證明了一件事,瘦下來后顏值不一定能提升

觀察鑒娛
2025-04-27 10:36:04
江蘇安置太一般:奧運冠軍張常寧只做助教!沒編制還是自己意愿?

江蘇安置太一般:奧運冠軍張常寧只做助教!沒編制還是自己意愿?

金毛愛女排
2025-04-28 00:00:03
安徽兩刑警因“刑訊逼供”致人死亡,真相竟然大翻轉

安徽兩刑警因“刑訊逼供”致人死亡,真相竟然大翻轉

午夜故事會
2024-04-03 11:45:10
曾因顏值身高上熱搜,短劇女演員余茵回應被叫“小老太”:我非得是美女嗎?

曾因顏值身高上熱搜,短劇女演員余茵回應被叫“小老太”:我非得是美女嗎?

魯中晨報
2025-04-27 10:28:04
緊張時間,巴基斯坦打通了王毅的電話

緊張時間,巴基斯坦打通了王毅的電話

頭條爆料007
2025-04-27 22:14:56
變陣了&小陣容出戰!下半場雷迪克用電風扇頂替海斯首發

變陣了&小陣容出戰!下半場雷迪克用電風扇頂替海斯首發

直播吧
2025-04-28 05:25:08
教育局通知:中小學生新增一個假期!學生歡呼雀躍,家長卻炸鍋了......

教育局通知:中小學生新增一個假期!學生歡呼雀躍,家長卻炸鍋了......

感覺會火
2025-04-27 12:09:18
給美總統送中國制造,石破茂已走投無路,只能再次向中國這邊靠攏

給美總統送中國制造,石破茂已走投無路,只能再次向中國這邊靠攏

紅色鑒史官
2025-04-26 18:25:02
幾千年沒過的日子,我們這一代人竟然趕上了

幾千年沒過的日子,我們這一代人竟然趕上了

黑噪音
2025-04-21 04:10:35
全美嘩然!FBI逮捕兩名法官,一個協助非法移民逃跑,一個窩藏非法移民黑幫成員

全美嘩然!FBI逮捕兩名法官,一個協助非法移民逃跑,一個窩藏非法移民黑幫成員

大洛杉磯LA
2025-04-27 01:28:48
俄羅斯丟失了一顆關鍵的衛星

俄羅斯丟失了一顆關鍵的衛星

仗劍看世界
2025-04-27 23:30:27
賈平凹 :人老了,躺在病床上才明白,廢掉身體最快速的方式,不是抽煙、喝酒、打麻將,而是這2件事

賈平凹 :人老了,躺在病床上才明白,廢掉身體最快速的方式,不是抽煙、喝酒、打麻將,而是這2件事

感覺會火
2025-02-18 12:12:18
快船掘金大沖突引美國網友熱議:裁判毀了比賽 在主場都不公平

快船掘金大沖突引美國網友熱議:裁判毀了比賽 在主場都不公平

Emily說個球
2025-04-27 07:50:22
2025-04-28 06:23:00
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
649文章數 259關注度
往期回顧 全部

教育要聞

江蘇中考真題,千萬不要硬算!

頭條要聞

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

頭條要聞

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

華表獎獲獎名單!張譯二影帝惠英紅勇影后

財經要聞

2千億!核電開閘 國常會核準10臺新機組

科技要聞

充1秒跑2.5公里,寧德時代比亞迪華為激戰

汽車要聞

蔚來李斌的"十年磨一劍" 從看得見 到看不見

態度原創

藝術
游戲
教育
房產
旅游

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

讓一追二,TES戰勝JDG!網友:TES殺瘋了!

教育要聞

孩子成績上升?或許只是“泡沫”而已

房產要聞

首開2小時熱銷超 200 套!天河芯紅盤憑什么交出樓市滿分答卷?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 龙江县| 顺昌县| 松溪县| 天津市| 宁城县| 邮箱| 靖安县| 蛟河市| 卢氏县| 平乐县| 祥云县| 巴林左旗| 新密市| 竹山县| 常德市| 白山市| 南和县| 乌拉特中旗| 秦皇岛市| 长顺县| 隆子县| 雅江县| 永仁县| 江油市| 桃江县| 阿巴嘎旗| 玉屏| 哈密市| 黑水县| 辉南县| 海丰县| 翁源县| 沙河市| 元谋县| 蚌埠市| 万荣县| 河南省| 晋城| 蒙阴县| 河北区| 崇义县|