99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek提出通用獎勵模型新方法SPCT,或將應用于R2

0
分享至

此前有消息稱 DeepSeek 或將提前推出原定于在五月份初發布的 R2 模型。消息是否屬實還有待考量,不過在此之前,DeepSeek 剛剛新發布的一項關于推理時縮放的新研究,或許能讓我們窺到 R2 的一角。

當前主流的 AI 模型大多采用了強化學習(Reinforcement Learning,RL),尤其是基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)作為后訓練的核心方法。其核心在于訓練一個獎勵模型(Reward Model, RM)來模擬人類偏好,并指導 LLM 優化。但傳統 RLHF 依賴大量人類標注,成本高昂且擴展性受限,尤其難以處理復雜和主觀性強的任務。因此,構建更強大、更通用的獎勵模型成為突破瓶頸的關鍵。

現有獎勵模型范式,如標量評分(Scalar RM)或成對比較(Pairwise RM),在通用性和靈活性上存在局限。同時,隨著推理時縮放(增加推理計算量)越發成為一個性能提升的重要途徑,如果獎勵模型能在推理時通過更多計算變得更準確,將直接提升 LLM 的對齊效果。

在此背景下,DeepSeek 聯合清華大學的研究團隊,提出了一種名為 DeepSeek-GRM 的通用獎勵模型及其訓練方法 SPCT(Self-Principled Critique Tuning,自我原則化批判調優),旨在解決通用獎勵模型的構建難題,并系統探索利用推理時間縮放提升其性能的潛力。

相關論文以《通用獎勵模型的推理時縮放》(Inference-Time Scaling for Generalist Reward Modeling)為題發表在預印本平臺 arXiv 上。


圖丨相關論文(來源:arXiv)

研究首先關注獎勵模型的結構范式。團隊認為,為了實現通用性和充分利用推理時間縮放的潛力,需要一種更靈活、表達能力更強的范式。他們最終選擇了生成式獎勵建模(Generative Reward Modeling, GRM),并具體采用了逐點式(Pointwise)的評分機制。

Pointwise GRM 的工作方式與傳統 RM 不同。它不直接輸出分數或排序,而是針對輸入的查詢和一組(一個或多個)待評價的回答,生成一段結構化的評價文本。

這段文本通常包含兩個主要部分:首先,模型會根據當前的輸入內容,自適應地生成一系列評價原則,這些原則定義了評價的關注點和標準,有時還會附帶各個原則的相對重要性(權重);其次,模型會基于這些生成的原則,對每一個回答進行詳細的分析和批判,說明其優缺點。最后,通過預設的解析規則,從生成的批判文本中提取出對每個回答的具體評分。


圖丨獎勵生成的不同范式(來源:arXiv)

這種 Pointwise GRM 范式展現出兩大關鍵優勢:一是輸入靈活性。無論是評價單個回答,比較一對回答,還是需要對多個回答進行獨立評分和排序,都可以使用統一的框架和模型進行處理,極大地拓寬了模型的應用范圍。

二是推理時縮放潛力。由于模型的核心行為是生成文本,因此在推理時進行多次采樣變得非常自然且有意義。每次采樣可能產生不同的評價原則側重和批判分析角度。通過綜合這些多樣化的評價結果,有望獲得比單次生成更全面、更魯棒、更精細的最終評分,為利用推理計算提升獎勵質量提供了可能。

選擇了合適的模型范式后,關鍵在于如何有效訓練,使 GRM 具備強大的通用評價能力,并能真正從推理時間縮放中受益。為此,團隊設計了提出了一種名為 SPCT 的學習框架。

SPCT 的核心思想在于,對于通用的評價任務,預先定義一套固定的、普適的評價標準(原則)是非常困難的。更有效的方式是讓模型學會根據具體的輸入(查詢和回答)動態地、自適應地生成最相關的評價原則,并基于這些原則進行準確的批判。這意味著模型需要從被動應用規則,轉變為主動構建評價框架。

研究團隊通過初步實驗驗證了原則的重要性:直接使用模型生成的原則效果有限,但如果提供經過篩選的高質量原則,獎勵模型的準確性會顯著提高。這表明,能否生成“好的原則”是實現高質量獎勵的關鍵。SPCT 的目標就是訓練模型掌握這種生成高質量原則和準確批判的能力。

SPCT的訓練過程包含兩個階段:


圖丨SPCT 的示意圖(來源:arXiv)

第一階段是拒絕式微調(Rejective Fine-Tuning, RFT),作為模型的冷啟動。此階段使用預訓練的 LLM 作為基礎模型。研究人員利用包含查詢、回答和人類偏好標簽的獎勵模型數據集,讓模型嘗試生成“原則+批判”文本并提取評分。

關鍵在于“拒絕式”采樣策略:如果模型生成的評分結果與已知的人類偏好不符(例如,將較差的回答評為更優),則該次生成的訓練數據被視為“不正確”而被拒絕;另一方面,如果對于某個輸入,模型連續多次生成的評分結果都與人類偏好完全一致,這可能表明該任務過于簡單,缺乏足夠的學習信號,這類數據也會被視為“太容易”而被拒絕。

通過這種方式,模型得以專注于學習那些具有挑戰性且能幫助其更好理解人類偏好的樣本,從而快速掌握生成指定格式文本和初步區分回答優劣的能力。此階段還結合了“提示式采樣”(輸入中包含最優答案信息)和“非提示式采樣”,以平衡學習過程。

第二階段是基于規則的在線強化學習(Rule-Based Online RL)。RFT 階段提供了基礎能力,但要讓模型的原則生成和批判能力持續提升,適應更廣泛場景,并為推理時間縮放做好準備,需要在線優化的介入。

在此階段,GRM 模型作為 RL 中的策略,根據實時輸入的查詢和回答,生成原則、批判并提取評分。研究人員設計了一套簡單的準確性規則作為獎勵信號:如果模型給出的評分能夠正確地將最優回答排在首位(與數據集標簽一致),則獲得正獎勵(+1),否則獲得負獎勵(-1)。這個獎勵信號用于更新 GRM 模型的參數。

這個在線過程持續激勵模型去探索和學習如何生成那些能更可靠地區分回答質量的原則和批判邏輯。這種訓練方式旨在內化模型的評價能力,使其在面對新情況時也能做出良好判斷,這對于推理時間縮放的有效性至關重要。研究團隊還發現,通過適當調整 KL 散度懲罰(一種防止模型在優化過程中偏離初始狀態過遠的正則化技術),可以有效保證生成文本格式的穩定性,并避免模型產生不必要的行為偏差。

經過 SPCT 訓練的 DeepSeek-GRM 模型,具備了通過增加推理階段計算量來提升性能的潛力。研究團隊重點研究并實現了兩種推理時間縮放策略:

第一種是基于投票的縮放(Voting with Generated Rewards)。這是一種相對直接的方法。對于給定的查詢和一組待評價的回答,使用訓練好的 DeepSeek-GRM 模型,設置一定的采樣隨機性(例如,temperature > 0),并行地進行 k 次獨立的推理。每次推理都會生成一套可能不同的原則、批判和相應的評分。

最后,將這 k 次推理得到的評分進行聚合。對于 Pointwise 評分,通常的做法是將每個回答在 k 次采樣中獲得的分數相加或取平均,得到最終的綜合評分,具體公式如下:



這種方法的好處在于,它不僅通過聚合多個評價視角來提高結果的魯棒性,而且通過求和等方式,實際上增加了最終獎勵值的范圍和粒度(Granularity),使得模型能夠更好地區分質量相近的回答。為了減少潛在的順序影響,每次采樣前還會對輸入回答的順序進行隨機排列。

第二種是更進一步的元獎勵模型引導的投票(Meta Reward Modeling Guided Voting)。簡單投票假設每次采樣的結果質量相當,但在實際中,部分采樣可能由于隨機性或模型局限而產生較低質量或有偏見的評價。

為了解決這個問題,研究團隊提出訓練一個元獎勵模型(Meta Reward Model, Meta RM)。這個 Meta RM 的作用是評估 DeepSeek-GRM 生成的每一次“原則+批判”輸出的質量或可靠性。Meta RM 本身通常也是一個簡單的獎勵模型(例如標量 RM),它通過學習判斷 GRM 的輸出是否與基準(如人類偏好)一致來進行訓練。

在推理時,首先讓 DeepSeek-GRM 生成 k 份評價結果,然后使用Meta RM對這 k 份結果進行評分,篩選出評分最高的 k_meta (k_meta ≤ k) 份結果,最后只基于這些被認為是高質量的評價結果進行投票聚合。這種方法通過引入一個“質量過濾器”,可以有效地剔除噪聲采樣,使得最終的聚合結果更加準確,從而更充分地發揮推理時間縮放的優勢。

研究團隊在多個主流的獎勵模型評估基準(包括 Reward Bench, PPE, RMB, ReaLMistake)上,對 DeepSeek-GRM 模型(基于不同尺寸的基礎模型)及其推理時間縮放策略進行了全面的實驗評估,并與多種公開的和其他基線方法進行了對比。

實驗結果清晰地展示了該研究方法的有效性:首先,即使在不進行推理時間縮放的基礎設置下,經過 SPCT 訓練的 DeepSeek-GRM 模型在整體性能上已優于同等規模的多種基線獎勵模型,并展現出與一些大型閉源模型相競爭的實力。

其次,SPCT 訓練方法的有效性也得到了證實,相比僅進行 RFT 冷啟動,完整的 SPCT 流程帶來了顯著的性能提升,消融實驗也證實了其關鍵組件(如原則生成、在線 RL)的貢獻。


圖丨不同方法和模型在 RM 基準上的整體結果(來源:arXiv)

再次,DeepSeek-GRM 展現了優秀的推理時間縮放特性,隨著采樣次數 k 的增加,模型性能持續穩定提高,尤其是在 Meta RM 的引導下,提升效果更為明顯。

值得關注的是,實驗數據表明,通過推理時間縮放(例如,在 27B 模型上進行 32 次采樣并使用 Meta RM),其性能提升的幅度有時可以達到甚至超過通過數倍增加模型參數(訓練時間縮放)所帶來的提升,顯示出推理時間縮放在提升獎勵模型質量方面可能具有更高的計算效率。

最后,相比一些偏科嚴重的標量或半標量模型,DeepSeek-GRM 在不同類型任務和評價維度上的表現更為均衡,展現出更好的通用性和更少的領域偏見。

不過,雖然 SPCT 在提升 GRM 的性能和推理時間可擴展性方面取得了顯著成功,但該方法目前也存在一些局限性。

首先,生成式獎勵模型的效率本質上落后于同等規模的標量獎勵模型,這限制了其在在線強化學習管道中的大規模使用。不過,由于他們采用并行采樣進行推理時間擴展,使用合理數量(如 8 個)樣本進行獎勵生成的延遲不會顯著增加。

其次,在特定領域(如可驗證任務)上,DeepSeek-GRM 仍落后于標量模型。這可能是因為標量獎勵模型捕獲了推理查詢和回答的隱藏特征,而 GRM 需要更強的推理能力來全面檢查回答。不過,標量獎勵模型存在嚴重的偏差和可擴展性問題。

研究團隊指出,未來的研究方向包括:工具集成、原則和批評生成范式的分解、在 LLM 離線評估中的應用以及長視野推理的探索。他們相信,具有增強可擴展性和效率的 GRM 可以作為通用獎勵系統的多功能接口,推動 LLM 后訓練和推理的前沿發展。

參考資料:

1. https://arxiv.org/abs/2504.02495

排版:KIK

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普可能會用“非市場原則”,讓美國商品進入中國,證明他贏了

特朗普可能會用“非市場原則”,讓美國商品進入中國,證明他贏了

南生今世說
2025-04-12 12:33:22
剛剛,金價再次暴漲!

剛剛,金價再次暴漲!

連云生活圈
2025-04-10 10:17:02
中方強硬到底!特朗普態度180度轉變:將與北京找到雙贏方案

中方強硬到底!特朗普態度180度轉變:將與北京找到雙贏方案

蘭妮搞笑分享
2025-04-12 09:11:13
伊朗外長率團隊前往阿曼與美國舉行核談判

伊朗外長率團隊前往阿曼與美國舉行核談判

界面新聞
2025-04-12 14:06:16
自己是父母養大,不是國家養大,這是渾蛋邏輯嗎?網友:混賬不如

自己是父母養大,不是國家養大,這是渾蛋邏輯嗎?網友:混賬不如

詩意世界
2025-01-12 10:47:23
科爾:小鄧利維說我們有三個主場比賽去爭取進季后賽 情況還不錯

科爾:小鄧利維說我們有三個主場比賽去爭取進季后賽 情況還不錯

直播吧
2025-04-12 12:50:19
中美關稅戰還在激烈拼殺,特朗普后方有顆雷,馬上就要“炸響”

中美關稅戰還在激烈拼殺,特朗普后方有顆雷,馬上就要“炸響”

小陸搞笑日常
2025-04-12 14:04:28
曝大S雕像效果圖出來了,具俊曄設計精細,把點滴愛意全刻上面!

曝大S雕像效果圖出來了,具俊曄設計精細,把點滴愛意全刻上面!

娛圈小愚
2025-04-11 08:51:42
無法理解!一個不會投籃的后衛,為什么會成非賣品,還被各種追捧

無法理解!一個不會投籃的后衛,為什么會成非賣品,還被各種追捧

球毛鬼胎
2025-04-11 19:22:03
因拒絕發生性行為,51歲女教師被同居11年男友殺害

因拒絕發生性行為,51歲女教師被同居11年男友殺害

行走的知識庫
2025-04-11 09:43:37
快船勇士死磕爭季后賽席位,首輪你更期待湖勇,還是湖狼?

快船勇士死磕爭季后賽席位,首輪你更期待湖勇,還是湖狼?

湖人崛起
2025-04-12 14:18:34
飛機墜河斷成兩截 全機遇難; 載359人波音求救 濃煙嗆人

飛機墜河斷成兩截 全機遇難; 載359人波音求救 濃煙嗆人

北國向錫安
2025-04-12 10:40:07
不出5年,中國貶值最快的不是房子、現金,而是這3樣東西

不出5年,中國貶值最快的不是房子、現金,而是這3樣東西

發姐談房
2025-04-10 16:06:11
無視美財長警告,多國排隊訪華,中美形勢逆轉,特朗普開始求和

無視美財長警告,多國排隊訪華,中美形勢逆轉,特朗普開始求和

影孖看世界
2025-04-11 21:02:42
并列歷史第五!雷霆67勝追平宇宙勇OK湖人 神將10三分杰林三雙

并列歷史第五!雷霆67勝追平宇宙勇OK湖人 神將10三分杰林三雙

醉臥浮生
2025-04-12 11:45:38
87%都攜帶致命寄生蟲!2003年廣州一酒樓買500來只,供顧客食用

87%都攜帶致命寄生蟲!2003年廣州一酒樓買500來只,供顧客食用

萬象硬核本尊
2025-04-11 23:04:30
70歲離異老太慘死,法醫檢測體內男性DNA,竟與老太自己高度吻合

70歲離異老太慘死,法醫檢測體內男性DNA,竟與老太自己高度吻合

蘇大強專欄
2024-03-27 22:12:23
湖人大勝火箭鎖定西部第三,季后賽首輪對手二選一:森林狼或勇士

湖人大勝火箭鎖定西部第三,季后賽首輪對手二選一:森林狼或勇士

姜大叔侃球
2025-04-12 13:12:33
CNN曝出特朗普破防真相,連吃中方幾次閉門羹,8天了都沒打通電話

CNN曝出特朗普破防真相,連吃中方幾次閉門羹,8天了都沒打通電話

時尚界公主
2025-04-11 15:57:24
豪門狂歡夜!AC米蘭造4-0慘案,利物浦雙喜臨門,薩拉赫沖神跡!

豪門狂歡夜!AC米蘭造4-0慘案,利物浦雙喜臨門,薩拉赫沖神跡!

釘釘陌上花開
2025-04-12 04:39:22
2025-04-12 15:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15051文章數 513536關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

媒體:中國元首將應邀訪問越南 不僅是外交方面的事情

頭條要聞

媒體:中國元首將應邀訪問越南 不僅是外交方面的事情

體育要聞

當意甲冠軍跌入意乙降級區 老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態度原創

家居
親子
旅游
本地
健康

家居要聞

浪漫與優雅 不被定義的現代法式

親子要聞

媽媽分享家里的三胞胎,出門總是被誤會是生了三胎。

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

華北將迎“歷史罕見”大風

在中國,到底哪些人在吃“偉哥”?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 独山县| 江门市| 三亚市| 分宜县| 阿坝| 锡林郭勒盟| 石门县| 边坝县| 荣昌县| 绿春县| 天门市| 芦山县| 朝阳市| 林州市| 新巴尔虎左旗| 游戏| 光泽县| 北流市| 大冶市| 武汉市| 吉安市| 什邡市| 乌兰县| 威宁| 盘锦市| 隆尧县| 玉树县| 思茅市| 梧州市| 日照市| 临江市| 阿克| 尼木县| 珠海市| 祁门县| 额济纳旗| 亚东县| 柘城县| 沈阳市| 黄陵县| 新化县|