99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek提出通用獎勵模型新方法SPCT,或將應用于R2

0
分享至

此前有消息稱 DeepSeek 或將提前推出原定于在五月份初發布的 R2 模型。消息是否屬實還有待考量,不過在此之前,DeepSeek 剛剛新發布的一項關于推理時縮放的新研究,或許能讓我們窺到 R2 的一角。

當前主流的 AI 模型大多采用了強化學習(Reinforcement Learning,RL),尤其是基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)作為后訓練的核心方法。其核心在于訓練一個獎勵模型(Reward Model, RM)來模擬人類偏好,并指導 LLM 優化。但傳統 RLHF 依賴大量人類標注,成本高昂且擴展性受限,尤其難以處理復雜和主觀性強的任務。因此,構建更強大、更通用的獎勵模型成為突破瓶頸的關鍵。

現有獎勵模型范式,如標量評分(Scalar RM)或成對比較(Pairwise RM),在通用性和靈活性上存在局限。同時,隨著推理時縮放(增加推理計算量)越發成為一個性能提升的重要途徑,如果獎勵模型能在推理時通過更多計算變得更準確,將直接提升 LLM 的對齊效果。

在此背景下,DeepSeek 聯合清華大學的研究團隊,提出了一種名為 DeepSeek-GRM 的通用獎勵模型及其訓練方法 SPCT(Self-Principled Critique Tuning,自我原則化批判調優),旨在解決通用獎勵模型的構建難題,并系統探索利用推理時間縮放提升其性能的潛力。

相關論文以《通用獎勵模型的推理時縮放》(Inference-Time Scaling for Generalist Reward Modeling)為題發表在預印本平臺 arXiv 上。


圖丨相關論文(來源:arXiv)

研究首先關注獎勵模型的結構范式。團隊認為,為了實現通用性和充分利用推理時間縮放的潛力,需要一種更靈活、表達能力更強的范式。他們最終選擇了生成式獎勵建模(Generative Reward Modeling, GRM),并具體采用了逐點式(Pointwise)的評分機制。

Pointwise GRM 的工作方式與傳統 RM 不同。它不直接輸出分數或排序,而是針對輸入的查詢和一組(一個或多個)待評價的回答,生成一段結構化的評價文本。

這段文本通常包含兩個主要部分:首先,模型會根據當前的輸入內容,自適應地生成一系列評價原則,這些原則定義了評價的關注點和標準,有時還會附帶各個原則的相對重要性(權重);其次,模型會基于這些生成的原則,對每一個回答進行詳細的分析和批判,說明其優缺點。最后,通過預設的解析規則,從生成的批判文本中提取出對每個回答的具體評分。


圖丨獎勵生成的不同范式(來源:arXiv)

這種 Pointwise GRM 范式展現出兩大關鍵優勢:一是輸入靈活性。無論是評價單個回答,比較一對回答,還是需要對多個回答進行獨立評分和排序,都可以使用統一的框架和模型進行處理,極大地拓寬了模型的應用范圍。

二是推理時縮放潛力。由于模型的核心行為是生成文本,因此在推理時進行多次采樣變得非常自然且有意義。每次采樣可能產生不同的評價原則側重和批判分析角度。通過綜合這些多樣化的評價結果,有望獲得比單次生成更全面、更魯棒、更精細的最終評分,為利用推理計算提升獎勵質量提供了可能。

選擇了合適的模型范式后,關鍵在于如何有效訓練,使 GRM 具備強大的通用評價能力,并能真正從推理時間縮放中受益。為此,團隊設計了提出了一種名為 SPCT 的學習框架。

SPCT 的核心思想在于,對于通用的評價任務,預先定義一套固定的、普適的評價標準(原則)是非常困難的。更有效的方式是讓模型學會根據具體的輸入(查詢和回答)動態地、自適應地生成最相關的評價原則,并基于這些原則進行準確的批判。這意味著模型需要從被動應用規則,轉變為主動構建評價框架。

研究團隊通過初步實驗驗證了原則的重要性:直接使用模型生成的原則效果有限,但如果提供經過篩選的高質量原則,獎勵模型的準確性會顯著提高。這表明,能否生成“好的原則”是實現高質量獎勵的關鍵。SPCT 的目標就是訓練模型掌握這種生成高質量原則和準確批判的能力。

SPCT的訓練過程包含兩個階段:


圖丨SPCT 的示意圖(來源:arXiv)

第一階段是拒絕式微調(Rejective Fine-Tuning, RFT),作為模型的冷啟動。此階段使用預訓練的 LLM 作為基礎模型。研究人員利用包含查詢、回答和人類偏好標簽的獎勵模型數據集,讓模型嘗試生成“原則+批判”文本并提取評分。

關鍵在于“拒絕式”采樣策略:如果模型生成的評分結果與已知的人類偏好不符(例如,將較差的回答評為更優),則該次生成的訓練數據被視為“不正確”而被拒絕;另一方面,如果對于某個輸入,模型連續多次生成的評分結果都與人類偏好完全一致,這可能表明該任務過于簡單,缺乏足夠的學習信號,這類數據也會被視為“太容易”而被拒絕。

通過這種方式,模型得以專注于學習那些具有挑戰性且能幫助其更好理解人類偏好的樣本,從而快速掌握生成指定格式文本和初步區分回答優劣的能力。此階段還結合了“提示式采樣”(輸入中包含最優答案信息)和“非提示式采樣”,以平衡學習過程。

第二階段是基于規則的在線強化學習(Rule-Based Online RL)。RFT 階段提供了基礎能力,但要讓模型的原則生成和批判能力持續提升,適應更廣泛場景,并為推理時間縮放做好準備,需要在線優化的介入。

在此階段,GRM 模型作為 RL 中的策略,根據實時輸入的查詢和回答,生成原則、批判并提取評分。研究人員設計了一套簡單的準確性規則作為獎勵信號:如果模型給出的評分能夠正確地將最優回答排在首位(與數據集標簽一致),則獲得正獎勵(+1),否則獲得負獎勵(-1)。這個獎勵信號用于更新 GRM 模型的參數。

這個在線過程持續激勵模型去探索和學習如何生成那些能更可靠地區分回答質量的原則和批判邏輯。這種訓練方式旨在內化模型的評價能力,使其在面對新情況時也能做出良好判斷,這對于推理時間縮放的有效性至關重要。研究團隊還發現,通過適當調整 KL 散度懲罰(一種防止模型在優化過程中偏離初始狀態過遠的正則化技術),可以有效保證生成文本格式的穩定性,并避免模型產生不必要的行為偏差。

經過 SPCT 訓練的 DeepSeek-GRM 模型,具備了通過增加推理階段計算量來提升性能的潛力。研究團隊重點研究并實現了兩種推理時間縮放策略:

第一種是基于投票的縮放(Voting with Generated Rewards)。這是一種相對直接的方法。對于給定的查詢和一組待評價的回答,使用訓練好的 DeepSeek-GRM 模型,設置一定的采樣隨機性(例如,temperature > 0),并行地進行 k 次獨立的推理。每次推理都會生成一套可能不同的原則、批判和相應的評分。

最后,將這 k 次推理得到的評分進行聚合。對于 Pointwise 評分,通常的做法是將每個回答在 k 次采樣中獲得的分數相加或取平均,得到最終的綜合評分,具體公式如下:



這種方法的好處在于,它不僅通過聚合多個評價視角來提高結果的魯棒性,而且通過求和等方式,實際上增加了最終獎勵值的范圍和粒度(Granularity),使得模型能夠更好地區分質量相近的回答。為了減少潛在的順序影響,每次采樣前還會對輸入回答的順序進行隨機排列。

第二種是更進一步的元獎勵模型引導的投票(Meta Reward Modeling Guided Voting)。簡單投票假設每次采樣的結果質量相當,但在實際中,部分采樣可能由于隨機性或模型局限而產生較低質量或有偏見的評價。

為了解決這個問題,研究團隊提出訓練一個元獎勵模型(Meta Reward Model, Meta RM)。這個 Meta RM 的作用是評估 DeepSeek-GRM 生成的每一次“原則+批判”輸出的質量或可靠性。Meta RM 本身通常也是一個簡單的獎勵模型(例如標量 RM),它通過學習判斷 GRM 的輸出是否與基準(如人類偏好)一致來進行訓練。

在推理時,首先讓 DeepSeek-GRM 生成 k 份評價結果,然后使用Meta RM對這 k 份結果進行評分,篩選出評分最高的 k_meta (k_meta ≤ k) 份結果,最后只基于這些被認為是高質量的評價結果進行投票聚合。這種方法通過引入一個“質量過濾器”,可以有效地剔除噪聲采樣,使得最終的聚合結果更加準確,從而更充分地發揮推理時間縮放的優勢。

研究團隊在多個主流的獎勵模型評估基準(包括 Reward Bench, PPE, RMB, ReaLMistake)上,對 DeepSeek-GRM 模型(基于不同尺寸的基礎模型)及其推理時間縮放策略進行了全面的實驗評估,并與多種公開的和其他基線方法進行了對比。

實驗結果清晰地展示了該研究方法的有效性:首先,即使在不進行推理時間縮放的基礎設置下,經過 SPCT 訓練的 DeepSeek-GRM 模型在整體性能上已優于同等規模的多種基線獎勵模型,并展現出與一些大型閉源模型相競爭的實力。

其次,SPCT 訓練方法的有效性也得到了證實,相比僅進行 RFT 冷啟動,完整的 SPCT 流程帶來了顯著的性能提升,消融實驗也證實了其關鍵組件(如原則生成、在線 RL)的貢獻。


圖丨不同方法和模型在 RM 基準上的整體結果(來源:arXiv)

再次,DeepSeek-GRM 展現了優秀的推理時間縮放特性,隨著采樣次數 k 的增加,模型性能持續穩定提高,尤其是在 Meta RM 的引導下,提升效果更為明顯。

值得關注的是,實驗數據表明,通過推理時間縮放(例如,在 27B 模型上進行 32 次采樣并使用 Meta RM),其性能提升的幅度有時可以達到甚至超過通過數倍增加模型參數(訓練時間縮放)所帶來的提升,顯示出推理時間縮放在提升獎勵模型質量方面可能具有更高的計算效率。

最后,相比一些偏科嚴重的標量或半標量模型,DeepSeek-GRM 在不同類型任務和評價維度上的表現更為均衡,展現出更好的通用性和更少的領域偏見。

不過,雖然 SPCT 在提升 GRM 的性能和推理時間可擴展性方面取得了顯著成功,但該方法目前也存在一些局限性。

首先,生成式獎勵模型的效率本質上落后于同等規模的標量獎勵模型,這限制了其在在線強化學習管道中的大規模使用。不過,由于他們采用并行采樣進行推理時間擴展,使用合理數量(如 8 個)樣本進行獎勵生成的延遲不會顯著增加。

其次,在特定領域(如可驗證任務)上,DeepSeek-GRM 仍落后于標量模型。這可能是因為標量獎勵模型捕獲了推理查詢和回答的隱藏特征,而 GRM 需要更強的推理能力來全面檢查回答。不過,標量獎勵模型存在嚴重的偏差和可擴展性問題。

研究團隊指出,未來的研究方向包括:工具集成、原則和批評生成范式的分解、在 LLM 離線評估中的應用以及長視野推理的探索。他們相信,具有增強可擴展性和效率的 GRM 可以作為通用獎勵系統的多功能接口,推動 LLM 后訓練和推理的前沿發展。

參考資料:

1. https://arxiv.org/abs/2504.02495

排版:KIK

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
兩記神仙球!亞泰3-1十人梅州獲6輪首勝,譚龍、徐越中場吊射破門

兩記神仙球!亞泰3-1十人梅州獲6輪首勝,譚龍、徐越中場吊射破門

直播吧
2025-04-11 21:43:06
貴州退休夫妻跳樓身亡,賬戶流水400萬,留遺言:沒有活著的希望

貴州退休夫妻跳樓身亡,賬戶流水400萬,留遺言:沒有活著的希望

曉艾故事匯
2025-04-09 20:44:14
53票贊成46票反對!美國最新投票結果出來了,特朗普迎來3個噩耗

53票贊成46票反對!美國最新投票結果出來了,特朗普迎來3個噩耗

生活魔術專家
2025-04-11 13:44:53
48歲金鐘國的人生第一次整形經歷,結果是小眼睛變大眼睛了

48歲金鐘國的人生第一次整形經歷,結果是小眼睛變大眼睛了

星野娛樂天地
2025-04-11 18:53:38
馬云突發消息,已經沖上熱搜

馬云突發消息,已經沖上熱搜

電商派Pro
2025-04-11 09:33:00
特朗普最擔心的局面來了,新加坡一句話說破:站隊中國的越來越多

特朗普最擔心的局面來了,新加坡一句話說破:站隊中國的越來越多

戰爭史
2025-04-11 12:31:21
農商行風險部經理幫人“倒貸款”,欠貸款人逾千萬元“暴雷”;涉事銀行:其遭詐騙已報案

農商行風險部經理幫人“倒貸款”,欠貸款人逾千萬元“暴雷”;涉事銀行:其遭詐騙已報案

大風新聞
2025-04-11 18:47:06
邁阿密老板慶祝晉級:我們創立這個俱樂部就是為了這樣的夜晚

邁阿密老板慶祝晉級:我們創立這個俱樂部就是為了這樣的夜晚

懂球帝
2025-04-11 09:20:09
太強了!蘋果首款雙系統新品曝光,兩種形態自由切換

太強了!蘋果首款雙系統新品曝光,兩種形態自由切換

XCiOS俱樂部
2025-04-11 20:20:10
城中村里的男女關系亂到啥程度?網友:男人的天堂,女人的樂園

城中村里的男女關系亂到啥程度?網友:男人的天堂,女人的樂園

解讀熱點事件
2025-04-10 00:15:04
又給10億!忘恩負義的緬甸請求中國捐款,中方回應,網友郁悶

又給10億!忘恩負義的緬甸請求中國捐款,中方回應,網友郁悶

趣文說娛
2025-04-11 16:19:33
美股巨震,特朗普竟炫耀朋友一天賺25億美元!購物小票已出現“關稅附加費”,美網友大對賬:“真的開始了!特朗普征稅,我買單”

美股巨震,特朗普竟炫耀朋友一天賺25億美元!購物小票已出現“關稅附加費”,美網友大對賬:“真的開始了!特朗普征稅,我買單”

每日經濟新聞
2025-04-11 14:19:08
裁判拒給伊祖丁醫療暫停,劉雨辰:這都不給是不是有些不合適了?

裁判拒給伊祖丁醫療暫停,劉雨辰:這都不給是不是有些不合適了?

懂球帝
2025-04-11 23:10:11
炸裂!捐精有多亂,女的被約到賓館,捐精者:直接懷孕只收800元

炸裂!捐精有多亂,女的被約到賓館,捐精者:直接懷孕只收800元

蜉蝣說
2024-10-14 17:12:47
比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

影史侃談
2025-03-16 22:40:07
菲律賓華人郭從愿被綁撕票:綁匪說普通話,把他和司機全都謀害了

菲律賓華人郭從愿被綁撕票:綁匪說普通話,把他和司機全都謀害了

侃侃娛季
2025-04-10 22:13:49
拿1.9億頂薪卻屢教不改,成為NBA狂妄的老大!難怪球隊要拋棄你

拿1.9億頂薪卻屢教不改,成為NBA狂妄的老大!難怪球隊要拋棄你

老梁體育漫談
2025-04-12 00:10:51
突發利好!歐盟和中國同意針對中國制造電動車設定最低價格,汽車股拉升,比亞迪股份漲6%,吉利、理想漲超5%

突發利好!歐盟和中國同意針對中國制造電動車設定最低價格,汽車股拉升,比亞迪股份漲6%,吉利、理想漲超5%

和訊網
2025-04-11 14:29:07
OPPO中國區總裁劉波回應美國關稅挑戰:中國手機行業經歷過大風大浪 將做好自己應做的事

OPPO中國區總裁劉波回應美國關稅挑戰:中國手機行業經歷過大風大浪 將做好自己應做的事

每日經濟新聞
2025-04-11 21:11:09
美國宣布將吊銷南蘇丹護照持有人的所有簽證,杜克大學新星馬魯阿奇或無法參加選秀

美國宣布將吊銷南蘇丹護照持有人的所有簽證,杜克大學新星馬魯阿奇或無法參加選秀

雷速體育
2025-04-11 14:19:13
2025-04-12 03:07:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15048文章數 513533關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

專家:不用太擔心關稅 現在要看的是中美雙方誰扛不住

頭條要聞

專家:不用太擔心關稅 現在要看的是中美雙方誰扛不住

體育要聞

球迷天天罵,但我們要進歐冠了

娛樂要聞

汪小菲馬筱梅婚禮又有了耐人尋味的新聞

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

25款風云A8/T9/T10齊上市 多款車型發布一口價

態度原創

手機
家居
本地
時尚
公開課

手機要聞

iQOO Z10 Turbo系列再次被確認:真機已現身,性能配置也已清晰

家居要聞

浪漫與優雅 不被定義的現代法式

本地新聞

華北將迎“歷史罕見”大風

那些認真生活的人,才最時髦!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 腾冲县| 新疆| 尚志市| 中江县| 增城市| 金昌市| 渭南市| 周至县| 威远县| 泸州市| 昌黎县| 崇明县| 方正县| 新源县| 威远县| 长宁区| 英超| 新营市| 永平县| 灌阳县| 抚州市| 荔波县| 聊城市| 鱼台县| 安庆市| 准格尔旗| 宣武区| 石嘴山市| 陆丰市| 武鸣县| 巩留县| 射阳县| 汉寿县| 苏尼特左旗| 信丰县| 连江县| 江西省| 通榆县| 手机| 远安县| 驻马店市|