99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

清華、上海AI Lab 23K數據讓1.5B小模型逆襲GPT-4o

0
分享至



趙儉,北京郵電大學本科三年級,研究方向為大語言模型。劉潤澤,清華大學碩士二年級,師從李秀教授,研究方向為大語言模型與強化學習,特別關注大模型推理能力增強與測試時間擴展,在 NeurIPS、ICML、ICLR、AAAI 等頂級學術會議發表多篇論文,個人主頁:ryanliu112.github.io。

隨著 OpenAI o1 和 DeepSeek R1 的爆火,大語言模型(LLM)的推理能力增強和測試時擴展(TTS)受到廣泛關注。然而,在復雜推理問題中,如何精準評估模型每一步回答的質量,仍然是一個亟待解決的難題。傳統的過程獎勵模型(PRM)雖能驗證推理步驟,但受限于標量評分機制,難以捕捉深層邏輯錯誤,且其判別式建模方式限制了測試時的拓展能力。

那么,是否有辦法通過測試時拓展提升過程獎勵模型的過程監督推理能力呢?

為此,清華大學聯合上海 AI Lab 提出生成式過程獎勵模型 ——GenPRM,將生成式思維鏈推理(CoT)與代碼驗證相結合,并引入測試時拓展機制,為過程監督推理提供了新思路。與 DeepSeek 近期發布的逐點生成獎勵模型(GRM)類似,GenPRM 也通過生成式建模和測試時擴展增強獎勵模型的推理能力,但 GenPRM 更專注于過程獎勵模型,彌補了 GRM 在過程監督方面的不足。



論文標題:GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

論文鏈接:http://arxiv.org/abs/2504.00891

項目鏈接:https://ryanliu112.github.io/GenPRM

GitHub:https://github.com/RyanLiu112/GenPRM

HuggingFace:https://huggingface.co/GenPRM

在 ProcessBench 等數學推理基準的測試中,GenPRM 展現出驚人實力:僅 1.5B 參數的模型通過測試時擴展超越 GPT-4o,而 7B 參數版本更是擊敗 72B 參數的 Qwen2.5-Math-PRM-72B,同時表現出強大的步驟級批評能力。



GenPRM:從評分到推理,再到測試時擴展

現有過程獎勵模型依賴分類器式的標量評分,這種 “黑箱” 機制導致兩個核心問題:一是無法解釋錯誤根源,僅能判斷步驟 “對錯”,卻無法解釋 “為何錯”,二是無法通過增加模型測試時間計算資源提升判斷精度。

生成式過程獎勵模型

為了突破這些瓶頸,GenPRM 引入生成式設計,徹底革新過程監督范式:

思維鏈推理:GenPRM 模擬人類解題時的邏輯推導,對每一步推理進行自然語言分析,提供透明、可解釋的步驟評估。

代碼驗證:為確保推理的可靠性,GenPRM 還會生成并執行對應數學運算的 Python 代碼,將文字推導與實際計算結果交叉驗證。例如,在求解三角函數表達式時,模型先分析角度轉換的合理性,再通過代碼計算具體數值,避免 “符號推導正確但計算失誤” 的情況。



其獎勵推理過程可以表示為:



其中 s_t 為當前狀態,a_t 為當前步驟,v_1:t?1 和 f_1:t-1 分別為之前步驟的推理過程和代碼執行反饋,v_t 和 f_t 為當前步驟的推理與反饋。這種 “先解釋、再驗證” 的機制不僅能判斷對錯,還能提供步驟級別的批評改進建議和嚴謹準確的反饋,大幅提升了過程監督的深度和實用性。

測試時擴展

在推理階段,GenPRM 通過并行采樣 N 條推理路徑,綜合多條路徑的獎勵值并取平均,得到最終獎勵:



這種策略充分利用額外計算資源,進一步提升評估精度,使小模型也能在復雜任務中表現出色。

數據高效:23K 樣本背后的合成秘密

GenPRM 的另一個亮點是僅使用 23K 訓練樣本就取得了優異的性能,遠少于許多模型動輒數十萬級的數據量(如 PRM800K 需 80 萬人工標注),其高效性源于獨特的數據合成方法,結合相對進步估計(RPE)和代碼驗證,生成高質量的過程監督數據。



通過相對進步估計改進硬估計

傳統過程獎勵模型通過蒙特卡羅(MC)分數進行硬估計,研究者觀察到盡管許多步驟的 MC 分數大于 0,但這些步驟是卻存在錯誤。RPE 通過比較當前狀態和上一狀態的 MC 分數,用 “進步幅度” 評估每步質量,比傳統硬標簽更準確。其形式化如下:



其中,MC (s_t, a_t) 表示當前步驟的蒙特卡羅分數,MC (s_t) 表示上一步驟的蒙特卡羅分數。若進步幅度低于閾值(?=0.8),則判定步驟無效;若首步錯誤(MC 為 0),后續步驟分數歸零。這種方法顯著提升標簽準確性,避免了硬估計的誤判。

代碼驗證驅動的數據合成

研究者利用 QwQ-32B 模型合成 CoT 和代碼驗證推理數據,通過在 Python 環境中真實執行代碼重復檢驗 CoT 推理過程。使用共識過濾(過濾率 51%),保留高質量過程監督數據,最終得到 23K 訓練數據集。

測試時擴展:小模型的逆襲

在 ProcessBench 過程監督基準測試中,GenPRM 展現出顯著優勢:

僅用 23K 訓練數據的 1.5B GenPRM,通過多數投票(Maj@8)的測試時計算擴展策略,其 F1 分數超越 GPT-4o;

7B 版本的 GenPRM 以 80.5% 的 F1 分數一舉超過 72B 參數的 Qwen2.5-Math-PRM-72B。

這一結果證明,測試時擴展能有效放大過程獎勵模型的能力,使小模型實現性能飛躍。



此外,GenPRM 同樣適用于策略模型測試時擴展。通過 Best-of-N 實驗,GenPRM-7B 展現出相比于基線方法更加優異的篩選能力,并可通過測試時擴展進一步增強過程監督能力。



從驗證器到批評者:過程獎勵模型新范式

GenPRM 不僅能當 “裁判”,作為驗證器(Verifier)篩選答案,還能當 “教練”,作為步驟級別的批評模型(Critic)指導策略模型迭代優化原始回答。實驗表明,GenPRM 通過 3 輪反饋將策略模型的回答準確率從 45.7% 提升至 51.5%,性能提升達到基線方法的 3.4 倍。



這種 “生成 - 批評 - 反思” 的閉環,驗證了 GenPRM 不僅可以作為驗證器驗證答案的準確性,還可以作為批評者,為模型完善自身輸出提供逐步關鍵指導,為大語言模型的自我改進提供了可解釋的技術路徑。

研究者已開源代碼、模型及 23K 訓練數據集。該工作為大語言模型的可解釋過程監督提供了新思路,未來可擴展至代碼生成、多模態推理等領域。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
人民日報:優秀的孩子都是管出來的!管住孩子這6點,想不成才都難

人民日報:優秀的孩子都是管出來的!管住孩子這6點,想不成才都難

阿呆爸
2025-04-05 21:08:34
發表辱華言論、移居美國,“公知女神”柴靜,如今下場咎由自取

發表辱華言論、移居美國,“公知女神”柴靜,如今下場咎由自取

附允歷史觀
2024-08-22 11:15:44
“亞洲飛人”蘇炳添,官宣喜得三胎

“亞洲飛人”蘇炳添,官宣喜得三胎

三湘都市報
2025-04-15 18:30:26
庫克不擠牙膏了! 蘋果iPhone 17 Pro更新多達12項

庫克不擠牙膏了! 蘋果iPhone 17 Pro更新多達12項

熱點科技
2025-04-14 14:26:31
最后沖刺?聯賽奪冠概率:利物浦99.9%拜仁98%巴薩87.5%國米76.1%

最后沖刺?聯賽奪冠概率:利物浦99.9%拜仁98%巴薩87.5%國米76.1%

直播吧
2025-04-15 08:44:10
越來越多的人查出腸癌!醫生含淚苦勸:冰箱久置的3物,或是幫兇

越來越多的人查出腸癌!醫生含淚苦勸:冰箱久置的3物,或是幫兇

今日養生之道
2025-03-24 17:19:21
離開不代表實力差!33歲德布勞內將成自由身,瓜氏曼城王朝落幕

離開不代表實力差!33歲德布勞內將成自由身,瓜氏曼城王朝落幕

銳評利物浦
2025-04-15 23:54:49
男足U16對陣法國U16首發:鄺兆鐳、盧琦政、萬項、梁仕宇先發

男足U16對陣法國U16首發:鄺兆鐳、盧琦政、萬項、梁仕宇先發

直播吧
2025-04-16 00:08:06
特朗普深夜發長文,怒斥“中國欺負美國”,全世界都笑了

特朗普深夜發長文,怒斥“中國欺負美國”,全世界都笑了

可樂談情感
2025-04-14 15:12:15
英超總積分超2000有多難?僅4隊做到,槍手上榜,曼聯家底實在厚

英超總積分超2000有多難?僅4隊做到,槍手上榜,曼聯家底實在厚

籃球圈里的那些事
2025-04-15 10:33:08
浩南支持媽媽帶貨,要她試一試,不過他看起來疲倦極了,好憔悴!

浩南支持媽媽帶貨,要她試一試,不過他看起來疲倦極了,好憔悴!

阿矗論古今
2025-04-15 22:35:30
105:96!遼籃勝新疆奪賽點,賽后傳2個壞消息,楊鳴客場面臨考驗

105:96!遼籃勝新疆奪賽點,賽后傳2個壞消息,楊鳴客場面臨考驗

璞玉話體壇
2025-04-15 22:03:38
奪冠就是硬道理!當人們還在質疑東莞時,她們已經在籌備下賽季了

奪冠就是硬道理!當人們還在質疑東莞時,她們已經在籌備下賽季了

墨史軒
2025-04-14 20:14:39
安帥10分鐘無人敢接話!皇馬更衣室崩盤?3數據揭歐冠生死戰危局

安帥10分鐘無人敢接話!皇馬更衣室崩盤?3數據揭歐冠生死戰危局

晚霧空青
2025-04-16 00:06:13
泄憤撞死1家3口擇期宣判!兇手拒不認錯,父親電話威脅受害家屬

泄憤撞死1家3口擇期宣判!兇手拒不認錯,父親電話威脅受害家屬

井普椿的獨白
2025-04-15 23:56:33
臺灣資深媒體人:中國是地球上唯一的、碰到殖民就死磕到底的國家

臺灣資深媒體人:中國是地球上唯一的、碰到殖民就死磕到底的國家

老閆侃史
2025-04-12 19:00:03
反轉!云南潑水節打架后續,手拿高壓水槍惹眾怒,當事人稱有隱情

反轉!云南潑水節打架后續,手拿高壓水槍惹眾怒,當事人稱有隱情

削桐作琴
2025-04-15 23:40:43
478.80分,陳芋汐拿下第3冠,20歲創造新歷史

478.80分,陳芋汐拿下第3冠,20歲創造新歷史

手工制作阿殲
2025-04-15 13:23:55
美媒給殲-20算了筆賬,不用等六代機,美國空軍就要讓出世界第一

美媒給殲-20算了筆賬,不用等六代機,美國空軍就要讓出世界第一

頭條爆料007
2025-04-15 22:50:23
以大打小仍0-1!中亞勁旅輸急眼:與U15國足火爆干架+心虛擋鏡頭

以大打小仍0-1!中亞勁旅輸急眼:與U15國足火爆干架+心虛擋鏡頭

我愛英超
2025-04-15 18:46:03
2025-04-16 00:51:01
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10363文章數 142295關注度
往期回顧 全部

科技要聞

小鵬汽車MPV車型改款上市,35.98萬起

頭條要聞

中國不理他特朗普破防了 稱中國為"敵對貿易國家"

頭條要聞

中國不理他特朗普破防了 稱中國為"敵對貿易國家"

體育要聞

惡性循環!錫伯杜的壓榨哲學是對是錯?

娛樂要聞

娛樂圈模范夫妻塌房?私生活曝光!

財經要聞

李強:以更大力度促進消費擴大內需

汽車要聞

19.99萬起 廣汽本田P7能在新能源分一杯羹?

態度原創

家居
旅游
親子
手機
本地

家居要聞

現代本真 展現歸零心態

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

寶寶為了吃冰淇淋有多努力,還會提前查看媽媽是否睡著。

手機要聞

真我GT7手機三款配色公布,售價不到3000元

本地新聞

云游湖北|相約安陸,解鎖限定版粉色春天

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宜兰县| 沾益县| 三门县| 合川市| 荆门市| 怀安县| 女性| 垫江县| 巴彦淖尔市| 北辰区| 茶陵县| 浠水县| 和田县| 嘉善县| 汤阴县| 自治县| 大宁县| 宜兴市| 临沂市| 南漳县| 涪陵区| 长沙县| 桐庐县| 南昌县| 南康市| 沈阳市| 长海县| 绍兴市| 黔南| 华池县| 龙州县| 洪湖市| 辉县市| 东乌珠穆沁旗| 肇州县| 武安市| 苗栗县| 安乡县| 奉新县| 汉沽区| 津市市|