99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

無需模仿,超越蒸餾!清華團隊靠強化學習讓 7B 模型打敗GPT-4o數學推理

0
分享至

來源:OpenBMB開源社區

OpenAI o1 和 o3 模型的發布證明了強化學習能夠讓大模型擁有像人一樣的快速迭代試錯、深度思考的高階推理能力,在基于模仿學習的Scaling Law 逐漸受到質疑的今天,基于探索的強化學習有望帶來新的 Scaling Law.

近日,清華大學 NLP 實驗室聯合上海 AI Lab,清華大學電子系及 OpenBMB 社區提出一種新的結合過程獎勵的強化學習方法——PRIME(Process Reinforcement through IMplicit REwards),采用 PRIME 方法,研究人員不依賴任何蒸餾數據和模仿學習,僅用 8 張 A100,花費一萬塊錢左右,不到 10天 時間,就能高效訓練出一個數學能力超過 GPT-4o、Llama-3.1-70B的 7B 模型 Eurus-2-7B-PRIME。

具體而言,研究人員利用Qwen2.5-Math-7B-Base作為基座模型,訓練出了新模型Eurus-2-7B-PRIME,并在美國 IMO 選拔考試 AIME 2024 上的準確率達到 26.7%,大幅超越 GPT-4o,Llama3.1-70B 和 Qwen2.5-Math-7B-Instruct,且僅使用了 Qwen Math 數據的 1/10。其中,強化學習方法 PRIME 為模型帶來了 16.7% 的絕對提升,遠超已知的任何開源方案。



該項目一經開源就在海外 AI 社區爆火,短短幾天 Github 取得 300+ star。

未來,基于 PRIME 方法和更強的基座模型有潛力訓練出接近 OpenAI o1 的模型。



? 技術 Blog 鏈接:

https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f

? GitHub 鏈接:

https://github.com/PRIME-RL/PRIM

PRIME 方法介紹

長久以來,開源社區嚴重依賴數據驅動的模仿學習來增強模型推理能力,但這種方法的局限也顯而易見——更強的推理能力需要更高質量的數據,但高質量數據總是稀缺,使得模仿和蒸餾難以持續。雖然 OpenAI o1 和 o3 的成功證明了強化學習有著更高的上限,但強化學習有著兩個關鍵挑戰:(1)如何獲得精準且可擴展的密集獎勵;(2)如何設計可以充分利用這些獎勵的強化學習算法。

PRIME 算法從隱式過程獎勵(implicit process reward)的思想出發解決這兩個問題。隱式過程獎勵模型可以僅在輸出獎勵模型(outcome reward model, ORM)的數據,即答案的最終對錯上進行訓練,而隱式地建模過程獎勵,最終自動訓練出一個過程獎勵模型,這整個過程都有嚴格的理論保證。

詳細推導見:https://huggingface.co/papers/2412.01981


基于隱式過程獎勵模型的這種性質,研究人員指出將其應用于強化學習有三大優勢:

1. 過程獎勵 : 隱式過程獎勵模型能夠為每個 token 提供價值估計,在提供過程獎勵的同時無需訓練額外的價值模型(value model)

2. 可擴展性 : 隱式過程獎勵模型只需結果標簽即可在線更新。 所以,我們可以結合策略模型采樣與結果驗證器來直接更新PRM,有效緩解分布偏移與可擴展性問題。

3. 簡潔性 : 隱式過程獎勵模型本質上就是一種語言模型。 在實踐中,研究人員發現可以直接用初始的策略模型初始化 PRM。

隱式過程獎勵解決了PRM在大模型強化學習中怎么用,怎么訓,怎么擴展的三大問題,甚至不需要訓練額外的獎勵模型就可以開始強化學習,易用性和可擴展性極佳。

具體的PRIME算法流程如下圖所示,它是一種在線強化學習算法,能夠將每個token的過程獎勵無縫應用于強化學習流程中。


實驗結果

研究人員詳細比較了PRIME算法和基線方法。

相比于僅用結果監督,PRIME有著 2.5 倍的采樣效率提升,在下游任務上也有著顯著提升。



研究人員還驗證了PRM在線更新的重要性,可以看到,在線的PRM更新要顯著優于固定不更新的PRM,這也證明了PRIME算法設計和合理性


此外,研究人員還額外收集數據,基于 Qwen2.5-Math-Instruct 訓練了 SOTA 水平的 EurusPRM,能夠在 Best-of-N 采樣中達到開源領先水平


Showcase 介紹Question1:AIME 2024試題,Claude-3.5-Sonnet做錯


Answer1:


Question2:

Which number is larger? 9.11 or 9.9?

Answer2:


強化學習是連接已有智能體(大模型)和現實世界(世界模型,具身智能)的橋梁,以及將世界反 饋內化為模型智能的路徑,將在下一代人工智能的發展中起到重要作用。PRIME 算法創新性地將隱式過程獎勵與強化學習結合,解決了大模型強化學習的獎勵稀疏問題,有望推動大模型復雜推理能力的進一步提升。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
詹皇38+10仍輸球!東契奇真不防,華子統治關鍵時刻,狼隊3人20+

詹皇38+10仍輸球!東契奇真不防,華子統治關鍵時刻,狼隊3人20+

你的籃球頻道
2025-04-26 12:31:18
高曉松和華誼總裁王中磊罕見同框!56歲高曉松又胖了,眼里沒了光

高曉松和華誼總裁王中磊罕見同框!56歲高曉松又胖了,眼里沒了光

娛圈小愚
2025-04-26 09:30:23
云南魯甸縣一河灘突然漲水致4死,有人在救人過程中遇難

云南魯甸縣一河灘突然漲水致4死,有人在救人過程中遇難

澎湃新聞
2025-04-25 22:32:31
金晨身上有多處紋身,作為公眾人物在形象展示上還是有點不妥吧?

金晨身上有多處紋身,作為公眾人物在形象展示上還是有點不妥吧?

喜歡歷史的阿繁
2025-04-26 00:37:57
坦白了?特朗普:“24小時內”結束俄烏沖突是“開玩笑”的夸張說法

坦白了?特朗普:“24小時內”結束俄烏沖突是“開玩笑”的夸張說法

環球網資訊
2025-04-26 09:51:38
凡爾賽?蘭姆:凱文-馬丁曾經故意不得分 來避免自己被選進全明星

凡爾賽?蘭姆:凱文-馬丁曾經故意不得分 來避免自己被選進全明星

直播吧
2025-04-25 20:42:13
訂婚強奸案:鐵證如山依然喊冤,背后是對法律與生理學的無知

訂婚強奸案:鐵證如山依然喊冤,背后是對法律與生理學的無知

讀鬼筆記
2025-04-24 20:43:03
江西大學留學生群毆中國學生:言詞侮辱、氣焰囂張,還看不起中文

江西大學留學生群毆中國學生:言詞侮辱、氣焰囂張,還看不起中文

逍遙史記
2025-04-26 09:52:26
華為這個賣559元的1TB新品,把全網友都看傻了

華為這個賣559元的1TB新品,把全網友都看傻了

鋒潮評測
2025-04-24 18:37:04
瑾汐認親后續親爸親媽的家族太強大根本認不完,養家哥哥身份曝光

瑾汐認親后續親爸親媽的家族太強大根本認不完,養家哥哥身份曝光

振華觀史
2025-04-26 12:52:20
70歲崩牙駒澳門聚會喝茅臺,美女敬酒,身邊驚現京城神秘大佬!

70歲崩牙駒澳門聚會喝茅臺,美女敬酒,身邊驚現京城神秘大佬!

牛鍋巴小釩
2025-04-24 11:39:45
男生18cm有啥壞處?妹子現場演示長短對比太生動,看完動圖秒懂哈哈

男生18cm有啥壞處?妹子現場演示長短對比太生動,看完動圖秒懂哈哈

經典段子
2025-04-14 23:34:48
老板娘撩28歲小伙,小伙趁機親吻,網友:眼神就是今后出軌的證明

老板娘撩28歲小伙,小伙趁機親吻,網友:眼神就是今后出軌的證明

農村情感故事
2025-04-23 17:49:24
足球報:玉昆主帥安德森用言語回擊比賽官員,最終被禁賽3場

足球報:玉昆主帥安德森用言語回擊比賽官員,最終被禁賽3場

懂球帝
2025-04-26 11:37:08
二十年,蘋果在中國打造了世界領先的生產線;如今即將轉移至印度

二十年,蘋果在中國打造了世界領先的生產線;如今即將轉移至印度

凡人學電腦
2025-04-26 00:00:37
肇慶發現中華穿山甲,體格健壯,在四處嗅探,曾經消失了36年

肇慶發現中華穿山甲,體格健壯,在四處嗅探,曾經消失了36年

觀察鑒娛
2025-04-26 09:05:03
2024年浙江公安查辦侵犯知識產權案件1923起 同比增長63.0%

2024年浙江公安查辦侵犯知識產權案件1923起 同比增長63.0%

環球網資訊
2025-04-25 23:28:19
鄒市明兒子打生長針5個月長高4.1cm,專家:他的靶身高可能172cm

鄒市明兒子打生長針5個月長高4.1cm,專家:他的靶身高可能172cm

直播吧
2025-04-25 08:53:33
江西外籍學生打人后續:施暴者身份被扒,已被拘留,中國學生毀容

江西外籍學生打人后續:施暴者身份被扒,已被拘留,中國學生毀容

三農老歷
2025-04-26 11:58:18
43歲謝娜回四川老家,和父母一起出現,打扮低調,獲村民隆重歡迎

43歲謝娜回四川老家,和父母一起出現,打扮低調,獲村民隆重歡迎

鑫鑫說說
2025-04-26 13:22:49
2025-04-26 15:32:49
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
258文章數 125關注度
往期回顧 全部

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

數碼
教育
藝術
手機
時尚

數碼要聞

英特爾7工藝的最大的代工客戶是英特爾本身

教育要聞

網民反映孩子“在華海中學遭霸凌”,海口市教育局回應正核查

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

CounterPoint 報告 2024 全球手機攝像頭出貨量:索尼領銜

今夏流行“不穿褲子”!洋氣顯瘦顯腿長,誰穿誰好看!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 承德市| 镇康县| 嘉鱼县| 湟源县| 高邑县| 抚远县| 额尔古纳市| 安福县| 吴旗县| 温宿县| 冀州市| 鄂伦春自治旗| 海晏县| 洛浦县| 肇源县| 娄底市| 堆龙德庆县| 汾西县| 运城市| 寻甸| 海兴县| 尖扎县| 中方县| 九江县| 浑源县| 黄大仙区| 五家渠市| 聂拉木县| 宁德市| 浦东新区| 北票市| 巫山县| 江安县| 额济纳旗| 南陵县| 新民市| 泸州市| 修水县| 马关县| 阳泉市| 濮阳市|