99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek R1-Zero 內幕大公開:原來“頓悟時刻”早就來了?還有 GRPO 的秘密

0
分享至


今天給大家帶來一篇重磅研究解讀,來自新加坡國立大學 和SeaAILab團隊 Zichen Liu 博士的最新工作,直擊 R1-Zero-Like 訓練的核心痛點,信息量爆炸!


這篇論文題目就非常硬核:《Understanding R1-Zero-Like Training: A Critical Perspective》(理解類 R1-Zero 訓練:批判性視角)。 他們沒有盲目跟風,而是選擇了 “先理解,再改進” 的硬核路線,深入剖析了 R1-Zero 這類訓練方法的兩大基石:基座模型強化學習 (RL)

重磅發現一:基座模型才是真大佬?“頓悟時刻” 比你想的早!

文章一上來就拋出震撼彈: DeepSeek-V3-Base 竟然在 RL 微調之前就展現出了 “Aha moment”(頓悟時刻)!這直接顛覆了我們之前的認知,難道 RL 只是錦上添花?


更讓人驚訝的是,他們發現Qwen2.5 基座模型,這個 R1-Zero-like 訓練的 “網紅選手”, 即使不用 Prompt 模板,推理能力也強到離譜!平均 benchmark 分數直接飆升 ~60%! 這簡直不像基座模型,更像是用 QA 數據集 SFT 過的模型!


這些現象都在暗示一個扎心的真相: 基座模型的預訓練階段可能已經注入了太多 “偏見”。 比如,自我反思能力、數學解題技巧,可能在 RL 獎勵信號強化之前就早已埋下種子。

等等,那模型回復越來越長,真的是 RL 的功勞嗎?這里面可能另有隱情…

重磅發現二: RL 環節暗藏 “長度偏見”? GRPO 原來沒那么完美!

研究團隊深入扒了 RL 環節,尤其是 GRPO (Generalized Reward Policy Optimization) 算法,結果發現… GRPO 竟然是有偏見的!


具體來說,GRPO 的長度歸一化 (length normalization)會偏愛短的正確答案,卻對 長的錯誤答案更寬容! 這就導致了“長度偏見”(length bias)。

更可怕的是,GRPO 的標準差歸一化 (std normalization)還會偏愛太簡單或太難的問題,而忽略難度適中的題目! 這又帶來了“難度偏見”** (difficulty bias)

PPO 也躺槍? 開源實現竟然也引入了 “長度偏見”!

更讓人意想不到的是,即使理論上PPO (Proximal Policy Optimization)算法是無偏的,但幾乎所有開源實現都通過計算masked_mean引入了 “長度偏見”! 這簡直防不勝防!


劃重點: “長度偏見” 可能就是模型回復越來越長的幕后黑手之一!

利器: Dr. GRPO 橫空出世!兩行代碼解決 “偏見” 問題!

為了解決 GRPO 的 “偏見” 問題,研究團隊祭出大招 —— Dr. GRPO (Doctor GRPO)! 只需兩行代碼的魔改: 移除長度歸一化和標準差歸一化 (圖中紅色部分)!


Dr. GRPO 不僅無偏,還能提升 Token 效率!因為它能有效阻止 GRPO 產生越來越長的錯誤答案,避免浪費計算資源。

R1-Zero 訓練極簡配方大公開! 7B 模型 AIME 怒刷 SOTA!

基于以上分析,研究團隊給出了一個極簡的 R1-Zero 訓練配方,沒有花里胡哨的技巧:

  • ?算法:Dr. GRPO (無偏優化器)

  • ?數據:MATH level 3-5 難度問題

  • ?模板:Qwen-Math

  • ?算力:27 小時 * 8 * A100

結果震撼: 7B 模型在 Zero-RL setting 下,AIME 2024 怒刷 43.3 分 SOTA!


這還不是全部! 這篇論文和代碼庫里還有更多有趣發現,例如:

a.基礎代數 (+ ? × ÷) 問題上的 RL 訓練,竟然能提升奧賽級別的推理能力!

b.Llama 模型也能 “頓悟”!

強烈建議大家去圍觀論文和代碼

論文地址:

https://github.com/sail-sg/understand-r1-zero/blob/main/understand-r1-zero.pdf

代碼地址:

https://github.com/sail-sg/understand-r1-zero

總結一下:這項研究不僅揭示了 R1-Zero-like 訓練的深層機制,更指出了現有方法的潛在問題,并提出了有效的改進方案。 對于想要深入理解和實踐 R1-Zero 訓練的朋友們來說,絕對是不可多得的寶藏資料! 趕緊學起來吧!

作者信息:Zichen Liu, PhD student, RL believer @SeaAIL @NUSingapore

?星標AI寒武紀,好內容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
阿梓自曝丈夫出軌、家暴,當初偷戶口本和他結婚,賺錢也都給他了

阿梓自曝丈夫出軌、家暴,當初偷戶口本和他結婚,賺錢也都給他了

江山揮筆
2025-04-26 10:45:45
肖飛醫生讓2個女同事懷孕后續:他被停職,小三懷孕待產家庭顯赫

肖飛醫生讓2個女同事懷孕后續:他被停職,小三懷孕待產家庭顯赫

江山揮筆
2025-04-27 19:33:06
玥兒和弟弟第一次在國貿吃麻六記太開心了

玥兒和弟弟第一次在國貿吃麻六記太開心了

小椰的奶奶
2025-04-28 03:20:51
30歲丈夫出軌55歲保姆,妻子逼問自己哪里不如她,丈夫回答讓她崩潰

30歲丈夫出軌55歲保姆,妻子逼問自己哪里不如她,丈夫回答讓她崩潰

荔枝人物記
2025-04-22 17:22:38
面對新式紅衛兵,一個歷史老師的無奈:誰之罪?

面對新式紅衛兵,一個歷史老師的無奈:誰之罪?

霹靂炮
2025-04-23 23:16:50
醫院人妻通奸后續:開房幾十次,多次用咬,人妻美照曝光

醫院人妻通奸后續:開房幾十次,多次用咬,人妻美照曝光

蜉蝣說
2024-10-24 16:07:30
舊社會的家妓有多慘?被當做“肉屏風”,吞痰液,連娼妓都不如

舊社會的家妓有多慘?被當做“肉屏風”,吞痰液,連娼妓都不如

午夜故事會
2025-04-11 14:51:35
91年被初戀女友拋棄后,我入伍又考上軍校,后來見到她時我驚呆了

91年被初戀女友拋棄后,我入伍又考上軍校,后來見到她時我驚呆了

詭譎怪談
2025-04-24 20:02:06
馬斯切拉諾:我對邁阿密輸球負全責,我做了不正確的決定

馬斯切拉諾:我對邁阿密輸球負全責,我做了不正確的決定

直播吧
2025-04-28 12:09:16
歷史唯一!特魯姆普生涯第二次完成賽季百桿破百壯舉

歷史唯一!特魯姆普生涯第二次完成賽季百桿破百壯舉

直播吧
2025-04-28 09:20:12
超禁忌大尺度!超卑劣的男人!

超禁忌大尺度!超卑劣的男人!

落雪電影
2025-04-27 11:45:34
太狠了!第1、第2輸球,第3到第6全打平,德乙全體保送漢堡升級

太狠了!第1、第2輸球,第3到第6全打平,德乙全體保送漢堡升級

籃球掃地僧
2025-04-28 04:02:30
10派50元!A股又現高分紅

10派50元!A股又現高分紅

證券時報e公司
2025-04-28 07:52:13
突發!即將開盤,7倍大牛股突然被立案,近萬名股東慌了

突發!即將開盤,7倍大牛股突然被立案,近萬名股東慌了

八百者也
2025-04-28 08:53:31
“中國同意重啟朝圣路線”

“中國同意重啟朝圣路線”

環球時報新聞
2025-04-28 11:22:12
1985年美國大毒梟墜機身亡,30公斤白粉被黑熊當食物,結果如何?

1985年美國大毒梟墜機身亡,30公斤白粉被黑熊當食物,結果如何?

胥言
2025-04-17 18:01:03
血雨腥風!TP-Link 突遭美國司法部,重罰1億美元!

血雨腥風!TP-Link 突遭美國司法部,重罰1億美元!

半導體圈
2025-04-27 20:58:43
當不成總統了?美爆發混亂,替罪羊出現,特朗普開始后悔了

當不成總統了?美爆發混亂,替罪羊出現,特朗普開始后悔了

紅色鑒史官
2025-04-27 18:35:03
印度突然開閘放水引發巴控克什米爾混亂

印度突然開閘放水引發巴控克什米爾混亂

參考消息
2025-04-27 18:26:08
他才22歲!赫拉芬貝赫奪第5座聯賽冠軍,冠軍6號位&鐵人近乎全勤

他才22歲!赫拉芬貝赫奪第5座聯賽冠軍,冠軍6號位&鐵人近乎全勤

直播吧
2025-04-28 09:30:16
2025-04-28 13:07:00
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
649文章數 259關注度
往期回顧 全部

科技要聞

大廠圍獵AI人才:部分實習生日薪可達2000

頭條要聞

美多位專家:中美若在能源方面合作 對全人類將是好事

頭條要聞

美多位專家:中美若在能源方面合作 對全人類將是好事

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

王寶強座位引眾怒 論演技誰能壓得了

財經要聞

事關穩就業、穩經濟 四部門聯合發聲

汽車要聞

中型純電轎跑SUV/6月上市 豐田bZ5預售13-16萬

態度原創

教育
房產
家居
本地
藝術

教育要聞

四川賽區決賽落幕!第七屆全國中小學生華語辯論錦標賽在成都舉行

房產要聞

首開2小時熱銷超 200 套!天河芯紅盤憑什么交出樓市滿分答卷?

家居要聞

慢度設計 溫暖與沉靜的體驗

本地新聞

亮劍緝車—蕉城法院法拍車首場聯合直播

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 杭锦旗| 怀柔区| 微山县| 罗江县| 田东县| 青岛市| 淳化县| 扶风县| 大竹县| 乐陵市| 宣汉县| 共和县| 饶阳县| 洪泽县| 安阳县| 会同县| 汉中市| 鄂托克旗| 屏南县| 天等县| 安顺市| 镇安县| 麟游县| 普宁市| 德钦县| 泸水县| 兰州市| 当阳市| 宜丰县| 酒泉市| 措勤县| 徐州市| 瓦房店市| 木兰县| 铁岭县| 察哈| 申扎县| 南靖县| 通州市| 会理县| 上犹县|