99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

強化學習細節為王!

0
分享至

作者:haotian(阿里巴巴 高級算法工程師)

近期,seed&清華發表的DAPO [2],將32b-base做到了aime50分的效果,是一個值得參考的技術報告。這個報告里面提到了很多方法/tricks:

好的流程遠勝不靠譜的算法trick

llm的sft和rl,筆者認為,二者差別不大,sft是rl的一個特例(有一些文章做了類似的討論),而rl則更好的利用了負樣本。在dapo中,一個核心是dynamic-sampling,簡單來說,根據當前模型在prompt的bon,動態決定采樣budget,難prompt采樣更多的sample,簡單prompt則采樣更少的prompt,以及過濾模型解決不了的hard-prompt或者easy-prompt。

在sft階段,通常也會使用類似的策略做code/math等等的拒絕采樣、篩選多樣性response(embedding+聚類、長度)。從DAPO中可以看出,一個良好的pipline(online-dynamic-sampling)遠勝于不靠譜的算法trick。

當做好sft后,從數據/task、response合成/采樣、response挑選/打分方法等等,都有一個相對固定且運行良好的流程。把這個流程做到online,在replay-buffer 的數據構造中即可應用,配合對應的挑選/打分/篩選策略,便可將sft階段積累的優秀流程直接遷移到online-rl。同時也需要replay-buffer和主代碼解耦,做靈活的控制。

總之,能做好sft且pipline能夠在線化運行的團隊,做好online-rl只是算力和時間的問題(生產要素)。反之,則陷入一個窘境(生產關系):

1. 做sft的一直offline調數據、蒸餾、挑選,但pipline較難在線化運行,且需要人力不斷重復,但實際上都是well-defined流程和配比實驗,不太需要過多的人工參與;(出現能力/任務沖突后,人工介入處理)

2. 做rl的不斷重復sft的數據流程:找數據、找replay-buffer的數據構建策略,踩過一坨坑后,發現,這些策略其實和sft并無不同,造成了極大的資源浪費和時間浪費。

3. 做agent-rl的時候,agent-rl只需要寫一個推理引擎的多次采樣即可,而環境的穩定性則更為重要。如果sft沒怎么做過agent-based的sft數據,則環境積累基本為0,當應用agent-rl的時候,環境穩定性會成為rl訓練的阿喀琉斯之踵。尤其是agent環境,延時、返回結果的不確定性等等會加劇這個問題。

token-level-loss分析

DAPO中提到了token-level-loss,這個議題在24年末在社區也引起了一些討論,尤其當梯度累加較大的時候,會導致梯度累加訓練和大batch訓練loss有較大的差異,具體可參考[1]: 這里,第一行是 大batch的loss計算,第二行是ga=2的loss計算,顯然,主流框架實現的為第二行的loss計算,天然會比大batch計算的loss更大,對于長文本訓練會產生不利的影響。

在openrlhf/verl中,micro-batch-loss為token-level-loss計算,但有梯度累加的時候,也會存在類似的問題。對于訓練會有一定的影響。前期loss過大,優化過于激進。

實現梯度累加內的token-level-loss也比較直觀,計算loss的時候,直接按照各個維度求和再除以當前ga內的總token數:

if len(prefetch) == 0 or len(prefetch) % self.strategy.accumulated_gradient != 0:
   prefetch.append(experience)
if len(prefetch) % self.strategy.accumulated_gradient == 0:
   torch.distributed.barrier()
   length_status = {
     'response_length': prefetch[0].info['response_length'].sum()
   }
   for exp in prefetch[1:]:
      length_status['response_length'] += exp.info['response_length'].sum()
   length_status = self.strategy.all_reduce(length_status, op='sum')

grpo:無token-level-loss

grpo:有ga-token-level-loss

參考orz的repeatness統計,ga-token-level-loss會讓grpo優化更穩定一些,至少不會產生特別多的重復,而none-token-level-loss訓練到后期,repeatness、format崩潰會顯著上升(不加任何dataloader-filter、kl、entropy正則的情況下)。

對比reinforce_baseline 和grpo的異同點

(token-level-loss,不考慮kl、entropy等等)

reinforce_baseline的advantage計算:r-group_mean+全局歸一化

grpo的advantage計算:(r-group_mean)/group_std(group歸一化)

[3]中對grpo進行了細致的分析和推導:當reward=0/1時(為一個隨機變量服從伯努利分布),我們有如下均值/方差的估計

對于reinforce_baseline來說,

全局std:由于進行了局部均值歸一化,global-mean的期望=0,global-std為group的方差求和開根號,global-std要大于group-std,當采樣樣本無窮多時,

如果不對group樣本做調整,當group-std的標準差小到一定程度,會讓當前的loss急劇增加,產生更為激進的優化。道理上,reinfroce_baseline和grpo有著類似的training-dynamics,而grpo的收斂速度要好于reinfroce_baseline,但穩定性來說,不如reinforce_baseline。當全局樣本都處于方差較小的狀態,reinforce_baseline也會崩,只是要比grpo來的晚一些。

最后總結一下:

1. sft流程搬到online-replay-buffer采樣流程中,基本上就能做好online-rl(穩定的online環境+魯棒的rl方法);

2. token-level-loss在ga層面實現也重要,畢竟,在rl訓練時,梯度累加都開的比較大,一種規避方式是一次采樣多次參數更新即更offpolicy一些;

3. reinforce_baseline和grpo有著類似的training-dynamics,二者的advantage只差一個系數,道理上,reinforce_baseline會更穩定,而grpo可能前期優化會比較猛。

參考文獻

[1] Bug Fixes in LLM Training - Gradient Accumulation

[2] https://dapo-sia.github.io/static/pdf/dapo_paper.pdf

[3] REINFORCEMENT LEARNING WITH VERIFIABLE REWARDS: GRPO’S EFFECTIVE LOSS, DYNAMICS, AND SUCCESS AMPLIFICATION

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
奧運冠軍家蓋房記:5個孩子等8間房 施工隊連夜推平地基

奧運冠軍家蓋房記:5個孩子等8間房 施工隊連夜推平地基

小呆魚
2025-04-26 07:15:03
遼寧男女一夜情,“男子尺寸過大導致女子死亡”事件,真相曝光~

遼寧男女一夜情,“男子尺寸過大導致女子死亡”事件,真相曝光~

書畫藝術收藏
2025-03-15 19:15:05
當年舉報畢福劍的那位告密者張清:眾叛親離,過得好慘

當年舉報畢福劍的那位告密者張清:眾叛親離,過得好慘

新興網評
2024-12-11 21:02:46
郴州:堅決擁護省委決定

郴州:堅決擁護省委決定

新京報政事兒
2025-04-26 08:51:20
蓮花跑車高管:真正三大跑車,只有法拉利、保時捷、蓮花!剎不住的車不配叫性能車,操控跟不上馬力就是馬路殺手

蓮花跑車高管:真正三大跑車,只有法拉利、保時捷、蓮花!剎不住的車不配叫性能車,操控跟不上馬力就是馬路殺手

和訊網
2025-04-24 11:17:39
特朗普:不太可能再次暫停關稅90天 希望達成協議

特朗普:不太可能再次暫停關稅90天 希望達成協議

財聯社
2025-04-26 02:54:59
閑魚變“黃魚”,表面賣女生自用自行車,實則做著見不得人的交易

閑魚變“黃魚”,表面賣女生自用自行車,實則做著見不得人的交易

西齋青簡
2024-05-07 11:55:02
江蘇65歲阿姨感染艾滋病,查明原因,醫生:這個細節被忽視了

江蘇65歲阿姨感染艾滋病,查明原因,醫生:這個細節被忽視了

黃家湖的憂傷
2025-03-31 17:26:16
壞消息,吉米·巴特勒正式出現在勇士隊對陣火箭隊G3的傷病名單

壞消息,吉米·巴特勒正式出現在勇士隊對陣火箭隊G3的傷病名單

好火子
2025-04-26 04:14:25
手機望遠鏡功能怎么打開?90%人不知道,原來還能看這么遠!

手機望遠鏡功能怎么打開?90%人不知道,原來還能看這么遠!

CG說科技
2025-04-16 16:00:31
就在今天,字母哥持續爆發,轟出79年NBA歷史第一的紀錄

就在今天,字母哥持續爆發,轟出79年NBA歷史第一的紀錄

大西體育
2025-04-26 11:21:35
“世界首富”:“史密斯專員”,再見!

“世界首富”:“史密斯專員”,再見!

大象新聞
2025-04-25 16:56:53
40歲詹姆斯驚人爆發,破79年NBA紀錄,超越喬丹&賈巴爾

40歲詹姆斯驚人爆發,破79年NBA紀錄,超越喬丹&賈巴爾

格斗聯盟有話說
2025-04-26 14:31:11
西媒分析皇馬為何不敢放棄國王杯:將面臨多項處罰,多個機構將索賠

西媒分析皇馬為何不敢放棄國王杯:將面臨多項處罰,多個機構將索賠

雷速體育
2025-04-26 09:30:15
老同學問我退休金多少,我謊稱2200,誰知第二天接到8個電話

老同學問我退休金多少,我謊稱2200,誰知第二天接到8個電話

詭譎怪談
2025-04-17 10:49:24
韓國女星臺上面色潮紅,舉止異樣,原因竟是財閥給她的小玩意

韓國女星臺上面色潮紅,舉止異樣,原因竟是財閥給她的小玩意

第四思維
2025-04-08 19:38:41
中國人民對外友好協會代表團訪問美國

中國人民對外友好協會代表團訪問美國

澎湃新聞
2025-04-26 02:28:03
浙江銀行圈怎么了!高強之后,再有國有大行浙分行長被帶走...

浙江銀行圈怎么了!高強之后,再有國有大行浙分行長被帶走...

金石隨筆
2025-04-26 10:24:07
我每次回婆家過年都丟首飾,今年我戴了假手鐲,成功揪出兇手

我每次回婆家過年都丟首飾,今年我戴了假手鐲,成功揪出兇手

林林故事揭秘
2025-04-22 17:50:38
鄒市明兒子打生長針5個月長高4.1cm,專家:他的靶身高可能172cm

鄒市明兒子打生長針5個月長高4.1cm,專家:他的靶身高可能172cm

直播吧
2025-04-25 08:53:33
2025-04-26 15:52:49
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
258文章數 125關注度
往期回顧 全部

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

頭條要聞

男子炒股11年賺6000萬:初始本金150萬 曾1天虧1100萬

頭條要聞

男子炒股11年賺6000萬:初始本金150萬 曾1天虧1100萬

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

教育
時尚
游戲
藝術
本地

教育要聞

“紅領巾”探秘“航空藍”

今夏流行“不穿褲子”!洋氣顯瘦顯腿長,誰穿誰好看!

看著直流口水!小島秀夫曬《死亡擱淺2》精致主題蛋糕

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 青海省| 扶余县| 松江区| 河间市| 沅江市| 榆中县| 新建县| 修武县| 六枝特区| 静海县| 东乌珠穆沁旗| 高州市| 甘谷县| 太白县| 榆社县| 长治市| 大同市| 温宿县| 蓝田县| 谢通门县| 镇巴县| 林周县| 义马市| 浮梁县| 涿鹿县| 永仁县| 平南县| 渑池县| 施甸县| 潮安县| 武山县| 利津县| 定边县| 尉氏县| 永泰县| 改则县| 哈密市| 津市市| 德保县| 嘉义市| 修武县|