99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

在GSM8K上比GRPO快8倍!廈大提出CPPO,讓強化學習快如閃電

0
分享至



機器之心報道

編輯:Panda

DeepSeek-R1 的成功離不開一種強化學習算法:GRPO(組相對策略優化)。

不同于 PPO(近端策略優化),GRPO 是直接根據組分數估計基線,因此消除了對 critic 模型的需求。但是,這又需要為每個問題都采樣一組完成結果,進而讓訓練過程的計算成本較高。

之后,GRPO 會使用一個基于規則的獎勵函數來計算每個完成結果的獎勵,并計算每個完成結果的相對優勢。

為了保證訓練的穩定性,GRPO 還會計算一組完成結果的策略模型、參考模型和舊策略模型的預測概率之比作為策略目標函數的一部分,這又會進一步提升強化學習的訓練開銷。GRPO 巨大的訓練開銷限制了其訓練效率和可擴展性。而在實踐中,提高訓練效率是非常重要的。

總結起來,GRPO 訓練的計算成本主要源自其核心設計:為了進行組內比較,會為每個提示詞生成一大組完成結果。此外,GRPO 的前向計算會以完成數量的 3 倍的尺度擴展。

那么,問題來了:在這個強化學習過程中,每個完成結果的貢獻都一樣嗎?

近日,廈門大學紀榮嶸團隊研究發現,每個完成結果的貢獻與其相對優勢有關。也就是說,每個完成結果對策略模型訓練的貢獻并不相等。如圖 1 所示,完成結果的數量增大時,準確度提升并不非常顯著,但訓練時間卻會迅速增長。



基于這一見解,他們發現可以通過對完成結果進行剪枝來加速 GRPO。然后,他們提出了一種加速版的 GRPO:CPPO(Completion Pruning Policy Optimization / 完成剪枝策略優化)。并且他們也已經開源發布了該算法的代碼。



  • 論文標題:CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models
  • 論文地址:https://arxiv.org/pdf/2503.22342
  • 項目地址:https://github.com/lzhxmu/CPPO

顧名思義,CPPO 會根據優勢對完成結果進行剪枝,這樣一來就可以提升強化學習過程的速度。

具體來說,一開始,策略模型會針對每個問題采樣一組完成結果。隨后,通過獎勵函數計算每個完成結果的相對優勢。然后,CPPO 會修剪掉絕對優勢值較低的完成結果,僅保留絕對優勢較高的完成結果來計算損失。此過程可大大減少訓練所需的完成結果數量,從而加快訓練過程。

此外,他們還觀察到,由于完成剪枝會導致 GPU 資源利用率不足,從而導致資源浪費。為了解決這個問題,他們引入了一種動態完成結果分配策略。該策略會用新問題的完成結果填充每個設備,從而充分利用 GPU 資源并進一步提高訓練效率。

實驗證明,他們的方法是有效的。當使用 Qwen-2.5 系列模型時(包括 Qwen-2.5-1.5B-Instruct 和 Qwen-2.5-7B-Instruct),在保證了準確度相當的基礎上,CPPO 在 GSM8K 基準上的速度比 GRPO 快8.32倍,在 MATH 基準上快3.51倍。

或者用網友的話來說,快如閃電!



CPPO:完成剪枝策略優化

要了解 CPPO,首先必須知道 GRPO,其公式如下:



其中,q 是從數據集分布 P (Q) 中采樣的問題,{o_1, o_2, ... , o_G} 是 G 個完成結果,π_θ 是策略模型,π_θ_old 是舊策略模型,π_θ_ref 是參考模型,? 和 β 是超參數,A_i 是使用一組獎勵 {r_1, r_2, ... , r_G} 計算的優勢。

相比于 GRPO,CPPO 引入了一個選擇性條件,該條件僅會包括表現出足夠高優勢的完成結果。CPPO 的目標公式如下:



其中 γ 是一個預定義的閾值,用于確保在梯度更新中僅保留絕對優勢高于 γ 的完成結果。需要注意的是,當,或者 時,clip 函數會被激活。





圖 2 展示了 CPPO 的概況:



統一單/多 GPU 設置

在多 GPU 訓練場景中,該團隊觀察到具有顯著優勢的完成結果的數量因設備而異。在這種情況下,整體訓練效率會有設備處理最多完成結果數量的瓶頸 —— 這種現象稱為「木桶效應(bucket effect)」。為了緩解這種情況,對于每臺 GPU,該團隊的選擇是只保留每個問題具有最大絕對優勢的 k 個完成結果,其中



其中 P ∈ (0, 1] 表示剪枝率。在此策略下修改后的 CPPO 為:



其中僅在具有最高絕對優勢值的 k 個完成結果對應的索引集 I 上進行求和,即

CPPO 算法的流程如下:

  1. 舊策略模型為每個問題采樣一組完成結果;
  2. 獎勵函數計算每個完成結果的獎勵;
  3. 計算每個完成結果的相對優勢;
  4. CPPO 保留 k 個具有最高絕對優勢的完成結果;
  5. 根據選定的完成結果更新策略模型。

CPPO 和 GRPO 之間的關鍵區別是:CPPO 不會將所有完成結果用于策略模型、參考模型和舊策略模型的前向計算。相反,通過僅保留具有高絕對優勢的完成結果進行梯度更新,CPPO 可顯著降低前向傳遞期間的計算開銷,從而加速了訓練過程。

通過動態完成結果分配進行并行處理

該團隊還提出了一種新的動態完成結果分配策略,以進一步優化 CPPO 的訓練效率。

由于 GPU 內存限制,傳統方法(如 GRPO 采用的方法)面臨固有的局限性。具體而言,單臺設備每批最多可以處理 B 個問題,每個問題生成 G 個候選完成結果。剪枝操作之后,每臺設備保留的完成結果總數減少到 B × k,進而導致 GPU 利用率不理想,并行計算能力未得到充分利用。

為了解決這種低效率問題,該團隊的方法是將來自其他問題的剪枝后的完成結果動態分配到設備的處理管道中,如圖 3 所示。



此策略通過不斷用來自原始問題和新引入問題的高質量完成結果填充其內存,確保每個設備都能以滿負荷運行。至關重要的是,所有新合并的完成結果都經過相同的嚴格剪枝過程,以保持一致性和相關性。

這種方法的好處有兩個:

  • 通過充分利用設備的并行計算潛力,它能最大化 GPU 利用率。
  • 它能使每臺設備每批處理更多的問題,從而減少實現收斂所需的總訓練步驟數。

有這兩大優勢,CPPO 便可在保證訓練質量的同時提高訓練效率。

CPPO 的實驗效果

使用 Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct 模型,該團隊在 GSM8K 和 MATH 數據集上對 CPPO 進行了實驗評估。此外,為了評估模型的分布外推理能力,他們還引入了 AMC2023 和 AIME2024 作為測試基準。

在 GSM8K 上的結果如表 1 所示,CPPO 在準確度和加速比上都明顯優于 GRPO。值得注意的是,CPPO 在各種剪枝率下都達到了與 GRPO 相當甚至更高的準確度。在 87.50% 的剪枝率下,CPPO 的準確度達到 80.41%,比 GRPO 的 77.05% 高出 3.36%。



在效率方面,CPPO 大大加快了訓練速度。在 93.75% 的剪枝率下,其加速比達到8.32倍。這些結果表明,CPPO 不僅能保持或提高準確度,還可顯著提高訓練效率。因此,CPPO 有潛力成為大規模推理模型訓練的實用有效解決方案。

在 MATH 上的表現見表 2。可以看到,CPPO 可以很好地擴展到更大的模型 —— 在不犧牲準確度的情況下在 MATH 上實現了高達3.51倍的加速。例如,在 87.5% 的修剪率下,CPPO 保持了與 GRPO (75.20%) 相當的準確度,同時還將訓練時間減少了 3.51 倍。



此外,在 AMC2023 和 AIME2024 基準上的評估表明,盡管 CPPO 僅在高絕對優勢完成結果上進行訓練,但它仍保留了模型在分布外任務上的泛化能力。因此,CPPO 不僅在增強推理能力方面匹敵甚至超越了 GRPO,而且還很好地減少了訓練時間,使其成為一種更有效的替代方案。

該團隊也研究了 CPPO 的穩定性和收斂性。圖 4 展示了在 GSM8K 和 MATH 數據集上訓練時的獎勵曲線。



總體而言,獎勵曲線證明 CPPO 在提高收斂速度的同時可保證 GRPO 的訓練穩定性:CPPO 的獎勵曲線不會崩潰或出現劇烈波動,這對于穩定訓練至關重要。這些結果表明 CPPO 具有穩健而穩定的訓練穩定性。此外,CPPO 的獎勵曲線顯示出了明顯的上升趨勢,能比 GRPO 更快地達到更高的獎勵值。獎勵值的更快增長表明 CPPO 的收斂速度更快。

你有興趣在自己的強化學習訓練流程中嘗試這種更快的 CPPO 嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
曾經的虛竹如今成了外賣騎手!高虎10年后街頭謀生,全是咎由自取

曾經的虛竹如今成了外賣騎手!高虎10年后街頭謀生,全是咎由自取

chen7
2025-04-16 17:27:32
網球傳奇名將小威語出驚人:若我是嗑藥的辛納,將被禁賽20年

網球傳奇名將小威語出驚人:若我是嗑藥的辛納,將被禁賽20年

小染說臺球
2025-04-18 02:24:42
王曼昱搭檔出局!因興奮劑遭全球禁賽!王楚欽4-1掀翻美國卡納克 晉級男單8強

王曼昱搭檔出局!因興奮劑遭全球禁賽!王楚欽4-1掀翻美國卡納克 晉級男單8強

好乒乓
2025-04-18 00:23:17
汪峰女友也來潑水節,34歲森林北素顏太真實,戴大鉆戒太吸睛!

汪峰女友也來潑水節,34歲森林北素顏太真實,戴大鉆戒太吸睛!

西瓜愛娛娛
2025-04-17 10:34:55
無恥之極!《我的后半生》36集大結局,是我今年看過最無恥大結局

無恥之極!《我的后半生》36集大結局,是我今年看過最無恥大結局

漣漪讀史
2025-04-14 21:13:31
“大同訂婚案”后續:父母硬剛導致兒子坐實3年牢!還不接受緩刑

“大同訂婚案”后續:父母硬剛導致兒子坐實3年牢!還不接受緩刑

冰冰講事
2025-04-16 16:55:26
好尷尬!54歲鐘麗緹造型翻車,禮服太小勒出游泳圈,網友:好粗壯

好尷尬!54歲鐘麗緹造型翻車,禮服太小勒出游泳圈,網友:好粗壯

手工制作阿殲
2025-04-17 02:37:26
水果也塌了,央視曝光7大“水果騙局”,越看越害怕,別再踩坑了

水果也塌了,央視曝光7大“水果騙局”,越看越害怕,別再踩坑了

景來律師
2025-03-30 10:44:56
四大銀行的“反常”舉動,揭露重要信號,存款人一定要知道!

四大銀行的“反常”舉動,揭露重要信號,存款人一定要知道!

巢客HOME
2025-04-12 05:50:03
三殺雷霆聯盟唯一!獨行俠再贏灰熊將對陣雷霆,能否上演黑八?

三殺雷霆聯盟唯一!獨行俠再贏灰熊將對陣雷霆,能否上演黑八?

無術不學
2025-04-17 13:30:44
庫里巴特勒附加賽創神跡,被悄悄抹去,聯盟統計體系遭遇信任危機

庫里巴特勒附加賽創神跡,被悄悄抹去,聯盟統計體系遭遇信任危機

奕辰說球
2025-04-17 11:09:20
汪峰好眼力!34歲森林北游桂林曬美照,一雙大長腿太搶鏡了!

汪峰好眼力!34歲森林北游桂林曬美照,一雙大長腿太搶鏡了!

西瓜愛娛娛
2025-04-16 11:38:32
三十多位作家、編輯在五臺山遭遇離奇車禍,竟是因為口無遮攔?

三十多位作家、編輯在五臺山遭遇離奇車禍,竟是因為口無遮攔?

心靈短笛
2025-04-11 14:08:32
6-3,6-2!WTA爆冷:鄭欽文“克星”完勝安德烈耶娃,晉級8強!

6-3,6-2!WTA爆冷:鄭欽文“克星”完勝安德烈耶娃,晉級8強!

大秦壁虎白話體育
2025-04-18 00:08:39
前后5條人命,雷軍跌落神壇?小米汽車遭遇兩記重錘

前后5條人命,雷軍跌落神壇?小米汽車遭遇兩記重錘

象視汽車
2025-04-16 07:00:05
澳門宣布:給3歲以下孩子發錢,每年1.8萬!

澳門宣布:給3歲以下孩子發錢,每年1.8萬!

瀟湘晨報
2025-04-17 18:29:06
張倫碩狀態垮了!鐘麗緹那么愛他,看他在自己手中慢慢憔悴枯萎…

張倫碩狀態垮了!鐘麗緹那么愛他,看他在自己手中慢慢憔悴枯萎…

阿矗論古今
2025-04-17 13:06:05
法爾克:拜仁愿以5000萬歐賣金玟哉,能借此獲得資金簽赫伊森

法爾克:拜仁愿以5000萬歐賣金玟哉,能借此獲得資金簽赫伊森

懂球帝
2025-04-17 18:29:13
四川女子取到30萬假鈔,銀行拒不承認,女子的做法讓銀行愣在原地

四川女子取到30萬假鈔,銀行拒不承認,女子的做法讓銀行愣在原地

如煙若夢
2025-04-16 11:22:47
輿論風波下的津門虎——插管子每年投入一億,于根偉工資中超最低

輿論風波下的津門虎——插管子每年投入一億,于根偉工資中超最低

中國足球的那些事兒
2025-04-17 18:09:09
2025-04-18 07:20:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10373文章數 142295關注度
往期回顧 全部

科技要聞

余承東大講安全,絕口不提智駕"替你開車"

頭條要聞

美知名經濟學家:特朗普低估了中國 也沒有留下逃生門

頭條要聞

美知名經濟學家:特朗普低估了中國 也沒有留下逃生門

體育要聞

結束16年等待,一支強硬的阿森納向我們走來

娛樂要聞

張檬順利產子,韓國婆婆趕赴香港陪產

財經要聞

李強:要把握政策力度 必要時敢于打破常規

汽車要聞

一躍跳過障礙/秒切防御姿態 看懂嵐圖"開掛"絕技

態度原創

藝術
親子
教育
數碼
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

不到一歲寶寶特愛吃西瓜,不給吃就開始哭。

教育要聞

如何培養孩子讀書學習的習慣?讓孩子找到讀書的樂趣?

數碼要聞

蘋果發布《環境進展報告》:庫克表示2030年實現全業務碳中和目標

軍事要聞

朝鮮譴責美國派遣戰略轟炸機至朝鮮半島

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 含山县| 阿瓦提县| 兰溪市| 绥芬河市| 久治县| 光泽县| 眉山市| 东乌| 读书| 栾城县| 阿城市| 枣强县| 黔南| 海淀区| 平潭县| 山东省| 随州市| 灵山县| 桂东县| 桐柏县| 光泽县| 阿拉善盟| 乌拉特后旗| 赤城县| 岗巴县| 象州县| 衡山县| 阜南县| 油尖旺区| 泾阳县| 淮滨县| 麻城市| 七台河市| 奎屯市| 大渡口区| 枣庄市| 道真| 南川市| 定州市| 贵阳市| 大田县|