允中 發自 凹非寺
量子位 | 公眾號 QbitAI
拋棄替代損失函數,僅需優化原始目標, 強化學習新范式來了:
消除critic和reference模型,避免KL散度約束;解決優勢函數和梯度估計兩個偏差。
來自阿里-高德地圖的團隊提出了一種相當簡單的強化學習訓練新方法:組策略梯度優化GPG(Group Policy Gradient)。
GPG開創性地從底層重構強化學習訓練框架,僅需優化原始目標,解決已有方法偏差,提高訓練效率。革新強化學習訓練流程,推動智能體性能突破。
在實驗中,GPG在單模態和多模態兩類任務中表現遙遙領先,其極簡架構與高性能表現,有望成為下一代基礎模型訓練的關鍵方法。
以下是更多GPG有關細節。
一、背景介紹
近年來,以OpenAI和DeepSeek R1為代表的LLMs模型表現亮眼,深究成功背后,是強化微調技術(RFT)聯合現有強化學習方法(如PPO、GPPO)在激勵模型構建嚴謹的推理鏈上發揮了關鍵作用。
但在面對高昂的訓練成本與性能平衡,主流方法PPO也陷入巨大瓶頸,與此同時,其他研究團隊也在嘗試使用ReMax、GRPO等簡化訓練流程,并在性能上取得了很大的突破,但他們都依然存在一些問題。
研究團隊認為,當前針對RL算法的優化都在圍繞替代損失函數展開,但兩個核心問題始終懸而未決:
1.能否繞過替代策略,直接優化原始目標函數?
2.如何最大限度簡化學習策略的設計?
由此,團隊提出了GPG,其核心創新包括:
- 直接目標優化:摒棄傳統替代損失函數設計,直接優化原始強化學習目標,突破算法效率瓶頸。
- 極簡訓練架構:無需評論模型和參考模型支持,擺脫分布約束,為模型擴展性提供更大空間。
- 精準梯度估計技術(AGE):首次揭示現有方法的獎勵偏差問題,提出輕量化且高精度的梯度估計方案,顯著提升策略穩定性。
- 單模態多模態任務SOTA驗證:在數學推理、視覺理解、跨模態推理等任務中,GPG性能全面超越現有方法,驗證其通用性與魯棒性。
二、組策略梯度GPG方法
1)方法對比
各種強化學習方法的比較,作者以最簡單的形式解釋:
下面是GPG方法和已有RL方法各個模塊的對比:
2)GPG方法
GPG旨在解決在沒有價值模型的情況下,策略梯度估計中的高方差問題。通過利用group-level的獎勵,GPG穩定了訓練過程并增強了強化學習訓練的魯棒性。
具體而言,GPG利用每個Group內的平均獎勵來歸一化獎勵,從而有效降低方差。這個方法可以移除傳統的價值模型,從而簡化了訓練過程并提高了計算效率。 GPG的名稱反映了作者方法核心機制,即利用group-level的平均獎勵來穩定和優化學習。
GPG的核心優化目標定義為:
作者提出的GPG方法通過組內優勢函數計算梯度校正機制實現了高效穩定的策略優化。在優勢函數設計上,采用組內獎勵均值歸一化方法
3)現有RL方法中的兩個bias
優勢函數中的bias
組內樣本全對全錯時,引入梯度估計的bias
針對組內全對/全錯樣本的梯度估計bias問題,GPG創新性地引入動態梯度校正因子。
實驗表明該機制可使模型準確率從43.9%提升至47.8%,顯著改善訓練穩定性。
三、實驗
1)在單模態數據集上的結果
2)在多模態數據集上的結果
四、結論
在本文中,作者介紹了GPG,它有效地解決了強化微調方法(如PPO和GRPO)中現有的關鍵挑戰。
通過將基于組內的決策動態直接納入標準的PG方法,GPG簡化了訓練過程,并顯著減少了計算開銷,而不削弱模型效果。這一突破為訓練能夠進行復雜推理的先進LLM提供了更高效的框架,從而為更具資源效率和可擴展性的人工智能系統做出了貢獻。
此外,團隊將本文代碼全面開源,希望促進技術透明化發展,也鼓勵更多人參與到該項工作中來。
論文鏈接:https://arxiv.org/pdf/2504.02546
代碼鏈接:https://github.com/AMAP-ML/GPG
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.