99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

重構訓練框架,開源新方法:拋棄替代損失函數,僅需優化原始目標

0
分享至

允中 發自 凹非寺
量子位 | 公眾號 QbitAI

拋棄替代損失函數,僅需優化原始目標, 強化學習新范式來了:

消除critic和reference模型,避免KL散度約束;解決優勢函數和梯度估計兩個偏差。

來自阿里-高德地圖的團隊提出了一種相當簡單的強化學習訓練新方法:組策略梯度優化GPG(Group Policy Gradient)

GPG開創性地從底層重構強化學習訓練框架,僅需優化原始目標,解決已有方法偏差,提高訓練效率。革新強化學習訓練流程,推動智能體性能突破。

在實驗中,GPG在單模態和多模態兩類任務中表現遙遙領先,其極簡架構高性能表現,有望成為下一代基礎模型訓練的關鍵方法。



以下是更多GPG有關細節。

一、背景介紹

近年來,以OpenAI和DeepSeek R1為代表的LLMs模型表現亮眼,深究成功背后,是強化微調技術(RFT)聯合現有強化學習方法(如PPO、GPPO)在激勵模型構建嚴謹的推理鏈上發揮了關鍵作用。

但在面對高昂的訓練成本與性能平衡,主流方法PPO也陷入巨大瓶頸,與此同時,其他研究團隊也在嘗試使用ReMax、GRPO等簡化訓練流程,并在性能上取得了很大的突破,但他們都依然存在一些問題。

研究團隊認為,當前針對RL算法的優化都在圍繞替代損失函數展開,但兩個核心問題始終懸而未決:

1.能否繞過替代策略,直接優化原始目標函數?
2.如何最大限度簡化學習策略的設計?

由此,團隊提出了GPG,其核心創新包括:

  • 直接目標優化:摒棄傳統替代損失函數設計,直接優化原始強化學習目標,突破算法效率瓶頸。
  • 極簡訓練架構:無需評論模型和參考模型支持,擺脫分布約束,為模型擴展性提供更大空間。
  • 精準梯度估計技術(AGE):首次揭示現有方法的獎勵偏差問題,提出輕量化且高精度的梯度估計方案,顯著提升策略穩定性。
  • 單模態多模態任務SOTA驗證:在數學推理、視覺理解、跨模態推理等任務中,GPG性能全面超越現有方法,驗證其通用性與魯棒性。



二、組策略梯度GPG方法
1)方法對比

各種強化學習方法的比較,作者以最簡單的形式解釋:



下面是GPG方法和已有RL方法各個模塊的對比:



2)GPG方法

GPG旨在解決在沒有價值模型的情況下,策略梯度估計中的高方差問題。通過利用group-level的獎勵,GPG穩定了訓練過程并增強了強化學習訓練的魯棒性。

具體而言,GPG利用每個Group內的平均獎勵來歸一化獎勵,從而有效降低方差。這個方法可以移除傳統的價值模型,從而簡化了訓練過程并提高了計算效率。 GPG的名稱反映了作者方法核心機制,即利用group-level的平均獎勵來穩定和優化學習。

GPG的核心優化目標定義為:



作者提出的GPG方法通過組內優勢函數計算梯度校正機制實現了高效穩定的策略優化。在優勢函數設計上,采用組內獎勵均值歸一化方法



3)現有RL方法中的兩個bias

優勢函數中的bias



組內樣本全對全錯時,引入梯度估計的bias



針對組內全對/全錯樣本的梯度估計bias問題,GPG創新性地引入動態梯度校正因子。



實驗表明該機制可使模型準確率從43.9%提升至47.8%,顯著改善訓練穩定性。

三、實驗
1)在單模態數據集上的結果





2)在多模態數據集上的結果





四、結論

在本文中,作者介紹了GPG,它有效地解決了強化微調方法(如PPO和GRPO)中現有的關鍵挑戰。

通過將基于組內的決策動態直接納入標準的PG方法,GPG簡化了訓練過程,并顯著減少了計算開銷,而不削弱模型效果。這一突破為訓練能夠進行復雜推理的先進LLM提供了更高效的框架,從而為更具資源效率和可擴展性的人工智能系統做出了貢獻。

此外,團隊將本文代碼全面開源,希望促進技術透明化發展,也鼓勵更多人參與到該項工作中來。

論文鏈接:https://arxiv.org/pdf/2504.02546
代碼鏈接:https://github.com/AMAP-ML/GPG

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這一周,太瘋狂了!一夜變天!2.69億頂薪引爆拆隊炸彈!

這一周,太瘋狂了!一夜變天!2.69億頂薪引爆拆隊炸彈!

柚子說球
2025-04-27 10:27:13
班底夠硬!利物浦本賽季只花1200萬買了基耶薩,2個轉會窗還賺錢

班底夠硬!利物浦本賽季只花1200萬買了基耶薩,2個轉會窗還賺錢

直播吧
2025-04-28 07:32:02
央視通報!某公司手機為間諜提供“后門”,就差點名道姓,危險了

央視通報!某公司手機為間諜提供“后門”,就差點名道姓,危險了

攬星河的筆記
2025-04-28 11:45:03
新能源汽車又上演了一次大跳水。

新能源汽車又上演了一次大跳水。

流蘇晚晴
2025-04-26 21:35:54
四川樓市突然放大招!首付比例直降15%?剛需和炒房客都坐不住了

四川樓市突然放大招!首付比例直降15%?剛需和炒房客都坐不住了

阿離家居
2025-04-28 08:08:02
高盛:中國當下的房價(深度解析)

高盛:中國當下的房價(深度解析)

科學發掘
2025-04-26 09:39:07
降維打擊能讓人多無助?網友:本人今年38,能單挑幼兒園所有學生

降維打擊能讓人多無助?網友:本人今年38,能單挑幼兒園所有學生

解讀熱點事件
2025-04-26 00:10:07
當上法院院長后,她的辦公室和休息室合計68.7平方米,超出規定44.7平方米

當上法院院長后,她的辦公室和休息室合計68.7平方米,超出規定44.7平方米

新京報政事兒
2025-04-27 09:37:01
期待,中國女排將于4月28日16:30-17:30進行公開訓練直播

期待,中國女排將于4月28日16:30-17:30進行公開訓練直播

懂球帝
2025-04-27 14:14:01
“一絲不掛”新舞蹈?惹爭議,被摸下體更不害臊,金星質疑是對的

“一絲不掛”新舞蹈?惹爭議,被摸下體更不害臊,金星質疑是對的

吃魚思故淵
2024-05-16 21:48:21
拒逆轉!布倫森32+11,坎寧安三雙,唐斯創紀錄,季后賽懸念消失

拒逆轉!布倫森32+11,坎寧安三雙,唐斯創紀錄,季后賽懸念消失

籃球大視野
2025-04-28 05:29:15
中國財長確實去了華盛頓,但情況跟特朗普想得很不一樣

中國財長確實去了華盛頓,但情況跟特朗普想得很不一樣

君君文談
2025-04-28 10:59:16
西部局勢漸明:4強席位初現,晉級之路預測

西部局勢漸明:4強席位初現,晉級之路預測

寒律
2025-04-28 00:54:54
紅軍英格蘭歷史第一隊?頂級聯賽20冠+6座歐冠,曼聯也自嘆不如!

紅軍英格蘭歷史第一隊?頂級聯賽20冠+6座歐冠,曼聯也自嘆不如!

籃球圈里的那些事
2025-04-28 11:01:33
印放水,引發克什米爾混亂!

印放水,引發克什米爾混亂!

陸棄
2025-04-28 11:52:50
陳伯達刑滿釋放出獄后,黨中央問他有什么要求,他笑著說了3句話

陳伯達刑滿釋放出獄后,黨中央問他有什么要求,他笑著說了3句話

華人星光
2025-04-15 16:14:04
這10項不予采納,廣州市教育局公布中考改革意見結果反饋

這10項不予采納,廣州市教育局公布中考改革意見結果反饋

南方都市報
2025-04-27 19:46:17
加州起訴美政府,不等特朗普回應,打出第二“狠招”

加州起訴美政府,不等特朗普回應,打出第二“狠招”

先鋒蒼穹
2025-04-28 10:13:32
美國100%想向中國開戰,而且比任何時候都想。

美國100%想向中國開戰,而且比任何時候都想。

瀘沽湖
2025-04-28 10:09:24
網癮老人贏麻了!Nature子刊41萬人研究認證:玩手機越6,老年癡呆越遠

網癮老人贏麻了!Nature子刊41萬人研究認證:玩手機越6,老年癡呆越遠

方舟健客科普
2025-04-26 10:07:14
2025-04-28 12:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10394文章數 176119關注度
往期回顧 全部

科技要聞

上海車展:初代造車新勢力僅有4家參展

頭條要聞

牛彈琴:特朗普搞了個大烏龍 美國應該向中國道歉

頭條要聞

牛彈琴:特朗普搞了個大烏龍 美國應該向中國道歉

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

王寶強座位引眾怒 論演技誰能壓得了

財經要聞

全球兩條大運河,特朗普全都要

汽車要聞

中型純電轎跑SUV/6月上市 豐田bZ5預售13-16萬

態度原創

房產
健康
數碼
教育
公開課

房產要聞

首開2小時熱銷超 200 套!天河芯紅盤憑什么交出樓市滿分答卷?

唇皰疹和口腔潰瘍是"同伙"嗎?

數碼要聞

Hi MateBook D 16/14預售開啟,高效辦公buff疊滿

教育要聞

高考志愿填報智慧,確保未來的保研勝算。

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 三台县| 永吉县| 得荣县| 中方县| 定兴县| 景宁| 亳州市| 搜索| 合川市| 宽甸| 正镶白旗| 文昌市| 北京市| 高清| 河曲县| 青阳县| 济南市| 永州市| 长寿区| 孝感市| 资源县| 咸宁市| 苍溪县| 赣州市| 南澳县| 汨罗市| 丰顺县| 淮阳县| 远安县| 绥滨县| 沈阳市| 怀安县| 资讯 | 邵阳市| 犍为县| 建阳市| 禹州市| 沾化县| 余江县| 朝阳区| 中方县|