99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek前員工領銜,復現R1強化學習框架訓練Agent在行動中推理

0
分享至

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI

什么開源算法自稱為DeepSeek-R1(-Zero) 框架的第一個復現?

新強化學習框架RAGEN,作者包括DeepSeek前員工Zihan Wang、斯坦福李飛飛團隊等,可訓練Agent在行動中深度思考。



論文一作Zihan Wang在DeepSeek期間參與了Deepseek-v2和Expert Specialized Fine-Tuning等工作,目前在美國西北大學讀博。

他在介紹這項工作時上來就是一個靈魂提問:為什么你的強化學習訓練總是崩潰?

而RAGEN正是探討了使用多輪強化學習訓練Agent時會出現哪些問題 ,以及如何解決這些問題。



通過大量實驗,研究團隊發現了訓練深度推理型Agent的三大難點:

  • Echo Trap(回聲陷阱):多輪強化學習中,模型過度依賴局部收益的推理,導致行為單一化、探索能力衰退,從而影響長期收益。
  • 數據質量:Agent生成的交互數據直接影響強化學習的效果。合理的數據應該具有多樣性、適度的交互粒度和實時性。比如在單個任務上多試幾次,每輪限制5-6個動作,并保持rollout的頻繁更新。
  • 缺乏推理動機:如果沒有精心設計的獎勵函數,Agent很難學會多輪任務中持續的推理能力。甚至會出現表面看起來能完成任務,實際上只是匹配了固定模式的假象。下一步的關鍵在于建立更細粒度、面向解釋的獎勵機制。

在交互式隨機環境中訓練推理Agent

RAGEN是一個模塊化的Agent訓練和評估系統,基于StarPO(State-Thinking-Actions-Reward Policy Optimization)框架,通過多輪強化學習來優化軌跡級別的交互過程,由兩個關鍵部分組成:

MDP Formulation

將Agent與環境的交互表述為馬爾可夫決策過程(MDP),其中狀態和動作是token序列,從而允許在環境動態上推理。



StarPO:通過軌跡級優化強化推理

StarPO是一個通用的強化學習框架,用于優化Agent的整個多輪交互軌跡,在兩個階段之間交替進行,支持在線和離線學習。

Rollout階段:

給定初始狀態,該模型會生成多條軌跡。在每一步中,模型都會接收軌跡歷史記錄并生成推理引導的動作。

...reasoning process...think>actionans>

環境接收動作并返回反饋(獎勵和下一個狀態)。



Update階段:多回合軌跡優化

生成軌跡后,訓練優化預期獎勵。StarPO并非采用逐步優化的方式,而是使用重要性采樣來優化整個軌跡。這種方法能夠在保持計算效率的同時實現長遠推理。

StarPO支持PPO、GRPO等多種優化策略。





除提出算法外,RAGEN論文中還重點介紹了通過研究推理穩定性和強化學習動態得出的6點主要發現。

6點主要發現

發現1:多輪訓練引入了新的不穩定模式

像PPO和GRPO這樣的單輪強化學習方法的adaptations在Agent任務中有效,但經常會崩潰。PPO中的“批評者”或許可以**延緩不穩定性,但無法阻止推理能力的下降,這凸顯了在Agent任務中對專門的穩定性進行改進的必要性。

發現2:Agent強化學習中的模型崩潰體現為訓練過程中的“回聲陷阱”

早期智能體會以多樣化的符號推理做出反應,但訓練后會陷入確定性、重復性的模板。模型會收斂到固定的措辭,這表明強化學習可能會強化表面模式而非一般推理,并形成阻礙長期泛化的“回聲陷阱”。

發現3:崩潰遵循類似的動態,可以通過指標預測

獎勵的標準差和熵通常會在性能下降之前發生波動,而梯度范數的峰值通常標志著不可逆崩潰的臨界點。這些指標提供了早期指標,并激發了對穩定策略的需求。

發現4:基于不確定性的過濾提高了訓練的穩定性和效率
基于獎勵方差過濾訓練數據可以有效對抗“回聲陷阱”。僅保留高度不確定的訓練實例可以延遲或防止跨任務崩潰,并提高數據效率。

發現5:任務多樣性、行動預算和推出頻率影響數據質量

多樣化的任務實例能夠實現更好的策略對比和跨環境泛化。合適的行動預算能夠提供充足的規劃空間,并避免過長序列引入的噪聲。Up-to-date rollouts能夠確保優化目標與當前策略行為保持一致。

發現6:如果沒有精心的獎勵設計,推理行為就無法產生

雖然符號推理在弱監督下的單輪任務中自然出現,但在多輪環境中,如果沒有明確鼓勵可解釋的中間推理步驟的獎勵設計,它就無法持續存在。

團隊觀察到,即使有結構化的提示,如果獎勵信號僅關注最終結果,推理能力也會在訓練過程中逐漸衰退。這表明如果沒有細致的獎勵塑造,智能體可能會傾向于走捷徑,完全繞過推理。

One More Thing

同團隊還有另一個項目VAGEN,使用多輪強化學習訓練多模態Agent。

VAGEN 引入了回合感知推理交互鏈優化 (TRICO) 算法,通過兩項關鍵創新擴展了傳統的RICO方法:選擇性token屏蔽,跨輪credit分配。

與傳統的Agent強化學習相比,VAGEN不會平等對待軌跡中的所有token,而是重點優化最關鍵的決策token并在交互過程中創建更細致的獎勵結構,更適合多模態Agent



RAGEN、VAGEN代碼均已開源,感興趣的團隊可以跑起來了。

論文:
https://github.com/RAGEN-AI/RAGEN/blob/main/RAGEN.pdf

代碼
https://github.com/RAGEN-AI/RAGEN
https://github.com/RAGEN-AI/VAGEN


[1]https://ragen-ai.github.io
[2]https://x.com/wzihanw/status/1915052871474712858

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中央財辦副主任楊蔭凱,有新職

中央財辦副主任楊蔭凱,有新職

政知新媒體
2025-04-25 22:16:22
河道漲水致多人被困,高校保衛科長、中學校長救人遇難還有一名營救者失聯 官方回應

河道漲水致多人被困,高校保衛科長、中學校長救人遇難還有一名營救者失聯 官方回應

紅星新聞
2025-04-25 20:36:22
1945年,法國巴黎名叫伊娃的女人衣服被扒光,豐腴的身體沒有遮擋

1945年,法國巴黎名叫伊娃的女人衣服被扒光,豐腴的身體沒有遮擋

百態人間
2025-04-22 16:24:22
日本網上瘋傳“4·26東京8.3級大地震”

日本網上瘋傳“4·26東京8.3級大地震”

揚子晚報
2025-04-25 20:14:21
神二十航天員抵達空間站,第一頓飯是餃子

神二十航天員抵達空間站,第一頓飯是餃子

上觀新聞
2025-04-25 09:47:46
“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

南方都市報
2025-04-25 17:58:08
一周3次警告!烏克蘭后,俄羅斯把"槍口"對準日本,俄日愈發緊張

一周3次警告!烏克蘭后,俄羅斯把"槍口"對準日本,俄日愈發緊張

二向箔
2025-04-25 15:57:42
來了來了!巴特勒最新傷情報告!當事人首次正面回應……

來了來了!巴特勒最新傷情報告!當事人首次正面回應……

籃球實戰寶典
2025-04-25 20:46:41
又轟下23+13+13!他這樣打下去,詹姆斯的歷史第二不穩了

又轟下23+13+13!他這樣打下去,詹姆斯的歷史第二不穩了

籃球大視野
2025-04-25 16:26:47
魔怔了!特朗普仍堅稱"剛和中國開過會",中國網友:被詐騙了?

魔怔了!特朗普仍堅稱"剛和中國開過會",中國網友:被詐騙了?

二向箔
2025-04-25 18:08:37
滴滴上線女乘客可選女司機功能,卻遭女司機怒罵:錢沒賺到,還整天被投訴

滴滴上線女乘客可選女司機功能,卻遭女司機怒罵:錢沒賺到,還整天被投訴

小蘿卜絲
2025-04-25 15:53:56
局勢完全失控,印巴地面部隊開始交火,傷亡已超20人

局勢完全失控,印巴地面部隊開始交火,傷亡已超20人

史政先鋒
2025-04-25 14:32:55
美國再次天塌,沙特搶先與中國簽署重磅協議,特朗普無計可施?

美國再次天塌,沙特搶先與中國簽署重磅協議,特朗普無計可施?

文雅筆墨
2025-04-25 19:57:28
油價跌破天!4月25日:調價后92,95號汽油價格,蛋價報復性下跌

油價跌破天!4月25日:調價后92,95號汽油價格,蛋價報復性下跌

豬友巴巴
2025-04-25 15:30:03
董明珠攤上事了!間諜論持續升級,官媒點名狠批,胡錫進要求道歉

董明珠攤上事了!間諜論持續升級,官媒點名狠批,胡錫進要求道歉

二向箔
2025-04-25 14:53:38
殺害最小人質恐怖頭目全家被以色列送上路

殺害最小人質恐怖頭目全家被以色列送上路

移光幻影
2025-04-25 11:31:56
27歲男子被派出所所長堂侄打死案今日重審

27歲男子被派出所所長堂侄打死案今日重審

閃電新聞
2025-04-25 19:39:04
毛家后代為何沒有一個當官的?毛主席親孫子毛新宇給出答案

毛家后代為何沒有一個當官的?毛主席親孫子毛新宇給出答案

歷史求知所
2025-04-24 22:10:06
半場被換下,蒯紀聞中超首秀數據:16次觸球,貢獻1次射門

半場被換下,蒯紀聞中超首秀數據:16次觸球,貢獻1次射門

懂球帝
2025-04-25 21:14:15
一店主發帖感慨:守店比守寡還難!一天營收128.5元,毛利20.5元

一店主發帖感慨:守店比守寡還難!一天營收128.5元,毛利20.5元

火山詩話
2025-04-25 12:18:19
2025-04-26 00:28:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10374文章數 176116關注度
往期回顧 全部

科技要聞

文心模型再降價80%,李彥宏:我打下了價格

頭條要聞

美稱波音應認為中國航司退回3架飛機違約 外交部回應

頭條要聞

美稱波音應認為中國航司退回3架飛機違約 外交部回應

體育要聞

?跑得最快的院長來啦!蘇炳添擔任暨大體育學院院長

娛樂要聞

王菲被諷刺為愚婦 張柏芝最終還是贏了

財經要聞

政治局會議傳遞積極信號 機構熱議6大看點

汽車要聞

"下一代純電寶馬"提前體驗 用代碼編譯駕駛樂趣

態度原創

本地
房產
親子
手機
公開課

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

房產要聞

影響孩子未來20年的教育TALK!未來方洲與教育理想的一場深度對話

親子要聞

警惕!孩子出現這些變化,可能是性早熟信號

手機要聞

努比亞平板Pro下周發布:2.8K屏+144Hz智能高刷

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 松原市| 若尔盖县| 武冈市| 都安| 平湖市| 会泽县| 云林县| 广昌县| 民县| 佛山市| 荥经县| 垫江县| 从化市| 虞城县| 奉化市| 图们市| 通山县| 郁南县| 济宁市| 荣成市| 英吉沙县| 彭水| 临高县| 福清市| 汾阳市| 同仁县| 姚安县| 汝南县| 辉南县| 萨嘎县| 淅川县| 双鸭山市| 肃北| 普兰店市| 科技| 改则县| 江源县| 南溪县| 阜新市| 黑水县| 额尔古纳市|