99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李飛飛等領(lǐng)銜,來自七所高校“三代AI人”聯(lián)合提出強化學(xué)習(xí)新框架

0
分享至

00 后王子涵,是 DeepSeek 的前實習(xí)生,曾參與 DeepSeek-V2 的開發(fā)。其本科畢業(yè)于中國人民大學(xué),目前在美國西北大學(xué)讀博。


圖 | 王子涵(來源:https://zihanwang314.github.io/)

幾天前,他和所在團隊以及合作者針對智能體提出一種新的通用框架和模塊化系統(tǒng)。

論文作者分別來自于 7 所高校,同時這次論文也是一個由“三代 AI 人”打造的新成果。作為共同一作的王子涵是 00 后,共同作者之一是王子涵的導(dǎo)師——美國西北大學(xué)助理教授李曼玲,而另一位論文共同作者則是李曼玲的博士后導(dǎo)師——美國斯坦福大學(xué)教授李飛飛。

研究中,王子涵和所在團隊提出了一種名為狀態(tài)-思考-動作-獎勵策略優(yōu)化(StarPO,State-Thinking-Actions-Reward Policy Optimization)的通用框架,能被用于軌跡級智能體強化學(xué)習(xí)。同時,他們還打造出一款模塊化系統(tǒng) RAGEN,該系統(tǒng)能用于訓(xùn)練和評估大模型智能體。

通過研究三種典型環(huán)境,課題組揭示了三個核心發(fā)現(xiàn):

首先,研究團隊利用強化學(xué)習(xí)訓(xùn)練展示了一種名為回聲陷阱(Echo Trap)的反復(fù)模式,即獎勵方差會出現(xiàn)斷崖和梯度尖峰。為了解決這一問題,他們基于 StarPO 打造了 StarPO-S 這一變體,這種變體是一種帶有軌跡過濾、評價融入和解耦裁剪的穩(wěn)定變體。

其次,研究團隊發(fā)現(xiàn)強化學(xué)習(xí)訓(xùn)練過程之所以能夠得到優(yōu)化,主要得益于多樣化的初始狀態(tài)、適中的交互粒度以及更加頻繁的采樣。

再次,研究團隊發(fā)現(xiàn)如果沒有細粒度且符合推理邏輯的獎勵信號,智能體很難在多輪強化學(xué)習(xí)中形成有效推理能力,反而可能表現(xiàn)出淺層策略或產(chǎn)生幻覺性思維。



如何讓智能體實現(xiàn)有效、穩(wěn)定的學(xué)習(xí)?

本次研究旨在探索:到底哪些因素能讓智能體實現(xiàn)有效、穩(wěn)定的學(xué)習(xí)。為了探討這一問題,他們基于 StarPO 這一通用強化學(xué)習(xí)框架開展了研究。

研究人員表示,StarPO 能為多輪次、軌跡級別的智能體訓(xùn)練提供一個統(tǒng)一視角,并能靈活地控制推理、獎勵分配和提示-學(xué)習(xí)過程結(jié)構(gòu)。

基于 StarPO,他們開發(fā)了模塊化的智能體訓(xùn)練和評估系統(tǒng) RAGEN,以便能夠支持大模型中基于強化學(xué)習(xí)的推理研究。

據(jù)了解,RAGEN 能夠?qū)崿F(xiàn)完整的訓(xùn)練循環(huán),包括連續(xù)輸出生成、獎勵分配和軌跡優(yōu)化。作為一套研究基礎(chǔ)設(shè)施,針對多輪交互以及隨機環(huán)境下的大模型智能體訓(xùn)練動態(tài),RAGEN 能夠?qū)ζ溥M行系統(tǒng)性分析。

此前,在一些現(xiàn)實世界任務(wù)比如網(wǎng)頁瀏覽和實體操作上,訓(xùn)練大模型智能體通常依賴大量的預(yù)訓(xùn)練先驗知識和特定任務(wù)的工程化處理。

為了研究大模型智能體從零開始的學(xué)習(xí)過程,并排除一些混雜因素的影響,研究團隊在 Bandit、Sokoban 和 FrozenLake 這三種風(fēng)格化訓(xùn)練環(huán)境中,通過 RAGEN 來開展評估。這些環(huán)境被刻意設(shè)計得極為簡潔,同時在難度、符號變化和轉(zhuǎn)換動態(tài)方面是完全可控的。

更加重要的是,以上三種風(fēng)格化訓(xùn)練環(huán)境要求智能體必須盡可能更少地依賴先前的世界知識,而是通過與環(huán)境交互來學(xué)習(xí)決策策略。

完成這些設(shè)置之后,他們分析了強化學(xué)習(xí)中的三個關(guān)鍵維度,并揭示了穩(wěn)定強化學(xué)習(xí)訓(xùn)練的核心挑戰(zhàn)和設(shè)計原則:

首先,要想實現(xiàn)穩(wěn)定的訓(xùn)練,多回合強化學(xué)習(xí)中的梯度穩(wěn)定性是關(guān)鍵。研究人員發(fā)現(xiàn)多回合強化學(xué)習(xí)訓(xùn)練往往會催生一種反復(fù)出現(xiàn)的不穩(wěn)定模式,這種模式便是前文提到的回聲陷阱(Echo Trap),當智能體過度擬合局部獎勵推理模式的時候,會出現(xiàn)獎勵方差崩潰、熵下降和梯度尖峰等現(xiàn)象。為了緩解這一失效模式,他們提出了 StarPO-S,這是 StarPO 框架的一個穩(wěn)定變體,這個變體能夠通過基于方差的軌跡過濾、評價基線化和解耦剪切來提高學(xué)習(xí)魯棒性。

其次,研究人員展示了推演頻率與多樣性塑造自我進化。在基于強化學(xué)習(xí)的智能體訓(xùn)練中,大模型自我生成的展開軌跡會被作為核心訓(xùn)練材料。而通過本次研究他們確定了用于穩(wěn)定智能體強化學(xué)習(xí)訓(xùn)練的關(guān)鍵部署因素:第一個因素是要確保推演數(shù)據(jù)來自于多樣化的提示集,并且每個提示都能生成多個響應(yīng)。第二個因素是在固定的回合限制之內(nèi),每個回合通過執(zhí)行多個動作來提高交互范圍。第三個因素是要保持較高的推演頻率,以便確保在線反饋能夠反映當前策略的最新狀態(tài)。

再次,研究人員發(fā)現(xiàn)新興智能體推理需要細致的獎勵信號。他們發(fā)現(xiàn),僅僅在行動格式中鼓勵推理并不能確保產(chǎn)生實際的推理行為。即使模型通過 StarPO 進行軌跡級優(yōu)化來進行推理,如果推理沒有帶來明顯的獎勵優(yōu)勢,它們也往往會退化為直接選擇動作。研究團隊認為這是由于馬爾科夫決策過程(MDP,Markov Decision Process)中的動作空間較為簡單,因此使用淺層策略就已經(jīng)足夠應(yīng)對。此外,當獎勵僅僅反映任務(wù)是否成功完成時,模型會產(chǎn)生推理幻覺,這表明思維與環(huán)境狀態(tài)之間存在不匹配的情況。也說明在強化學(xué)習(xí)中,要想進行長期的智能體訓(xùn)練,就需要細粒度的、具有推理意識的獎勵信號。

通過此,研究人員揭示了一個具備推理能力、穩(wěn)定性和泛化性的大模型智能體背后的核心原則。

而為了在實際場景中實施 StarPO,研究團隊構(gòu)建了 RAGEN,RAGEN 是一個用于在受控環(huán)境中訓(xùn)練大模型智能體的完整系統(tǒng)。

RAGEN 框架支持結(jié)構(gòu)化推演軌跡和可定制獎勵函數(shù),并能適配多輪隨機環(huán)境的集成需求。

RAGEN 既可以作為 StarPO 的執(zhí)行后端,也可作為一種研究智能體的穩(wěn)定性、泛化能力和學(xué)習(xí)動態(tài)的平臺。

與此同時,RAGEN 采用模塊化設(shè)計,因此具備一定的可擴展性。即使是新的環(huán)境、新的獎勵方案或新的展示策略,也可以輕松插入訓(xùn)練循環(huán)之中,從而能為基于強化學(xué)習(xí)的智能體訓(xùn)練分析奠定基礎(chǔ)。



轉(zhuǎn)向基于可驗證結(jié)果的獎勵驅(qū)動型訓(xùn)練模式

在實驗設(shè)計上,他們選擇了三個小而全面的符號環(huán)境,即前文提到的 Bandit、Sokoban 和 FrozenLake,這些環(huán)境旨在隔離核心決策挑戰(zhàn)。這些符號環(huán)境小而可控,并且去除了現(xiàn)實世界的先驗知識,因此能對推理涌現(xiàn)和學(xué)習(xí)動態(tài)進行清晰的分析。

具體而言,Bandit 測試了在隨機反饋下的風(fēng)險敏感符號推理。


(來源:GitHub)

Sokoban 需要在確定性環(huán)境中進行不可逆的多步規(guī)劃。


(來源:GitHub)

而 FrozenLake 則將規(guī)劃與概率性轉(zhuǎn)換相結(jié)合。


(來源:GitHub)

實驗中,研究團隊首先評估了在默認配置之下,StarPO 在三個智能體任務(wù)中的基線性能。

如下圖所示,多數(shù)訓(xùn)練過程在早期階段展現(xiàn)出性能的顯著提升,但最終仍會陷入性能崩潰。


(來源:GitHub)

這種行為與靜態(tài)單輪任務(wù)并不相同,在靜態(tài)單輪任務(wù)中,崩潰問題幾乎不會成為主要問題。

值得注意的是,研究團隊觀察到在發(fā)生性能退化之前,StarPO 的近端策略優(yōu)化(PPO,Proximal Policy Optimization)變體比梯度懲罰策略優(yōu)化(GRPO,Gradient Penalty Policy Optimization)變體,能夠保持更長的穩(wěn)定時間。

例如,在 Bandit 和 Sokoban 任務(wù)上,梯度懲罰策略優(yōu)化變體分別在 20 步和 10 步時開始崩潰,而近端策略優(yōu)化變體則能維持到 100 步和 50 步。

這些結(jié)果表明:雖然近端策略優(yōu)化算法和梯度懲罰策略優(yōu)化算法等單輪次強化學(xué)習(xí)方法,在初期能夠適應(yīng)多輪次的交互場景,但是在需要長程交互的多輪智能體訓(xùn)練中它們變現(xiàn)得缺乏魯棒性。此外,價值函數(shù)也在穩(wěn)定訓(xùn)練動態(tài)中扮演著關(guān)鍵角色。

令人驚訝的是,在 FrozenLake 任務(wù)上,梯度懲罰策略優(yōu)化變體似乎比近端策略優(yōu)化變體更加穩(wěn)定。研究團隊推測,這可能是由于 FrozenLake 任務(wù)存在狀態(tài)值難以估計的固有特性,因此可能會降低近端策略優(yōu)化變體的穩(wěn)定性。

為了探究性能崩潰的原因,研究團隊比較了早期和晚期的推演軌跡。在 Bandit 任務(wù)中:早期階段的軌跡表現(xiàn)顯示,該任務(wù)實現(xiàn)了對于符號意義和預(yù)期獎勵的多樣化推理;而后期階段的軌跡表現(xiàn),則變得重復(fù)并且具有確定性。

如下表所示,最上面兩行展示了關(guān)于中國傳說中神異動物“龍”和“鳳”的不同假設(shè),而最下面三行收斂到幾乎相同的措辭,這些措辭側(cè)重于“選擇龍”,但卻沒有給出任何理由。


(來源:GitHub)

這表明,強化學(xué)習(xí)訓(xùn)練可能過度地放大了固有的推理捷徑,在強化局部獎勵模板的同時抑制了探索。

研究團隊將這種失敗模式稱為“回聲陷阱”(Echo Trap),即模型在獎勵反饋下反復(fù)重用記憶中的推理路徑,從而導(dǎo)致軌跡多樣性的崩潰和長期性能的下降。

為了識別訓(xùn)練崩潰的早期跡象,研究團隊分析了反映行為冗余與策略不穩(wěn)定的軌跡級統(tǒng)計信號。具體而言,研究團隊檢測了兩個早期指標:第一個指標是獎勵標準差,旨在衡量同一任務(wù)實例下的多次軌跡能否產(chǎn)生多樣化結(jié)果,或是否已經(jīng)崩潰為具有相似回報的重復(fù)模式。第二個指標是輸出熵,旨在捕捉模型輸出的不確定性,假如它出現(xiàn)驟降則意味著策略過度自信,并收斂至狹窄的推理路徑。

為了判定性能崩潰是否發(fā)生,研究團隊又追蹤了以下兩項關(guān)鍵指標:第一個指標是平均獎勵值,其增長停滯或下降標志著任務(wù)解決能力退化。第二個指標是梯度范數(shù),該數(shù)值的突變意味著微小參數(shù)更新引發(fā)劇烈變化,通常是訓(xùn)練不穩(wěn)定及崩潰的前兆。


(來源:GitHub)

上圖呈現(xiàn)了不同任務(wù)和優(yōu)化方法下的動態(tài)趨勢。基于實驗結(jié)果,關(guān)于多輪次智能體強化學(xué)習(xí)中模型崩潰演化過程,研究人員得出了以下結(jié)論:

首先,獎勵標準差可能是一個可靠的早期信號。對于 FrozenLake-PPO,獎勵均值在第 90 步時崩潰,但標準差在第 40 步時急劇下降,這一時間遠遠早于性能下降發(fā)生的時間。在 Bandit-PPO 中,標準差在第 70 步左右觸底,而獎勵在第 120 步達到峰值。在 Sokoban-PPO 中,標準差和均值在第 10 步左右?guī)缀跬瑫r崩潰。

其次,梯度范數(shù)的激增表明發(fā)生了不可逆的崩潰。一旦梯度范數(shù)激增出現(xiàn),在第 170 步(Bandit)、第 110 步(Sokoban)和第 90 步(FrozenLake)的時候,即使是小幅更新也會導(dǎo)致參數(shù)劇烈變化,在此之后恢復(fù)的可能性微乎其微。

再次,在有效的學(xué)習(xí)過程中,熵值通常會遵循一種穩(wěn)定的下降趨勢。熵值的迅速增加或無規(guī)律的變化,往往與推理行為的崩潰相關(guān)聯(lián)。

這些模式證實,多回合強化學(xué)習(xí)(multi-turn RL)帶來了單回合強化學(xué)習(xí)方法無法應(yīng)對的獨特挑戰(zhàn)。為此,研究團隊推出了 StarPO-S 這一穩(wěn)定變體,旨在提高采樣質(zhì)量、增強梯度穩(wěn)定性并規(guī)范探索行為,以避免過早崩潰。

總的來說,通過本次研究該團隊證明,當強化學(xué)習(xí)能夠適應(yīng)復(fù)雜且隨機多變的環(huán)境時,也意味著能夠針對大模型智能體進行有效訓(xùn)練,進而讓智能體進行推理和行動。

本次研究成果的提出,也標志著人們從程序繁瑣、有人工監(jiān)督的學(xué)習(xí)模式,轉(zhuǎn)向了基于可驗證結(jié)果的獎勵驅(qū)動型訓(xùn)練模式。

這為定理證明、軟件工程、科學(xué)發(fā)現(xiàn)和游戲等領(lǐng)域構(gòu)建 AI 系統(tǒng)開辟了一條可擴展的道路。

參考資料:

論文全文:https://github.com/RAGEN-AI/RAGEN/blob/main/RAGEN.pdf

https://x.com/wzihanw/status/1915052871474712858

https://github.com/RAGEN-AI/RAGEN

https://ragen-ai.github.io/

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
S媽吶喊想看海 小S家Elly海邊度假 Lily背大S包炫富 網(wǎng)友:三打S精

S媽吶喊想看海 小S家Elly海邊度假 Lily背大S包炫富 網(wǎng)友:三打S精

手工制作阿殲
2025-04-26 00:57:37
哈登三個前隊友均捧場!歐文保羅都來了 貝弗利攜絕美女友觀戰(zhàn)

哈登三個前隊友均捧場!歐文保羅都來了 貝弗利攜絕美女友觀戰(zhàn)

Emily說個球
2025-04-25 13:23:38
“弗拉基米爾,住手!”特朗普罕見公開譴責(zé)普京!俄羅斯提出停戰(zhàn)條件

“弗拉基米爾,住手!”特朗普罕見公開譴責(zé)普京!俄羅斯提出停戰(zhàn)條件

上觀新聞
2025-04-25 10:43:10
四川保姆偷偷抱走雇主兒子,26年后嫌孩子沒出息主動歸還,生母懵了:那我養(yǎng)的孩子又是誰?

四川保姆偷偷抱走雇主兒子,26年后嫌孩子沒出息主動歸還,生母懵了:那我養(yǎng)的孩子又是誰?

讀史
2025-04-24 07:03:49
內(nèi)維爾:利物浦將碾壓式屠殺熱刺,4-1大勝奪冠!

內(nèi)維爾:利物浦將碾壓式屠殺熱刺,4-1大勝奪冠!

直播吧
2025-04-25 18:49:50
58歲劉嘉玲晨跑引爭議:穿緊身褲不遮臀部,被網(wǎng)友點評“沒一點老人樣”

58歲劉嘉玲晨跑引爭議:穿緊身褲不遮臀部,被網(wǎng)友點評“沒一點老人樣”

LadyDaily
2025-03-15 18:07:56
丁真徹底翻車!劉濤暴怒離場,曾志偉當眾發(fā)飆:你是演戲還是玩的

丁真徹底翻車!劉濤暴怒離場,曾志偉當眾發(fā)飆:你是演戲還是玩的

姩姩有娛呀
2025-04-25 21:10:37
楊蔭凱,赴任浙江

楊蔭凱,赴任浙江

新京報政事兒
2025-04-25 21:51:42
突然發(fā)現(xiàn),g與π2竟然極為接近,我好像發(fā)現(xiàn)了世界的bug!

突然發(fā)現(xiàn),g與π2竟然極為接近,我好像發(fā)現(xiàn)了世界的bug!

果殼
2025-04-25 16:10:07
一場讓人心塞的比賽:河南隊明明可以拿3分,最后卻輸給了國安

一場讓人心塞的比賽:河南隊明明可以拿3分,最后卻輸給了國安

肖語談
2025-04-26 00:22:19
周正毅辦64歲大壽!李玲玉親自獻唱,席開50多桌,現(xiàn)場炫耀不斷

周正毅辦64歲大壽!李玲玉親自獻唱,席開50多桌,現(xiàn)場炫耀不斷

娛圈小愚
2025-04-25 08:53:47
將晚飯時間改到這個點!全身受益

將晚飯時間改到這個點!全身受益

福州晚報
2025-04-13 18:19:26
新處理器不好賣!Intel:客戶都在買老CPU

新處理器不好賣!Intel:客戶都在買老CPU

快科技
2025-04-25 15:56:08
大部分人都是被最親的人給慢性折磨死的,很多病是不和諧相處得的

大部分人都是被最親的人給慢性折磨死的,很多病是不和諧相處得的

詩詞中國
2025-04-11 13:14:11
我和陌生女人工地搭伙3年,直到她離開后,我才知道她的真實身份

我和陌生女人工地搭伙3年,直到她離開后,我才知道她的真實身份

白云故事
2025-04-19 15:45:03
重傷66天,郭艾倫面對央視爆料!戳他眼的隊友20多歲,身高超2米

重傷66天,郭艾倫面對央視爆料!戳他眼的隊友20多歲,身高超2米

嘴炮體壇
2025-04-25 21:10:50
地面已經(jīng)交火,印巴局勢雪崩式惡化,殲-10CE升空接受加油

地面已經(jīng)交火,印巴局勢雪崩式惡化,殲-10CE升空接受加油

車馬點兵V
2025-04-25 17:16:11
突破美國封鎖!李家超發(fā)聲:香港將部署為內(nèi)地企業(yè)提供供應(yīng)鏈服務(wù)

突破美國封鎖!李家超發(fā)聲:香港將部署為內(nèi)地企業(yè)提供供應(yīng)鏈服務(wù)

證券時報
2025-04-25 17:54:07
重慶好色院長包養(yǎng)20名情婦,案發(fā)后,竟因一本日記被判十二年

重慶好色院長包養(yǎng)20名情婦,案發(fā)后,竟因一本日記被判十二年

朝暮書屋
2024-04-24 16:57:00
40歲女子每天要過七八次性生活,情夫不堪折磨,分手不成把她殺了

40歲女子每天要過七八次性生活,情夫不堪折磨,分手不成把她殺了

丫頭舫
2025-04-18 15:17:51
2025-04-26 07:28:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15104文章數(shù) 513574關(guān)注度
往期回顧 全部

科技要聞

文心模型再降價80%,李彥宏:我打下了價格

頭條要聞

特朗普稱克里米亞將留在俄羅斯 澤連斯基:絕不承認

頭條要聞

特朗普稱克里米亞將留在俄羅斯 澤連斯基:絕不承認

體育要聞

?跑得最快的院長來啦!蘇炳添擔(dān)任暨大體育學(xué)院院長

娛樂要聞

王菲被諷刺為愚婦 張柏芝最終還是贏了

財經(jīng)要聞

政治局會議傳遞積極信號 機構(gòu)熱議6大看點

汽車要聞

"下一代純電寶馬"提前體驗 用代碼編譯駕駛樂趣

態(tài)度原創(chuàng)

親子
房產(chǎn)
旅游
本地
家居

親子要聞

寶寶真的需要補充γ-氨基丁酸嗎?讓孩子成長更快的方法

房產(chǎn)要聞

影響孩子未來20年的教育TALK!未來方洲與教育理想的一場深度對話

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

家居要聞

清徐現(xiàn)代 有溫度有態(tài)度

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 奎屯市| 芦溪县| 和田县| 天气| 樟树市| 永和县| 嵩明县| 盐山县| 云阳县| 榆社县| 海阳市| 通许县| 崇仁县| 华容县| 巴南区| 云龙县| 玛曲县| 大名县| 广灵县| 祁连县| 普兰县| 大姚县| 丘北县| 荔浦县| 马山县| 虞城县| 南城县| 邢台市| 梓潼县| 富顺县| 蚌埠市| 海城市| 泽州县| 道孚县| 富锦市| 客服| 莆田市| 乌拉特后旗| 沈阳市| 林芝县| 济南市|