99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

研究人員打造即插即用型框架,將多智能體強化學習引入大語言模型

0
分享至

當前,在安全對齊、代碼生成等下游任務中,大語言模型要想進一步提升性能,往往需要進行強化學習微調。

但是,從強化學習的視角來看,如果把大語言模型當成根據 prompt 做決策的智能體,就會發現強化學習微調這個任務可謂十分困難。

其中主要存在兩個難點:

一是大語言模型擁有非常龐大的離散動作空間,整個 token 字典都是它的動作空間。以 Meta 公司的 Llama2 模型為例,它的動作空間有 32000 維。

而生成一個回答可能包含幾十甚至上千個 token 的組合,其復雜度遠遠大于在強化學習領域已經被解決得很好的圍棋和星際爭霸等任務。

二是稀疏獎勵問題,即大語言模型只有在完整生成一個回答后才會得到一個獎勵。

這兩個問題導致強化學習微調很不穩定,在微調的時候容易使模型的輸出分布大幅偏離預訓練模型,從而導致模型原有的對語言結構的建模發生崩潰(即分布崩潰),進而引發模型輸出質量的急劇下降。

現有很多研究都是從構建密集獎勵函數入手來解決大語言模型的強化學習微調的問題。

但是,中國科學院自動化所博士生馬昊和所在團隊嘗試從多智能體的角度來看這個問題。

結合團隊在群體智能領域的大量積累,他們認為:如果使用多個大語言模型構成一個多智能體系統,在多個大語言模型之間構造一種博弈關系,也許能實現大語言模型能力的進一步涌現。

這一思路的背后主要基于兩個觀察:一是自然語言本身就是在群體交互中涌現的;二是在群體中,智能體間的博弈關系無論是合作關系還是競爭關系,都可以促進軍備競賽或協同演化,從而在智能體之間形成一種相互促進的動態。

那么,如何在多個大語言模型之間構造一種博弈關系?要知道,基于特定任務針對大語言模型進行強化學習微調,它本身是一個單智能體強化學習問題,因此把它構造成博弈問題頗具挑戰。

在嘗試了多種構造方式后,他們最終發現將兩個大語言模型之間的交互構造為 Stackelberg 博弈可以將強化學習微調轉化為一個多智能體強化學習問題,并實現研究初期所設想的“協同演化”。

這種方法包含兩種機制:

1. 從一個初始大語言模型出發,來將其復制成兩份:Pioneer 大語言模型和 Observer 大語言模型,其中前者僅通過任務 prompt 輸出回答,后者則根據任務 prompt 并以前者的回答作為參考來輸出新的回答。

2. 兩個大語言模型智能體通過各自獨立的數據來進行強化學習微調,任務獎勵為兩者之和。當微調到固定輪次之后,再交換兩者的角色,之后反復迭代。

通過此,該團隊打造出一款名為 CORY 的即插即用型框架,任何能被用于微調大語言模型的強化學習算法,都可以放在這個框架中進行使用。


圖 | CORY 的框架(來源:arXiv[1])

馬昊表示,這種方式既能有效地避免分布崩潰,還能確保大語言模型的能力穩定提升。

另外,在消融實驗中他們發現了一個有趣的現象:在不交換兩個智能體的角色的時候,僅僅依靠 Stackelberg 博弈這種信息傳遞,Observer 也能保持一個相對比較低的相對熵。

這意味著 Pioneer 所提供的參考答案構成了一種針對搜索空間的隱式約束,無意中解決了搜索空間過大的問題。

在這個被約束的搜索空間中,更利于 Observer 找到高質量的策略。

隨著高質量預訓練數據的枯竭,大語言模型的基礎能力逐漸達到瓶頸。

而長期來看,強化學習微調是一個能夠打破這種瓶頸的手段,其在數學推理、代碼生成等存在客觀獎勵函數的任務中的上限可能遠超我們想象。


圖 | 馬昊(來源:馬昊)

日前,本次研究的相關論文以《與另一個你共同進化:使用序列合作型多智能體強化學習微調大語言模型》(Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning)為題已被 NeurIPS(Conference and Workshop on Neural Information Processing Systems) 2024 接收 [2]。


(來源:arXiv)

自動化研究所博士生馬昊是第一作者,自動化研究所博士生扈天翼是共同一作,自動化研究所蒲志強研究員擔任通訊作者。

馬昊表示:“CORY 是將多智能體強化學習引入大語言模型的強化學習微調的最早工作。”但是,從多智能體強化學習的角度來看,還有很多可以繼續開展的工作。

比如,增加智能體的數目、改變智能體的角色、在規模性和交互性等群體要素上進行更深入的探討。而這些都將是他和所在團隊的后續研究方向。

參考資料:

1.https://arxiv.org/pdf/2410.06101

2.https://neurips.cc/virtual/2024/poster/95347

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
20年后,《越獄》演員差距太大,米帥出柜,莎拉凍齡,Tbag進中國

20年后,《越獄》演員差距太大,米帥出柜,莎拉凍齡,Tbag進中國

魚有說
2025-04-04 15:52:55
蘇州高三學生清明節去世,年僅18歲長相帥氣,生前竟沒能查出病因

蘇州高三學生清明節去世,年僅18歲長相帥氣,生前竟沒能查出病因

博覽歷史
2025-04-04 20:35:58
大陸圍臺演訓剛結束,不到12小時,美改變對臺稱呼,要對華攤牌?

大陸圍臺演訓剛結束,不到12小時,美改變對臺稱呼,要對華攤牌?

林子說事
2025-04-04 10:21:47
10年藍月生涯終結!德布勞內自宣:這將是我在曼城的最后幾個月

10年藍月生涯終結!德布勞內自宣:這將是我在曼城的最后幾個月

直播吧
2025-04-04 19:04:21
網友自曝去中醫館開中藥,竟然發現一粒西藥藥片:這就是中西醫結合嗎?

網友自曝去中醫館開中藥,竟然發現一粒西藥藥片:這就是中西醫結合嗎?

可達鴨面面觀
2025-04-04 22:35:46
衛星圖片曝光,美軍大動作!

衛星圖片曝光,美軍大動作!

都市快報橙柿互動
2025-04-04 16:06:48
反制了,比2018年要果斷

反制了,比2018年要果斷

販財局
2025-04-04 19:11:43
炸裂!健身房竟組織賣淫,還任由客人挑選,過程更毀三觀!

炸裂!健身房竟組織賣淫,還任由客人挑選,過程更毀三觀!

老鵜愛說事
2025-04-04 12:31:25
央行突擊降準牛市?4月4日,深夜爆出三大重要消息持續發酵!

央行突擊降準牛市?4月4日,深夜爆出三大重要消息持續發酵!

風口招財豬
2025-04-04 00:32:56
美股科技“七姐妹”兩個交易日市值蒸發1.5萬億美元

美股科技“七姐妹”兩個交易日市值蒸發1.5萬億美元

財聯社
2025-04-04 22:13:00
韋立,被查

韋立,被查

新京報
2025-04-04 22:14:08
體壇丑聞!CBA青島隊主教練被妻子曝出軌,與小三7秒視頻被曝光

體壇丑聞!CBA青島隊主教練被妻子曝出軌,與小三7秒視頻被曝光

叨嘮
2025-04-04 00:14:00
納斯達克中國金龍指數跌幅擴大,現在跌10.0%,最新報6792.51點

納斯達克中國金龍指數跌幅擴大,現在跌10.0%,最新報6792.51點

每日經濟新聞
2025-04-04 22:39:03
他白天演員晚上特工,隱姓埋名75年,2021年被授予七一勛章

他白天演員晚上特工,隱姓埋名75年,2021年被授予七一勛章

黎庶文史
2025-04-03 22:46:17
亂!貝克漢姆大兒子&二兒子斷絕來往 后者現女友曾和前者交往

亂!貝克漢姆大兒子&二兒子斷絕來往 后者現女友曾和前者交往

直播吧
2025-04-04 21:00:25
騙不下去了,終于開始查了!

騙不下去了,終于開始查了!

胖胖說他不胖
2025-04-04 17:19:47
何偉文:要做好中美貿易量下降50%的準備

何偉文:要做好中美貿易量下降50%的準備

看看新聞Knews
2025-04-04 00:42:25
剛剛,國務院5條措施反制美國,納斯達克大跌20%,原油直接崩盤

剛剛,國務院5條措施反制美國,納斯達克大跌20%,原油直接崩盤

鵬哥投研
2025-04-04 20:23:53
王睿澤36+6三分青島大勝1-0浙江 楊瀚森17分劉維偉吃T

王睿澤36+6三分青島大勝1-0浙江 楊瀚森17分劉維偉吃T

醉臥浮生
2025-04-04 21:52:02
歐爾班宣布匈牙利退出ICC

歐爾班宣布匈牙利退出ICC

風華講史
2025-04-04 10:09:13
2025-04-05 00:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15023文章數 513513關注度
往期回顧 全部

科技要聞

DeepSeek提出新方法 或將應用于R2

頭條要聞

美媒感慨:特朗普給了中國黃金機遇 讓他們贏得全世界

頭條要聞

美媒感慨:特朗普給了中國黃金機遇 讓他們贏得全世界

體育要聞

挑對手!恩怨局!CBA季后賽故事可太多了

娛樂要聞

汪小菲懶理S媽暗諷,帶孩子戶外散步

財經要聞

中方多箭齊發!對美加征34%關稅

汽車要聞

別克GL8陸尚內飾官圖發布 有望上海車展亮相

態度原創

房產
親子
教育
健康
家居

房產要聞

被合生珠光朱氏兄弟拖垮的村民們

親子要聞

巨傷腰的 8 個動作,媽媽占一大半!很多人每天在做

教育要聞

辛集市第二實驗學校燃烽火!620名青少年逐鹿乒乓球邀請賽

在中國,到底哪些人在吃“偉哥”?

家居要聞

詮釋東方神韻 展現大宅之美

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 都江堰市| 南阳市| 西城区| 民勤县| 油尖旺区| 翼城县| 乌兰县| 黑山县| 海阳市| 阿鲁科尔沁旗| 安国市| 永顺县| 乌什县| 肥乡县| 呼伦贝尔市| 平乡县| 清原| 普洱| 鹿泉市| 南皮县| 石嘴山市| 北川| 宣汉县| 电白县| 柳江县| 鹤山市| 丰顺县| 灵宝市| 奉新县| 大丰市| 平乡县| 南溪县| 烟台市| 丰镇市| 连南| 浠水县| 宁国市| 内丘县| 清镇市| 义乌市| 读书|