99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Agent太火!這篇綜述讓你不把知識學雜了丨華東師大&東華大學出品

0
分享至

華東師大&東華大學 投稿
量子位 | 公眾號 QbitAI

火,Agent可太火了!關于Agent的進展俯拾皆是,根本看不過來……

看過來——這篇綜述可能能幫你厘清很多問題:

來自華東師大和東華大學的研究團隊發表了“A Survey on the Optimization of Large Language Model-based Agents(大模型智能體的優化方法綜述)”,首次從系統化視角對LLM智能體優化策略進行了全面梳理與分析。

論文將將現有方法劃分為兩大類:參數驅動的優化參數無關的優化。

前者包括基于監督微調、強化學習(如PPO、DPO)以及微調與RL結合的混合策略,重點討論了軌跡數據構建、獎勵函數設計、優化算法等關鍵模塊。

后者則涉及通過Prompt工程、外部工具調用、知識檢索等方式在不修改模型參數的前提下優化Agent行為。



除此之外,作者們還整理了主流的Agent微調與評估數據集,回顧了LLM Agent在醫療、科學、金融、編程等多個應用領域的代表性實踐。

最后,研究團隊總結了Agent當前面臨的關鍵挑戰與未來研究方向。



為什么我們需要專門優化LLM智能體?

近年來,隨著GPT-4、PaLM和DeepSeek等大型語言模型不僅在語言理解和生成上表現出色,更在推理、規劃和復雜決策等方面展現出非凡的能力。

因此,越來越多的研究者開始嘗試將LLM作為智能體來使用,探索其在自動決策和通用人工智能方向的潛力。

與傳統的強化學習智能體不同,LLM智能體不依賴顯式的獎勵函數,而是通過自然語言指令、Prompt模板與上下文學習(ICL)完成復雜任務。

這種“文本驅動”的智能體范式展現出極高的靈活性與泛化能力,能夠跨任務理解人類意圖、執行多步驟操作,并在動態環境中做出決策。

當前,研究者已嘗試通過任務分解、自我反思、記憶增強以及多智能體協作等方式提升其表現,應用場景涵蓋軟件開發、數學推理、具身智能、網頁導航等多個領域。

值得注意的是,LLM本身的訓練目標是預測下一個token,并非為長期規劃和交互學習的Agent任務而生。

這也導致了LLM作為Agent的部分挑戰:

  1. 長程規劃與多步推理能力不足,容易在復雜任務中出現累積錯誤;
  2. 缺乏持續性記憶機制,難以基于歷史經驗進行反思與優化;
  3. 對新環境的適應能力有限,難以動態應對變化場景。

尤其是開源LLM在agent任務中的表現普遍落后于GPT-4等閉源模型,而閉源模型的高成本與不透明性,也使得優化開源LLM以提升Agent能力成為當前研究的關鍵需求。

當前已有的綜述要么聚焦于大模型優化本身,要么只討論agent的局部能力(如規劃、記憶或角色扮演),并未將“LLM智能體優化”作為一個獨立且系統的研究方向進行深入探討。

研究團隊填補了這一空白,首次以“LLM-based Agent的優化技術”為核心議題展開系統綜述,構建統一框架,歸納方法路徑,并對比不同技術的優劣與適用情境。

參數驅動的LLM智能體優化

在參數驅動的LLM優化中,作者將其分為3個方向。

基于常規微調的優化

第一個方向,基于常規微調的優化。

又分為2大步驟:構建Agent任務的高質量軌跡數據——用軌跡微調Agent。



首先是數據獲取與生成

高質量的軌跡數據構建開始于初始數據的獲取和生成,這不僅需要一組多樣化的軌跡,還需要與目標任務充分對齊,以確保有效的學習。

作者將主流方法歸納為以下四類:

  • 專家標注數據:由人類專家手工設計,質量高、對齊強,是微調的黃金標準。但人力成本高、難以擴展,常作為優質補充數據使用。
  • 強LLM自動生成數據:利用GPT-4等大模型結合ReAct、CoT策略生成軌跡,效率高、適合大規模構建。但數據依賴大模型,存在成本高、偏差傳播等問題。
  • Agent自主探索數據:通過開源模型自主與環境交互生成軌跡,成本低、可擺脫閉源依賴。缺點是探索能力有限,需配合后續篩選機制去除低質數據。
  • 多智能體協作生成數據:通過多個Agent協同完成復雜任務流程,提升數據多樣性與交互復雜度。但系統設計更復雜,穩定性和資源成本也是挑戰。

其次,數據的評估與過濾。

由于生成的軌跡數據質量參差不齊,對數據進行評估和篩選成為不可或缺的一步。

作者將主流方法歸納為三類:

  • 基于環境的評估:這類方法依靠任務是否成功、環境獎勵等外部反饋來判斷軌跡質量,易于實現,自動化程度高。但缺點是反饋信號過于粗粒度,只關注最終結果,無法發現推理鏈條中的隱性錯誤。
  • 基于人工或規則的評估:通過預設規則(如任務完成度、答案一致性、多樣性等)或專家人工審核,對數據進行更精細的質量控制。適配性強、準確性高,但也需要大量人工參與與復雜設計。
  • 基于模型的評估:借助強大的LLM(如GPT-4)對軌跡進行自動打分與分析,能從相關性、準確性、完整性等維度進行多層評估,構建自動化質量評估框架。缺點在于,評估本身依賴模型,可能引入新的偏差。

接著是低質量樣本的利用。

除了高質量的獲取,對不合格的低質量軌跡也需要再次利用。

目前的主流策略包括:

  • 對比式利用:通過對比正確與錯誤樣本,讓模型更清晰地識別哪些行為是有效的。
  • 錯誤修正型方法:識別并修正失敗軌跡,將其轉化為可學習的數據,提升訓練質量。
  • 直接利用錯誤樣本:不做修正,直接用失敗案例訓練模型,提升其面對錯誤情境時的容錯性。

完成高質量軌跡數據構建后,下一步就是關鍵的微調階段。

通過微調,讓開源大模型真正適應Agent任務,學會規劃、推理與交互,是優化LLM智能體不可或缺的一步。

值得注意的是,僅用Agent任務軌跡微調可能會削弱LLM的通用能力。

因此,大多工作選擇混合通用指令數據與Agent軌跡共同訓練,以在保留語言基礎能力的同時,提升Agent執行能力。

作者將現有的微調方法劃分為三大類:

  • 標準SFT:最常見的方法,通過高質量指令-輸出對或軌跡數據,對模型進行全參數優化,最能對齊目標任務。此外,模仿學習中的行為克隆本質上也屬于這一類,強調從專家軌跡中學習決策策略。
  • 參數高效微調(如LoRA/QLoRA):只更新少量參數,其余權重保持不動,顯著降低顯存與算力開銷,在大模型Agent微調中尤為常見。相比全量微調,雖然訓練開銷更小,但性能往往可媲美甚至超過
  • 自定義微調策略:為特定任務設計的微調方法,例如將通用指令與軌跡數據混合訓練,或引入額外約束項(如正則化)提升泛化與穩定性。這類方法更具靈活性,適合復雜或稀缺任務場景。



基于強化學習的優化

相比于傳統的微調方式,強化學習為Agent帶來了更具主動性的學習路徑。

它讓模型不再只是“模仿”,而是能在環境中探索行為、接受獎勵與懲罰,動態調整策略,真正實現從試錯中成長。

作者將當前RL優化方式分為:基于獎勵函數的優化基于偏好對齊的優化。



先說基于獎勵函數的優化

在強化學習優化中,獎勵函數就像智能體的指揮棒,引導模型不斷改進策略。通過設定清晰的“做得好 vs 做錯了”標準,Agent可以從交互中學習得更精細、更穩健。

作者將當前方法按照三類獎勵來源劃分3類:

  • 基于環境的獎勵:直接依據任務是否完成來打分,簡單直觀,自動化程度高。但往往只關注最終結果,忽略了中間步驟的質量。
  • 基于模型的獎勵:由LLM或輔助模型對軌跡進行評估,適用于環境反饋稀疏的場景,能提供更細致的反饋。但效果取決于評估模型的質量。
  • 自定義獎勵函數:研究者根據任務需求自設多維度獎勵,不僅考核完成度,也關注策略穩定性、協作效率等。靈活強大,但設計成本高、難以泛化。



再來看基于偏好對齊的優化。

相比傳統RL基于獎勵函數的訓練方式,偏好對齊提供了更直接、更輕量的優化路徑。

它不再依賴繁瑣的獎勵建模,而是讓Agent學會“哪種行為更受人類歡迎”。

代表方法是DPO,一種更簡單的離線強化學習方式,直接通過人類或專家的偏好對樣本進行“正負對比”訓練。

根據主要偏好數據來源,作者將其這類優化方法分為兩類:

  • 專家/人工偏好數:基于專家示范或人類標注構造正負樣本(優質 vs 錯誤軌跡),質量高但難以大規模擴展,覆蓋面有限。
  • 任務或環境反饋:從任務表現(成功率、分數等)中自動構建偏好對,適用于動態任務場景,但依賴反饋機制合理的設計。



綜合來看,偏好對齊方法訓練高效、部署簡單,但強依賴偏好數據質量與覆蓋范圍,適合結構明確、反饋清晰的任務場景。

而獎勵函數類方法更適配復雜多變的環境,但成本更高。

混合參數微調方法

單一的優化方法各有短板——常規微調穩定高效但缺乏動態應變能力,RL靈活強大卻計算開銷巨大。

于是,越來越多研究開始探索混合微調策略,結合兩者優點,構建更強大的LLM智能體。

這類工作主要為:

第一,順序式兩階段訓練

這也是是當前的主流方法,采取“先SFT、后RL”的思路。

  • 階段一:行為克隆微調(SFT),用專家軌跡或策展數據預訓練模型,奠定基礎能力;
  • 階段二:強化學習優化(PPO / DPO),針對環境或偏好精調模型策略。

第二,交替優化。

即引入迭代交替機制,在SFT和RL之間多輪來回切換,以實現細粒度提升。

參數無關的LLM智能體優化

相比參數微調,參數無關的優化方法不涉及模型權重更新,而是通過調整Prompt、上下文和外部信息結構,在資源受限或輕量部署場景中展現出強大潛力。

作者將其分為五類核心策略:

第一類,基于經驗的優化。

通過記憶模塊或歷史軌跡,讓Agent“學會復盤”,從過去成功與失敗中提煉策略,增強長期適應性。

第二類,基于反饋的優化。

Agent通過自我反思或外部評估不斷修正行為,形成迭代閉環;還有方法通過元提示優化調整全局指令結構,提升泛化能力。

第三類,基于工具的優化。

讓Agent學會使用工具(如搜索、計算器、API)以增強執行力。部分方法優化工具調用策略,部分則訓練Agent構建更高效的任務-工具路徑。

第四類,基于RAG的優化。

結合檢索與生成,通過從數據庫/知識庫中實時獲取信息增強推理過程,尤其適合知識密集型任務和變化快速的場景。

第五類,多Agent協作優化。

多個LLM Agent協同完成任務,通過角色分工、信息共享與反饋機制實現1+1>2的協同智能。



參數無關優化,讓LLM Agent在不動模型的前提下,變得更“聰明”、更“適應”、也更“輕巧”。

數據集與基準

作者將數據和基準分為用于評估和微調的兩個大類。

評估任務分為兩類

第一類,通用評估任務。

即按一般任務領域分類,如數學推理,問題推理(QA)任務,多模態任務,編程等。



第二類,多任務評估基準。

跨各種任務評估基于LLM的智能體,測試它們概括和適應不同領域的能力。



Agent微調數據集,則是針對Agent微調而精心設計的數據,以提高LLM Agent在不同任務和環境中的能力。



應用

隨著優化方法的不斷成熟,基于LLM的智能體已在多個真實場景中嶄露頭角,逐漸從實驗室走向實際應用



挑戰與未來方向

數據偏差問題。

Agent高度依賴數據質量,然而預訓練數據與微調軌跡分布不匹配,再加上LLM自身生成與評估帶來的潛在偏差,易導致性能不穩定。

未來可探索偏差測試、對抗訓練、知識邊界評估等方法,構建更穩健的數據基礎。

算法效率與適應性。

當前強化學習與微調方法在面對稀疏獎勵、大動作空間、多步交互時存在成本高、效果差的問題。

如何提升DPO等輕量方法的多輪能力,或探索RL+SFT的混合訓練、元學習、自監督方法,將是未來重點。

跨任務跨領域遷移難。

許多方法在單一任務上表現優秀,但在新環境或真實世界中易失效。

需要發展更強的泛化機制,如任務分布對齊、域適應、多任務聯合訓練等,提升模型遷移與適應能力。

缺乏統一評估標準。

Agent在不同任務(如數學推理、網頁導航、具身AI)中使用不同指標,難以橫向比較。

建立統一的評估基準,引入推理復雜度、適應性與偏好評分等新維度,將推動Agent研究向更系統、可比的方向發展。

參數驅動的多智能體優化缺失。

目前多智能體策略多依賴凍結LLM,缺乏聯合參數訓練機制,限制了協同智能的發展。

未來應探索多智能體聯合微調、獎勵共享機制、層級控制策略,提升整體系統能力與協作水平。

arXiv鏈接:
https://arxiv.org/abs/2503.12434

GitHub鏈接:
https://github.com/YoungDubbyDu/LLM-Agent-Optimization

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
卡拉格:如果阿森納能奪得歐冠冠軍,沒人會在乎他們在聯賽的表現

卡拉格:如果阿森納能奪得歐冠冠軍,沒人會在乎他們在聯賽的表現

雷速體育
2025-04-11 22:59:08
約基奇26+16+12,比肩兩大傳奇!威少納投名狀,掘金逆轉灰熊!

約基奇26+16+12,比肩兩大傳奇!威少納投名狀,掘金逆轉灰熊!

釘釘陌上花開
2025-04-12 11:23:30
你能頂得住張元英穿黑絲嗎?

你能頂得住張元英穿黑絲嗎?

喜歡歷史的阿繁
2025-04-10 06:57:33
7中2+5犯,但他一戰打回輪換!球迷:哈維晚上睡覺都要夢見你

7中2+5犯,但他一戰打回輪換!球迷:哈維晚上睡覺都要夢見你

弄月公子
2025-04-12 10:30:29
我退休工資3000,一年能存40000,如何做到的?

我退休工資3000,一年能存40000,如何做到的?

蟬吟槐蕊
2025-04-12 10:51:21
該儲量美國最多,中國95%都依賴進口,如果美國斷供,中國咋辦?

該儲量美國最多,中國95%都依賴進口,如果美國斷供,中國咋辦?

琉璃聊科學
2025-04-11 22:39:57
中國向全世界宣布,退出五千億美元大項目

中國向全世界宣布,退出五千億美元大項目

鐵拳大衛君
2025-04-11 20:00:18
0-1,0-2!感謝國足!印尼主場或打破68年恥辱紀錄,送國足出局

0-1,0-2!感謝國足!印尼主場或打破68年恥辱紀錄,送國足出局

大秦壁虎白話體育
2025-04-12 09:39:20
海關戲精附體,加稅至今未收!美海關大爺想出合適又體面的理由

海關戲精附體,加稅至今未收!美海關大爺想出合適又體面的理由

大風文字
2025-04-12 09:29:09
關稅重壓下,諾華230億美元在美國建廠

關稅重壓下,諾華230億美元在美國建廠

動脈新醫藥
2025-04-11 19:53:06
放棄核心地位,首選加盟火箭!賽季僅出戰8場,28歲射手要后悔了

放棄核心地位,首選加盟火箭!賽季僅出戰8場,28歲射手要后悔了

熊哥愛籃球
2025-04-11 20:58:35
突發建交!朝鮮遭背刺,全球政治版圖改寫

突發建交!朝鮮遭背刺,全球政治版圖改寫

華語智庫
2025-04-12 08:05:40
這兩天,一位特別的客人來到北京

這兩天,一位特別的客人來到北京

牛彈琴
2025-04-12 10:59:14
“風暴”中的在美中國留學生

“風暴”中的在美中國留學生

界面新聞
2025-04-11 09:08:50
中法免簽,大量法國游客涌入我國,看似旅游卻不去任何景區,為啥

中法免簽,大量法國游客涌入我國,看似旅游卻不去任何景區,為啥

歷史看阿敞
2024-12-28 17:34:59
4月9日上午,仁愛礁傳來消息!賴在這的菲律賓軍艦,不可能拖走了

4月9日上午,仁愛礁傳來消息!賴在這的菲律賓軍艦,不可能拖走了

Ck的蜜糖
2025-04-09 13:52:28
“新型啃老”正在全國蔓延:孩子不上班也不伸手要錢,3000塊能活

“新型啃老”正在全國蔓延:孩子不上班也不伸手要錢,3000塊能活

巢客HOME
2025-04-05 23:19:55
賈一凡:石宇奇是一個非常好的男孩子,但是我們沒有在一起

賈一凡:石宇奇是一個非常好的男孩子,但是我們沒有在一起

懂球帝
2025-04-11 23:10:11
“放棄國籍、替日洗白”,被全網封殺的趙立新,徹底活成了笑話!

“放棄國籍、替日洗白”,被全網封殺的趙立新,徹底活成了笑話!

華人星光
2025-04-09 13:46:02
基辛格預言成真?美國四度擊垮“老二”,中國或成第五個反殺者

基辛格預言成真?美國四度擊垮“老二”,中國或成第五個反殺者

娛樂洞察點點
2025-04-11 12:05:05
2025-04-12 11:40:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10303文章數 176094關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

牛彈琴:特別的客人來到北京 美國公開威脅"后果嚴重"

頭條要聞

牛彈琴:特別的客人來到北京 美國公開威脅"后果嚴重"

體育要聞

當意甲冠軍跌入意乙降級區 老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態度原創

房產
教育
旅游
本地
軍事航空

房產要聞

官宣6月!地鐵12號線沖刺開通,白云金沙洲終于等來破局

教育要聞

從廈大到武大,985高校出現大量調劑名額“空缺”,原因為何?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

華北將迎“歷史罕見”大風

軍事要聞

普京與美國中東問題特使結束會談

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 湖北省| 青铜峡市| 安宁市| 屏山县| 贵定县| 麦盖提县| 罗平县| 武强县| 梨树县| 东莞市| 万盛区| 纳雍县| 昂仁县| 临夏市| 咸阳市| 松滋市| 胶州市| 连云港市| 武清区| 和静县| 武胜县| 普兰店市| 迁安市| 广西| 黔江区| 保德县| 平谷区| 新和县| 安阳市| 龙井市| 金山区| 白银市| 桂林市| 瑞昌市| 镇安县| 秭归县| 旬邑县| 正镶白旗| 贡山| 怀远县| 赫章县|