網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

重磅！大模型 AI Agents 優(yōu)化最新綜述

2025-04-01 16:52:22　來源: 人工智能研究

貴州舉報(bào)

分享至

LLM優(yōu)化技術(shù)在許多通用任務(wù)中提升了模型性能，但缺乏針對(duì)AI Agents關(guān)鍵功能（如長(zhǎng)期規(guī)劃、動(dòng)態(tài)環(huán)境交互和復(fù)雜決策）的專門優(yōu)化。為此，華東師大等提供了對(duì)LLM的AI Agents優(yōu)化方法的全面回顧，將其分為參數(shù)驅(qū)動(dòng)和非參數(shù)驅(qū)動(dòng)。

15類AI Agents優(yōu)化方法。參數(shù)驅(qū)動(dòng)優(yōu)化：涵蓋基于微調(diào)的優(yōu)化、基于強(qiáng)化學(xué)習(xí)的優(yōu)化以及混合策略，非參數(shù)驅(qū)動(dòng)策略：提示工程和外部知識(shí)檢索。

一、參數(shù)驅(qū)動(dòng)AI Agents優(yōu)化

詳細(xì)探討了基于參數(shù)驅(qū)動(dòng)的優(yōu)化方法，這些方法通過調(diào)整大型語言模型（LLM）的參數(shù)來提升其作為智能體（agent）的性能。參數(shù)驅(qū)動(dòng)的優(yōu)化方法主要分為三類：傳統(tǒng)的基于微調(diào)（fine-tuning）的優(yōu)化、基于強(qiáng)化學(xué)習(xí)（reinforcement learning, RL）的優(yōu)化，以及混合優(yōu)化策略：

傳統(tǒng)微調(diào)優(yōu)化

傳統(tǒng)的微調(diào)方法通過調(diào)整預(yù)訓(xùn)練的LLM參數(shù)來適應(yīng)特定任務(wù)，主要涉及以下步驟：

軌跡數(shù)據(jù)構(gòu)建（Trajectory Data Construction）：這是微調(diào)前的關(guān)鍵步驟，目的是生成與目標(biāo)任務(wù)對(duì)齊的高質(zhì)量軌跡數(shù)據(jù)。數(shù)據(jù)獲取和生成方法包括專家標(biāo)注數(shù)據(jù)、強(qiáng)大的LLM生成軌跡、自我探索環(huán)境交互軌跡和多智能體協(xié)作構(gòu)建。每種方法都有其優(yōu)勢(shì)和局限性，例如專家標(biāo)注數(shù)據(jù)質(zhì)量高但成本高，而自我探索方法成本低但可能產(chǎn)生低質(zhì)量軌跡。
基于軌跡的微調(diào)（Trajectory-based Fine-Tuning）：微調(diào)過程通常結(jié)合一般指令數(shù)據(jù)和特定任務(wù)的軌跡數(shù)據(jù)，以確保模型在保留基礎(chǔ)語言能力的同時(shí)，優(yōu)化特定任務(wù)的性能。微調(diào)技術(shù)包括標(biāo)準(zhǔn)的監(jiān)督式微調(diào)（SFT）、參數(shù)高效微調(diào)（如LoRA）和針對(duì)特定任務(wù)定制的微調(diào)策略。

基于強(qiáng)化學(xué)習(xí)的優(yōu)化

強(qiáng)化學(xué)習(xí)方法通過與環(huán)境的交互來優(yōu)化LLM智能體的行為，主要分為基于獎(jiǎng)勵(lì)函數(shù)的優(yōu)化和基于偏好對(duì)齊的優(yōu)化：

基于獎(jiǎng)勵(lì)函數(shù)的優(yōu)化（Reward Function-based Optimization）：利用明確的獎(jiǎng)勵(lì)信號(hào)來指導(dǎo)LLM智能體的行為優(yōu)化。這些方法通常使用傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法，如PPO或Actor-Critic，通過環(huán)境反饋、模型生成的信號(hào)或自定義獎(jiǎng)勵(lì)函數(shù)來調(diào)整LLM的參數(shù)。例如，CMAT使用多智能體協(xié)作和Actor-Critic框架，而StepAgent結(jié)合了逆強(qiáng)化學(xué)習(xí)（IRL）和DPO+PPO來優(yōu)化智能體行為。
基于偏好對(duì)齊的優(yōu)化（Preference Alignment-based Optimization）：這種方法不依賴于明確的獎(jiǎng)勵(lì)信號(hào)，而是通過偏好數(shù)據(jù)來優(yōu)化智能體的行為，使其更符合人類偏好或特定任務(wù)目標(biāo)。DPO是一種常用的技術(shù)，它通過比較偏好對(duì)來直接優(yōu)化策略，而無需建模獎(jiǎng)勵(lì)函數(shù)。例如，DMPO通過替換策略約束為狀態(tài)-動(dòng)作占用度量（SAOM）約束來優(yōu)化RL目標(biāo)，而IPR使用DPO來優(yōu)化智能體在每一步的行為。

混合微調(diào)優(yōu)化

混合微調(diào)策略結(jié)合了監(jiān)督式微調(diào)和強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)，以克服單一方法的局限性。這些方法通常先通過監(jiān)督式微調(diào)初始化智能體，然后使用強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化其策略。例如，ReFT、AgentGym和ETO等方法在監(jiān)督式微調(diào)階段使用高質(zhì)量的專家軌跡數(shù)據(jù)進(jìn)行初始化，然后在強(qiáng)化學(xué)習(xí)階段使用PPO或DPO來優(yōu)化智能體的行為。此外，一些方法采用迭代方法，交替進(jìn)行監(jiān)督式微調(diào)和強(qiáng)化學(xué)習(xí)階段，以持續(xù)優(yōu)化智能體的性能。

二、非參數(shù)驅(qū)動(dòng)AI Agents優(yōu)化

探討了參數(shù)無關(guān)優(yōu)化方法，通過調(diào)整輸入、上下文或任務(wù)交互，而不是修改模型參數(shù)，來優(yōu)化基于LLM的智能體行為。

基于經(jīng)驗(yàn)的優(yōu)化

基于經(jīng)驗(yàn)的優(yōu)化方法利用歷史數(shù)據(jù)、軌跡或累積知識(shí)來改進(jìn)LLM智能體。通過存儲(chǔ)和分析成功與失敗的經(jīng)驗(yàn)，智能體能夠提煉出有用的見解，從而優(yōu)化策略、增強(qiáng)長(zhǎng)期決策能力，并適應(yīng)不斷變化的任務(wù)。例如：

Optimus-1：利用多模態(tài)記憶模塊，將探索軌跡轉(zhuǎn)換為層次化的知識(shí)圖譜，輔助智能體的任務(wù)規(guī)劃和提示生成。
Agent Hospital：整合醫(yī)療記錄庫(kù)和經(jīng)驗(yàn)庫(kù)，根據(jù)成功和失敗案例優(yōu)化決策。
ExpeL：自動(dòng)收集訓(xùn)練任務(wù)中的知識(shí)，并在推理時(shí)回憶這些知識(shí)。

基于反饋的優(yōu)化

基于反饋的優(yōu)化方法通過利用反饋進(jìn)行自我反思、糾正和迭代改進(jìn)來增強(qiáng)LLM智能體。這些方法分為三類：

自我反思優(yōu)化（Self-Reflection Optimization）：智能體利用環(huán)境或自身評(píng)估的反饋來識(shí)別改進(jìn)領(lǐng)域，并通過自我糾正和進(jìn)化來調(diào)整行為。例如：
- Reflexion：將任務(wù)結(jié)果或啟發(fā)式評(píng)估轉(zhuǎn)換為文本修正，集成到?jīng)Q策中。
- SAGE：檢查器代理提供迭代反饋，助手代理生成自我反思。
外部反饋優(yōu)化（External Feedback Optimization）：利用外部模型、代理或框架的評(píng)估信號(hào)來優(yōu)化行為。例如：
- Retroformer：使用回顧模型分析失敗并提供改進(jìn)反饋。
- COPPER：使用共享反思模塊生成反事實(shí)反饋。
元提示優(yōu)化（Meta-Prompt Optimization）：通過迭代調(diào)整全局指令或元提示來增強(qiáng)智能體的泛化能力。例如：
- MetaReflection：從失敗試驗(yàn)中提取信息，創(chuàng)建優(yōu)化的提示。
- OPRO：通過分析任務(wù)準(zhǔn)確性生成改進(jìn)的指令。

基于工具的優(yōu)化

LLM智能體能夠利用外部工具（如計(jì)算器、搜索引擎、代碼解釋器等）來增強(qiáng)其解決問題的能力。優(yōu)化工具使用和選擇策略是提升智能體性能的關(guān)鍵。例如：

TPTU：優(yōu)化任務(wù)分解和工具調(diào)用。
AVATAR：通過比較樣本對(duì)的性能差異，分析工具使用問題。
Middleware：引入錯(cuò)誤反饋機(jī)制，對(duì)齊工具輸入輸出。

基于RAG的優(yōu)化

檢索增強(qiáng)生成（RAG）通過動(dòng)態(tài)整合外部知識(shí)，克服了預(yù)訓(xùn)練知識(shí)的局限性，提升了智能體在知識(shí)密集型任務(wù)中的表現(xiàn)。例如：

AutoRAG：自動(dòng)化選擇RAG模塊，評(píng)估不同的檢索技術(shù)和重排策略。
Self-RAG：結(jié)合檢索與自我反思，智能體通過迭代反饋?zhàn)赃m應(yīng)地優(yōu)化內(nèi)容。
RaDA：利用過去的經(jīng)驗(yàn)和動(dòng)態(tài)檢索分解任務(wù)，生成情境化的行動(dòng)。

多智能體協(xié)作優(yōu)化

多智能體框架通過分配角色和迭代互動(dòng)來處理復(fù)雜任務(wù)，提升決策能力。例如：

MetaGPT：通過多智能體協(xié)作模擬軟件開發(fā)流程。
ChatDev：分解任務(wù)為模塊化階段，通過角色協(xié)作優(yōu)化軟件開發(fā)。
DyLAN：動(dòng)態(tài)構(gòu)建智能體網(wǎng)絡(luò)，優(yōu)化團(tuán)隊(duì)協(xié)作。
Agentverse：提供多智能體協(xié)作和探索新興行為的平臺(tái)。

更多信息：《動(dòng)手設(shè)計(jì)AI Agents：CrewAI版》、《高級(jí)RAG之36技》、新技術(shù)實(shí)戰(zhàn)：中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日?qǐng)?bào)/月報(bào)、最新技術(shù)熱點(diǎn)追蹤解讀（GPT4-o/數(shù)字人/MCP/Gemini 2.5 Pro）

https://arxiv.org/pdf/2503.12434
A Survey on the Optimization of Large Language Model-based Agents
https://github.com/YoungDubbyDu/LLM-Agent-Optimization.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.