LLM優(yōu)化技術(shù)在許多通用任務(wù)中提升了模型性能,但缺乏針對(duì)AI Agents關(guān)鍵功能(如長(zhǎng)期規(guī)劃、動(dòng)態(tài)環(huán)境交互和復(fù)雜決策)的專門優(yōu)化。為此,華東師大等提供了對(duì)LLM的AI Agents優(yōu)化方法的全面回顧,將其分為參數(shù)驅(qū)動(dòng)和非參數(shù)驅(qū)動(dòng)。
15類AI Agents優(yōu)化方法。參數(shù)驅(qū)動(dòng)優(yōu)化:涵蓋基于微調(diào)的優(yōu)化、基于強(qiáng)化學(xué)習(xí)的優(yōu)化以及混合策略,非參數(shù)驅(qū)動(dòng)策略:提示工程和外部知識(shí)檢索。
一、參數(shù)驅(qū)動(dòng)AI Agents優(yōu)化
詳細(xì)探討了基于參數(shù)驅(qū)動(dòng)的優(yōu)化方法,這些方法通過調(diào)整大型語言模型(LLM)的參數(shù)來提升其作為智能體(agent)的性能。參數(shù)驅(qū)動(dòng)的優(yōu)化方法主要分為三類:傳統(tǒng)的基于微調(diào)(fine-tuning)的優(yōu)化、基于強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)的優(yōu)化,以及混合優(yōu)化策略:
- 傳統(tǒng)微調(diào)優(yōu)化
傳統(tǒng)的微調(diào)方法通過調(diào)整預(yù)訓(xùn)練的LLM參數(shù)來適應(yīng)特定任務(wù),主要涉及以下步驟:
軌跡數(shù)據(jù)構(gòu)建(Trajectory Data Construction):這是微調(diào)前的關(guān)鍵步驟,目的是生成與目標(biāo)任務(wù)對(duì)齊的高質(zhì)量軌跡數(shù)據(jù)。數(shù)據(jù)獲取和生成方法包括專家標(biāo)注數(shù)據(jù)、強(qiáng)大的LLM生成軌跡、自我探索環(huán)境交互軌跡和多智能體協(xié)作構(gòu)建。每種方法都有其優(yōu)勢(shì)和局限性,例如專家標(biāo)注數(shù)據(jù)質(zhì)量高但成本高,而自我探索方法成本低但可能產(chǎn)生低質(zhì)量軌跡。
基于軌跡的微調(diào)(Trajectory-based Fine-Tuning):微調(diào)過程通常結(jié)合一般指令數(shù)據(jù)和特定任務(wù)的軌跡數(shù)據(jù),以確保模型在保留基礎(chǔ)語言能力的同時(shí),優(yōu)化特定任務(wù)的性能。微調(diào)技術(shù)包括標(biāo)準(zhǔn)的監(jiān)督式微調(diào)(SFT)、參數(shù)高效微調(diào)(如LoRA)和針對(duì)特定任務(wù)定制的微調(diào)策略。
- 基于強(qiáng)化學(xué)習(xí)的優(yōu)化
強(qiáng)化學(xué)習(xí)方法通過與環(huán)境的交互來優(yōu)化LLM智能體的行為,主要分為基于獎(jiǎng)勵(lì)函數(shù)的優(yōu)化和基于偏好對(duì)齊的優(yōu)化:
基于獎(jiǎng)勵(lì)函數(shù)的優(yōu)化(Reward Function-based Optimization):利用明確的獎(jiǎng)勵(lì)信號(hào)來指導(dǎo)LLM智能體的行為優(yōu)化。這些方法通常使用傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法,如PPO或Actor-Critic,通過環(huán)境反饋、模型生成的信號(hào)或自定義獎(jiǎng)勵(lì)函數(shù)來調(diào)整LLM的參數(shù)。例如,CMAT使用多智能體協(xié)作和Actor-Critic框架,而StepAgent結(jié)合了逆強(qiáng)化學(xué)習(xí)(IRL)和DPO+PPO來優(yōu)化智能體行為。
基于偏好對(duì)齊的優(yōu)化(Preference Alignment-based Optimization):這種方法不依賴于明確的獎(jiǎng)勵(lì)信號(hào),而是通過偏好數(shù)據(jù)來優(yōu)化智能體的行為,使其更符合人類偏好或特定任務(wù)目標(biāo)。DPO是一種常用的技術(shù),它通過比較偏好對(duì)來直接優(yōu)化策略,而無需建模獎(jiǎng)勵(lì)函數(shù)。例如,DMPO通過替換策略約束為狀態(tài)-動(dòng)作占用度量(SAOM)約束來優(yōu)化RL目標(biāo),而IPR使用DPO來優(yōu)化智能體在每一步的行為。
- 混合微調(diào)優(yōu)化
混合微調(diào)策略結(jié)合了監(jiān)督式微調(diào)和強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì),以克服單一方法的局限性。這些方法通常先通過監(jiān)督式微調(diào)初始化智能體,然后使用強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化其策略。例如,ReFT、AgentGym和ETO等方法在監(jiān)督式微調(diào)階段使用高質(zhì)量的專家軌跡數(shù)據(jù)進(jìn)行初始化,然后在強(qiáng)化學(xué)習(xí)階段使用PPO或DPO來優(yōu)化智能體的行為。此外,一些方法采用迭代方法,交替進(jìn)行監(jiān)督式微調(diào)和強(qiáng)化學(xué)習(xí)階段,以持續(xù)優(yōu)化智能體的性能。
二、非參數(shù)驅(qū)動(dòng)AI Agents優(yōu)化
探討了參數(shù)無關(guān)優(yōu)化方法,通過調(diào)整輸入、上下文或任務(wù)交互,而不是修改模型參數(shù),來優(yōu)化基于LLM的智能體行為。
- 基于經(jīng)驗(yàn)的優(yōu)化
基于經(jīng)驗(yàn)的優(yōu)化方法利用歷史數(shù)據(jù)、軌跡或累積知識(shí)來改進(jìn)LLM智能體。通過存儲(chǔ)和分析成功與失敗的經(jīng)驗(yàn),智能體能夠提煉出有用的見解,從而優(yōu)化策略、增強(qiáng)長(zhǎng)期決策能力,并適應(yīng)不斷變化的任務(wù)。例如:
Optimus-1:利用多模態(tài)記憶模塊,將探索軌跡轉(zhuǎn)換為層次化的知識(shí)圖譜,輔助智能體的任務(wù)規(guī)劃和提示生成。
Agent Hospital:整合醫(yī)療記錄庫(kù)和經(jīng)驗(yàn)庫(kù),根據(jù)成功和失敗案例優(yōu)化決策。
ExpeL:自動(dòng)收集訓(xùn)練任務(wù)中的知識(shí),并在推理時(shí)回憶這些知識(shí)。
- 基于反饋的優(yōu)化
基于反饋的優(yōu)化方法通過利用反饋進(jìn)行自我反思、糾正和迭代改進(jìn)來增強(qiáng)LLM智能體。這些方法分為三類:
自我反思優(yōu)化(Self-Reflection Optimization):智能體利用環(huán)境或自身評(píng)估的反饋來識(shí)別改進(jìn)領(lǐng)域,并通過自我糾正和進(jìn)化來調(diào)整行為。例如:
Reflexion:將任務(wù)結(jié)果或啟發(fā)式評(píng)估轉(zhuǎn)換為文本修正,集成到?jīng)Q策中。
SAGE:檢查器代理提供迭代反饋,助手代理生成自我反思。
外部反饋優(yōu)化(External Feedback Optimization):利用外部模型、代理或框架的評(píng)估信號(hào)來優(yōu)化行為。例如:
Retroformer:使用回顧模型分析失敗并提供改進(jìn)反饋。
COPPER:使用共享反思模塊生成反事實(shí)反饋。
元提示優(yōu)化(Meta-Prompt Optimization):通過迭代調(diào)整全局指令或元提示來增強(qiáng)智能體的泛化能力。例如:
MetaReflection:從失敗試驗(yàn)中提取信息,創(chuàng)建優(yōu)化的提示。
OPRO:通過分析任務(wù)準(zhǔn)確性生成改進(jìn)的指令。
- 基于工具的優(yōu)化
LLM智能體能夠利用外部工具(如計(jì)算器、搜索引擎、代碼解釋器等)來增強(qiáng)其解決問題的能力。優(yōu)化工具使用和選擇策略是提升智能體性能的關(guān)鍵。例如:
TPTU:優(yōu)化任務(wù)分解和工具調(diào)用。
AVATAR:通過比較樣本對(duì)的性能差異,分析工具使用問題。
Middleware:引入錯(cuò)誤反饋機(jī)制,對(duì)齊工具輸入輸出。
- 基于RAG的優(yōu)化
檢索增強(qiáng)生成(RAG)通過動(dòng)態(tài)整合外部知識(shí),克服了預(yù)訓(xùn)練知識(shí)的局限性,提升了智能體在知識(shí)密集型任務(wù)中的表現(xiàn)。例如:
AutoRAG:自動(dòng)化選擇RAG模塊,評(píng)估不同的檢索技術(shù)和重排策略。
Self-RAG:結(jié)合檢索與自我反思,智能體通過迭代反饋?zhàn)赃m應(yīng)地優(yōu)化內(nèi)容。
RaDA:利用過去的經(jīng)驗(yàn)和動(dòng)態(tài)檢索分解任務(wù),生成情境化的行動(dòng)。
- 多智能體協(xié)作優(yōu)化
多智能體框架通過分配角色和迭代互動(dòng)來處理復(fù)雜任務(wù),提升決策能力。例如:
MetaGPT:通過多智能體協(xié)作模擬軟件開發(fā)流程。
ChatDev:分解任務(wù)為模塊化階段,通過角色協(xié)作優(yōu)化軟件開發(fā)。
DyLAN:動(dòng)態(tài)構(gòu)建智能體網(wǎng)絡(luò),優(yōu)化團(tuán)隊(duì)協(xié)作。
Agentverse:提供多智能體協(xié)作和探索新興行為的平臺(tái)。
更多信息:《動(dòng)手設(shè)計(jì)AI Agents:CrewAI版》、《高級(jí)RAG之36技》、新技術(shù)實(shí)戰(zhàn):中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日?qǐng)?bào)/月報(bào)、最新技術(shù)熱點(diǎn)追蹤解讀(GPT4-o/數(shù)字人/MCP/Gemini 2.5 Pro)
https://arxiv.org/pdf/2503.12434
A Survey on the Optimization of Large Language Model-based Agents
https://github.com/YoungDubbyDu/LLM-Agent-Optimization.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.