99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

重磅!大模型 AI Agents 優(yōu)化最新綜述

0
分享至

LLM優(yōu)化技術(shù)在許多通用任務(wù)中提升了模型性能,但缺乏針對(duì)AI Agents關(guān)鍵功能(如長(zhǎng)期規(guī)劃、動(dòng)態(tài)環(huán)境交互和復(fù)雜決策)的專門優(yōu)化。為此,華東師大等提供了對(duì)LLM的AI Agents優(yōu)化方法的全面回顧,將其分為參數(shù)驅(qū)動(dòng)非參數(shù)驅(qū)動(dòng)

15類AI Agents優(yōu)化方法參數(shù)驅(qū)動(dòng)優(yōu)化:涵蓋基于微調(diào)的優(yōu)化、基于強(qiáng)化學(xué)習(xí)的優(yōu)化以及混合策略,非參數(shù)驅(qū)動(dòng)策略:提示工程和外部知識(shí)檢索。

一、參數(shù)驅(qū)動(dòng)AI Agents優(yōu)化

詳細(xì)探討了基于參數(shù)驅(qū)動(dòng)的優(yōu)化方法,這些方法通過調(diào)整大型語言模型(LLM)的參數(shù)來提升其作為智能體(agent)的性能。參數(shù)驅(qū)動(dòng)的優(yōu)化方法主要分為三類:傳統(tǒng)的基于微調(diào)(fine-tuning)的優(yōu)化、基于強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)的優(yōu)化,以及混合優(yōu)化策略:


  • 傳統(tǒng)微調(diào)優(yōu)化

傳統(tǒng)的微調(diào)方法通過調(diào)整預(yù)訓(xùn)練的LLM參數(shù)來適應(yīng)特定任務(wù),主要涉及以下步驟:


  • 軌跡數(shù)據(jù)構(gòu)建(Trajectory Data Construction):這是微調(diào)前的關(guān)鍵步驟,目的是生成與目標(biāo)任務(wù)對(duì)齊的高質(zhì)量軌跡數(shù)據(jù)。數(shù)據(jù)獲取和生成方法包括專家標(biāo)注數(shù)據(jù)、強(qiáng)大的LLM生成軌跡、自我探索環(huán)境交互軌跡和多智能體協(xié)作構(gòu)建。每種方法都有其優(yōu)勢(shì)和局限性,例如專家標(biāo)注數(shù)據(jù)質(zhì)量高但成本高,而自我探索方法成本低但可能產(chǎn)生低質(zhì)量軌跡。

  • 基于軌跡的微調(diào)(Trajectory-based Fine-Tuning):微調(diào)過程通常結(jié)合一般指令數(shù)據(jù)和特定任務(wù)的軌跡數(shù)據(jù),以確保模型在保留基礎(chǔ)語言能力的同時(shí),優(yōu)化特定任務(wù)的性能。微調(diào)技術(shù)包括標(biāo)準(zhǔn)的監(jiān)督式微調(diào)(SFT)、參數(shù)高效微調(diào)(如LoRA)和針對(duì)特定任務(wù)定制的微調(diào)策略。

  • 基于強(qiáng)化學(xué)習(xí)的優(yōu)化

強(qiáng)化學(xué)習(xí)方法通過與環(huán)境的交互來優(yōu)化LLM智能體的行為,主要分為基于獎(jiǎng)勵(lì)函數(shù)的優(yōu)化和基于偏好對(duì)齊的優(yōu)化:

  • 基于獎(jiǎng)勵(lì)函數(shù)的優(yōu)化(Reward Function-based Optimization):利用明確的獎(jiǎng)勵(lì)信號(hào)來指導(dǎo)LLM智能體的行為優(yōu)化。這些方法通常使用傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法,如PPO或Actor-Critic,通過環(huán)境反饋、模型生成的信號(hào)或自定義獎(jiǎng)勵(lì)函數(shù)來調(diào)整LLM的參數(shù)。例如,CMAT使用多智能體協(xié)作和Actor-Critic框架,而StepAgent結(jié)合了逆強(qiáng)化學(xué)習(xí)(IRL)和DPO+PPO來優(yōu)化智能體行為。

  • 基于偏好對(duì)齊的優(yōu)化(Preference Alignment-based Optimization):這種方法不依賴于明確的獎(jiǎng)勵(lì)信號(hào),而是通過偏好數(shù)據(jù)來優(yōu)化智能體的行為,使其更符合人類偏好或特定任務(wù)目標(biāo)。DPO是一種常用的技術(shù),它通過比較偏好對(duì)來直接優(yōu)化策略,而無需建模獎(jiǎng)勵(lì)函數(shù)。例如,DMPO通過替換策略約束為狀態(tài)-動(dòng)作占用度量(SAOM)約束來優(yōu)化RL目標(biāo),而IPR使用DPO來優(yōu)化智能體在每一步的行為。

  • 混合微調(diào)優(yōu)化

混合微調(diào)策略結(jié)合了監(jiān)督式微調(diào)和強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì),以克服單一方法的局限性。這些方法通常先通過監(jiān)督式微調(diào)初始化智能體,然后使用強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化其策略。例如,ReFT、AgentGym和ETO等方法在監(jiān)督式微調(diào)階段使用高質(zhì)量的專家軌跡數(shù)據(jù)進(jìn)行初始化,然后在強(qiáng)化學(xué)習(xí)階段使用PPO或DPO來優(yōu)化智能體的行為。此外,一些方法采用迭代方法,交替進(jìn)行監(jiān)督式微調(diào)和強(qiáng)化學(xué)習(xí)階段,以持續(xù)優(yōu)化智能體的性能。

二、非參數(shù)驅(qū)動(dòng)AI Agents優(yōu)化

探討了參數(shù)無關(guān)優(yōu)化方法,通過調(diào)整輸入、上下文或任務(wù)交互,而不是修改模型參數(shù),來優(yōu)化基于LLM的智能體行為。

  • 基于經(jīng)驗(yàn)的優(yōu)化

基于經(jīng)驗(yàn)的優(yōu)化方法利用歷史數(shù)據(jù)、軌跡或累積知識(shí)來改進(jìn)LLM智能體。通過存儲(chǔ)和分析成功與失敗的經(jīng)驗(yàn),智能體能夠提煉出有用的見解,從而優(yōu)化策略、增強(qiáng)長(zhǎng)期決策能力,并適應(yīng)不斷變化的任務(wù)。例如:

  • Optimus-1:利用多模態(tài)記憶模塊,將探索軌跡轉(zhuǎn)換為層次化的知識(shí)圖譜,輔助智能體的任務(wù)規(guī)劃和提示生成。

  • Agent Hospital:整合醫(yī)療記錄庫(kù)和經(jīng)驗(yàn)庫(kù),根據(jù)成功和失敗案例優(yōu)化決策。

  • ExpeL:自動(dòng)收集訓(xùn)練任務(wù)中的知識(shí),并在推理時(shí)回憶這些知識(shí)。

  • 基于反饋的優(yōu)化

基于反饋的優(yōu)化方法通過利用反饋進(jìn)行自我反思、糾正和迭代改進(jìn)來增強(qiáng)LLM智能體。這些方法分為三類:

  • 自我反思優(yōu)化(Self-Reflection Optimization):智能體利用環(huán)境或自身評(píng)估的反饋來識(shí)別改進(jìn)領(lǐng)域,并通過自我糾正和進(jìn)化來調(diào)整行為。例如:

    • Reflexion:將任務(wù)結(jié)果或啟發(fā)式評(píng)估轉(zhuǎn)換為文本修正,集成到?jīng)Q策中。

    • SAGE:檢查器代理提供迭代反饋,助手代理生成自我反思。

  • 外部反饋優(yōu)化(External Feedback Optimization):利用外部模型、代理或框架的評(píng)估信號(hào)來優(yōu)化行為。例如:

    • Retroformer:使用回顧模型分析失敗并提供改進(jìn)反饋。

    • COPPER:使用共享反思模塊生成反事實(shí)反饋。

  • 元提示優(yōu)化(Meta-Prompt Optimization):通過迭代調(diào)整全局指令或元提示來增強(qiáng)智能體的泛化能力。例如:

    • MetaReflection:從失敗試驗(yàn)中提取信息,創(chuàng)建優(yōu)化的提示。

    • OPRO:通過分析任務(wù)準(zhǔn)確性生成改進(jìn)的指令。

  • 基于工具的優(yōu)化

LLM智能體能夠利用外部工具(如計(jì)算器、搜索引擎、代碼解釋器等)來增強(qiáng)其解決問題的能力。優(yōu)化工具使用和選擇策略是提升智能體性能的關(guān)鍵。例如:

  • TPTU:優(yōu)化任務(wù)分解和工具調(diào)用。

  • AVATAR:通過比較樣本對(duì)的性能差異,分析工具使用問題。

  • Middleware:引入錯(cuò)誤反饋機(jī)制,對(duì)齊工具輸入輸出。

  • 基于RAG的優(yōu)化

檢索增強(qiáng)生成(RAG)通過動(dòng)態(tài)整合外部知識(shí),克服了預(yù)訓(xùn)練知識(shí)的局限性,提升了智能體在知識(shí)密集型任務(wù)中的表現(xiàn)。例如:

  • AutoRAG:自動(dòng)化選擇RAG模塊,評(píng)估不同的檢索技術(shù)和重排策略。

  • Self-RAG:結(jié)合檢索與自我反思,智能體通過迭代反饋?zhàn)赃m應(yīng)地優(yōu)化內(nèi)容。

  • RaDA:利用過去的經(jīng)驗(yàn)和動(dòng)態(tài)檢索分解任務(wù),生成情境化的行動(dòng)。

  • 多智能體協(xié)作優(yōu)化

多智能體框架通過分配角色和迭代互動(dòng)來處理復(fù)雜任務(wù),提升決策能力。例如:

  • MetaGPT:通過多智能體協(xié)作模擬軟件開發(fā)流程。

  • ChatDev:分解任務(wù)為模塊化階段,通過角色協(xié)作優(yōu)化軟件開發(fā)。

  • DyLAN:動(dòng)態(tài)構(gòu)建智能體網(wǎng)絡(luò),優(yōu)化團(tuán)隊(duì)協(xié)作。

  • Agentverse:提供多智能體協(xié)作和探索新興行為的平臺(tái)。

更多信息:《動(dòng)手設(shè)計(jì)AI Agents:CrewAI版》、《高級(jí)RAG之36技》、新技術(shù)實(shí)戰(zhàn):中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日?qǐng)?bào)/月報(bào)、最新技術(shù)熱點(diǎn)追蹤解讀(GPT4-o/數(shù)字人/MCP/Gemini 2.5 Pro)

https://arxiv.org/pdf/2503.12434
A Survey on the Optimization of Large Language Model-based Agents
https://github.com/YoungDubbyDu/LLM-Agent-Optimization.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊萬卡罕見同框超模邦辰,身著泳裝親密聊天,都有1米8的大長(zhǎng)腿

伊萬卡罕見同框超模邦辰,身著泳裝親密聊天,都有1米8的大長(zhǎng)腿

譯言
2025-04-24 13:18:39
趙一曼犧牲前有多慘?日軍晚年回憶:她的慘叫聲像來自地獄的聲音

趙一曼犧牲前有多慘?日軍晚年回憶:她的慘叫聲像來自地獄的聲音

轉(zhuǎn)身微笑梅
2025-03-31 21:31:38
萊商銀行“踩雷”清源系,全力追索近5億元借款

萊商銀行“踩雷”清源系,全力追索近5億元借款

香港商報(bào)看山東
2025-04-26 10:06:41
河南一新郎跟新娘表白,伴娘直接湊上前仔細(xì)聽,“模樣太可愛”

河南一新郎跟新娘表白,伴娘直接湊上前仔細(xì)聽,“模樣太可愛”

唐小糖說情感
2025-04-26 09:49:27
李湘每天富養(yǎng)自己,卻吃成這樣了。網(wǎng)友:這該有200斤吧!

李湘每天富養(yǎng)自己,卻吃成這樣了。網(wǎng)友:這該有200斤吧!

可樂談情感
2025-04-26 11:51:52
日,赴美談判籌碼!

日,赴美談判籌碼!

陸棄
2025-04-26 14:35:33
女知青解開扣子說:“我把自己給你。”為此,她用一輩子買單

女知青解開扣子說:“我把自己給你。”為此,她用一輩子買單

君好伴讀
2023-06-28 09:25:14
特朗普再度變臉,稱中國(guó)讓步才能取消關(guān)稅,隨后北京召開重要會(huì)議

特朗普再度變臉,稱中國(guó)讓步才能取消關(guān)稅,隨后北京召開重要會(huì)議

滄海一書客
2025-04-26 11:50:42
中央定調(diào)!2025年養(yǎng)老金調(diào)整,1954~1959年的人有福了!多漲錢嗎

中央定調(diào)!2025年養(yǎng)老金調(diào)整,1954~1959年的人有福了!多漲錢嗎

社保小達(dá)人
2025-02-04 11:00:02
北京地鐵臟衣服乘客家屬發(fā)聲感謝,外地人也看出北京人的講究

北京地鐵臟衣服乘客家屬發(fā)聲感謝,外地人也看出北京人的講究

九方魚論
2025-04-26 07:42:03
均虧500萬鎊!太陽報(bào):若曼城勝訴,英超19隊(duì)將平攤訴訟費(fèi)成本!

均虧500萬鎊!太陽報(bào):若曼城勝訴,英超19隊(duì)將平攤訴訟費(fèi)成本!

直播吧
2025-04-26 09:30:09
當(dāng)兵后我資助一個(gè)女孩上大學(xué),轉(zhuǎn)業(yè)才發(fā)現(xiàn),她成了我單位的大領(lǐng)導(dǎo)

當(dāng)兵后我資助一個(gè)女孩上大學(xué),轉(zhuǎn)業(yè)才發(fā)現(xiàn),她成了我單位的大領(lǐng)導(dǎo)

詭譎怪談
2025-04-20 17:42:01
爆了,庫(kù)明加直接不裝了

爆了,庫(kù)明加直接不裝了

云隱南山
2025-04-26 13:43:33
北京球迷因陳國(guó)豪的合同到期,連續(xù)兩天喊話北控管理層留下兩人

北京球迷因陳國(guó)豪的合同到期,連續(xù)兩天喊話北控管理層留下兩人

歷史小胡
2025-04-26 14:38:21
廣西柳州市市委書記

廣西柳州市市委書記

蛙斯基娛樂中
2025-04-26 10:37:01
59歲溫碧霞在香港,去看謝霆鋒演唱會(huì),換了新發(fā)型,打扮一言難盡

59歲溫碧霞在香港,去看謝霆鋒演唱會(huì),換了新發(fā)型,打扮一言難盡

鑫鑫說說
2025-04-26 09:50:57
曝陳蘋卿親生父母妥妥有錢人,歐洲有2個(gè)餐館,準(zhǔn)備送一套房給她

曝陳蘋卿親生父母妥妥有錢人,歐洲有2個(gè)餐館,準(zhǔn)備送一套房給她

明月聊史
2025-04-26 08:34:25
穿個(gè)內(nèi)褲有多難?

穿個(gè)內(nèi)褲有多難?

漢周讀書
2025-04-24 12:35:05
烏軍10枚風(fēng)暴陰影導(dǎo)彈空襲克里米亞!俄軍港口起火爆炸

烏軍10枚風(fēng)暴陰影導(dǎo)彈空襲克里米亞!俄軍港口起火爆炸

項(xiàng)鵬飛
2025-04-21 21:17:08
突然!日本宣布,“救市”!

突然!日本宣布,“救市”!

證券時(shí)報(bào)
2025-04-26 08:09:02
2025-04-26 15:24:50
人工智能研究 incentive-icons
人工智能研究
分享深度學(xué)習(xí)、CV、NLP
258文章數(shù) 125關(guān)注度
往期回顧 全部

科技要聞

李斌:對(duì)蔚來公司四季度盈利非常有信心

頭條要聞

巴基斯坦防長(zhǎng):我們?cè)o西方"干臟活" 為此付出了代價(jià)

頭條要聞

巴基斯坦防長(zhǎng):我們?cè)o西方"干臟活" 為此付出了代價(jià)

體育要聞

去更大的舞臺(tái)追夢(mèng) 專訪中國(guó)男籃國(guó)手楊瀚森

娛樂要聞

金掃帚獎(jiǎng)出爐,包貝爾意外獲“影帝”

財(cái)經(jīng)要聞

韓國(guó)的"宇樹科技" 是怎樣被財(cái)閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

親子
數(shù)碼
本地
公開課
軍事航空

親子要聞

孩子的教育要正確,家長(zhǎng)和老師共同配合

數(shù)碼要聞

英特爾7工藝的最大的代工客戶是英特爾本身

本地新聞

云游湖北 | 漢川文旅新體驗(yàn):千年陶藝邂逅湖光

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

印巴交火 從“斷水”到“反制”

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 新郑市| 佳木斯市| 永吉县| 廊坊市| 贞丰县| 大冶市| 瑞金市| 冷水江市| 绍兴县| 莱阳市| 滦南县| 丹阳市| 来宾市| 油尖旺区| 浦城县| 广丰县| 新蔡县| 台山市| 县级市| 昌乐县| 漳州市| 武义县| 松桃| 区。| 甘孜县| 若尔盖县| 全州县| 思南县| 仁化县| 沭阳县| 外汇| 托里县| 双柏县| 武汉市| 同江市| 略阳县| 长沙县| 额尔古纳市| 宣威市| 六安市| 侯马市|