99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

為啥「3個agent」沒水吃?科學家發現了14個失敗原因

0
分享至


2025 年是 agent 爆發之年。

基于處理復雜、多步驟任務以及與不同環境實時互動的能力,由大語言模型(LLM)驅動的 agent 系統 ,尤其是多 agent 系統(MAS), 被認為非常適合用來解決現實世界中的問題 ,也因此被越來越多地應用在各個領域中,如軟件工程、藥物發現、科學模擬,以及通用 agent 系統。

然而, 相比于單個 agent 系統甚至更簡單的 baseline,多 agent 系統卻在處理實際問題時更易出錯 。 如下圖所示,AppWorld 的故障率可高達 86.7%


圖|使用 GPT-4o 和 Claude-3 的 5 種常用多 agent LLM 系統的故障率

這是為什么呢?來自加州大學伯克利分校和意大利聯合圣保羅銀行的研究團隊給出了答案——

他們首次對多 agent 系統面臨的挑戰進行了全面研究,并確定了 14 種獨特的故障模式,并劃分為 3 大類:(1)規范和系統設計故障;(2)agent 間錯位;(3)任務驗證和終止。

相關研究論文以“Why Do Multi-Agent LLM Systems Fail?”為題,已發表在預印本網站 arXiv 上。


論文鏈接:https://arxiv.org/abs/2503.13657

具體而言,他們提出了首個基于經驗的多 agent 系統故障分類法——MASFT,理解和緩解多 agent 系統故障提供了一個結構化框架。

同時,他們也開發了一個可擴展的“LLM-as-a-judge”評估管道,用于分析新的多 agent 系統性能和診斷故障模式。

另外,針對 agent 規范、對話管理和驗證策略,他們還進行了干預研究, 盡管將任務完成率提高了 14%,但仍未能完全解決多 agent 系統故障問題 ,這凸顯了結構性多 agent 系統重新設計的必要性。

此外,他們也將研究成果進行 開源 ,包括:

  • 150 多個標注的多 agent 系統會話軌跡;

  • 可擴展的 LLM-as-a-judge 評估管道和 150 多個軌跡的 LLM 標注;

  • 15 個選定軌跡的詳細專家標注。

多達 14 種故障模式

在這項工作中,研究團隊使用了扎根理論(Grounded Theory)這一定性研究方法,直接從經驗數據中構建理論,而不是檢驗預定義的假設,使故障模式的識別有機地產生。

他們通過理論抽樣、開放式編碼、持續比較分析、備忘錄和理論化等方法反復收集和分析多 agent 系統的執行軌跡,獲得多 agent 系統跟蹤記錄并討論初步發現后,通過收集觀察到的故障模式得出了 MASFT。


圖|系統研究多 agent 系統的方法流程

為了實現自動故障識別,他們開發了基于 LLM 的標注器,并驗證了它的可靠性。

然后,他們進行了標注器之間的協議研究,通過添加、刪除、合并、拆分或修改定義反復調整故障模式和故障類別,直到達成共識。這一過程反映了一種學習方法,即不斷完善分類法,直至達到穩定性,并通過 Kappa 系數來衡量標注器之間的一致性。


圖|多 agent 系統故障模式分類法

最終,MASFT 包含了 3 個總體故障類別:規范和系統設計故障;agent 間錯位;任務驗證和終止,確定了多 agent 系統在執行過程中可能遇到的 14 種細粒度故障模式。

MASFT 還將多 agent 系統的執行劃分為 3 個階段:執行前、執行中和執行后,確定了每個細粒度故障模式可能發生的多 agent 系統執行階段。


圖|多 agent 系統故障類別相關矩陣

另外,他們發現,多 agent 系統面臨著與復雜的人類組織類似的問題,其故障模式與在人類組織中觀察到的常見故障模式一致。“不要求澄清”破壞了“尊重專業知識”,“agent 錯位”體現了加強等級區分和協調角色分配的必要性。

多 agent 協作的有效性,仍有待提高

針對以上所有的故障類別,研究團隊提出了戰術策略和結構策略。

戰術策略涉及針對特定故障模式的直接修改,如改進提示、agent 網絡的拓撲結構和對話管理。然而,兩個案例研究證明,這些方法的有效性并不一致。

結構策略,即對整個系統有影響的更全面的方法:強驗證、增強型通信協議、不確定性量化以及內存和狀態管理。這些策略需要更深入的研究和細致的實施,仍是有待未來探索的研究課題。


圖|多 agent 系統的解決策略和故障分類

研究團隊在兩個案例研究中應用了這些策略方法。

在第一個案例中,他們使用 AG2 中的 MathChat 場景實現作為基線,在該場景中,學生 agent 與能夠執行 Python 代碼的助理 agent 合作解決問題。

為了進行基準測試,他們從 GSM-Plus 數據集中隨機選取了 200 個練習。第一種策略是改進原始提示,使其具有清晰的結構和專門用于驗證的新部分。第二種策略是將 agent 配置細化為一個更專業的系統,其中包含三個不同的角色:問題解決者(Problem Solver),不使用工具,使用思維鏈方法解決問題;編碼者(Coder),編寫并執行 Python 代碼,得出最終答案;驗證者(Verifier),審查討論并批判性地評估解決方案,要么確認答案,要么引發進一步討論。

在這種情況下,一旦找到解決方案,只有驗證人可以終止對話。

在第二個案例中,ChatDev 模擬了一個多 agent 軟件公司,不同的 agent 有不同的角色定位,如首席執行官、首席技術官、軟件工程師和審核員,他們試圖合作解決一個軟件生成任務。

他們實施了兩種不同的干預措施。第一個是改進特定角色的提示,以強化層次結構和角色一致性;第二個是嘗試涉及對框架拓撲結構的根本性改變,將框架的停止結構從有向無環圖(DAG)修改為循環圖。

現在,只有當 CTO agent 確認所有審查都得到適當滿足時,該過程才會終止,并設定了最大迭代截止時間,以防止出現無限循環。這種方法可以實現迭代改進和更全面的質量保證。


圖|各種方案的性能準確度

研究團隊表示,許多“顯而易見”的解決方案實際上存在嚴重的局限性,需要概述的結構性策略來實現更加一致的改進。

考慮到目前多 agent 協調中的信息冗余與沖突,協作中放大的模型偏差,未來的多 agent 系統需要做到快速響應、實時驗證和動態協調,以提高團隊協作的有效性


“基于 LLM 的多 agent,在分布式科研協作、應急響應系統等領域仍具有一定的潛力。”

作者:與可

如需轉載或投稿,請直接在公眾號內留言

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
痛心!廣東玩具廠老板娘去世,長相漂亮與丈夫打拼18年,育有2娃

痛心!廣東玩具廠老板娘去世,長相漂亮與丈夫打拼18年,育有2娃

博覽歷史
2025-04-26 13:17:10
2025斯諾克世錦賽16進8輪次,龐俊旭首階段2-6落后奧沙利文

2025斯諾克世錦賽16進8輪次,龐俊旭首階段2-6落后奧沙利文

直播吧
2025-04-27 00:57:07
所有退休人員注意了:退休養老金新規落地,2025年5月開始,退休養老金領取條件收緊?

所有退休人員注意了:退休養老金新規落地,2025年5月開始,退休養老金領取條件收緊?

妙百事
2025-04-26 07:43:59
印軍航母出動,大批殲10C備戰,印度突然點名東大!

印軍航母出動,大批殲10C備戰,印度突然點名東大!

星辰故事屋
2025-04-26 14:01:44
江蘇省高校排名大調整:蘇州大學第5,南工大第15,鹽城師院第32

江蘇省高校排名大調整:蘇州大學第5,南工大第15,鹽城師院第32

解說阿洎
2025-04-27 00:37:37
掘金官方:威少因腳傷今日缺戰快船 小波特可以打

掘金官方:威少因腳傷今日缺戰快船 小波特可以打

直播吧
2025-04-27 05:12:09
新華社消息|外交部:美對華無理加征芬太尼關稅是典型霸凌行徑

新華社消息|外交部:美對華無理加征芬太尼關稅是典型霸凌行徑

新華社
2025-04-25 20:31:26
2-1!中超黑馬太神了:連續7輪不敗+追平申花,升超第4年有望奪冠

2-1!中超黑馬太神了:連續7輪不敗+追平申花,升超第4年有望奪冠

小火箭愛體育
2025-04-26 17:45:39
香港影帝長居內地,戴大金表光顧路邊攤,30元吃4個菜直呼太劃算

香港影帝長居內地,戴大金表光顧路邊攤,30元吃4個菜直呼太劃算

書雁飛史oh
2025-04-24 21:09:59
廣廈主場19分大勝遼籃,全隊卻不開心!遼籃輸球只因一人不在狀態

廣廈主場19分大勝遼籃,全隊卻不開心!遼籃輸球只因一人不在狀態

生活新鮮市
2025-04-27 00:49:13
過安檢能讓多少人“身敗名裂”?網友分享太炸裂,一看一個不吱聲

過安檢能讓多少人“身敗名裂”?網友分享太炸裂,一看一個不吱聲

奇特短尾矮袋鼠
2024-06-26 20:24:41
再見,皇馬!“老弗爺”正式決定出售“億元廢星”!頂級后腰來投

再見,皇馬!“老弗爺”正式決定出售“億元廢星”!頂級后腰來投

頭狼追球
2025-04-26 11:18:55
CBA瘋狂夜:聯盟第一19分大勝衛冕冠軍,6人得分上雙,趙繼偉2分

CBA瘋狂夜:聯盟第一19分大勝衛冕冠軍,6人得分上雙,趙繼偉2分

侃球熊弟
2025-04-26 20:34:27
周末大雷,萬億市值中字頭利潤暴降81%,12個中字頭股票集體暴雷

周末大雷,萬億市值中字頭利潤暴降81%,12個中字頭股票集體暴雷

鵬哥投研
2025-04-26 16:38:42
賽后握手被拒,光州主帥:我不在意,反正以后也不會再見到

賽后握手被拒,光州主帥:我不在意,反正以后也不會再見到

懂球帝
2025-04-26 10:34:15
潛伏我國30年美國辣醬巨頭,年賺300億打敗老干媽,被誤認是國貨

潛伏我國30年美國辣醬巨頭,年賺300億打敗老干媽,被誤認是國貨

素衣讀史
2024-12-19 14:16:46
演員夏依丹被曝去世

演員夏依丹被曝去世

動物奇奇怪怪
2025-04-26 15:09:16
研究發現:若晚餐經常吃太早,不超半年,胰腺或迎來6種不良變化

研究發現:若晚餐經常吃太早,不超半年,胰腺或迎來6種不良變化

朗威游戲說
2025-04-24 08:20:00
反轉大瓜?劉國梁或升任總局副局長,分管乒乓球和籃球?

反轉大瓜?劉國梁或升任總局副局長,分管乒乓球和籃球?

體育有點水
2025-04-26 12:16:59
劉亦菲最新自拍照:沒有P掉白發和皺紋,37歲的她徹底放飛,治愈萬千網友

劉亦菲最新自拍照:沒有P掉白發和皺紋,37歲的她徹底放飛,治愈萬千網友

感覺會火
2025-04-26 12:07:05
2025-04-27 05:31:00
學術頭條
學術頭條
致力于學術傳播和科學普及,重點關注人工智能、生命科學等前沿科學進展。
1247文章數 5069關注度
往期回顧 全部

科技要聞

百度心響實測:“能用版Manus”開了個好頭

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

體育要聞

廣廈19分勝遼寧獲開門紅 孫銘徽13分3助崴腳

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

旅游
房產
數碼
教育
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

教育理念再進階!解碼新世界星輝如何構筑「家校社成長生態圈」!

數碼要聞

AMD修補高危安全漏洞!歷代Zen架構CPU 100%中招

教育要聞

你說說看,你做做這樣也可以嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 琼海市| 乳山市| 辉县市| 灯塔市| 秦安县| 锡林浩特市| 高安市| 樟树市| 苍南县| 乐至县| 如东县| 济阳县| 台中县| 安平县| 天长市| 平乡县| 乌拉特中旗| 上思县| 遂宁市| 岳池县| 巴中市| 东莞市| 惠东县| 宁南县| 资阳市| 平潭县| 如皋市| 双辽市| 唐山市| 屏东县| 南漳县| 休宁县| 于田县| 华蓥市| 高要市| 吉安市| 庄河市| 太谷县| 工布江达县| 嘉义市| 璧山县|