99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不靠更復雜的策略,僅憑和大模型訓練對齊,零樣本零經(jīng)驗單LLM調(diào)用

0
分享至



AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

網(wǎng)絡智能體旨在讓一切基于網(wǎng)絡功能的任務自動發(fā)生。比如你告訴智能體你的預算,它可以幫你預訂酒店。既擁有海量常識,又能做長期規(guī)劃的大語言模型(LLM),自然成為了智能體常用的基礎模塊。

于是上下文學習示例、任務技巧、多智能體協(xié)同、強化學習算法…… 一切適用于通用智能體的想法都搶著在大模型落地。

然而有一個問題始終橫亙在LLM 和智能體之間:基于 LLM 的網(wǎng)絡智能體的行動 / 觀測空間與 LLM 訓練數(shù)據(jù)的空間相去甚遠。

智能體在充斥著具身行為的行動空間(如鼠標懸停、鍵盤組合鍵)和遍布前端功能強化、格式渲染的觀測空間下運作,大語言模型的理解和推理能力能充分發(fā)揮作用嗎?尤其是大語言模型的主要訓練任務是文本補全、問答和對齊人類偏好,這一點值得思考。

來自伊利諾伊大學香檳分校和亞馬遜的研究人員選擇和這些問題進一步對話。他們?nèi)コ松舷挛氖纠⒓记伞⒍嘀悄荏w系統(tǒng),僅僅通過行動 / 觀測空間與 LLM 的訓練任務對齊。他們訓練的 AgentOccam 成為了零樣本基于 LLM 的網(wǎng)絡智能體新 Sota。

這正呼應了奧卡姆剃刀原則:「若無必要,勿增實體」。然而換個思考的角度,AgentOccam 的研究團隊也想發(fā)問:構(gòu)建通用智能體時,在鋪設復雜的系統(tǒng)框架前,是否已經(jīng)優(yōu)化了行動 / 觀測空間,讓這些功能模塊達到了最優(yōu)狀態(tài)?



  • 論文鏈接:https://arxiv.org/abs/2410.13825
  • 論文名:AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents

背景及動機

某天你刷著短視頻,看中了主播手中拿著的商品。于是,你興致勃勃地對智能助手說:「我是學生,讓這個老板送我一張優(yōu)惠券!」

隨后,智能體申請了你的私人賬號權(quán)限、后臺私信商家、繪聲繪色地寫下「我是學生」,發(fā)送消息,一套動作無需人為干預,行云流水......一切這樣的任務,再也不必動手,都有智能體代勞。

大語言模型是構(gòu)建智能體的熱門選擇。過去,基于 LLM 的網(wǎng)絡智能體通常專注于讓智能體學會某種應用,比如構(gòu)建上下文學習樣本、積累任務經(jīng)驗與技巧、以及多智能體角色扮演等等。然而,在實際交互中,智能體的行動 / 觀測空間與 LLM 的技能點不太匹配,這之間的差距卻少有人研究。

于是,針對如何對齊基于 LLM 的網(wǎng)絡智能體的觀測和行動空間與其訓練期間學到的功能,來自伊利諾伊大學香檳分校和亞馬遜的研究人員們展開了研究。

網(wǎng)絡智能體需要準確地從格式各異、編碼腳本不一的網(wǎng)頁中提取信息,并在網(wǎng)頁上定義的動作(例如,鼠標滑輪滾動、點擊或懸停在按鈕上)中進行選擇。這些網(wǎng)絡觀測和行動空間在 LLM 的預訓練和后續(xù)訓練數(shù)據(jù)中都較為罕見,這阻礙了 LLM 充分調(diào)動潛能,完成任務。

因此,基于不讓智能體策略變得更復雜,而是讓智能體與LLM 更加匹配的想法,由此構(gòu)建的智能體得名 AgentOccam。

形式化與方法

該團隊通過部分可觀測的馬爾可夫決策過程(POMDP),將網(wǎng)絡交互過程形式化為:

在 POMDP 中,觀測 o∈O 是智能體從網(wǎng)絡環(huán)境接收到的信息,例如 HTML,以及任何指令和提示。行動 a∈A 是網(wǎng)絡環(huán)境認可的動作指令。





如上圖所示,AgentOccam 包括三個組成部分:

  • 首先,減少非必要的網(wǎng)絡交互動作,讓智能體的具身和瑣碎互動需求達到最小;
  • 其次,消除冗余和不相關(guān)的網(wǎng)頁元素,并重構(gòu)網(wǎng)頁內(nèi)容塊,以獲取更簡潔但同樣信息豐富的表示,從而精煉觀察空間;
  • 最后,引入兩個規(guī)劃動作(分支和修剪),這使得智能體能夠以規(guī)劃樹結(jié)構(gòu)自組織導航工作流,并使用相同結(jié)構(gòu)過濾歷史步以進行回放。

整個框架通過一套適用于所有標記語言的通用規(guī)則來格式化網(wǎng)頁,無需依賴測試基準中的任務相關(guān)信息。



網(wǎng)絡智能體的行動空間規(guī)定了可以用來與網(wǎng)絡環(huán)境交互的有效命令。

研究團隊從智能體常見的失敗中得出總結(jié):想要成功完成任務,需要編輯行動空間來解決兩個關(guān)鍵問題:第一,去除 LLM 難以理解且經(jīng)常誤用的無關(guān)行動;第二,當執(zhí)行任務需要規(guī)劃、嘗試多個潛在路徑時,要提高智能體的記憶和規(guī)劃能力。

為此,該團隊提出了對應的解決方法。第一個問題可以通過簡單地移除或合并操作來解決(如上圖中的步驟 1 和 2)。對于第二個問題,過去的研究通常依賴人工制定規(guī)則或任務技巧,但這些方法難以泛化。在本研究中,LLM 將自主生成計劃和管理任務流程(如步驟 3 所示)。



AgentOccam 的觀測空間(提示詞)包含了任務概述的通用指令、期望的輸出和可用操作說明,以及關(guān)于當前任務目標、智能體過去的交互記錄和最新的觀察信息。

過往互動和當前觀測的部分占據(jù)了最多的字符數(shù)。這主要歸因于兩個因素:單頁面的長度和歷史跨度的范圍,這是AgentOccam觀測空間的主要優(yōu)化對象。



網(wǎng)頁標記語言主要用于前端加載和渲染,往往包含大量格式化字符,顯得冗余且重復(如上圖步驟 1 所示)。因此,此時的目標是優(yōu)化這些表示方式,使得單頁內(nèi)容對 LLMs 更加簡潔易讀。

將觀測歷史作為輸入,對于執(zhí)行長程任務至關(guān)重要。因為一些關(guān)鍵信息可能不會顯示在當前頁面上。然而,觀測歷史也會顯著增加上下文長度,并增加推理難度以及推斷成本。

為了解決這個問題,設置僅選擇先前網(wǎng)頁上最重要和相關(guān)的信息,這一選擇依據(jù)兩個規(guī)則,分別基于關(guān)鍵節(jié)點和規(guī)劃樹,見于步驟 2 和 3。

結(jié)果

研究團隊在 WebArena 上評估了 AgentOccam 性能。WebArena含有 812 項任務,橫跨網(wǎng)購、社交網(wǎng)站、軟件開發(fā)、在線商貿(mào)管理、地圖等。

測試對象為AgentOccam 框架下的GPT-4-Turbo。對比的基線包括:一、WebArena 隨配智能體,二、SteP,前 WebArena 上最優(yōu)智能體,涵蓋 14 條人類專為 WebArena 任務編寫的技巧,三、多智能體協(xié)同方法 WebPilot;四、總結(jié)智能體交互經(jīng)驗的工作 AWM。



從上表不難看出,AgentOccam 性能優(yōu)于以往及同期工作。其中,AgentOccam 分別以 9.8(+29.4%)和 5.9(+15.8%)的絕對分數(shù)領先往期和同期工作,并且通過其觀測與行動空間的對齊,使得相似的基本網(wǎng)絡智能體的成功率提高了 26.6 點(+161%)。









消融實驗

逐模塊對比行動與觀測空間的對齊對最終結(jié)果的貢獻。從下表可以看出,行動空間對齊能使智能體完成更多 click、type 等引導環(huán)境變化的動作,觀測空間對齊則減少大模型調(diào)用的字符數(shù)與智能體完成任務所需的步數(shù)。



LLM-as-a-Judge

研究團隊發(fā)現(xiàn),智能體的決策行為波動性很強。簡而言之,面對一個目標,智能體有一定概率做出正確的行為決斷,但由于 token 預測的隨機性,它可能做出一些高成本、低回報的決定。這也導致它在后續(xù)步驟中難以糾正之前的錯誤而失敗。

例如,要求智能體在某個最相關(guān)的話題下發(fā)布帖子,單次 LLM 調(diào)用的 AgentOccam 往往輕率地選擇話題,未考慮「最相關(guān)」的要求。

為了解決此類問題,他們引導 AgentOccam 生成單步內(nèi)所有可能的行動,這系列行動將交付另一個 Judge 智能體(同樣調(diào)用 GPT-4-turbo)決斷,做出最大化回報的選擇。

與復合策略結(jié)合使用

復合策略中,與任務相關(guān)的經(jīng)驗可以提升智能體性能。同時,不因為加入了更多背景知識擾亂決策,不會影響泛化性,能夠糾正錯誤行為模式。

由于行為 / 觀測空間對齊和復合策略方法正交,因此能結(jié)合利用。該團隊試驗將 AgentOccam 與 1)SteP 和 2)上述的 LLM-as-a-Judge 方法聯(lián)合使用。

對于和前 SOTA 方法 SteP 聯(lián)合,由于它引入人類編寫的 WebArena 任務攻略,在經(jīng)驗密集型任務,如購物網(wǎng)頁任務中,人類撰寫的引導性經(jīng)驗大幅提升任務成功率。

而在常識泛化密集型任務,如社交網(wǎng)頁發(fā)帖任務中,不相關(guān)知識出現(xiàn)會錯誤擾亂智能體決策。對于 LLM-as-a-Judge 方法,Judge 角色的引入不影響智能體的泛化性,同時糾正了智能體倉促決策的錯誤行為模式,在 WebArena 上進一步提升 2.6 的絕對分數(shù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
胎壓升至2.8,不趕緊放氣等著爆胎?別被誤導了!

胎壓升至2.8,不趕緊放氣等著爆胎?別被誤導了!

車馳神往
2025-04-21 19:11:46
跟老伴旅游半年回來,發(fā)現(xiàn)家里東西被換,里面住著兒子的岳父岳母

跟老伴旅游半年回來,發(fā)現(xiàn)家里東西被換,里面住著兒子的岳父岳母

惟來
2025-04-21 20:04:29
75年,丁盛患病報告軍委請求療養(yǎng),葉帥特別指示:就你不能去上海

75年,丁盛患病報告軍委請求療養(yǎng),葉帥特別指示:就你不能去上海

百年人物志
2025-04-22 11:19:08
美俄做不到的,中國做到了!5000公里外打航母,射程覆蓋第二島鏈

美俄做不到的,中國做到了!5000公里外打航母,射程覆蓋第二島鏈

科學知識點秀
2025-04-07 08:20:05
巴西經(jīng)紀人:皇馬追求內(nèi)馬爾和姆巴佩時,巴黎總想著拿維尼修斯交換

巴西經(jīng)紀人:皇馬追求內(nèi)馬爾和姆巴佩時,巴黎總想著拿維尼修斯交換

雷速體育
2025-04-22 19:02:13
打的什么鬼!堂堂球隊老大,季后賽就得7分,他還能逆襲嗎

打的什么鬼!堂堂球隊老大,季后賽就得7分,他還能逆襲嗎

球毛鬼胎
2025-04-22 18:42:56
“整形面孔”在鏡頭前有多尷尬?看央視現(xiàn)代劇中的胡杏兒就明白了

“整形面孔”在鏡頭前有多尷尬?看央視現(xiàn)代劇中的胡杏兒就明白了

可樂談情感
2025-04-21 12:28:57
離隊!廣東防守大閘返回美國 下賽季續(xù)約是未知

離隊!廣東防守大閘返回美國 下賽季續(xù)約是未知

胖子噴球
2025-04-21 20:41:31
馬斯克斷定美國對中國發(fā)動戰(zhàn)爭,軍事、經(jīng)濟都敗局已定!

馬斯克斷定美國對中國發(fā)動戰(zhàn)爭,軍事、經(jīng)濟都敗局已定!

華人星光
2025-04-19 13:20:04
大馬名宿拉昔:韓國可能終結(jié)中國蘇迪曼杯統(tǒng)治;否則將會乏味無聊

大馬名宿拉昔:韓國可能終結(jié)中國蘇迪曼杯統(tǒng)治;否則將會乏味無聊

懂球帝
2025-04-22 18:52:10
中央親自出面發(fā)聲,送給李嘉誠一句警告,這一件事中方絕不答應

中央親自出面發(fā)聲,送給李嘉誠一句警告,這一件事中方絕不答應

凌晨觀點
2025-04-22 18:18:17
遼籃輕松備戰(zhàn)!韓德君恢復迅速 劉雁宇和王嵐嵚熱聊

遼籃輕松備戰(zhàn)!韓德君恢復迅速 劉雁宇和王嵐嵚熱聊

胖子噴球
2025-04-22 20:05:32
奉陪到底!63歲奧巴馬終于發(fā)聲,特朗普被催下臺,美聯(lián)儲也沒轍了

奉陪到底!63歲奧巴馬終于發(fā)聲,特朗普被催下臺,美聯(lián)儲也沒轍了

絕對軍評
2025-04-22 08:31:22
美國警告賴清德當局,只要大陸決定武力統(tǒng)一,臺灣的結(jié)局只有一個

美國警告賴清德當局,只要大陸決定武力統(tǒng)一,臺灣的結(jié)局只有一個

混沌錄
2025-04-17 17:49:14
飛行了230億公里后,旅行者2號和地球進行了最后的告別

飛行了230億公里后,旅行者2號和地球進行了最后的告別

宇宙時空
2025-04-16 20:23:21
C919誰又定600架? 美國為C919航發(fā)埋雷,不料我國突然換了玩法

C919誰又定600架? 美國為C919航發(fā)埋雷,不料我國突然換了玩法

紅色鑒史官
2025-04-21 23:00:03
日本被罵懵了!特朗普指責日本,故意用“保齡球測試”刁難美國車

日本被罵懵了!特朗普指責日本,故意用“保齡球測試”刁難美國車

這里是東京
2025-04-22 18:34:17
一代梟雄普里戈任為何必須要死?幕后真兇到底是誰?真相讓人頓悟

一代梟雄普里戈任為何必須要死?幕后真兇到底是誰?真相讓人頓悟

小lu侃侃而談
2025-04-11 19:20:21
宋清輝:法律要有溫度,對伸腿阻止高鐵關(guān)門女子不能一“拘”了之

宋清輝:法律要有溫度,對伸腿阻止高鐵關(guān)門女子不能一“拘”了之

娛樂圈見解說
2025-04-22 16:35:36
浙江副鎮(zhèn)長王雨果帶人圍毆村民,致其住院26天,鎮(zhèn)政府:符合程序

浙江副鎮(zhèn)長王雨果帶人圍毆村民,致其住院26天,鎮(zhèn)政府:符合程序

坦然風云
2025-04-22 09:29:42
2025-04-22 21:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10390文章數(shù) 142296關(guān)注度
往期回顧 全部

科技要聞

美團騎手親述:京東外賣單子傭金高卻難搶

頭條要聞

中央巡視組進駐后李明月被查 曾稱我號碼老百姓都知道

頭條要聞

中央巡視組進駐后李明月被查 曾稱我號碼老百姓都知道

體育要聞

當今足壇最瘋的門將,能有多離譜?

娛樂要聞

關(guān)曉彤分手風波后首現(xiàn)身!甜美狀態(tài)好

財經(jīng)要聞

宜賓銀行與五糧液集團頻繁關(guān)聯(lián)交易

汽車要聞

捷途山海T2加長版/山海L9等 捷途新車展前亮相

態(tài)度原創(chuàng)

藝術(shù)
本地
家居
時尚
親子

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

云游湖北 | 澴川醉古今!孝文化名城藏了多少寶藏?

家居要聞

動靜結(jié)合 休閑娛樂并存

時髦與干練的完美平衡:風衣單品,40歲女人春天就要這么穿

親子要聞

保護孩子寶媽必學,求助和說漏嘴的區(qū)別!

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 阜南县| 安宁市| 龙游县| 响水县| 耿马| 镇坪县| 长垣县| 巴林右旗| 黔西县| 正镶白旗| 米脂县| 汾阳市| 信阳市| 楚雄市| 疏附县| 怀安县| 漠河县| 洞头县| 星子县| 新安县| 石门县| 宾阳县| 丹巴县| 修文县| 城口县| 丰顺县| 十堰市| 会同县| 开封市| 镇平县| 休宁县| 德保县| 海伦市| 大兴区| 紫阳县| 于都县| 温泉县| 武隆县| 铜陵市| 容城县| 双柏县|