99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICLR2025|從探索到掌握:使大模型通過自我驅(qū)動的交互掌握工具

0
分享至

工具學(xué)習(xí)將大模型與外部工具相結(jié)合,顯著增強了大模型解決復(fù)雜任務(wù)的能力。通過利用外部工具,大模型克服過時的預(yù)訓(xùn)練數(shù)據(jù)的限制,使我們能夠訪問最新信息,與動態(tài)環(huán)境交互,并采取超出其能力范圍的行動。工具文檔作為關(guān)鍵信息,為大模型提供工具功能及其應(yīng)用的信息,幫助大模型更高效地使用工具,成為連接大模型與外部工具的橋梁。

然而,現(xiàn)有工具主要是人工設(shè)計出來為人類服務(wù)的,并不是明確針對大模型的使用進行定制,工具文檔也并不符合大模型的理解。實際上專門為大模型編寫符合其特定要求的工具文檔是一項具有挑戰(zhàn)性的工作。

首先,原始的人工編寫的工具文檔通常是根據(jù)人類直覺創(chuàng)建的,存在不完整、冗余、不準確等問題,因為它主要為了迎合人類的理解并且通常缺乏語言模型理解所需的精度,阻礙了大模型有效使用工具。

其次,人工修改這些文檔,很難完全涵蓋工具使用的所有方面,因為辨別工具可以解決的問題和參數(shù)范圍通常需要大量的實踐經(jīng)驗。通過手動完善來解決這些問題既耗時又費力且無法有效地擴展到大量工具。

此外,工具開發(fā)的動態(tài)特性進一步加劇了這個問題,因為工具的功能經(jīng)常更新、棄用或擴展。在工具文檔中維護此類不斷發(fā)展的功能的最新且準確的表示成為一項艱巨的任務(wù)。

而中國人民大學(xué)高瓴人工智能學(xué)院研究團隊所提出的方法,通過大模型自我驅(qū)動的工具交互來完善工具文檔,不需要人工參與,因此可以擴展到大規(guī)模的工具文檔編寫更新中,批量構(gòu)建符合大模型特定要求的工具文檔。

相關(guān)論文《從探索到掌握:使大模型通過自我驅(qū)動的交互掌握工具》(From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions)已經(jīng)被ICLR 2025接收 [1]。



研究團隊表示,人類通過重復(fù)的交互和實踐經(jīng)驗來熟練地使用工具,盡管這些工具的功能不斷發(fā)展,但仍能夠保持對這些工具的最新理解。借鑒人類掌握工具的方式,他和所在團隊在一篇論文中提出了一種新穎的框架DRAFT。其能根據(jù)大模型與工具交互的結(jié)果和反饋,自動調(diào)整和優(yōu)化工具文檔,旨在構(gòu)建符合大模型理解的工具文檔。



更具體地說,DRAFT 實現(xiàn)了一種迭代試錯方法逐步改進工具文檔。DRAFT 協(xié)調(diào)了三個動態(tài)關(guān)聯(lián)的階段:經(jīng)驗收集、從經(jīng)驗中學(xué)習(xí)和工具文檔重寫,這三個階段共同促進了工具文檔的迭代改進過程。

首先,在經(jīng)驗收集階段,通過設(shè)計的探索器模擬潛在的工具應(yīng)用場景,創(chuàng)建探索實例并實際使用工具以收集工具使用經(jīng)驗。這種方法類似于人類在無法理解說明書時探索新工具的使用方式。考慮到工具的使用通常涉及復(fù)雜的參數(shù)范圍、組合和潛在的錯誤類型,確保探索階段的多樣性以涵蓋廣泛的可能場景至關(guān)重要。因此他們設(shè)計了一種促進多樣性的探索策略:包括相似度約束和自我反思。在探索新實例時如果和已探索過的實例相似度高于閾值,探索器將進行自我反思分析相似度高的原因并探索該工具的不同方面。

接著,分析器將結(jié)合探索器的發(fā)現(xiàn)和使用反饋,從這些經(jīng)驗中學(xué)習(xí),對現(xiàn)有文檔進行分析,判斷工具文檔是否全面、簡潔、不包含無關(guān)信息以及文檔描述是否和工具返回結(jié)果相一致,從而為修改器提出文檔修改建議。

最后,修改器在匯集前兩個階段的經(jīng)驗和修改建議的基礎(chǔ)上,專注于優(yōu)化工具文檔,以提高其清晰度、準確性和可用性,確保其符合大模型的理解能力。同時該階段還為下一輪的經(jīng)驗收集階段提供未來探索方向的建議。此外,鑒于不同工具在復(fù)雜性和大模型的理解難度上存在差異,他們引入了一種工具自適應(yīng)終止機制,以自適應(yīng)地決定何時停止對每個工具的修改。類似于不同的菜譜需要不同的專業(yè)水平,有些工具文檔優(yōu)化速度可能會快于其他工具。當(dāng)連續(xù)兩版文檔之間的改動很小,表明重寫器已充分使文檔與大模型的理解相符時,他們認為迭代過程已收斂。通過這種自適應(yīng)停止機制,可以節(jié)省計算資源和時間其次可以防止不必要的修改帶來的過度擬合,通過同時使用BLEU分數(shù)和語義相似度,確保了同時對結(jié)構(gòu)和語義進行評估,最終生成為大模型定制的高質(zhì)量文檔。

研究團隊在RestBench和ToolBench這兩個廣泛使用的工具學(xué)習(xí)Benchmark上對DRAFT進行了實驗。實驗結(jié)果表明所有大模型在使用DRAFT修改過后的工具文檔時均能更好的利用工具,表現(xiàn)出強大的跨模型泛化能力。同時在ToolBench數(shù)據(jù)集上,使用DRAFT增強的GPT-4o-mini的性能甚至超過了不使用DRAFT的GPT-4o,這些結(jié)果都證明了DRAFT的有效性。



同時,由于現(xiàn)實世界中通常包含大量的工具,無法將所有工具都提供給大模型,需要先經(jīng)過工具檢索從大量工具中篩選出有助于解決用戶當(dāng)前問題的工具,該團隊此前提出過一種有效的工具檢索策略,極大提高了工具檢索的有效性[2],該團隊還發(fā)現(xiàn)了修改過后的工具文檔不僅能幫助大模型使用工具,還能提高工具檢索的性能。

此外,通過人工評估的方式還驗證了修改后的工具文檔不僅有利于大模型的理解,也能有助于人類對工具文檔的理解。再次驗證了方法的有效性。

該團隊還編寫過一篇關(guān)于工具學(xué)習(xí)的全面綜述論文,詳細介紹了將大模型和外部工具相結(jié)合的好處以及如何增強大模型的工具使用能力,對大模型工具學(xué)習(xí)感興趣的讀者可以通過該綜述了解更多信息[3]。

[1]https://arxiv.org/abs/2410.08197

[2]https://dl.acm.org/doi/abs/10.1145/3627673.3679847

[3]https://arxiv.org/abs/2405.17935

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1。6秒、什么概念?哈維的概念!他讓廣東由希望成失望

1。6秒、什么概念?哈維的概念!他讓廣東由希望成失望

鏗鏘格斗
2025-04-09 08:35:23
特朗普稱美國將對藥品征收關(guān)稅

特朗普稱美國將對藥品征收關(guān)稅

財聯(lián)社
2025-04-09 09:07:05
佟大為帶17歲女兒拍戲,倆女兒拜師劉天池,長相都很一般就是個高

佟大為帶17歲女兒拍戲,倆女兒拜師劉天池,長相都很一般就是個高

鑫鑫說說
2025-04-07 10:51:24
許昌女教師陳岸君被捕,奇特的補課方式揭露后,家長們崩潰了

許昌女教師陳岸君被捕,奇特的補課方式揭露后,家長們崩潰了

清茶淺談
2025-02-25 11:45:43
特朗普給中國1天時間考慮,否則對華104%關(guān)稅落地,中方六字回應(yīng)

特朗普給中國1天時間考慮,否則對華104%關(guān)稅落地,中方六字回應(yīng)

愛看劇的阿峰
2025-04-08 12:31:24
大S珠寶事件再反轉(zhuǎn)?葛斯齊預(yù)告新料引猜測

大S珠寶事件再反轉(zhuǎn)?葛斯齊預(yù)告新料引猜測

ENEN娛樂地圖
2025-04-08 16:12:18
陳小藝現(xiàn)身北京助陣伍宇娟畫展,素面朝天嘴角下垂,第一眼難辨認

陳小藝現(xiàn)身北京助陣伍宇娟畫展,素面朝天嘴角下垂,第一眼難辨認

歸史
2025-04-08 21:08:39
汪峰試探問:你跟幾個男人回過家?章子怡一句話,讓他瞬間紅了臉

汪峰試探問:你跟幾個男人回過家?章子怡一句話,讓他瞬間紅了臉

火之文
2025-02-04 13:22:59
阿爾卡拉斯:我想成為史上最好的球員,坐在三巨頭的桌子邊

阿爾卡拉斯:我想成為史上最好的球員,坐在三巨頭的桌子邊

直播吧
2025-04-08 22:56:23
許建華好友“詩與遠方”再發(fā)貼,疑似內(nèi)涵老謝孩子問題,惹人亂想

許建華好友“詩與遠方”再發(fā)貼,疑似內(nèi)涵老謝孩子問題,惹人亂想

滄海一書客
2025-04-08 12:54:43
“避險之王”不再避險?29萬億美元美債市場遭大規(guī)模拋售!美聯(lián)儲降息預(yù)期一天一變:從5次降為4次

“避險之王”不再避險?29萬億美元美債市場遭大規(guī)模拋售!美聯(lián)儲降息預(yù)期一天一變:從5次降為4次

每日經(jīng)濟新聞
2025-04-08 15:53:11
43歲余文樂在遼寧,在五星級酒店吃飯,眼凸嘴小,身上老人味好重

43歲余文樂在遼寧,在五星級酒店吃飯,眼凸嘴小,身上老人味好重

涵豆說娛
2025-04-06 17:53:14
泰王新寵yutra少將首次亮相,驚艷登場五官絕美

泰王新寵yutra少將首次亮相,驚艷登場五官絕美

觀察者海風(fēng)
2025-04-07 18:08:12
下狠手了!凌晨5點,10枚俄導(dǎo)彈直接“轟炸”烏總統(tǒng)府,遍地廢墟

下狠手了!凌晨5點,10枚俄導(dǎo)彈直接“轟炸”烏總統(tǒng)府,遍地廢墟

林子說事
2025-04-08 08:17:27
1953年,4架美機擊落蘇聯(lián)客機,聲稱“誤會”,2天后就吃了啞巴虧

1953年,4架美機擊落蘇聯(lián)客機,聲稱“誤會”,2天后就吃了啞巴虧

文史達觀
2024-06-18 06:45:02
美媒:美“超級航母”或不再物有所值

美媒:美“超級航母”或不再物有所值

參考消息
2025-04-08 10:08:09
疑鄭琴發(fā)抖音,喊話:得到的都是自己努力爭取來的,頭像有玄機

疑鄭琴發(fā)抖音,喊話:得到的都是自己努力爭取來的,頭像有玄機

阿鳧愛吐槽
2025-04-08 17:46:47
爆冷,聯(lián)盟第一轟然倒下,狂轟69+12+16,湖人三巨頭打瘋了

爆冷,聯(lián)盟第一轟然倒下,狂轟69+12+16,湖人三巨頭打瘋了

青山隱隱啊
2025-04-08 10:05:54
太原賽爆大冷!世界冠軍1-3輸球,國乒女單0-3完敗,陳幸同退賽

太原賽爆大冷!世界冠軍1-3輸球,國乒女單0-3完敗,陳幸同退賽

生活新鮮市
2025-04-09 08:33:12
杜蘭特缺席與勇士的比賽,最后三場常規(guī)賽他必須全勤才能達到評選最佳陣容的場次要求

杜蘭特缺席與勇士的比賽,最后三場常規(guī)賽他必須全勤才能達到評選最佳陣容的場次要求

雷速體育
2025-04-08 11:33:11
2025-04-09 09:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15037文章數(shù) 513525關(guān)注度
往期回顧 全部

科技要聞

馬斯克財富跌破3000億美元 怨特朗普?

頭條要聞

美企業(yè)主:8年來所有美國制造商都勸我"回中國生產(chǎn)吧"

頭條要聞

美企業(yè)主:8年來所有美國制造商都勸我"回中國生產(chǎn)吧"

體育要聞

100%當(dāng)選狀元,但弗拉格不想進NBA?

娛樂要聞

金子涵正式宣布退圈,想回歸自己的生活

財經(jīng)要聞

央地國資聯(lián)手護盤 國家隊領(lǐng)銜千億增持潮

汽車要聞

插混純電雙修 寶駿享境預(yù)售13.28萬起

態(tài)度原創(chuàng)

本地
房產(chǎn)
手機
時尚
公開課

本地新聞

云游中國|更好濰坊,更好的家

房產(chǎn)要聞

廣州樓市迎來小陽春!一二手市場全線飄紅,釋放哪些信號?

手機要聞

據(jù)傳iPhone 17 Pro機型將在相機應(yīng)用中提供前后雙視頻錄制功能

可持續(xù)時裝的多維棱鏡

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 绵阳市| 日土县| 洪江市| 水城县| 长子县| 安国市| 乌海市| 雅江县| 阳信县| 玛曲县| 荔浦县| 忻州市| 屯昌县| 怀仁县| 古丈县| 阳江市| 新兴县| 浦县| 雅江县| 盐源县| 大港区| 犍为县| 平遥县| 西贡区| 二连浩特市| 镇江市| 弥勒县| 鸡东县| 陈巴尔虎旗| 明光市| 淮北市| 胶南市| 闸北区| 上虞市| 襄樊市| 江达县| 亳州市| 宜川县| 建德市| 景宁| 麻江县|