ICLR2025｜從探索到掌握：使大模型通過自我驅(qū)動的交互掌握工具

2025-02-10 17:06:25　來源: DeepTech深科技

北京舉報

分享至

工具學(xué)習(xí)將大模型與外部工具相結(jié)合，顯著增強了大模型解決復(fù)雜任務(wù)的能力。通過利用外部工具，大模型克服過時的預(yù)訓(xùn)練數(shù)據(jù)的限制，使我們能夠訪問最新信息，與動態(tài)環(huán)境交互，并采取超出其能力范圍的行動。工具文檔作為關(guān)鍵信息，為大模型提供工具功能及其應(yīng)用的信息，幫助大模型更高效地使用工具，成為連接大模型與外部工具的橋梁。

然而，現(xiàn)有工具主要是人工設(shè)計出來為人類服務(wù)的，并不是明確針對大模型的使用進行定制，工具文檔也并不符合大模型的理解。實際上專門為大模型編寫符合其特定要求的工具文檔是一項具有挑戰(zhàn)性的工作。

首先，原始的人工編寫的工具文檔通常是根據(jù)人類直覺創(chuàng)建的，存在不完整、冗余、不準確等問題，因為它主要為了迎合人類的理解并且通常缺乏語言模型理解所需的精度，阻礙了大模型有效使用工具。

其次，人工修改這些文檔，很難完全涵蓋工具使用的所有方面，因為辨別工具可以解決的問題和參數(shù)范圍通常需要大量的實踐經(jīng)驗。通過手動完善來解決這些問題既耗時又費力且無法有效地擴展到大量工具。

此外，工具開發(fā)的動態(tài)特性進一步加劇了這個問題，因為工具的功能經(jīng)常更新、棄用或擴展。在工具文檔中維護此類不斷發(fā)展的功能的最新且準確的表示成為一項艱巨的任務(wù)。

而中國人民大學(xué)高瓴人工智能學(xué)院研究團隊所提出的方法，通過大模型自我驅(qū)動的工具交互來完善工具文檔，不需要人工參與，因此可以擴展到大規(guī)模的工具文檔編寫更新中，批量構(gòu)建符合大模型特定要求的工具文檔。

相關(guān)論文《從探索到掌握：使大模型通過自我驅(qū)動的交互掌握工具》（From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions）已經(jīng)被ICLR 2025接收 [1]。

研究團隊表示，人類通過重復(fù)的交互和實踐經(jīng)驗來熟練地使用工具，盡管這些工具的功能不斷發(fā)展，但仍能夠保持對這些工具的最新理解。借鑒人類掌握工具的方式，他和所在團隊在一篇論文中提出了一種新穎的框架DRAFT。其能根據(jù)大模型與工具交互的結(jié)果和反饋，自動調(diào)整和優(yōu)化工具文檔，旨在構(gòu)建符合大模型理解的工具文檔。

更具體地說，DRAFT 實現(xiàn)了一種迭代試錯方法逐步改進工具文檔。DRAFT 協(xié)調(diào)了三個動態(tài)關(guān)聯(lián)的階段：經(jīng)驗收集、從經(jīng)驗中學(xué)習(xí)和工具文檔重寫，這三個階段共同促進了工具文檔的迭代改進過程。

首先，在經(jīng)驗收集階段，通過設(shè)計的探索器模擬潛在的工具應(yīng)用場景，創(chuàng)建探索實例并實際使用工具以收集工具使用經(jīng)驗。這種方法類似于人類在無法理解說明書時探索新工具的使用方式。考慮到工具的使用通常涉及復(fù)雜的參數(shù)范圍、組合和潛在的錯誤類型，確保探索階段的多樣性以涵蓋廣泛的可能場景至關(guān)重要。因此他們設(shè)計了一種促進多樣性的探索策略：包括相似度約束和自我反思。在探索新實例時如果和已探索過的實例相似度高于閾值，探索器將進行自我反思分析相似度高的原因并探索該工具的不同方面。

接著，分析器將結(jié)合探索器的發(fā)現(xiàn)和使用反饋，從這些經(jīng)驗中學(xué)習(xí)，對現(xiàn)有文檔進行分析，判斷工具文檔是否全面、簡潔、不包含無關(guān)信息以及文檔描述是否和工具返回結(jié)果相一致，從而為修改器提出文檔修改建議。

最后，修改器在匯集前兩個階段的經(jīng)驗和修改建議的基礎(chǔ)上，專注于優(yōu)化工具文檔，以提高其清晰度、準確性和可用性，確保其符合大模型的理解能力。同時該階段還為下一輪的經(jīng)驗收集階段提供未來探索方向的建議。此外，鑒于不同工具在復(fù)雜性和大模型的理解難度上存在差異，他們引入了一種工具自適應(yīng)終止機制，以自適應(yīng)地決定何時停止對每個工具的修改。類似于不同的菜譜需要不同的專業(yè)水平，有些工具文檔優(yōu)化速度可能會快于其他工具。當(dāng)連續(xù)兩版文檔之間的改動很小，表明重寫器已充分使文檔與大模型的理解相符時，他們認為迭代過程已收斂。通過這種自適應(yīng)停止機制，可以節(jié)省計算資源和時間其次可以防止不必要的修改帶來的過度擬合，通過同時使用BLEU分數(shù)和語義相似度，確保了同時對結(jié)構(gòu)和語義進行評估，最終生成為大模型定制的高質(zhì)量文檔。

研究團隊在RestBench和ToolBench這兩個廣泛使用的工具學(xué)習(xí)Benchmark上對DRAFT進行了實驗。實驗結(jié)果表明所有大模型在使用DRAFT修改過后的工具文檔時均能更好的利用工具，表現(xiàn)出強大的跨模型泛化能力。同時在ToolBench數(shù)據(jù)集上，使用DRAFT增強的GPT-4o-mini的性能甚至超過了不使用DRAFT的GPT-4o，這些結(jié)果都證明了DRAFT的有效性。

同時，由于現(xiàn)實世界中通常包含大量的工具，無法將所有工具都提供給大模型，需要先經(jīng)過工具檢索從大量工具中篩選出有助于解決用戶當(dāng)前問題的工具，該團隊此前提出過一種有效的工具檢索策略，極大提高了工具檢索的有效性[2],該團隊還發(fā)現(xiàn)了修改過后的工具文檔不僅能幫助大模型使用工具，還能提高工具檢索的性能。

此外，通過人工評估的方式還驗證了修改后的工具文檔不僅有利于大模型的理解，也能有助于人類對工具文檔的理解。再次驗證了方法的有效性。

該團隊還編寫過一篇關(guān)于工具學(xué)習(xí)的全面綜述論文，詳細介紹了將大模型和外部工具相結(jié)合的好處以及如何增強大模型的工具使用能力，對大模型工具學(xué)習(xí)感興趣的讀者可以通過該綜述了解更多信息[3]。

[1]https://arxiv.org/abs/2410.08197

[2]https://dl.acm.org/doi/abs/10.1145/3627673.3679847

[3]https://arxiv.org/abs/2405.17935

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.