99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從“人驅(qū)動”到“模型驅(qū)動”:聊聊 Agent 在 2025 年的爆發(fā)與挑戰(zhàn)

0
分享至


作者 | 向邦宇

審校 | Kitty

隨著人工智能、機器學(xué)習(xí)和自然語言處理等技術(shù)的飛速發(fā)展,Agent 技術(shù)已經(jīng)從理論研究走向?qū)嶋H應(yīng)用,展現(xiàn)出巨大的潛力和價值。

盡管我們負(fù)責(zé)的 AI Coding 產(chǎn)品 Aone Copilot 在阿里集團被廣泛的使用,也在每個階段使用 AI 做了許多的探索,但長期以來我對大模型能解決復(fù)雜問題長期以來都持懷疑態(tài)度,所以我們遲遲沒有動手去做 Agent 產(chǎn)品。

一方面原因是當(dāng)時我認(rèn)為模型能力不夠,基于概率的模型推理能力上存在天然缺陷,另一方面是業(yè)務(wù)邏輯的復(fù)雜性,讓模型很難理解真實世界是如何運轉(zhuǎn)的。

此前,我也分享過我對 Agent 的三種模式的思考,我認(rèn)為 Agent 會經(jīng)歷三個模式:局部自動化,廣泛自動化,和極端自動化,通過泛化程度對 Agent 能完成什么任務(wù)做劃分,后面演化出倉庫級別生成單測這種簡單工作流模式,Extensions 這種與模型一起驅(qū)動的模式,在集團內(nèi)都有不小的應(yīng)用,也遇到了不少問題。

彼時的我對于如何實現(xiàn)極端自動化并沒有清晰的答案,主要是我沒有理清一些關(guān)鍵問題應(yīng)當(dāng)如何解決,但隨著多模態(tài)模型的能力,以及 Resoning 模型能力的逐步強化,我認(rèn)為我們可能來到了從“人驅(qū)動”到“模型驅(qū)動”的關(guān)鍵節(jié)點,通過這篇文章我會闡述為什么大家認(rèn)為 Agent 模式會在 2025 年開始爆發(fā),我們有了哪些進步,我們又面臨了哪些挑戰(zhàn)。

模型技術(shù)的進步推動了產(chǎn)品的進步

推理能力的進步更能理解用戶的需求

去年下半年,尤其是以 O1 和 DeepSeek 為代表的模型在 Resoning 模型的進步,基本打消了大家對模型推理能力的疑慮,模型開始變的越來越理解用戶在的需求是什么。以 Resoning 模型為代表,我們再也不需要在 Prompt 的設(shè)計上再大費周章,也不需要為 Prompt 的組裝順序那么在意,他就能更加深層次的理解用戶在說什么,甚至在用戶給出一個錯誤的問題時也能幫助糾正。


推理能力的進步使得我們在給定任務(wù)的時候不用告訴模型應(yīng)該如何做和如何思考,它具備往往能幫助用戶一次性的把事情做好,尤其是在需求理解層面能達到人類的水準(zhǔn),甚至能探查出人沒有表達出來的意思。

多模態(tài)模型能力的進步,讓模型能理解圖片和架構(gòu),讓許多之前不敢想象的場景成為現(xiàn)實

長期以來,我們總是認(rèn)為數(shù)據(jù)很重要,尤其是散落在文檔中的領(lǐng)域知識,所以我們會花很大的精力去總結(jié)文檔,但總是容易遇到一個容易被忽視的問題,就是如何處理文檔中的圖片,過去的做法是,選擇性的將圖片保留成一個個鏈接切片保留到 Embedding 數(shù)據(jù)庫里。

但問題是,圖片和文字都是穿插在一起的,不應(yīng)該輕易的放棄文檔中的圖,圖片中往往藏著領(lǐng)域架構(gòu),系統(tǒng)架構(gòu),演示,頁面指引等。有時候模型要充分理解你的領(lǐng)域知識和文檔,需要結(jié)合圖和文字一起來看。

而隨著模型能力的進步,大模型在理解圖片有了很大的進步,即使是非常復(fù)雜的架構(gòu)圖也能抓出重要信息


借助多模態(tài)模型,我們在處理領(lǐng)域知識時擁有了更多選擇:可以將圖片與文字整合處理,在檢索增強生成(RAG)中同時召回圖文信息,或者在生成摘要時讓模型綜合理解圖像與文本內(nèi)容。。

多模態(tài)模型的另一個重要價值在于能夠幫助業(yè)務(wù)系統(tǒng)更準(zhǔn)確地理解用戶所處場景。在構(gòu)建答疑系統(tǒng)時,我們經(jīng)常面臨一個挑戰(zhàn):難以確切了解用戶當(dāng)前所處的具體環(huán)境以及遇到的具體問題。例如,我們往往不清楚用戶在哪個網(wǎng)頁上遇到了什么類型的錯誤提示。因此,傳統(tǒng)答疑系統(tǒng)常常需要通過猜測或要求用戶填寫表單來獲取關(guān)鍵信息。

下圖直觀展現(xiàn)了在搭建答疑系統(tǒng)過程中遇到的這一典型問題。


過去,理解用戶在業(yè)務(wù)系統(tǒng)中遇到的問題主要有兩種方法:一是將當(dāng)前網(wǎng)頁鏈接提供給大模型分析。然而,這種方法存在明顯缺陷——網(wǎng)頁鏈接信息單一,且大量通過異步加載的內(nèi)容使模型難以準(zhǔn)確把握用戶實際看到的信息。二是在業(yè)務(wù)系統(tǒng)中部署大量日志記錄點,試圖串聯(lián)起用戶的完整行為鏈路,從而幫助答疑系統(tǒng)理解用戶當(dāng)前處境。但這種方法不僅局限性較大,還需要對系統(tǒng)進行大量改造才能實現(xiàn)。

隨著多模態(tài)模型能力的發(fā)展,這一難題可能有了更為優(yōu)雅的解決方案。通過直接分析瀏覽器頁面截圖,模型可以繞過復(fù)雜的日志系統(tǒng),直觀理解用戶可能面臨的問題。這種方式免去了耗時費力地挖掘"用戶在什么處境下遇到問題"這一關(guān)鍵信息的過程。

值得注意的是,人類日常接收的大量信息實際上是以圖像而非純文本形式呈現(xiàn)的。許多系統(tǒng)之所以設(shè)計精美,正是為了增強人類的理解和閱讀體驗。長期以來,這部分圖像信息在模型理解中往往缺失,導(dǎo)致我們在處理復(fù)雜業(yè)務(wù)場景時的效果不盡如人意。多模態(tài)模型的發(fā)展有望顯著改善這一狀況,為業(yè)務(wù)系統(tǒng)的智能化提供新的可能。

代碼能力的進步,讓模型端到端的從圖片生成代碼

雖然代碼能力是個老生常談的話題,幾乎每個新模型發(fā)布時都會強調(diào)其編程表現(xiàn),但這半年來真正令我震撼的,卻是模型在圖片復(fù)刻方面的出色能力,以及它持續(xù)穩(wěn)定地輸出長篇內(nèi)容的優(yōu)異表現(xiàn)。



上面是原圖,下面是一句 promot 生成的 1 比 1 復(fù)刻的圖,還原度很高:

另外一些 SVG 圖片也能直接通過 Prompt 很好的生成

普通的小黃鴨


犀利的小黃鴨


可愛的小黃鴨


一次性生成代碼的能力增強,甚至在前端代碼場景下,一次生成上千行的代碼而不會有任何語法問題,這極大的提升了從創(chuàng)意從 0 到 1 的效率。

模型更能理解自己的局限性,并用更合理的方式去解決它不能解決的問題

在解決問題時,模型對自身能力邊界的認(rèn)知程度直接影響其處理復(fù)雜問題的能力。這是因為,當(dāng)模型無法準(zhǔn)確評估自身局限時,往往會依賴概率預(yù)測結(jié)果,導(dǎo)致看似合理實則錯誤的輸出。我們可以通過一個簡單案例來對比不同模型在此問題上的表現(xiàn)差異。

詢問 GPT-4o 一億以內(nèi)最大的質(zhì)數(shù)這個問題,它沒有經(jīng)過思考直接給出的是一個錯誤數(shù)字。


但如果我問 Claude 3.7 一個更復(fù)雜的數(shù)字2313133123113,他直接給出了無法計算,并給出了正確的 Python 腳本:


能夠認(rèn)識到自身在特定領(lǐng)域的不足,并采取恰當(dāng)?shù)膽?yīng)對策略,這種能力是一項重大突破。試想,若缺乏這種自我認(rèn)知能力,在處理復(fù)雜的多步驟問題時,錯誤便會層層累積。模型可能會陷入錯誤的結(jié)論中,卻始終無法意識到問題所在,這無疑為解決更復(fù)雜問題設(shè)置了障礙。

產(chǎn)品的進步也推動了理論的進步

自從去年下半年以來, Cursor 經(jīng)歷了迅猛的增長。然而,在我看來,Devin 是一款更具革命性的產(chǎn)品:Cursor 創(chuàng)新了 IDE 領(lǐng)域,而 Devin 則引領(lǐng)了 Agent 領(lǐng)域的變革。作為首個具體化且功能廣泛化的 Agent 產(chǎn)品,盡管 Devin 主打開發(fā)輔助( Dev ),但在許多其他任務(wù)中它同樣表現(xiàn)優(yōu)異,尤其是在技術(shù)和市場研究方面。這些產(chǎn)品的進步不僅提升了各自的性能,還推動了 Agent 理論層面的發(fā)展。

Devin 開創(chuàng)了通用 Agent 時代

在 Devin 之前,大多數(shù)人提及的 Agent 主要在單一工作流中運用大型模型來解決特定的問題,例如進行某種判斷或調(diào)用某個 Function Call 等等,這并未充分發(fā)揮模型的全部價值與潛能。而自 Devin 以來,人們開始深刻理解了“模型驅(qū)動”的真正意義。

Devin 通過模型驅(qū)動能夠自主地進行規(guī)劃任務(wù)、反思、使用工具、聯(lián)網(wǎng)等活動。它具備異步任務(wù)自動搜索與執(zhí)行的功能,從而解決了許多困擾業(yè)界的問題

  • 長上下文的記憶壓縮與記憶提取,這是目前在模型 context 長度受限情況下的唯一解決方案

  • 規(guī)劃與重新規(guī)劃,它會在任務(wù)執(zhí)行過程中不斷調(diào)整自己的計劃

  • 自我總結(jié)與學(xué)習(xí)反思,這意味著它初步具備了規(guī)模效應(yīng),解決問題越多就越聰明,也越實用

  • 在獨立環(huán)境中聯(lián)網(wǎng)或使用工具,甚至是安裝新工具的能力


因為他解決了眾多問題,并且是首個具體詮釋 "Planning Pattern" 的產(chǎn)品。盡管每月 500 美元的訂閱費用讓許多人望而卻步,但這并不能掩蓋他在能力上的卓越之處。隨后的所有產(chǎn)品,無論是 Manus 還是其他,都在某種程度上借鑒了他的理念。由于他的操作流程是從制定計劃開始,然后再進行實施,因此這種代理模式也被稱作“Planning Pattern”類型的代理。

此外, Devin 希望用戶把他當(dāng)作一個實習(xí)生來使用。用戶可以異步地將一些復(fù)雜的任務(wù)交給他執(zhí)行,因此我們也將其稱為“異步 Agent”。同時,因為他并未限制自己只從事特定的任務(wù),所以我們同樣稱他為“通用 Agent”。

另外,既然我們可以異步地將任務(wù)交給 Agent 執(zhí)行,理論上人們無需時刻監(jiān)督他的工作。若這樣的 Agent 數(shù)量充足,人們只需負(fù)責(zé)分配任務(wù)并準(zhǔn)備驗收結(jié)果,這可能釋放出人類“十倍”的潛能。因此,我們認(rèn)為這種模式能夠?qū)崿F(xiàn)效率提升十倍的 Agent。

Cursor 和 Cline 共同開創(chuàng)了本地 IDE 上的 Agent 模式

Cursor 和 WindSuf 在產(chǎn)品上進行了諸多創(chuàng)新,包括 "Apply" 和多行編輯補全功能,這些都給人留下了深刻的印象。然而,給我留下最深印象的是他們在本地 IDE 中的 Agent 模式。

當(dāng)用戶提出一個需求時,Agent 會根據(jù)其對倉庫的索引和理解自行修改代碼,甚至可以執(zhí)行命令來完成任務(wù),這是以前難以想象的功能。過去,我們對大型模型的能力持懷疑態(tài)度,擔(dān)心它們可能會生成一些不安全的命令,從而破壞用戶的環(huán)境或錯誤地刪除不應(yīng)刪除的本地文件等。


而 Cursor 很好地解決了在執(zhí)行過程中用戶的信任問題,因為它會告知執(zhí)行的步驟、如何修改文件以及使用了哪些工具等。Cursor 的設(shè)計理念與 Devin 不同,它是先收集信息,然后執(zhí)行任務(wù),在接收到反饋后,通過數(shù)據(jù)反饋不斷優(yōu)化其執(zhí)行路徑,這是一種代理(Agent)模式。


我們稱他為 “Reflection Pattern”的 Agent,它不會先生成計劃,它需要和人同步協(xié)作的 Agent,在我們內(nèi)部叫它“同步 Agent”。

從本地 IDE 的角度看,衡量一個 Agent 的效果好壞,主要依賴于多個因素。一方面,這包括模型能力的強弱;另一方面,則是我們本地 IDE 上搜索功能的有效性。在本地 IDE 中,我們可以最大程度地利用本地資源,特別是 IDE 本身的強大功能,從而能夠更好地處理一些先前難以解決的工程上下文問題。例如,可以直接通過本地 IDE 對外暴露的 API 向模型提供函數(shù)或類的定義、跳轉(zhuǎn),甚至是調(diào)用鏈路。

因為有了這些改進,我們可以將原本在服務(wù)器端難以處理的情景轉(zhuǎn)移到本地進行優(yōu)化,如在本地執(zhí)行代碼審查、查找代碼缺陷等任務(wù)。這樣一來,在編碼階段就能發(fā)現(xiàn)并修正代碼中的缺陷和問題,用戶不僅更愿意進行修復(fù),而且修復(fù)的成本也將大大降低。這是一個值得探索的方向。

不同的場景導(dǎo)致了兩種 Agent 模式在技術(shù)上的不同選擇

兩種 Agent 模式的實現(xiàn)存在差異,原因多種多樣:

  • 通用 Agent 需要具備獨立的云端運行環(huán)境,而本地 Agent 則部署于本地 IDE 中,因此它們所采用的工具不盡相同。

  • 本地 Agent 由于需與人類操作同步,故重視執(zhí)行效率,力求迅速向用戶提供反饋,并盡快完成交付。

  • 相比之下,通用 Agent 可以支持異步交付,對延遲的要求不那么嚴(yán)格,其流程可被分解得更為細(xì)致,能夠調(diào)用更多工具進行多次驗證以獲取中間結(jié)論。同時,鑒于它是異步交付,必須確保一定水平的交付質(zhì)量,因而需要盡量考慮周全后再執(zhí)行。

  • 本地 Agent 的產(chǎn)品與 IDE 緊密結(jié)合,這意味著其任務(wù)不會無限制地擴展,相對而言較為簡化。

  • 通用 Agent 使用的工具種類不受限,而本地 IDE 中的 Agent 由于受限于 PC 設(shè)備,任意安裝新工具可能會引發(fā)用戶關(guān)于隱私或安全性的擔(dān)憂。

  • 作為異步模式的一部分,通用 Agent 必須達到一定程度的確定性,在執(zhí)行過程中不斷自我反省和總結(jié),這會帶來執(zhí)行效率的降低

但通用 Agent 會遇到一些挑戰(zhàn)

通用 Agent 實施上會遇到的挑戰(zhàn)

盡管我們現(xiàn)在可以看到市場上有很多標(biāo)榜為通用 Agent 的產(chǎn)品,但實際上能夠處理通用或復(fù)雜任務(wù)的并不多。這些產(chǎn)品要么不夠通用,要么無法應(yīng)對復(fù)雜的任務(wù)。我認(rèn)為這主要是由于工程和技術(shù)模型兩個方面所面臨的挑戰(zhàn)。

通用 Agent 在工程上的挑戰(zhàn)

Agent 的大腦如何構(gòu)建

其實當(dāng)初我們看到 Devin 時,我們首先想到的是 Web IDE 的架構(gòu)。我們認(rèn)為,在瀏覽器中開啟的任務(wù)應(yīng)當(dāng)由后臺的一個獨立容器來處理。這一想法立即讓我聯(lián)想到了 Web IDE 的架構(gòu)。


具體任務(wù)在一個環(huán)境中執(zhí)行。在這個環(huán)境中,有一個“大腦”負(fù)責(zé)知識的引入、工具的使用、知識的壓縮以及模型的驅(qū)動。“大腦”的重要性體現(xiàn)在以下幾個方面:

  • 它具備任務(wù)規(guī)劃與執(zhí)行能力,可以被視為通用 Agent 的 '大腦',負(fù)責(zé)管理整個任務(wù)流程,將復(fù)雜的任務(wù)分解成可以由子 Agent 執(zhí)行的小任務(wù)。

  • 它能夠進行反思和重新規(guī)劃。有時,某種實現(xiàn)方案可能走入死胡同,或模型堅持一條走不通的道路,“大腦”需識別這些問題并重新規(guī)劃其他路徑。

  • 它能夠識別并選擇使用各種工具,例如通過瀏覽器打開網(wǎng)頁、操作終端、文件的創(chuàng)建、刪除、編輯等,以及在線搜索等。

  • 它具有識別、正確壓縮記憶、引入新知識及學(xué)習(xí)的能力,如將先前成功完成的任務(wù)歸納為經(jīng)驗,在面對類似任務(wù)時再次應(yīng)用這些經(jīng)驗。

  • 內(nèi)置 IDE 功能通常也是必要的,這使得用戶可以在 Agent 中調(diào)整生成內(nèi)容的信息,盡管這不是強制性的要求。

  • 并行處理子任務(wù),通用 Agent 可以同時運行多個子任務(wù),從而加速任務(wù)的完成。

如何評估通用 Agent

通用 Agent 的性能受到 Engine、模型、各種 Prompt、工具篩選等方面的影響。在評估時,對于那些不確定性強的內(nèi)容,我們需要進行模擬,并通過控制變量的方法找出關(guān)鍵的優(yōu)化點。因此,建立一個能夠發(fā)現(xiàn)實現(xiàn)使用環(huán)境中問題的環(huán)境變得很重要只有通過評測我們才能明確改進的方向。

過去,在大規(guī)模模型的訓(xùn)練和評估中,通常采用的是以 Query 和 Answer 為核心的評價方式。


這種評測集的特點通常是易于實施和評估的,比如 Pass @ 1 或者 EM、ES 等評估策略,通常是一組標(biāo)準(zhǔn)化的測試數(shù)據(jù)(輸入 - 輸出對),用于量化模型在特定任務(wù)上的表現(xiàn)。其目的在于提供統(tǒng)一的評估標(biāo)準(zhǔn),以便橫向比較不同模型的能力(如準(zhǔn)確性、穩(wěn)健性和泛化能力)。例如 GLUE(自然語言理解)、MMLU(多學(xué)科知識)、HumanEval(代碼生成)等。有些評測集,如 SWE-Bench,則設(shè)置了若干實際世界中的編程問題供智能體解決。

然而,這類評測集僅能用于評估與編碼相關(guān)的智能體能力,而無法全面反映通用型智能體的綜合能力。因為在很多情況下,僅僅評估最終結(jié)果并不合理,因為智能體產(chǎn)生的輸出往往不是標(biāo)準(zhǔn)化的,例如在一個需求調(diào)研任務(wù)中,我們難以通過產(chǎn)出直接判斷智能體的質(zhì)量,或這種評價本身就是主觀的。此外,評測的另一目的還在于優(yōu)化整體設(shè)計架構(gòu),單純的結(jié)果評估很難揭示問題究竟出現(xiàn)在規(guī)劃階段、記憶階段還是工具選擇階段。

當(dāng)然,評估過程本身也充滿挑戰(zhàn),因為智能體的執(zhí)行過程是動態(tài)變化的,由模型驅(qū)動,每次生成的計劃不盡相同,所用工具也可能有所差異,因此嚴(yán)格對比變得困難。即便我們嘗試評估過程細(xì)節(jié),比如具體進行了哪些規(guī)劃步驟,使用了多少步驟,這些數(shù)據(jù)的具體意義仍不易解釋清楚。因此,針對通用型智能體產(chǎn)品的評測是一項行業(yè)難題,或許需要引入人工評估的方式,甚至為展示其通用性,還需構(gòu)建多種突發(fā)場景來考察其應(yīng)對能力,這些都是需要考慮的因素。

如何解決處理長步驟下的記憶問題

人在面對復(fù)雜問題時,盡管也是逐步推進,但在每完成一步后,往往會無意識地對信息進行壓縮處理。例如,在理解一段復(fù)雜的代碼邏輯時,你不必記住讀過的每一個字符;相反,你會大致掌握其內(nèi)容,然后轉(zhuǎn)向其他文件。這樣,你就能夠持續(xù)處理新任務(wù)。當(dāng)后續(xù)任務(wù)需要之前的具體信息時,再回過頭來查閱細(xì)節(jié)。這就是人類如何通過信息壓縮與提取來管理信息的方式,這一能力同樣適用于 Agent。

Agent 的記憶機制分為兩類:短期記憶和長期記憶,它們分別應(yīng)對不同的需求。

在處理復(fù)雜任務(wù)時,由于模型的上下文長度受限,即便未來模型的上下文容量得以擴展,仍需依賴信息壓縮功能。過多的信息可能會導(dǎo)致關(guān)鍵點被忽略,因此短期記憶中的信息壓縮有助于提煉出核心要點。Devin 產(chǎn)品的界面設(shè)計體現(xiàn)了這種壓縮能力,即在每個步驟完成后展示壓縮后的記憶摘要,而不是詳盡記錄每項操作,以便為后續(xù)步驟提供概要參考。


但是,單純地通過壓縮也有其局限性,因為模型壓縮可能會忽視某些對復(fù)雜任務(wù)至關(guān)重要的細(xì)節(jié)信息,例如我們在測試的時候發(fā)現(xiàn) Agent 生成一組用戶名和密碼,然后轉(zhuǎn)頭就忘了,這就考驗了解決問題的工程技術(shù)能力。

如前所述,通用 Agent 應(yīng)該擁有反思與學(xué)習(xí)總結(jié)的能力,這也是模型與 Agent 之間的區(qū)別之一。Agent 在學(xué)習(xí)過程中不斷進步,并掌握處理新任務(wù)的方法,因此 Agent 或許具有規(guī)模效應(yīng)——使用者越多,它就越智能。這種能力的具體表現(xiàn)就是“長期記憶”。每當(dāng)用戶完成一項任務(wù)后,我們可以讓模型整理出一份可供日后參考的經(jīng)驗數(shù)據(jù)。這樣,在 Agent 遇到新問題時,可以調(diào)取這些經(jīng)驗來指導(dǎo)模型如何應(yīng)對,從而實現(xiàn)了某種形式的長期記憶。Devin 則是通過 Knowledge 的方式來進行存儲,例如,在執(zhí)行某項任務(wù)的過程中,通過對模型輸出進行校正,生成了一份可利用的知識。


不過,這種處理方式仍然顯得相當(dāng)粗獷。主要是因為,一種知識在一個特定情境中可能非常有效,但在另一個情境下卻未必如此。例如,牛頓力學(xué)在宏觀和低速的世界里表現(xiàn)得極為出色,然而當(dāng)速度接近光速時便不再適用;同樣地,抗生素能夠有效地殺死細(xì)菌,但對于病毒則無能為力。因此,將成功的經(jīng)驗固化為固定的“Agent 心智”,實際上也限制了模型的能力。如何根據(jù)具體的情境來甄別并利用這些經(jīng)驗,并且恰當(dāng)?shù)卣莆者@一平衡點,本身就是一項重大的技術(shù)挑戰(zhàn)。

模型的挑戰(zhàn)

工程上的挑戰(zhàn)其實還是能夠克服的,畢竟有大量可借鑒的產(chǎn)品,我們也可以通過各種方法和產(chǎn)品手段來避免一些問題。然而,對于“模型驅(qū)動”的 Agent 產(chǎn)品來說,模型能力方面的挑戰(zhàn)更為艱巨。當(dāng)前,幾乎所有開發(fā)通用 Agent 產(chǎn)品的公司都將 Claude Sonnet 視為首選模型,因為除此之外,其他模型都無法很好地推動復(fù)雜任務(wù)的解決,模型能力的欠缺是我們比較擔(dān)心。

模型的指令跟隨能力不足

復(fù)雜的任務(wù)之所以復(fù)雜,在于判斷與限制條件多,約束多,對模型的要求也隨之增多,通常會組合成一個極其復(fù)雜的 Prompt,模型能遵循的指令越多,它能處理的問題就越復(fù)雜。然而,除 Claude 系列外,其他模型往往難以達到這一標(biāo)準(zhǔn)。

部分模型存在不遵循指令的情況,而且非常普遍,例如我明確告訴他不要轉(zhuǎn)義

但代碼還是轉(zhuǎn)義了


模型的長上下文能力

主要體現(xiàn)為當(dāng)噪音信息變多時,找到關(guān)鍵信息、理解能力會變?nèi)酢?/p>

某模型放入過多額外信息時生成的流程圖,可以看到許多中間步驟被模型忽略了。

某模型僅保留關(guān)鍵信息時生成的流程圖,如果去除掉一些細(xì)節(jié)信息,模型就能找出更完整的鏈路。

復(fù)雜的任務(wù)之所以顯得復(fù)雜,要么是因為其上下文本身就很長,例如 代碼,或者在執(zhí)行長步驟任務(wù)時,需要記憶更多上下文信息。對于復(fù)雜任務(wù),特別是涉及幾十甚至上百步的任務(wù)而言,把握住長上下文中關(guān)鍵的信息至關(guān)重要。

模型的推理規(guī)劃和反思能力

推理與規(guī)劃能力是通用 Agent 解決復(fù)雜問題的關(guān)鍵。這種能力使得智能體能夠分析問題、制定解決方案的步驟,并在執(zhí)行過程中進行調(diào)整。Devin 在產(chǎn)品上會先為任務(wù)制定一個計劃,然后向用戶展示執(zhí)行規(guī)劃的步驟。

而在我們執(zhí)行任務(wù)的過程中遇到變化時, Devin 會調(diào)整他的計劃。這與人類相似,在完成一項復(fù)雜的任務(wù)時,人們通常也無法一開始就制定出一個完美的計劃,而是會在實施過程中不斷進行調(diào)整。


這個圖反應(yīng)了,Agent 存在的挑戰(zhàn)不僅僅是一次性就把事情做好,而是在一個長鏈路任務(wù)下需要具備反思和的能力

  • Agent 難以從錯誤的長軌跡中恢復(fù)(Difficult to recovery in long trajectory)

    • 在任務(wù)執(zhí)行過程中,智能體可能選擇了錯誤的動作序列,導(dǎo)致偏離正確軌跡

    • 智能體需要回顧并修正之前的錯誤動作,以完成任務(wù)

    • 圖中左側(cè)展示了智能體在錯誤軌跡中浪費時間(例如開錯門、走錯路徑),最終未能獲得獎勵

  • Agent 也容易陷入局部循環(huán)(Stuck into Loops)

    • 智能體可能在某些狀態(tài)中反復(fù)執(zhí)行相同的動作,陷入局部循環(huán),無法探索新的可能性

    • 圖中右側(cè)展示了智能體重復(fù)執(zhí)行“打開廚房門”的動作,未能有效推進任務(wù)

    • 智能體需要跳出局部循環(huán),探索更多可能的動作以完成任務(wù)

問題會隨著開源模型的進步而消失嗎

在之前,訓(xùn)練過程中通過計算 Loss 來降低梯度,從而提升模型效果。這種點對點的模型能力提升,在過去的打榜或 ChatBot 等產(chǎn)品形態(tài)中確實取得了巨大成功。然而,在 Agent 場景下,以往極致地優(yōu)化局部最優(yōu)解并不一定能成為全局最優(yōu)解。例如,一個多步驟任務(wù)從 a 到 b 再到 c 和 d,雖然每一步都是最優(yōu)的,但對于整個任務(wù)而言,a 直接到 d 可能才是最優(yōu)路徑。過去的經(jīng)驗表明,無論國外模型發(fā)布何種新功能,國內(nèi)的開源模型總能迅速跟進,這一次是否依然能夠順利實現(xiàn)呢?

另一個問題是,Claude 作為一個斷檔級別的存在,其優(yōu)秀之處遠(yuǎn)不止于編寫代碼的能力,它在幾乎所有能力上都處于領(lǐng)先地位。近期與許多同行交流后發(fā)現(xiàn),大家似乎尚未充分認(rèn)識到這一點,在如何使我們的模型在指令遵循、長上下文理解、規(guī)劃及反思等方面達到 Agent 能使用的水平的問題上毫無頭緒。究竟是由于其基礎(chǔ)能力強大且數(shù)據(jù)質(zhì)量較高所致,還是采用了某些特殊的訓(xùn)練方法或標(biāo)注手段使其具備如此強大,目前外界對此一無所知。要知道,Claude 3.5 Sonnet 已經(jīng)是在去年六月發(fā)布的,這是令人比較擔(dān)心的。

我們最近也在與其他算法團隊進行溝通,希望能夠盡快提升模型性能,包括建立適用于 Agent 任務(wù)的評估體系,以及創(chuàng)建能夠讓 Agent 運行的模擬環(huán)境等措施,以期幫助算法團隊更快地縮短與 Claude 之間的差距,并推動國內(nèi)盡快實現(xiàn)真正具備 Agent 能力的大模型。

通用 Agent 會被因為模型能力的增強失去價值嗎

最近有一種觀點認(rèn)為,Agent 會被模型取代,認(rèn)為“模型即應(yīng)用”。但我的判斷是:通用 Agent 并不會被取代。通用 Agent 與模型之間是一種共生的關(guān)系——Agent 像為模型這個“大腦”裝上了“手腳”,賦予了它行動(Action)的能力。只要保持 Agent 架構(gòu)的簡潔性,并且不通過流程編排來限制模型的能力,Agent 就能夠隨著模型能力的提升變得更加強大和通用。實際上,Agent 會直接受益于模型泛化能力的提高。

目前,模型的結(jié)構(gòu)和推理能力存在著固有的局限,而 Agent 正好可以幫助模型應(yīng)對環(huán)境感知、記憶存儲以及工具使用等一系列系統(tǒng)性的問題。“大腦”般的模型自身無法長出手腳去采取行動,通用 Agent 實質(zhì)上就是一個為模型裝備行動器官的技術(shù)解決方案。

甚至通用 Agent 還可能會產(chǎn)生規(guī)模效應(yīng),通過工程技術(shù)讓模型具備持續(xù)反思和學(xué)習(xí)的能力,而這正是現(xiàn)有模型結(jié)構(gòu)所無法實現(xiàn)的。

然而,隨著模型能力的不斷提升,那些以工作流(Workflow)為核心的專業(yè) Agent 確實有可能被淘汰。因為現(xiàn)在許多專為人工編排設(shè)計的功能,在將來很可能可以由模型自動完成。這種更高層次的自動化編排能力,將會使某些專業(yè) Agent 失去存在的意義。

此刻,人類正站在人機協(xié)作進化的轉(zhuǎn)折點——Agent 不是迭代,而是劃時代的范式革命!這是繼圖形界面、移動互聯(lián)網(wǎng)之后,我們這一代人親手定義未來技術(shù)范式的終極戰(zhàn)場。

你是否厭倦了在技術(shù)舒適區(qū)重復(fù)勞動?是否渴望在職業(yè)生涯中觸摸真正的技術(shù)奇點?如果你對重構(gòu)人機關(guān)系底層邏輯感到好奇,如果你對解決這些未知又復(fù)雜的問題感到興奮,不論是算法還是工程,都?xì)g迎加入我們。有意者歡迎聯(lián)系:gengugu@foxmail.com

大家也可以關(guān)注我們的校招和社招崗位

  • 技術(shù)風(fēng)險與效能 -AI Agent 模型算法工程師 - 算法工程

  • 技術(shù)風(fēng)險與效能部 -VSCode 客戶端開發(fā)工程師 - 基礎(chǔ)平臺

  • 技術(shù)風(fēng)險與效能部 -Agent 服務(wù) & 系統(tǒng)開發(fā)工程師 - 服務(wù)端


另外,在即將于 4 月 10 -12 日召開的 QCon 全球軟件開發(fā)大會(北京站),我將帶來主題為【從 0 到 1,從 1 到 10:阿里在智能研發(fā)中的大模型應(yīng)用與挑戰(zhàn)】的演講分享,結(jié)合在阿里內(nèi)部的探索經(jīng)驗介紹大模型在各個發(fā)展階段遇到的問題和解決思路。期待與大家在 QCon 現(xiàn)場交流。

作者介紹

向邦宇,阿里巴巴代碼平臺負(fù)責(zé)人,內(nèi)部智能研發(fā)產(chǎn)品負(fù)責(zé)人,在代碼管理、代碼結(jié)構(gòu)化數(shù)據(jù)處理、代碼搜索、代碼評審以及編輯器技術(shù)等領(lǐng)域擁有豐富的專業(yè)知識和實踐經(jīng)驗。在阿里主導(dǎo)了內(nèi)部研發(fā)智能化的發(fā)展,開發(fā)阿里內(nèi)部 Copilot 和 Agent 等 AI 產(chǎn)品,被內(nèi)部同學(xué)大范圍應(yīng)用。

會議推薦

在 AI 大模型重塑軟件開發(fā)的時代,我們?nèi)绾伟盐兆兏铮咳绾瓮黄萍夹g(shù)邊界?4 月 10-12 日,QCon 全球軟件開發(fā)大會· 北京站 邀你共赴 3 天沉浸式學(xué)習(xí)之約,跳出「技術(shù)繭房」,探索前沿科技的無限可能。

本次大會將匯聚頂尖技術(shù)專家、創(chuàng)新實踐者,共同探討多行業(yè) AI 落地應(yīng)用,分享一手實踐經(jīng)驗,深度參與 DeepSeek 主題圓桌,洞見未來趨勢。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
60票對25票,美參議院表決出爐,中美若爆發(fā)沖突,結(jié)局難逃8個字

60票對25票,美參議院表決出爐,中美若爆發(fā)沖突,結(jié)局難逃8個字

獵火照狼山
2025-04-14 13:45:08
一家三口被撞死后續(xù):兇手太囂張,抽著煙指著死者嘲諷:頭太硬了

一家三口被撞死后續(xù):兇手太囂張,抽著煙指著死者嘲諷:頭太硬了

游古史
2025-04-15 22:38:41
新冠變異株加速傳播!高風(fēng)險人群應(yīng)警惕新一輪感染潮

新冠變異株加速傳播!高風(fēng)險人群應(yīng)警惕新一輪感染潮

瀟湘晨報
2025-04-14 20:09:08
小米這7500mAh新機又是全球首發(fā),賣1799元?

小米這7500mAh新機又是全球首發(fā),賣1799元?

鋒潮評測
2025-04-15 18:22:05
迪拜王儲變女兒奴,出訪時不忘曬二胎嫡女照片,襁褓上的鉆石亮了

迪拜王儲變女兒奴,出訪時不忘曬二胎嫡女照片,襁褓上的鉆石亮了

原廣工業(yè)
2025-04-15 11:18:44
長和港口交易出新變化,港澳辦發(fā)聲:出賣國家利益,沒有好下場!

長和港口交易出新變化,港澳辦發(fā)聲:出賣國家利益,沒有好下場!

近史博覽
2025-04-15 16:44:13
最新!江蘇發(fā)病率第一的癌癥是……

最新!江蘇發(fā)病率第一的癌癥是……

句容日報
2025-04-15 21:43:11
沖上熱搜的馬拉松“私兔”事件,揭開了社會最現(xiàn)實的一面!

沖上熱搜的馬拉松“私兔”事件,揭開了社會最現(xiàn)實的一面!

知否大叔
2025-04-10 10:06:05
大衣哥前兒媳創(chuàng)業(yè)失敗,已從杭州搬回曹縣,婚姻終究不是獲利工具

大衣哥前兒媳創(chuàng)業(yè)失敗,已從杭州搬回曹縣,婚姻終究不是獲利工具

阿矗論古今
2025-04-14 16:21:44
受賄2.07億余元,江西省人大常委會原副主任殷美根一審被判死緩

受賄2.07億余元,江西省人大常委會原副主任殷美根一審被判死緩

界面新聞
2025-04-15 17:01:52
貴陽市消防救援支隊原支隊長李世永受審 被指控給25萬元謀求提拔

貴陽市消防救援支隊原支隊長李世永受審 被指控給25萬元謀求提拔

紅星新聞
2025-04-15 20:14:11
美媒曝若尼克斯季后賽失利 錫伯杜或被解雇!他用人過度遭質(zhì)疑

美媒曝若尼克斯季后賽失利 錫伯杜或被解雇!他用人過度遭質(zhì)疑

Emily說個球
2025-04-16 03:37:17
新中國第一屆國家領(lǐng)導(dǎo)人名單

新中國第一屆國家領(lǐng)導(dǎo)人名單

天地
2025-04-10 08:22:41
白色冰絲半袖、牛仔短褲、卡其色單肩挎包與白色旅游鞋的精致搭配

白色冰絲半袖、牛仔短褲、卡其色單肩挎包與白色旅游鞋的精致搭配

同學(xué)阿允
2025-04-16 01:18:36
全網(wǎng)熱議,美航母遭胡塞重創(chuàng)被迫退役?一覺醒來,美軍終于回應(yīng)了

全網(wǎng)熱議,美航母遭胡塞重創(chuàng)被迫退役?一覺醒來,美軍終于回應(yīng)了

獵火照狼山
2025-04-15 13:33:35
北京環(huán)球影城主題公園4月13日繼續(xù)閉園

北京環(huán)球影城主題公園4月13日繼續(xù)閉園

上觀新聞
2025-04-12 14:24:07
中越聯(lián)合聲明:推動中越跨境標(biāo)準(zhǔn)軌鐵路聯(lián)通 盡快開展老河海鐵路可研工作

中越聯(lián)合聲明:推動中越跨境標(biāo)準(zhǔn)軌鐵路聯(lián)通 盡快開展老河海鐵路可研工作

軌道世界
2025-04-15 22:41:03
58歲鄭伊健低調(diào)坐經(jīng)濟艙,老人味十足,素顏出鏡臉上皺紋密布

58歲鄭伊健低調(diào)坐經(jīng)濟艙,老人味十足,素顏出鏡臉上皺紋密布

農(nóng)村教育光哥
2025-04-12 10:39:21
世界杯大冷門!王藝迪成國乒首位出局者!下一場4比0獲勝仍無用

世界杯大冷門!王藝迪成國乒首位出局者!下一場4比0獲勝仍無用

曉風(fēng)說
2025-04-15 18:15:05
黑澤良平曬合照秀兄弟情,阿如那曬老婆秀恩愛,只有林志玲美翻了

黑澤良平曬合照秀兄弟情,阿如那曬老婆秀恩愛,只有林志玲美翻了

墨印齋
2025-04-15 12:25:05
2025-04-16 07:11:00
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
11017文章數(shù) 51223關(guān)注度
往期回顧 全部

科技要聞

小鵬汽車MPV車型改款上市,35.98萬起

頭條要聞

中國不理他特朗普破防了 稱中國為"敵對貿(mào)易國家"

頭條要聞

中國不理他特朗普破防了 稱中國為"敵對貿(mào)易國家"

體育要聞

惡性循環(huán)!錫伯杜的壓榨哲學(xué)是對是錯?

娛樂要聞

娛樂圈模范夫妻塌房?私生活曝光!

財經(jīng)要聞

李強:以更大力度促進消費擴大內(nèi)需

汽車要聞

19.99萬起 廣汽本田P7能在新能源分一杯羹?

態(tài)度原創(chuàng)

教育
親子
房產(chǎn)
旅游
公開課

教育要聞

剛剛,青島四區(qū)義務(wù)教育招生政策公布

親子要聞

寶寶為了吃冰淇淋有多努力,還會提前查看媽媽是否睡著。

房產(chǎn)要聞

牛!引入廣州中學(xué)九年一貫制學(xué)校,不愧天河全優(yōu)生

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 遂川县| 三江| 达尔| 哈巴河县| 于田县| 邻水| 乌拉特后旗| 义马市| 惠东县| 桂林市| 眉山市| 治多县| 汉阴县| 嫩江县| 商丘市| 平武县| 靖州| 梁平县| 定兴县| 广西| 榆林市| 富顺县| 化州市| 泰和县| 抚顺市| 乌兰察布市| 侯马市| 基隆市| 纳雍县| 潍坊市| 射阳县| 古交市| 三穗县| 朝阳市| 拜城县| 三明市| 南宫市| 自治县| 尉氏县| 阜城县| 宝丰县|