(關注公眾號設為標,獲取AI深度洞察)
全文 6,000字 | 閱讀約18分鐘
近期,因Manus AI的橫空出世而掀起一股"AI代理"(Agent)熱潮。這款以"自主完成復雜任務"為賣點的產品,通過稀缺營銷迅速引發關注,也讓"AI代理"這一概念再次走入大眾視野。然而,在熱鬧背后,許多人對AI代理的本質、能力和局限存在諸多誤解:它們到底能做什么?不能做什么?與普通AI有何不同?
在這股代理熱潮中,Anthropic(Claude背后的公司)近期發布的一段核心團隊對話視頻顯得尤為及時和有價值。在這場由Alex Albert主持,邀請研究團隊的Erik Schluntz和應用AI團隊的Barry Zhang參與的討論中,三位專家分享了他們對AI代理的專業見解和前沿思考。
盡管Manus AI的熱度正隨時間消退,但對AI代理技術的思考和探索才剛剛開始。對于用戶、開發者和企業決策者來說,理解AI代理的本質、適用場景和發展趨勢至關重要,這不僅關系到如何有效利用當前技術,也影響著未來技術投資和應用方向的選擇。
接下來,讓我們通過Anthropic專家的專業分析,共同探索AI代理技術的真相與未來。在這個技術與營銷聲浪交織的領域,這些來自行業一線的觀點將為我們提供難得的清晰視角。
一、什么是AI代理
在AI熱潮中,"代理"(Agent)這個詞被到處使用,但很多人并不真正理解它的含義。那么,什么才是真正的AI代理?它和我們常見的AI應用有什么不同?
代理vs工作流:關鍵區別在于自主決策能力
想象一下廚房里的兩種場景:
場景一(工作流workflow):你按照菜譜一步步做菜。第一步切菜,第二步放油,第三步炒菜...每一步都是預先定好的,按部就班地執行。
場景二(代理 agent):你告訴一個會做飯的人"做一道可口的晚餐",他會根據冰箱里有什么材料,自己決定做什么菜,如何烹飪,需要走多少步驟才能完成。
正如Erik在對話中說的:
"我們認為的代理是讓LLM自己決定運行多少次。它會持續循環直到找到解決方案。"
簡單說,工作流就像是固定的生產線,每個步驟都是預先設計好的;而代理則像是有自主思考能力的助手,可以根據情況自己決定怎么做、做多久。
為什么代理被混淆
現在市面上許多產品都稱自己為"AI代理",這造成了很大混淆。Barry解釋道:"隨著模型的改進...我們開始看到兩種不同的模式:一種是由代碼預先編排的工作流,另一種是代理,它在某種程度上更簡單,但在其他方面更復雜。"
就像市場上很多食品都標榜"純天然"一樣,"AI代理"這個詞被過度使用,導致人們難以區分真正的代理和普通的AI應用。
AI代理的簡單定義
歸根結底,真正的AI代理有兩個關鍵特點:
1、能自己做決定:不需要人類告訴它每一步該做什么;
2、會一直工作到完成任務:運行次數不是預先固定的,而是根據需要自動調整;
Erik用生活中的例子解釋了這種差別:"代理的提示會更加開放,通常會給模型工具或多個檢查項,說:'嘿,這是問題,你可以進行網絡搜索,或者編輯這些代碼文件,或者運行代碼,并持續這樣做直到你有答案。'"
想象你對助手說:"幫我預訂一次旅行"。如果是工作流,你可能需要指定每一步:"先查航班,然后找酒店,再看景點";而真正的代理則只需一個指令,它會自己決定如何完成整個預訂過程。
這就是為什么 AI agent ——它承諾可以自主完成復雜任務,而不需要人類的步步指導。但正如我們接下來要討論的,這種自主能力雖然令人印象深刻,但也有它的局限和適用場景。
三、Agent的應用場景
當我們理解了什么是AI代理后,自然想知道:它們最適合做什么?在現實世界中,AI代理能解決哪些實際問題?Anthropic團隊分享了他們在與客戶合作中觀察到的成功案例和關鍵洞見。
最適合Agent的任務特征
在選擇使用AI代理的場景時,Barry提出了一個非常實用的標準:"我認為代理最適合的場景是那些既復雜又有價值的任務,但失敗后的風險較低或監控成本不高的任務。這是代理應用的理想交叉點。"
這句話道出了AI代理應用的核心原則。簡單來說,最適合代理的任務應該是:
1、足夠復雜:簡單任務用代理可能是"殺雞用牛刀";
2、有一定價值:值得投入資源去自動化;
3、容錯性高:即使代理偶爾出錯,也不會造成嚴重后果;
舉個生活中的例子:你可能會讓AI代理幫你篩選郵件或整理文檔,因為即使它偶爾分類錯誤,后果也不嚴重。但你可能不會讓AI代理直接操作你的銀行賬戶進行大額轉賬,因為錯誤成本太高。
兩個應用領域:編碼與搜索
在眾多可能的應用場景中,兩個目前最成功的領域:編碼和搜索。
關于搜索應用,Barry解釋道:"以搜索為例,這是一個非常有價值的任務。進行深入的迭代搜索非常困難,但你總是可以用一些精度換取召回率,然后獲得比需要更多的文檔或信息,然后過濾下來。所以我們在代理搜索方面看到了很多成功。"
這意味著代理可以進行多輪、深入的信息檢索,不斷調整搜索策略,最終找到用戶真正需要的信息,而不僅僅是關鍵詞匹配的結果。
對于編碼應用,Erik展示了極大的熱情:
Erik: "編碼代理我認為非常令人興奮,因為它們是可驗證的,至少部分是。你知道,代碼有一個很好的特性,你可以為它編寫測試,然后編輯代碼,測試要么通過要么不通過。"
如果代理可以幫助程序員寫代碼、找bug、優化性能,甚至自動根據需求生成完整的程序。雖然這不會取代程序員,但可以顯著提高他們的工作效率。
為什么編碼和搜索特別適合AI代理?
Erik點出了關鍵原因:如果每次它再次運行測試,它看到錯誤或輸出是什么,這讓我認為,模型可以通過獲得這種反饋來收斂到正確的答案。如果你沒有某種機制在迭代時獲得反饋,你就沒有注入更多的信號,你只會有噪音。所以沒有這樣的機制,代理就沒有理由收斂到正確的答案。
這里的核心是反饋機制。成功的代理應用需要一種方式來驗證結果是否正確,并據此改進。
在編碼中,測試用例提供了明確的反饋:代碼要么通過測試,要么失敗;
在搜索中,結果的相關性可以通過多種方式評估,代理可以不斷調整查詢直到找到滿意答案;
對于我們用戶而言,這意味著什么?簡單說,當我們考慮使用AI代理時,應該優先考慮那些:
1、任務復雜但錯誤不會造成嚴重后果的場景;
2、存在某種方式可以驗證結果好壞的場景;
3、代理可以通過多次嘗試逐漸改進的場景;
比如,你可以放心讓AI代理幫你寫郵件草稿(你可以審核后再發送),或者幫你整理照片和文件(錯誤可以輕松糾正)。但可能不適合讓它直接執行重要的財務決策或醫療診斷等高風險任務。
四、被過度炒作的代理能力
在國內AI圈,Manus AI的突然走紅引發了對AI代理能力的熱烈討論。但正如在討論指出的,目前關于代理的某些能力被過度炒作了,特別是在消費者應用領域。讓我們透過Manus AI熱潮,冷靜分析AI代理當前的實際局限。
消費者型代理目前的局限
Erik在討論中提出了一個直白但深刻的觀點:我覺得消費者代理目前被過度炒作了。因為我認為,我們談到了可驗證性。我認為對于很多消費者任務來說,完整地指定你的偏好和任務是什么幾乎和自己去做一樣費力,而且驗證的成本很高。他用旅行規劃作為例子:
"所以試圖讓一個代理為你完全預訂一個假期,描述你到底想要什么樣的假期和你的偏好,幾乎和自己去預訂一樣困難。而且風險很高。你不希望代理在你沒有先接受的情況下就去訂飛機票。"
這一點非常關鍵。想象一下,如果你要求AI代理幫你規劃一次"完美的旅行",你需要詳細說明你的預算、時間、喜好的酒店類型、餐飲偏好、想要的活動類型等等。這個描述過程可能比你自己去規劃還要費勁!而且,如果AI代理做出的選擇不符合你的預期,你還需要重新指導它,這又是一輪費時的交流。
代理缺乏上下文理解能力
Alex在對話中提出了一個重要問題:這是否也是我們在這里遺漏的上下文問題,模型能夠推斷出關于某人的這些信息,而不必明確地去詢問并隨著時間的推移學習偏好。Erik對此的回應則是很實際,他說:所以我認為這些事情會實現,但首先你需要建立這種上下文,以便模型已經知道你在這些事情上的偏好,我認為這需要時間。
他們問答中揭示了當前代理技術的核心挑戰之一:缺乏持續的上下文理解和學習能力。目前的AI代理每次都是"從零開始"理解用戶,缺乏真正的個性化記憶系統,無法像人類助手那樣隨著時間逐漸了解你的喜好。這意味著如果像Manus AI這樣的代理可能需要用戶反復輸入相同的偏好信息,而不能"記住"你過去的選擇和反饋。
AI代理熱潮背后的冷思考
雖然Anthropic的專家們沒有直接討論Manus AI,但他們的觀點可以幫助我們理解這種熱潮現象。Erik指出:
"我覺得我最好的建議是,確保你有辦法衡量你的結果。因為我見過很多人會在真空中構建,沒有任何方法來獲得關于他們的構建是否有效的反饋。你最終可能會構建很多東西,而沒有意識到要么它不起作用,要么也許更簡單的東西其實也能做得一樣好。"
這一觀點提醒我們思考:AI代理的邀請制是否部分是一種營銷策略?限量提供不僅制造了稀缺感,還可能在某種程度上避免了大規模測試可能暴露的問題。南華早報報道中提到的"服務器容量有限"的解釋,也讓人聯想到這可能是一種控制用戶期望的方式。畢竟,如果產品確實如宣傳的那樣強大,為什么不擴大服務器容量以滿足需求呢?
Barry的建議很中肯:"盡可能從最簡單開始,并在你構建更多復雜性時有可衡量的結果。" 所以對于像Manus AI這樣的新興代理產品,我們應該有實際的評估標準,而不僅僅依賴營銷宣傳或社交媒體上的討論熱度。
在這種熱潮中,我們需要思考的問題包括:這款代理在實際使用中的成功率如何?它能否真正理解復雜指令?它在哪些具體任務上表現優異,哪些任務上仍有不足?這些都是比邀請碼"一碼難求"更值得關注的實質性問題。
五、構建代理實用指南
Anthropic的專家團隊在對話中分享了他們從實踐中總結出的關鍵經驗。這些經驗對于開發者和AI愛好者來說極為寶貴,能幫助他們了解如何構建真正有效的AI代理。這些建議不僅適用于專業開發者,也能幫助用戶更好地理解和使用AI代理。
站在模型視角思考
Barry分享了一個非常生動的故事,展示了"站在模型視角思考"的重要性:
Barry: "整整一周,我和另一個工程師都在盯著代理的軌跡,對我們來說是反直覺的,我們不確定模型為什么會做出這樣的決定,給定我們給它的指令。所以我們決定要像Claude一樣,置身于那個環境中。我們會做這個很傻的事情,閉上眼睛一整分鐘,然后對著屏幕眨眼一秒鐘,再閉上眼睛,想:'我必須寫Python代碼在這個環境中操作,我會怎么做?'突然間,這就更有意義了。"
這個故事生動地說明了開發者需要培養對AI模型的"同理心",理解它們如何"看待"世界。與人類不同,AI模型沒有我們習以為常的背景知識和常識理解,它們只能依靠提供給它們的信息做出決策。
Alex總結了這一點:對開發者的一個建議是,幾乎要表現得好像你是通過模型的視角來看待事物,比如,'好吧,這里最適用的指令是什么?模型如何看待世界?'
這種思維方式對于有效使用代理至關重要。當你發現AI代理不按預期工作時,不要立即假設它"不夠聰明",而是考慮你是否給了它所有必要的上下文和明確的指令。
基于可衡量結果
當被問及給開發者的建議時,Erik強調了可衡量性的重要性:他覺得最好的建議是,確保你有辦法衡量你的結果。因為他見過很多人會在真空中構建,沒有任何方法來獲得關于他們的構建是否有效的反饋。你最終可能會構建很多東西,而沒有意識到要么它不起作用,要么也許更簡單的東西其實也能做得一樣好。"Barry也認為盡可能從最簡單開始,并在你構建更多復雜性時有可衡量的結果。
當我們嘗試使用像AI代理時,先從簡單任務開始,逐步了解它的能力和局限,而不是一開始就期待它能完成非常復雜的任務。
提示詞同樣重要
Erik指出了一個常見的誤區:開發者往往只關注主要提示,而忽略了工具描述的重要性:
"是的,實際上,非常相似,我認為很多人真的忘記了這一點。也許我見過的最有趣的事情是,人們會花很多精力創建這些非常漂亮、詳細的提示,然后他們給模型的工具是非常簡陋的,沒有文檔,參數命名為A和B。就像,工程師都無法使用這個,就好像這是他們必須使用的函數。因為沒有文檔,你怎么能指望Claude也能使用它?"
這一觀察揭示了AI代理開發中的一個關鍵概念:完整提示工程。代理需要清晰理解它可以使用的工具和這些工具的功能,就像人類需要良好的文檔來使用新軟件一樣。
Alex總結道:"是的,我注意到了。人們忘記了這一切都是同一個提示的一部分。就像,所有的東西都被輸入到同一個提示的上下文窗口中,寫一個好的工具描述也會影響提示的其他部分。"
因此,我們不僅要清晰地表達你的目標,還要提供給代理足夠的上下文和具體信息,幫助代理理解如何最好地完成任務。例如,如果你要求AI代理幫你創建一個網站,不僅要說明你想要的網站類型,還應該提供關于目標受眾、核心功能、設計偏好等具體信息,就像你會向人類網站設計師解釋一樣。
六、代理技術的未來
AI代理技術正處于快速發展階段,但它的未來會怎樣?
多代理環境:代理間交互帶來的可能性
Barry提出了一個令人興奮的未來場景——多個AI代理協同工作的環境。他分享道:"我一直對多代理環境會是什么樣子非常感興趣。我建立了一個環境,一群Claudes可以啟動其他Claudes并一起玩狼人游戲。"狼人游戲是一個社交推理游戲,所有玩家都試圖弄清楚彼此的角色,類似于黑手黨游戲,完全基于文本,非常適合Claude這樣的AI模型參與。
這種多代理系統的概念令人著迷。想象不同的AI代理各自承擔特定角色并協作完成復雜任務:一個負責收集信息,另一個分析數據,第三個撰寫報告。這種協作模式可能會顯著擴展AI系統的能力邊界。
Barry預測:"就像我們從單個LLM到多LLM一樣,我認為到今年年底,我們可能會看到從代理到多代理的轉變。"不過,他也坦言當前多代理系統在實際應用中尚不成熟:"在生產中,我們甚至還沒有看到很多成功的單個代理。
企業應用前景:2025年企業采用代理的預測
Erik對2025年代理技術的預測更加務實,他認為企業將是代理技術最先大規模應用的領域。在2025年,我們會看到很多企業采用代理,開始自動化很多重復性任務,并真正擴展很多以前人們想做更多但太昂貴的事情。你現在可以做比以前多10倍或100倍的事情。
他舉了一個具體例子:
"我在想,比如,每個拉取請求都會觸發一個編碼代理來更新你的所有文檔。以前做這些事情在成本上是不切實際的。但一旦你把代理看作是幾乎免費的,你就可以開始在各處添加這些花里胡哨的東西。"
這一預測非常有價值。它提示我們,代理技術的第一波真正落地可能不是那些看起來非常炫酷的消費級應用,而是那些能夠大幅提高企業運營效率的"幕后"應用。這些應用可能不那么引人注目,但能夠創造實際的商業價值:自動化文檔更新、代碼審查、客戶支持分流、數據分析報告生成等等。
產品構建指南:擁抱而非抵抗模型進步
關于如何在代理技術快速發展的環境中構建產品,Alex提出了一個深刻的觀點。他認為企業應該為模型能力的提升而興奮,而非擔憂。"如果你看著你的初創公司或產品,想著'如果模型變得更聰明,我們所有的護城河都會消失',那意味著你在構建錯誤的東西。相反,你應該構建一些讓產品隨著模型變得更聰明而變得越來越好的東西。
這一觀點對所有關注AI技術的人都至關重要。AI模型的能力將持續提升,與其擔心這會讓產品或技能變得過時,不如思考如何利用這種進步來增強產品或能力。
Barry也表達了類似看法,他認為現在是開始思考代理領域的好時機,"只是為了更好地理解這種能力"。盡管我們還不確定代理的最終用例會是什么,但提前鍛煉這方面的思維肌肉將會很有價值。
對企業和開發者而言,這意味著應該構建那些能夠利用不斷增強的AI能力的產品和服務,而非與AI競爭或可能被AI取代的產品。對普通用戶而言,這提醒我們應學習如何有效地使用和指導AI工具,而非擔心它們會取代我們的工作。人機協作能力可能是未來最有價值的技能之一。
七、看待AI代理熱潮
AI代理技術既有巨大潛力,也有明顯局限。
正如Anthropic專家團隊所強調的,代理在編碼、搜索等領域展現了價值,但在消費級應用方面仍面臨挑戰。
當前的主要局限包括:難以完整理解用戶偏好、缺乏持續學習能力,以及在高風險決策中的可靠性問題。
在評估代理時,我們應該:
從簡單任務開始,有明確的成功標準;
選擇錯誤成本低但價值高的應用場景;
站在模型視角思考,提供清晰指令;
最重要的是,我們應該構建和使用那些"能隨著模型變得更聰明而變得更好"的產品和服務,擁抱而非抵抗AI能力的進步。
理性期望與實際探索相結合,才能真正發掘AI代理的潛力,避免被短期炒作所迷惑。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
原文鏈接:https://www.youtube.com/watch?v=LP5OCa20Zpg&t=809s&ab_channel=Anthropic
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編:圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.