(關注公眾號設為標,獲取AI深度洞察)
全文 2,000字 | 閱讀約8分鐘
你是不是經常對著AI助手絞盡腦汁,卻總是得不到想要的結果?別擔心,這個困擾即將成為歷史。2025年初,AI領域悄然發生了一場革命,卻幾乎無人察覺。
2025年1月,OpenAI發布了名為DeepResearch的O3模型變種,專門用于網頁和文檔搜索。這不是普通的更新,而是AI交互方式的根本變革。這個模型經過特殊訓練,能像人類一樣聰明地搜索信息:它會自主制定搜索計劃,對比不同信息來源,甚至能根據搜索結果調整自己的策略,而這一切都不需要你掌握任何特殊的提示詞技巧。
正如AI研究員William Brown所說:"現在的LLM Agent已經能完成需要多個步驟和較長時間的任務了,而且理解用戶需求的能力大幅提升。"
這些進展讓我們需要重新思考:什么才算是真正的LLM Agent?去年12月,Anthropic給出了一個新定義:真正的LLM Agent應該能自己決定怎么完成任務、何時使用什么工具,就像一個有自主性的助手。
而目前大多數所謂的Agent實際上只是按照預設規則運行的工作流系統。它們只是按照人類事先寫好的指令和規則來協調AI模型和各種工具。比如最近很火的Manus AI,我親自測試后發現它仍有明顯問題:
不能有效計劃任務,常常卡在中途不知道下一步怎么做
記不住之前的內容,無法處理超過幾分鐘的任務
做長任務時容易出錯,一連串小錯誤最終導致整個任務失敗
所以,這篇文章想給大家提供一個更清晰的"LLM Agent"定義,結合公開信息和我的一些想法,用簡單的方式解釋這些AI助手到底是什么,以及它們將如何改變我們的日常生活。"
一、LLM Agent的「苦澀教訓」
傳統的Agent和基礎大語言模型(base LLM)完全不同。
想象一下傳統的Agent就像是在迷宮中學習走路的小機器人。這個小機器人一開始什么都不懂,但通過不斷嘗試,它會記住哪條路能走通,哪條路是死胡同,慢慢找到最快到達終點的路徑。專業上,這叫「強化學習」和「搜索」,有點像我們在網上點擊各種鏈接尋找信息的過程。去年很火的OpenAI Q-star算法,據說就是從1968年一個著名的搜索算法改進而來的。
但大語言模型(LLM)的工作方式卻截然不同:
傳統Agent能記住之前的經驗,而基礎LLM只能看到當前對話中的內容,就像金魚記憶一樣短暫;
傳統Agent受物理世界限制,而基礎LLM只是預測"下一個詞應該是什么",容易天馬行空不著邊際;
傳統Agent能規劃長期策略,而基礎LLM只擅長簡單推理,面對復雜任務就容易"糊涂"
現在,大多數"LLM Agent"都是靠預先寫好的提示詞和規則來引導模型工作。這種方法卻面臨一個被稱為"苦澀教訓"的問題:這就像是老師把所有答案都硬塞給學生,短期內學生考試成績很好,但長遠來看,學生并沒有真正學會獨立思考。真正的突破應該來自系統自己學習和探索的能力提升,而不是人為增加更多規則。
這就是為什么像Manus AI這樣的系統在訂機票或復雜任務上表現不佳——它們只是按規則行事,沒有真正的理解和適應能力。要想取得真正的進步,我們需要從根本上設計能夠像人類一樣思考、規劃和行動的系統,而不僅僅是依靠預設的指令。
二、RL+推理:LLM Agent的制勝秘訣
那么,真正厲害的LLM Agent到底應該是什么樣子呢?雖然官方沒透露太多信息,但從現有研究中,我們可以發現它們有這些共同特點:
1、強化學習:想象一個孩子學騎自行車:跌倒了(錯誤)就記住這樣不行,成功了(獎勵)就記住這個方法。LLM Agent的訓練也是這樣,設定一個目標,讓它通過不斷嘗試和犯錯來學習最佳方法。
2、草稿模式:不是一個字一個字地訓練,而是讓AI先寫出一整段內容(就像我們寫草稿),然后再整體評價好壞,這樣AI能學會更連貫的思考方式。
3、結構化輸出:就像填表格一樣,AI必須按照特定格式輸出結果,這樣更容易判斷對錯,也更容易給予明確的反饋。
4、多步訓練:不是一次性完成訓練,而是分多個階段。比如在搜索任務中,AI會學習如何制定計劃、如何根據結果調整計劃、如何回頭檢查等等,就像人類解決復雜問題的過程。
好消息是,這些技術已經變得越來越高效,不需要超級昂貴的計算資源就能實現。這意味著未來這樣的智能AI助手會越來越普及,真正走入我們的日常生活。
三、等等,這東西能大規模制造嗎?
但要真正做出像DeepResearch這樣厲害的搜索Agent,還有一個大難題:我們缺少訓練數據!
想想看,要教會AI像人類一樣聰明地搜索信息,理想情況下應該有大量"人類是如何搜索的"數據。比如你在搜索引擎上尋找信息時,點擊了哪些鏈接,怎么組織搜索詞等。但這些數據大多掌握在谷歌這樣的大公司手中,外人幾乎拿不到。 現在的解決方案是:創造虛擬數據。具體來說,就是搭建一個"迷你互聯網"模擬環境,讓AI在這個環境中反復練習搜索,就像游戲角色在虛擬世界中練級一樣。雖然這個過程需要龐大的計算資源,但通過一些技術手段可以降低成本。
OpenAI和Anthropic這樣的公司可能正在用這種方法訓練他們的搜索Agent:
首先,創建一個虛擬的網絡環境,讓AI在里面自由搜索
接著,給AI一些基礎訓練,就像教小孩基本規則
然后,讓AI通過不斷嘗試來提升搜索技巧
最后,教會AI如何把找到的信息整理成有用的回答
這樣訓練出來的AI才能真正理解人類的搜索需求,提供更智能的幫助。
四、真正的LLM Agent,根本不需要提示詞
當真正的LLM Agent出現后,它將和現在那些需要你學習特定指令的AI系統完全不同。正如Anthropic的定義所說:
LLM Agent能自己決定怎么做事,用什么工具,完全不需要人手把手教。
拿搜索任務來舉個例子:
它會自動理解你想找什么,如果聽不懂就會直接問你
它會自己判斷應該去哪找信息,不需要你指定
它能夠規劃整個搜索過程,如果走錯路還會自己調整方向
整個過程都會記錄下來,讓你明白它是怎么工作的,增加信任感
這種先進的Agent可以直接使用現有的搜索工具,你完全不需要學習什么"提示詞技巧"或"特殊指令"。
這種技術同樣可以用在金融、網絡管理等許多領域:未來,真正的AI Agent不再只是一個花哨的聊天機器人,而是能真正理解你需要什么、主動幫你完成任務的智能助手,就像有一個真人助理一樣方便
五、2025:Agent元年?
現在,只有少數幾家科技巨頭有資源和技術能力開發出真正的LLM Agent。雖然短期內這些強大的AI助手可能還是大公司的專利,但從長遠看,這種技術終將普及。
我們不想夸大任何技術的影響,但這種能自主思考和行動的LLM Agent的潛力確實令人震撼。2025年會是這些智能AI助手真正走進日常生活的一年嗎?答案取決于整個行業的努力與創新。
正如著名英國科幻小說家阿瑟·克拉克所說:'任何足夠先進的技術都與魔法無異。'而真正的LLM Agent,很可能就是我們這個時代最接近'魔法'的技術突破。"
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
參考資料:https://vintagedata.org/blog/posts/designing-llm-agents
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.