作者 | 華衛、褚杏娟
3 月獲了兩筆上億巨額融資的智譜, 現在來“交作業”了。
剛剛,智譜推出最新的 AutoGLM 沉思模型,不僅具備深度研究能力(Deep Research),還能實現實際操作(Operator)。并且,這個會“邊想邊干”的智能體還能自己接單賺到錢。
據介紹,14 天前,智譜針對 AutoGLM 沉思小范圍開展了一項秘密測試。其注冊了一個專注于做生活知識科普的小紅書賬號,用該智能體去不斷生成筆記內容,比如選取咖啡壺、化妝品成分對比等,最終在兩周時間里收獲了 5000 個粉絲,還接到很多商單的邀請,并在昨天成功發出第一條商單,賺到 500 塊錢。
在現場的 live demo 環節,AutoGLM 又通過一個“用你最擅長的方式,幫我賺 100 塊錢”的 Prompt,展示了自己的“賺錢”能力。在回答過程中,該智能體對自己進行了多輪的“靈魂拷問”,并自主打開知乎 / 小紅書輸入要搜索的信息、自己選擇好篩選條件,一頁頁瀏覽網頁內容和圖片,通過不斷的思考、反思、糾錯,最終確定了寫作、調查問卷等擅長的方式。
目前,AutoGLM 沉思已在智譜清言 PC 客戶端上線,用戶可免費體驗其研究能力和操作能力。沉思功能也已經正式上線智譜清言網頁端、PC 端和手機 App,免費、不限量地開放。此次發布的為 preview 版本,核心支持 research 場景。
官網體驗鏈接:https://autoglm-research.zhipuai.cn/?channel=331#get_started
智譜表示,未來兩周,他們將進一步擴展更多智能體執行能力,包括推出“虛擬機”版本。此外,智譜還將于 4 月 14 日開源 AutoGLM 沉思核心鏈路的模型和技術。據智譜 CEO 張鵬稱,AutoGLM 背后有一系列的模型能力,Agent 也同大模型一樣存在類似的 Scaling Law。
AutoGLM 沉思背后的核心模型
“讓機器不僅能夠思考,還能主動行動。”智譜表示,這是他們對 AI Agent 的核心理解,目前已經探索到 L3-Agentic LLM 階段。
據介紹,與 OpenAI 的 Deep Research 不同,AutoGLM 沉思不僅能深入研究,還能真正執行任務,推動 AI Agent 從單純的思考者,進化為能交付結果的智能執行者。它是首個集深度研究能力和網頁操作能力于一體的 Agent。
智譜研究員劉瀟表示,AutoGLM 沉思的能力實現依賴于三個關鍵特性:
深度思考:能夠模擬人類在面對復雜問題時的推理與決策過程。其基于智譜的 Z1 推理模型強化學習訓練,與 Deep Research 基于 o3 模型的訓練過程相似,模型可以根據不同任務目標自主規劃和動態決策,從而不斷地根據反饋調整計劃,而不需要提前設計的工作流。
感知世界:能夠像人一樣獲取并理解環境信息。該模型具備 GUI 閱讀能力,不僅依靠調用 API,還能像人類一樣打開并瀏覽網頁,找全想要的信息。
工具使用:能夠像人一樣調用和操作工具,完成復雜任務。其整合了智譜自研的 AutoGLM 設備操作能力,例如能在報告完成后根據結果進一步的發送郵件。
據悉,智譜很早便布局 AI Agent,并率先提出 Phone use(AutoGLM),幾乎與 Anthropic 在同一時間發布了 Computer use。
張鵬表示,AutoGLM 也不是一蹴而就的,它的動腦、動手、能看見,背后是一系列的模型能力。AutoGLM 沉思的技術演進路徑包括:GLM-4 基座模型 → GLM-Z1 推理模型 → GLM-Z1-Rumination 沉思模型 → AutoGLM 模型。
具體來說,智譜在 GLM-4-Air 基座模型的基礎上,訓練出推理模型 GLM-Z1-Air,基于 Z1 模型,結合工具使用和完成長程推理能力,訓練出沉思模型,來作為 AutoGLM 沉思的大腦,最后集成了智譜自研的智能體技術 AutoGLM,成為 AutoGLM 沉思的“手腳”。
張鵬介紹,之所以叫 AutoGLM 沉思,就是因為在 AutoGLM 沉思背后的模型,是其全新推出的 Agent 大腦——沉思模型,即通過強化學習,讓模型學會自我批評、反思、甚至沉思,并通過更長的深度思考時間換取更優的效果。沉思突破了實時聯網搜索、動態工具調用、深度分析和自我驗證,實現真正的長程推理和任務執行。
全新推理模型:R1 的 8 倍速度、1/30 價格
在發布 AutoGLM 沉思的同時,智譜發布并開源了其最新的推理模型 GLM-Z1-Air(32B)。
據介紹,GLM-Z1-Air(32B)擁有比肩 DeepSeek R1 的推理性能,在推理速度上,極速版 GLM-Z1-Air 最高生成速度可達每秒 200Tokens ,是 R1 的 8 倍,而價格僅需 R1 的 1/30。“不要每個月 200 美元”張鵬調侃道。
此外,GLM-Z1-Air 可在消費級顯卡上運行,更進一步解放開發者在硬件方面的限制。
基于 GLM-Z1-Air 的基座模型,智譜重新訓練了一個 320 億參數的基模GLM-4-Air。在 GLM-4-Air 的預訓練階段,加入了更多的代碼類、推理類數據,并在對齊階段,針對 Agent 能力進行了對齊,使其更擅長工具調用、聯網搜索等 Agent 任務。
據稱,GLM-4-Air-0414 以 32B 參數量比肩更大參數量的國內外主流模型,且在適配智能體任務方面特別有效。這是因為智能體任務往往涉及多輪復雜交互,32B 的參數量使得 GLM-4-Air-0414 能快速執行復雜任務。
此外,智譜也在 MaaS 平臺上將免費模型 GLM-4-Flash 的基座版本更新至 GLM-4-Flash-0414,并推出了對應的推理版本 GLM-Z1-Flash,在保留大部分效果的情況下更輕量級、更高速,完全免費調用,以適用于更廣泛的應用場景。
基于 GLM-Z1,智譜通過擴展強化學習訓練,提升了模型結合工具使用完成長程推理能力,訓練出沉思模型 GLM-Z1-Rumination。據智譜介紹,該模型突破了傳統 AI 單純依賴內部知識推理的局限,創新性地結合實時聯網搜索、動態工具調用、深度分析和自我驗證,形成完整的自主研究流程:
實時搜索:主動獲取最新信息,突破信息孤島。
深度分析:進行多角度邏輯推理,避免單一思維路徑。
動態驗證:不斷修正假設,提高研究的準確性與邏輯性。
GLM-Z1-Rumination 能夠主動理解用戶需求,在復雜任務中不斷優化推理、反復驗證與修正假設,使研究成果更具可靠性與實用性。智譜表示,相比于傳統的推理模型,沉思模型可引領 AI 助手進入一個“高智商”到“高智商 + 高自主”的階段,自主完成更復雜、更深入的研究任務。
“Agent 界也有 Scaling Law”
AutoGLM 是智譜去年 10 月在 CNCC 上發布,作為全球首個能夠在手機上執行長達 50 多步 action 的大模型智能體。AutoGLM 的出現也意味著大模型首次跳出了 Chatbot 的框架,初步具備了與現實世界互動的能力。
最新發布的 AutoGLM 沉思版,其背后的 AutoGLM 能力也隨之演進。
“大家都知道,大模型的預訓練和后訓練存在 Scaling Law。然而,不只是大模型推理滿足這一規律,我們發現 Agent 也存在類似的 Scaling Law。”張鵬說道,“通過擴展訓練時的 inference compute,我們觀察到 Agent 展現出了更強的性能。”
張鵬表示,這一 Agent Scaling Law 的背后,是智譜的自進化在線課程強化學習算法框架,WebRL。智譜通過設計由易到難的任務序列,逐步引導模型從簡單場景向復雜場景過渡學習,從而提升訓練效率和最終性能。這種方法模擬人類學習過程,通過動態調整任務難度,幫助模型積累基礎能力后再挑戰高難度任務,有效避免直接處理復雜問題時的訓練不穩定現象。
在 Agent Scaling Law 的基礎上,智譜進一步發現了 Agent 存在的能力涌現。比如,團隊在訓練過程中從未教給 AutoGLM 沉思訪問過巨潮資訊網,然而當發送指令“幫我收集昨天關于具身智能的相關研報”時, AutoGLM 沉思能夠規劃出通過訪問巨潮資訊解決問題的方案,并順利操作了網站。
“AutoGLM 的動手能力目前在行業內處于 Sota,包括瀏覽器、手機和電腦在內的使用工具能力,全面領先。張鵬說道。
在斯坦福大模型中心《AI 指數 2024》選定的智能體基準評測 AgentBench 上,AutoGLM 系列模型在 5 個測試環境中也取得了 SOTA 的成績。其中,在 Phone Use 基準(AndroidLab & AndroidWorld)中,AutoGLM-Phone 的任務成功率較此前最佳成績提升超過 20%;在 Browser Use 基準上,AutoGLM-Web 也全面超越 OpenAI GPT-4o 和 Anthropic Claude-3.5-Sonnet,展現了在網頁交互場景中的領先能力。
在 GUI 智能體領域,智譜自研模型 GLM-PC(CogAgent)在多個權威評測榜單上取得 SOTA 成績。憑借僅 9B 的參數,CogAgent 超越了包括 GPT-4o + UGround、Claude Computer Use 等更大規模的同類模型或商用 API。
據悉,上述模型將于 4 月 14 日開源。并將在未來兩周內陸續上線 MaaS 平臺(bigmodel.cn)。
結束語
張鵬表示,智譜始終專注于 AGI 基座模型的研發,目前已經探索到 L3-Agentic LLM 階段,我們將 GLM 一系列 Agent 能力,統稱為 Agentic GLM。未來很長一段時間內,智譜將聚焦 Agentic GLM 的研發。
基座模型方面,智譜表示,將依托自主大模型技術,極致、專注地探索智能水平的上線,同時推動從基座模型、到 Agent 基座模型、到 Agent 統一協議與平臺、再到 Agent 應用與生態的等 Agent 相關技術的建設。
“2025 年將會是 Agent 應用的元年,智譜也將深度參與這一場浪潮。”張鵬說道。
聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.