(關(guān)注公眾號設(shè)為標,獲取AI深度洞察)
全文 4,000字 | 閱讀約12分鐘
剛剛刷社交媒體,發(fā)現(xiàn)全網(wǎng)都是關(guān)于Manus的討論,熱度高得驚人,儼然一碼難求的場面。所有人都在求邀請碼,有的花錢要買,還有的直接找創(chuàng)始人要。
Manus是一個真正自主的AI代理,能夠解決各類復(fù)雜多變的任務(wù)。與傳統(tǒng)AI不同,它不僅能提供建議或答案,還能直接交付完整的任務(wù)成果。官方視頻里給出了三個agent的實例:篩選簡歷、篩選房產(chǎn)、股票分析。
現(xiàn)在各種媒體平臺都在測試產(chǎn)品視頻和文章,這里我就不測試,至少給大家聊聊Manus意味著什么?
【核心觀點:】
模型即產(chǎn)品——AI的未來是將模型打造為最終產(chǎn)品。
有針對性的訓(xùn)練效果超預(yù)期——強化學(xué)習(xí)讓模型學(xué)會了執(zhí)行復(fù)雜任務(wù)。
推理成本正在自由落體式下降——技術(shù)進步讓AI服務(wù)前所未有地便宜。
應(yīng)用層的困境——隨著模型能力提升,應(yīng)用層可能首先被自動化取代。
普通人意味著什么?——要么自己掌握技術(shù),要么被技術(shù)取代。
過去幾年,人們對AI發(fā)展的下一個周期有很多猜測。是智能Agent?是推理搜索引擎?還是真正的多模態(tài)技術(shù)?
一、模型即產(chǎn)品:
現(xiàn)在可以明確了:模型本身就是產(chǎn)品。
當(dāng)前研究和市場發(fā)展的所有因素都指向這一方向。
通用模型的擴展正在停滯。這是GPT-4.5發(fā)布背后傳遞的核心信息:能力在線性增長,而計算成本卻呈幾何曲線上升。即使有過去兩年訓(xùn)練和基礎(chǔ)設(shè)施方面的所有效率提升,OpenAI也無法以一個相對合理的價格部署這個龐大的模型。
有目標性的訓(xùn)練效果遠超預(yù)期。強化學(xué)習(xí)和推理的結(jié)合意味著模型突然開始學(xué)習(xí)執(zhí)行任務(wù)。這不是傳統(tǒng)的機器學(xué)習(xí),也不是基礎(chǔ)模型,而是一種神秘的第三種事物。就連小型模型在數(shù)學(xué)方面都突然變得驚人地優(yōu)秀。編碼模型不再只是生成代碼,而是能夠自己管理整個代碼庫。Claude能夠在上下文信息非常有限且沒有專門訓(xùn)練的情況下玩寶可夢游戲。
推理成本正在急劇下降。DeepSeek的最新優(yōu)化意味著,所有可用的GPU可以滿足全球人口每天從前沿模型獲取1萬個標記的需求。根本不存在這種規(guī)模的需求。對模型提供商來說,銷售標記的經(jīng)濟模式不再有效:他們必須在價值鏈上向更高處移動。
這也是一個讓人不舒服的方向。所有投資者都一直在押注應(yīng)用層。在AI演化的下一階段,應(yīng)用層很可能是第一個被自動化和顛覆的領(lǐng)域。
二、未來模型的形態(tài)
"過去幾周,我們看到了這種新一代"模型即產(chǎn)品"的兩個典型例子:OpenAI的DeepResearch和Claude Sonnet 3.7。
我讀到了很多關(guān)于DeepResearch的誤解,這些誤解因為大量開源和閉源克隆產(chǎn)品的出現(xiàn)而更加混亂。OpenAI并沒有在O3之上構(gòu)建一個包裝器。他們訓(xùn)練了一個全新的模型,能夠在內(nèi)部執(zhí)行搜索,無需任何外部調(diào)用、提示或編排: 該模型學(xué)習(xí)了核心瀏覽能力(搜索、點擊、滾動、解釋文件)(...)以及如何通過強化學(xué)習(xí)在這些瀏覽任務(wù)上訓(xùn)練,來分析大量網(wǎng)站以找到特定信息或撰寫全面報告。
DeepResearch不是標準的大語言模型,也不是標準的聊天機器人。它是一種新形式的研究語言模型,專門設(shè)計用于執(zhí)行端到端的搜索任務(wù)。對于認真使用它的人來說,差異立即顯現(xiàn):模型生成結(jié)構(gòu)一致的長篇報告,并有底層的源分析過程。相比之下,正如Hanchung Lee強調(diào)的,所有其他DeepSearch產(chǎn)品,包括國內(nèi)的DeepSeek以及Perplexity和Google的變體,只是在普通模型上做了一些小調(diào)整:
"Google的Gemini和Perplexity的聊天助手也提供"深度研究"功能,但兩者都沒有發(fā)表任何關(guān)于如何為此任務(wù)優(yōu)化模型或系統(tǒng)的文獻,也沒有任何實質(zhì)性的量化評估(...)我們假設(shè)所做的微調(diào)工作并不重要。"
三、愿景越來越清晰
去年12月,Anthropic提出了一個有爭議但在我看來非常準確的智能代理模型定義。類似于DeepSearch,真正的智能代理必須能夠在內(nèi)部執(zhí)行目標任務(wù):它們"能動態(tài)地指導(dǎo)自己的處理過程和工具使用,完全掌控如何完成任務(wù)"。
目前大多數(shù)智能代理創(chuàng)業(yè)公司構(gòu)建的并非真正的智能代理,而是工作流程,即"通過預(yù)定義代碼路徑來編排大語言模型和工具的系統(tǒng)"。工作流程可能仍然帶來一些價值,特別是在垂直領(lǐng)域的應(yīng)用上。然而,對于目前在大型AI實驗室工作的人來說,一個顯而易見的事實是:自主系統(tǒng)的所有重大進展都將首先通過重新設(shè)計模型本身來實現(xiàn)。
Claude 3.7的發(fā)布給我們提供了一個非常具體的例證,這個模型主要是針對復(fù)雜代碼使用場景而訓(xùn)練的。所有像Devin以及當(dāng)下Manus這樣的工作流程適配在軟件工程基準測試上都獲得了重大提升。
再舉一個小得多的例子:在Pleias,我們目前正在研究自動化RAG(檢索增強生成)。當(dāng)前的RAG系統(tǒng)是許多相互連接但脆弱的工作流程的組合:路由、分塊、重排序、查詢解釋、查詢擴展、源上下文化、搜索工程。隨著訓(xùn)練技術(shù)棧的發(fā)展,有可能將所有這些過程捆綁到兩個獨立但相互連接的模型中,一個用于數(shù)據(jù)準備,另一個用于搜索/檢索/報告生成。這需要精心設(shè)計的合成流程和全新的強化學(xué)習(xí)獎勵函數(shù)。這是真正的訓(xùn)練,真正的研究。
這一切在實踐中意味著什么:轉(zhuǎn)移復(fù)雜性。訓(xùn)練過程預(yù)先考慮了廣泛的行動和邊緣情況,使得部署變得更加簡單。但在這個過程中,大部分價值現(xiàn)在是由模型訓(xùn)練者創(chuàng)造的,最終很可能也會被他們獲取。簡而言之,Claude的目標是打破并取代當(dāng)前的工作流程,比如來自llama index的這種基本"智能代理"系統(tǒng):
或者
三、訓(xùn)練還是被訓(xùn)練
需要重申:大型AI實驗室并沒有隱藏的議程。雖然他們有時可能不夠透明,但實際上他們已經(jīng)公開表明:他們將打包服務(wù),向應(yīng)用層進軍,并試圖在那里獲取大部分價值。商業(yè)后果非常明確。Databricks的生成式AI副總裁Naveen Rao表述得相當(dāng)?shù)轿唬?/p>
所有封閉的AI模型提供商將在未來2-3年內(nèi)停止銷售API。只有開源模型將通過API提供服務(wù)(...) 封閉模型提供商正在嘗試構(gòu)建非商品化的能力,他們需要出色的用戶界面來實現(xiàn)這些功能。這不再僅僅是一個模型,而是一個帶有特定目的的應(yīng)用和界面。
所以現(xiàn)在發(fā)生的只是大量的否認。模型提供商和包裝商之間的蜜月期已經(jīng)結(jié)束。事情可能朝著這些方向發(fā)展:
Claude Code和DeepSearch是這個方向上的早期技術(shù)和產(chǎn)品實驗。你會注意到DeepSearch并不通過API提供,只用于為高級訂閱創(chuàng)造價值。Claude Code是一個極簡的終端集成。奇怪的是,雖然Claude 3.7在Claude Code中運行完美,但Cursor卻在使用它時遇到困難,我已經(jīng)看到幾個高端用戶因此取消了訂閱。真正的大語言模型智能代理不關(guān)心預(yù)先存在的工作流程:它們直接替代它。
最知名的包裝商現(xiàn)在正在爭相轉(zhuǎn)變?yōu)榛旌螦I訓(xùn)練公司。他們確實擁有一些訓(xùn)練能力,盡管很少宣傳。Cursor的主要資產(chǎn)之一是他們的小型自動補全模型。WindSurf有他們內(nèi)部的廉價代碼模型Codium。Perplexity一直依賴于自家的分類器進行路由,最近還轉(zhuǎn)向訓(xùn)練自己的DeepSeek變體用于搜索目的。
對于較小的包裝商來說,如果大型實驗室完全放棄這個市場,除了可能會更加依賴通用推理提供商外,不會有太大變化。我也預(yù)計會看到更多對用戶界面的關(guān)注,這一點仍然被嚴重低估,因為更多的通用模型可能會捆綁常見的部署任務(wù),特別是對于RAG(檢索增強生成)。
簡而言之,對大多數(shù)成功的包裝商來說,困境很簡單:訓(xùn)練還是被訓(xùn)練。他們現(xiàn)在所做的不僅是為大型實驗室提供免費的市場研究,甚至由于所有輸出最終都是通過模型提供商生成的,還提供了免費的數(shù)據(jù)設(shè)計和生成。
之后會發(fā)生什么,無人能夠確定。成功的包裝商確實有熟悉自己垂直領(lǐng)域的優(yōu)勢,并積累了大量寶貴的用戶反饋。然而,根據(jù)我的經(jīng)驗,從模型層向下到應(yīng)用層要比從頭開始建立全新的訓(xùn)練能力容易得多。包裝商可能也沒有得到投資者的幫助。據(jù)我所聞,對訓(xùn)練存在如此負面的偏見,他們幾乎不得不隱藏將成為他們最關(guān)鍵價值的東西:目前Cursor的小模型和Codium都沒有得到適當(dāng)?shù)奈臋n記錄。
強化學(xué)習(xí)的價值未被估計
這讓我想到了真正痛苦的部分:目前所有的AI投資都是相關(guān)聯(lián)的。基金運營基于以下假設(shè):
真正的價值完全在于獨立于模型層的應(yīng)用層,這個應(yīng)用層最有能力顛覆現(xiàn)有市場。
模型提供商只會以不斷降低的價格銷售令牌,從而使包裝商變得更加有利可圖。
封閉模型的包裝將滿足所有現(xiàn)有需求,即使在對外部依賴持長期擔(dān)憂的監(jiān)管行業(yè)也是如此。
構(gòu)建任何訓(xùn)練能力都是浪費時間。這不僅包括預(yù)訓(xùn)練,還包括所有形式的訓(xùn)練。
恐怕這越來越像是一場冒險的賭博,以及市場未能準確評估最新技術(shù)發(fā)展(特別是強化學(xué)習(xí)領(lǐng)域)的真實價值。在當(dāng)前的經(jīng)濟生態(tài)系統(tǒng)中,風(fēng)險基金旨在尋找不相關(guān)的投資。他們可能不會擊敗標普500指數(shù),但這并不是大型機構(gòu)投資者所尋求的:他們想要捆綁風(fēng)險,確保在不景氣的年份至少有些項目能夠成功。模型訓(xùn)練就像是一個教科書般完美的例子:在大多數(shù)西方經(jīng)濟體走向衰退的背景下,它具有巨大的顛覆潛力。然而,模型訓(xùn)練者無法籌集資金,或者至少無法以常規(guī)方式籌集。Prime Intellect是少數(shù)幾家有明確潛力成為前沿實驗室的西方新AI訓(xùn)練公司之一。在國內(nèi),類似的情況也存在,盡管智譜AI等公司已經(jīng)展示了一些突破性的模型訓(xùn)練能力。然而,盡管他們?nèi)〉昧税ㄓ?xùn)練首個去中心化大語言模型在內(nèi)的成就,但他們?nèi)匀浑y以籌集到比普通包裝商更多的資金。國內(nèi)的大模型公司也面臨著類似的資本困境,即使在國家政策支持的背景下。
除此之外,撇開大型實驗室不談,當(dāng)前的訓(xùn)練生態(tài)系統(tǒng)非常小。你可以用手指數(shù)出所有這些公司:Prime Intellect、Moondream、Arcee、Nous、Pleias、Jina、HuggingFace預(yù)訓(xùn)練團隊(實際上很小)...還有中國的智源研究院、百度飛槳團隊等,加上一些更學(xué)術(shù)的參與者(Allen AI、Eleuther...),他們構(gòu)建并支持了當(dāng)前訓(xùn)練的大部分開放基礎(chǔ)設(shè)施。在歐洲,我知道至少7-8個大語言模型項目將集成我們在Pleias開發(fā)的Common Corpus(公共語料庫)和一些預(yù)訓(xùn)練工具——其余的將是fineweb,以及可能來自Nous或Arcee的訓(xùn)練后指令集。在國內(nèi),類似的開放基礎(chǔ)設(shè)施正由文心一言、智譜AI等團隊推動。
當(dāng)前的融資環(huán)境存在深刻問題。即使是OpenAI現(xiàn)在也感受到了。最近,對當(dāng)前硅谷創(chuàng)業(yè)公司格局中缺乏"垂直強化學(xué)習(xí)"的不滿的情緒十分明顯。我相信這個信息直接來自Sam Altman,并可能導(dǎo)致下一批YC項目的一些調(diào)整,但也指向了一個更大的轉(zhuǎn)變:很快,大型實驗室選擇的合作伙伴將不再是API客戶,而是參與早期訓(xùn)練階段的相關(guān)承包商。在國內(nèi)AI賽道上,這種轉(zhuǎn)變的跡象同樣開始顯現(xiàn)。
如果模型就是產(chǎn)品,你不可能獨自構(gòu)建它?
如果模型就是產(chǎn)品,你不可能獨自構(gòu)建它。搜索和代碼是容易摘取的低垂果實:兩年來的主要用例,市場幾近成熟,你可以在幾個月內(nèi)推出新的Cursor。但未來許多最有利可圖的AI用例還沒有發(fā)展到這么成熟的階段——典型的例子是,想想那些仍然主導(dǎo)世界經(jīng)濟大部分領(lǐng)域的基于規(guī)則的系統(tǒng)...擁有跨領(lǐng)域?qū)I(yè)知識和高度專注的小型專業(yè)團隊可能最有條件解決這些問題——最終在完成初步基礎(chǔ)工作后成為潛在的"人才收購"目標。我們可能在UI方面也會看到同樣的管道。一些優(yōu)選合作伙伴獲得對封閉專業(yè)模型的獨家API訪問權(quán),前提是他們走上業(yè)務(wù)收購的道路。
到目前為止,還沒有提到DeepSeek。這只是因為DeepSeek已經(jīng)更進一步:模型不僅是產(chǎn)品,而是通用基礎(chǔ)設(shè)施層。和OpenAI與Anthropic一樣,梁文峰公開表明了他的計劃:
"我們相信,當(dāng)前階段是技術(shù)創(chuàng)新的爆發(fā),而不是應(yīng)用的爆發(fā)(...) 如果形成了完整的上下游產(chǎn)業(yè)生態(tài)系統(tǒng),那么我們就不需要自己制作應(yīng)用。當(dāng)然,如果需要,我們制作應(yīng)用也沒有障礙,但研究和技術(shù)創(chuàng)新將永遠是我們的首要任務(wù)。"
Manus AI,已經(jīng)很接近理想中的數(shù)字版 AI Agent 的樣子了!能夠自動執(zhí)行任務(wù)、搜索、找資料、寫代碼和生成各種格式的文檔。 一個真正的個人數(shù)字助理,就是應(yīng)該完成你能用電腦完成的所有工作。
但這樣的 像Manus的Agent 應(yīng)用,會不會撞到大模型公司下一代產(chǎn)品的槍口上呢!留給大家思考。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設(shè)為星標" ← AI深度研究員 ? ← 設(shè)為星標
原文鏈接:https://vintagedata.org/blog/posts/model-is-the-product
來源:官方媒體/網(wǎng)絡(luò)新聞
排版:Atlas
編輯:深思
主編:圖靈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.