【深度分析】建議你在等Manus AI 邀請碼時候，不妨看看這篇文章

2025-03-06 14:36:43　來源: AI深度研究員

上海舉報

分享至

（關(guān)注公眾號設(shè)為標，獲取AI深度洞察）

全文 4,000字 | 閱讀約12分鐘

剛剛刷社交媒體，發(fā)現(xiàn)全網(wǎng)都是關(guān)于Manus的討論，熱度高得驚人，儼然一碼難求的場面。所有人都在求邀請碼，有的花錢要買，還有的直接找創(chuàng)始人要。

Manus是一個真正自主的AI代理，能夠解決各類復(fù)雜多變的任務(wù)。與傳統(tǒng)AI不同，它不僅能提供建議或答案，還能直接交付完整的任務(wù)成果。官方視頻里給出了三個agent的實例：篩選簡歷、篩選房產(chǎn)、股票分析。

現(xiàn)在各種媒體平臺都在測試產(chǎn)品視頻和文章，這里我就不測試，至少給大家聊聊Manus意味著什么？

【核心觀點：】

模型即產(chǎn)品——AI的未來是將模型打造為最終產(chǎn)品。
有針對性的訓(xùn)練效果超預(yù)期——強化學(xué)習(xí)讓模型學(xué)會了執(zhí)行復(fù)雜任務(wù)。
推理成本正在自由落體式下降——技術(shù)進步讓AI服務(wù)前所未有地便宜。
應(yīng)用層的困境——隨著模型能力提升，應(yīng)用層可能首先被自動化取代。
普通人意味著什么？——要么自己掌握技術(shù)，要么被技術(shù)取代。

過去幾年，人們對AI發(fā)展的下一個周期有很多猜測。是智能Agent？是推理搜索引擎？還是真正的多模態(tài)技術(shù)？

一、模型即產(chǎn)品：

現(xiàn)在可以明確了：模型本身就是產(chǎn)品。

當(dāng)前研究和市場發(fā)展的所有因素都指向這一方向。

通用模型的擴展正在停滯。這是GPT-4.5發(fā)布背后傳遞的核心信息：能力在線性增長，而計算成本卻呈幾何曲線上升。即使有過去兩年訓(xùn)練和基礎(chǔ)設(shè)施方面的所有效率提升，OpenAI也無法以一個相對合理的價格部署這個龐大的模型。
有目標性的訓(xùn)練效果遠超預(yù)期。強化學(xué)習(xí)和推理的結(jié)合意味著模型突然開始學(xué)習(xí)執(zhí)行任務(wù)。這不是傳統(tǒng)的機器學(xué)習(xí)，也不是基礎(chǔ)模型，而是一種神秘的第三種事物。就連小型模型在數(shù)學(xué)方面都突然變得驚人地優(yōu)秀。編碼模型不再只是生成代碼，而是能夠自己管理整個代碼庫。Claude能夠在上下文信息非常有限且沒有專門訓(xùn)練的情況下玩寶可夢游戲。
推理成本正在急劇下降。DeepSeek的最新優(yōu)化意味著，所有可用的GPU可以滿足全球人口每天從前沿模型獲取1萬個標記的需求。根本不存在這種規(guī)模的需求。對模型提供商來說，銷售標記的經(jīng)濟模式不再有效：他們必須在價值鏈上向更高處移動。

這也是一個讓人不舒服的方向。所有投資者都一直在押注應(yīng)用層。在AI演化的下一階段，應(yīng)用層很可能是第一個被自動化和顛覆的領(lǐng)域。

二、未來模型的形態(tài)

"過去幾周，我們看到了這種新一代"模型即產(chǎn)品"的兩個典型例子：OpenAI的DeepResearch和Claude Sonnet 3.7。

我讀到了很多關(guān)于DeepResearch的誤解，這些誤解因為大量開源和閉源克隆產(chǎn)品的出現(xiàn)而更加混亂。OpenAI并沒有在O3之上構(gòu)建一個包裝器。他們訓(xùn)練了一個全新的模型，能夠在內(nèi)部執(zhí)行搜索，無需任何外部調(diào)用、提示或編排：該模型學(xué)習(xí)了核心瀏覽能力（搜索、點擊、滾動、解釋文件）(...)以及如何通過強化學(xué)習(xí)在這些瀏覽任務(wù)上訓(xùn)練，來分析大量網(wǎng)站以找到特定信息或撰寫全面報告。

DeepResearch不是標準的大語言模型，也不是標準的聊天機器人。它是一種新形式的研究語言模型，專門設(shè)計用于執(zhí)行端到端的搜索任務(wù)。對于認真使用它的人來說，差異立即顯現(xiàn)：模型生成結(jié)構(gòu)一致的長篇報告，并有底層的源分析過程。相比之下，正如Hanchung Lee強調(diào)的，所有其他DeepSearch產(chǎn)品，包括國內(nèi)的DeepSeek以及Perplexity和Google的變體，只是在普通模型上做了一些小調(diào)整：

"Google的Gemini和Perplexity的聊天助手也提供"深度研究"功能，但兩者都沒有發(fā)表任何關(guān)于如何為此任務(wù)優(yōu)化模型或系統(tǒng)的文獻，也沒有任何實質(zhì)性的量化評估(...)我們假設(shè)所做的微調(diào)工作并不重要。"

三、愿景越來越清晰

去年12月，Anthropic提出了一個有爭議但在我看來非常準確的智能代理模型定義。類似于DeepSearch，真正的智能代理必須能夠在內(nèi)部執(zhí)行目標任務(wù)：它們"能動態(tài)地指導(dǎo)自己的處理過程和工具使用，完全掌控如何完成任務(wù)"。

目前大多數(shù)智能代理創(chuàng)業(yè)公司構(gòu)建的并非真正的智能代理，而是工作流程，即"通過預(yù)定義代碼路徑來編排大語言模型和工具的系統(tǒng)"。工作流程可能仍然帶來一些價值，特別是在垂直領(lǐng)域的應(yīng)用上。然而，對于目前在大型AI實驗室工作的人來說，一個顯而易見的事實是：自主系統(tǒng)的所有重大進展都將首先通過重新設(shè)計模型本身來實現(xiàn)。

Claude 3.7的發(fā)布給我們提供了一個非常具體的例證，這個模型主要是針對復(fù)雜代碼使用場景而訓(xùn)練的。所有像Devin以及當(dāng)下Manus這樣的工作流程適配在軟件工程基準測試上都獲得了重大提升。

再舉一個小得多的例子：在Pleias，我們目前正在研究自動化RAG（檢索增強生成）。當(dāng)前的RAG系統(tǒng)是許多相互連接但脆弱的工作流程的組合：路由、分塊、重排序、查詢解釋、查詢擴展、源上下文化、搜索工程。隨著訓(xùn)練技術(shù)棧的發(fā)展，有可能將所有這些過程捆綁到兩個獨立但相互連接的模型中，一個用于數(shù)據(jù)準備，另一個用于搜索/檢索/報告生成。這需要精心設(shè)計的合成流程和全新的強化學(xué)習(xí)獎勵函數(shù)。這是真正的訓(xùn)練，真正的研究。

這一切在實踐中意味著什么：轉(zhuǎn)移復(fù)雜性。訓(xùn)練過程預(yù)先考慮了廣泛的行動和邊緣情況，使得部署變得更加簡單。但在這個過程中，大部分價值現(xiàn)在是由模型訓(xùn)練者創(chuàng)造的，最終很可能也會被他們獲取。簡而言之，Claude的目標是打破并取代當(dāng)前的工作流程，比如來自llama index的這種基本"智能代理"系統(tǒng)：

或者

三、訓(xùn)練還是被訓(xùn)練

需要重申：大型AI實驗室并沒有隱藏的議程。雖然他們有時可能不夠透明，但實際上他們已經(jīng)公開表明：他們將打包服務(wù)，向應(yīng)用層進軍，并試圖在那里獲取大部分價值。商業(yè)后果非常明確。Databricks的生成式AI副總裁Naveen Rao表述得相當(dāng)?shù)轿唬?/p>

所有封閉的AI模型提供商將在未來2-3年內(nèi)停止銷售API。只有開源模型將通過API提供服務(wù)(...) 封閉模型提供商正在嘗試構(gòu)建非商品化的能力，他們需要出色的用戶界面來實現(xiàn)這些功能。這不再僅僅是一個模型，而是一個帶有特定目的的應(yīng)用和界面。

所以現(xiàn)在發(fā)生的只是大量的否認。模型提供商和包裝商之間的蜜月期已經(jīng)結(jié)束。事情可能朝著這些方向發(fā)展：

Claude Code和DeepSearch是這個方向上的早期技術(shù)和產(chǎn)品實驗。你會注意到DeepSearch并不通過API提供，只用于為高級訂閱創(chuàng)造價值。Claude Code是一個極簡的終端集成。奇怪的是，雖然Claude 3.7在Claude Code中運行完美，但Cursor卻在使用它時遇到困難，我已經(jīng)看到幾個高端用戶因此取消了訂閱。真正的大語言模型智能代理不關(guān)心預(yù)先存在的工作流程：它們直接替代它。
最知名的包裝商現(xiàn)在正在爭相轉(zhuǎn)變?yōu)榛旌螦I訓(xùn)練公司。他們確實擁有一些訓(xùn)練能力，盡管很少宣傳。Cursor的主要資產(chǎn)之一是他們的小型自動補全模型。WindSurf有他們內(nèi)部的廉價代碼模型Codium。Perplexity一直依賴于自家的分類器進行路由，最近還轉(zhuǎn)向訓(xùn)練自己的DeepSeek變體用于搜索目的。
對于較小的包裝商來說，如果大型實驗室完全放棄這個市場，除了可能會更加依賴通用推理提供商外，不會有太大變化。我也預(yù)計會看到更多對用戶界面的關(guān)注，這一點仍然被嚴重低估，因為更多的通用模型可能會捆綁常見的部署任務(wù)，特別是對于RAG(檢索增強生成)。

簡而言之，對大多數(shù)成功的包裝商來說，困境很簡單：訓(xùn)練還是被訓(xùn)練。他們現(xiàn)在所做的不僅是為大型實驗室提供免費的市場研究，甚至由于所有輸出最終都是通過模型提供商生成的，還提供了免費的數(shù)據(jù)設(shè)計和生成。

之后會發(fā)生什么，無人能夠確定。成功的包裝商確實有熟悉自己垂直領(lǐng)域的優(yōu)勢，并積累了大量寶貴的用戶反饋。然而，根據(jù)我的經(jīng)驗，從模型層向下到應(yīng)用層要比從頭開始建立全新的訓(xùn)練能力容易得多。包裝商可能也沒有得到投資者的幫助。據(jù)我所聞，對訓(xùn)練存在如此負面的偏見，他們幾乎不得不隱藏將成為他們最關(guān)鍵價值的東西：目前Cursor的小模型和Codium都沒有得到適當(dāng)?shù)奈臋n記錄。

強化學(xué)習(xí)的價值未被估計

這讓我想到了真正痛苦的部分：目前所有的AI投資都是相關(guān)聯(lián)的。基金運營基于以下假設(shè)：

真正的價值完全在于獨立于模型層的應(yīng)用層，這個應(yīng)用層最有能力顛覆現(xiàn)有市場。
模型提供商只會以不斷降低的價格銷售令牌，從而使包裝商變得更加有利可圖。
封閉模型的包裝將滿足所有現(xiàn)有需求，即使在對外部依賴持長期擔(dān)憂的監(jiān)管行業(yè)也是如此。
構(gòu)建任何訓(xùn)練能力都是浪費時間。這不僅包括預(yù)訓(xùn)練，還包括所有形式的訓(xùn)練。

恐怕這越來越像是一場冒險的賭博，以及市場未能準確評估最新技術(shù)發(fā)展（特別是強化學(xué)習(xí)領(lǐng)域）的真實價值。在當(dāng)前的經(jīng)濟生態(tài)系統(tǒng)中，風(fēng)險基金旨在尋找不相關(guān)的投資。他們可能不會擊敗標普500指數(shù)，但這并不是大型機構(gòu)投資者所尋求的：他們想要捆綁風(fēng)險，確保在不景氣的年份至少有些項目能夠成功。模型訓(xùn)練就像是一個教科書般完美的例子：在大多數(shù)西方經(jīng)濟體走向衰退的背景下，它具有巨大的顛覆潛力。然而，模型訓(xùn)練者無法籌集資金，或者至少無法以常規(guī)方式籌集。Prime Intellect是少數(shù)幾家有明確潛力成為前沿實驗室的西方新AI訓(xùn)練公司之一。在國內(nèi)，類似的情況也存在，盡管智譜AI等公司已經(jīng)展示了一些突破性的模型訓(xùn)練能力。然而，盡管他們?nèi)〉昧税ㄓ?xùn)練首個去中心化大語言模型在內(nèi)的成就，但他們?nèi)匀浑y以籌集到比普通包裝商更多的資金。國內(nèi)的大模型公司也面臨著類似的資本困境，即使在國家政策支持的背景下。

除此之外，撇開大型實驗室不談，當(dāng)前的訓(xùn)練生態(tài)系統(tǒng)非常小。你可以用手指數(shù)出所有這些公司：Prime Intellect、Moondream、Arcee、Nous、Pleias、Jina、HuggingFace預(yù)訓(xùn)練團隊（實際上很小）...還有中國的智源研究院、百度飛槳團隊等，加上一些更學(xué)術(shù)的參與者（Allen AI、Eleuther...），他們構(gòu)建并支持了當(dāng)前訓(xùn)練的大部分開放基礎(chǔ)設(shè)施。在歐洲，我知道至少7-8個大語言模型項目將集成我們在Pleias開發(fā)的Common Corpus（公共語料庫）和一些預(yù)訓(xùn)練工具——其余的將是fineweb，以及可能來自Nous或Arcee的訓(xùn)練后指令集。在國內(nèi)，類似的開放基礎(chǔ)設(shè)施正由文心一言、智譜AI等團隊推動。

當(dāng)前的融資環(huán)境存在深刻問題。即使是OpenAI現(xiàn)在也感受到了。最近，對當(dāng)前硅谷創(chuàng)業(yè)公司格局中缺乏"垂直強化學(xué)習(xí)"的不滿的情緒十分明顯。我相信這個信息直接來自Sam Altman，并可能導(dǎo)致下一批YC項目的一些調(diào)整，但也指向了一個更大的轉(zhuǎn)變：很快，大型實驗室選擇的合作伙伴將不再是API客戶，而是參與早期訓(xùn)練階段的相關(guān)承包商。在國內(nèi)AI賽道上，這種轉(zhuǎn)變的跡象同樣開始顯現(xiàn)。

如果模型就是產(chǎn)品，你不可能獨自構(gòu)建它？

如果模型就是產(chǎn)品，你不可能獨自構(gòu)建它。搜索和代碼是容易摘取的低垂果實：兩年來的主要用例，市場幾近成熟，你可以在幾個月內(nèi)推出新的Cursor。但未來許多最有利可圖的AI用例還沒有發(fā)展到這么成熟的階段——典型的例子是，想想那些仍然主導(dǎo)世界經(jīng)濟大部分領(lǐng)域的基于規(guī)則的系統(tǒng)...擁有跨領(lǐng)域?qū)I(yè)知識和高度專注的小型專業(yè)團隊可能最有條件解決這些問題——最終在完成初步基礎(chǔ)工作后成為潛在的"人才收購"目標。我們可能在UI方面也會看到同樣的管道。一些優(yōu)選合作伙伴獲得對封閉專業(yè)模型的獨家API訪問權(quán)，前提是他們走上業(yè)務(wù)收購的道路。

到目前為止，還沒有提到DeepSeek。這只是因為DeepSeek已經(jīng)更進一步：模型不僅是產(chǎn)品，而是通用基礎(chǔ)設(shè)施層。和OpenAI與Anthropic一樣，梁文峰公開表明了他的計劃：

"我們相信，當(dāng)前階段是技術(shù)創(chuàng)新的爆發(fā)，而不是應(yīng)用的爆發(fā)(...) 如果形成了完整的上下游產(chǎn)業(yè)生態(tài)系統(tǒng)，那么我們就不需要自己制作應(yīng)用。當(dāng)然，如果需要，我們制作應(yīng)用也沒有障礙，但研究和技術(shù)創(chuàng)新將永遠是我們的首要任務(wù)。"

Manus AI，已經(jīng)很接近理想中的數(shù)字版 AI Agent 的樣子了！能夠自動執(zhí)行任務(wù)、搜索、找資料、寫代碼和生成各種格式的文檔。一個真正的個人數(shù)字助理，就是應(yīng)該完成你能用電腦完成的所有工作。

但這樣的像Manus的Agent 應(yīng)用，會不會撞到大模型公司下一代產(chǎn)品的槍口上呢！留給大家思考。

星標公眾號，點這里 1. 點擊右上角 2. 點擊"設(shè)為星標" ← AI深度研究員 ? ← 設(shè)為星標

原文鏈接：https://vintagedata.org/blog/posts/model-is-the-product

來源：官方媒體/網(wǎng)絡(luò)新聞

排版：Atlas

編輯：深思

主編：圖靈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.