3天前的那天晚上,M anus 橫空出世,我在第一時間拿到邀請碼后,開了個騰訊會議,邀請了一堆朋友來看我的測試,從12點測到4點,從4點寫到凌晨6點。
在凌晨6點的時候,發出了可能是全網第一篇的一手M anus 上手體驗。
在文章爆了的同時,我也收到了這兩年里,最多的謾罵。
營銷號、收錢狗、就會瞎JB吹。
甚至很多人嘲諷,國外的論壇和自媒體還沒動靜,只有國內AI自媒體吹,所以一定都是收錢的營銷號。
那現在,海外熱度開始爆了,是不是也都收錢了?
然后,3月9號晚上,Twitter的創始人 杰克·多爾西也轉發了,他也是被收買了?
還有說M anus 配合加密貨幣炒作割韭菜的,都被X官方直接封號了,那現在X官方道歉并把M anus 的官方賬號恢復了,是不是X官方也收錢了?
我想,作為一個AI媒體,如果只有等到海外爆了才愿意去寫,才覺得這個產品不錯值得推薦給大家,那我覺得這樣不對。
這是一種傲慢,更是一種懶惰。
我不想揣測很多噴子的動機,我只想說,我對得起我自己。
我看到了很棒的產品,通宵測試分享給大家,我問心無愧。
然后就到了開源復刻階段。
作為Agent產品必看的GAIA基準測試,現在就是最大的皇冠。
目前開源復刻M anus 的效果最好的項目,是來自CAMEL-AI的OWL。
GAIA均分58.18,開源項目中排名No.1,很強。
再簡單科普一下GAIA,GAIA(General AI Assistants)是一個面向 通用AI助手 能力的基準評測體系,由 Meta AI(FAIR)、Hugging Face 等研究團隊于 2023 年提出。
有一篇非常著名的論文:
里面有466個精心設計的問題。
傳統的測試一般都是數學(AIME)或者一些專業知識問答、編程等等,但是GAIA測試,里面很多都是概念簡單,但是需要多步驟解決的實際問題。
其中分為三個級別,Lv.1、Lv.2、Lv.3,難度依次遞增。
想通過GAIA的測試,一般需要網絡檢索能力、工具調用能力、編程能力、文件處理能力等等。
在23年的時候,人類一般能達到90%的成功率,而那時候的最強AI GPT4,在第一級才勉 強達到15%。
這就是現在Agent的皇冠。
OWL的Lv.1分數是81.13、Lv.2是54.65,Lv.3是23.08。
再看看M anus 。
Lv.1接近,而lv.2和Lv.3距離Manus任有距離。
注意,這里我之所以做這個對比,并不是拉踩, CAMEL-AI團隊在短短幾天內,就能復刻到如此地步,實力非常強。
我想說的是:M anus 的路是正確的,他給做Agent產品的人,都指出了方向。
MCP有嗎?半年前就有了,AutoGPT什么時候出來的?2023年。
Computer Use什么時候出來的?2024年10月23日的那一天,我也花了6個小時做了實測,有興趣的可以去看看。
但是,沒有一款所謂的Agent的產品,能達到Manus的完整度。
都在說模型的創新,才叫創新,那應用層的整合創新,就不是創新嗎?
這兩天有N多追隨M anus 的開源復刻項目,不正是因為Manus指出了一條明路嗎?原來工程化的能力,可以做到這種級別。
在簡單的Lv.1級別的測試上,這么多復刻版的產品確實可以打到差不多的程度,但是在復雜多步驟任務的Lv.2和Lv.3的能力上,明顯還是有巨大的差距。
這里我再疊個甲,我不是拉踩,我只是客觀的陳述事實,我相信開源社區的力量,也相信可能未來有一天,開源社區能刷爆GAIA。
但,你不能因為這個,就說今天的M anus 很菜,是垃圾。
至于Manus和3小時開源復刻的OpenManus,可以去看看,你可以不信我,但是你可以相信晚點。
最后,再來聊聊Manus的幾個所謂的核心“技術”吧。
我只能說我的理解,當然如果有不對的地方,歡迎大佬來拍磚,我也盡可能,做一些小的科普。
首先,就目前的技術來說,Agent產品幾乎都是遵循:“計劃 → 執行 → 結果合成”這一套。即使是OpenAI最牛逼的DeepResearch也是如此。
只不過DeepResearch是一個重新訓練的模型,所有一切Agent操作都是由一個由o3重新訓練的端到端模型完成的,而不是每一步用不同的模型來完成。
這塊可以去看OpenAI自己 DeepResearch的 System Card。
相比之下,Manus的做法則是工程化,用各種不同的模型和技術來做整合,這個就是Multi-Agent(多智能體架構)。
而最核心的三個能力,一般就是Agent的定義:
1. 規劃能力。
2. 工具使用能力。
3. 記憶能力。
一個一個來說。
首先是規劃能力。
你們應該都見過Manus的這個To do list了。
這個就是計劃的拆解。
把我的PDF論文轉說人話的科普PPT任務,拆成了4個大任務,15個小任務。
而這個任務拆解模型,大概率是跟Manus聯創季逸超在去年10月開源的一個用強化學習+Qwen 32B做的推理模型有關。
這個模型的特點就是“long horizon thinking” 和 “step-by-step execution”,在晚點跟 季逸超的采訪中也提到了,這就是目前Manus所用到的部分技術。
目前不得而知是否有新的微調的拆任務的推理模型。
整個Agent產品其實最核心的就是這個底層模型的規劃能力,所以這個東西是能提高Agent產品在后續任務中的成功度的。
而跟Manus同日推出的QwQ 32B,在Agent能力上也有大幅度的飛躍,如果未來的底座是基于QwQ 32B的微調,我想Manus的產品的完整度應該會更上一層樓。
第二個點,就是工具使用能力。
這個其實沒啥可說了,就是究極縫合怪。
過去很多我們做產品,都是Function Call做函數調用,還記得我23年在做金融Agent產品的時候,有多惡心,每個API都要單獨開發。
而現在,真正牛逼的是Cluade在11月25日開源的MCP。
很多人不知道MCP是啥,我簡單做個小科普。
你可以把MCP,理解成AI領域的智能家居協議。
比如你買了一堆所謂的智能家居,比如 燈泡、空調、窗簾等許多設備。
但是,如果沒有一個統一協議,每一個品牌的燈泡、空調可能都要用自己的App,各自的遙控方式,我相信你肯定會很抓狂。
但幸運的是,現在 很多 智能家居設備有通用的標準 ,只要設備遵循這個標準,我們的一些智能音箱就能識別并控制它們。
MCP 很像這樣的智能家居標準。 當新的工具或數據源符合MCP時,AI模型就能立刻把它接入自己的系統,調用他們就像查個USB一樣簡單。
有點像 MCP 提供了統一接口,開發者只需按一套標準為AI接入各種功能,免去了針對每個服務單獨編程的麻煩 。
這就像我們現在給手機充電,只需要一根Type-C數據線,就能連接所有設備, 不用再跟很多年前一樣,準備一堆不同的數據線 。
我不知道你們有沒有經歷過那種深惡痛絕的時代,但是還是挺難受的。
這個其實就是非常大的意義,讓AI能用更多更牛逼的工具來幫助自己了。
而這一次,Manus整合了市面上所有的工具能力, 有了Computer Use、Code Interpreter、Artifacts等等的能力, 并且允許在虛擬機中進行異步調用,這是一個非常棒的交互和產品的創新。
把使用場景,擴展到了普通用戶的辦公場景中。
這也是它能爆的根源。
都說沒有護城河,坦率的講,確實工程化技術上沒啥護城河,但是之前為什么大家就不做呢?
說的再漂亮,都沒用,一切都要看用戶體驗。
至于最后記憶,其實沒啥突破,只不過同樣的,Manus做了一個小創新,用To.md這種外置文件來實現“工作記憶”。
聽我說了這么多,不知道你現在,是否對Manus有一些了解了。
用Manus和DeepSeek比是愚蠢的。
DeepSeek是智能層面的大模型,而Manus是基于大模型所做出來的通用Agent產品。
當然,你也可以說它外面就是一層殼,可在產品開發和用戶體驗里,這層殼也是很有價值的。
有一個評論我覺得非常的有意思:
“Manus有點像當年的理想one,用一種技術上來看略顯蹩腳的手段,證明了一個龐大用戶需求市場的存在。
就像理想定義了無續航焦慮+冰箱彩電大沙發的家庭汽車,Manus也奠定了未來3年內ai應用的產品方向。”
我非常看好Agent的發展,我也相信,Agent的未來,是星辰大海,智譜的AutoGLM出來的時候,我就夸了很多。
Manus出現的那天,我自然是極為興奮。
這才是我們的眼睛里,所希望看到的AI的未來。
“Manus這個所謂的超級縫合怪,在AI能用到好用的這層厚墻上,鉆出了一個巨大的孔,讓人們看到了后面應用廣闊無垠的天地。”
有人如是說道。
我知道,這篇文章下面一樣會出現很多謾罵。
我想最后,用一張我在群里看到的圖來結尾。
希望,我們都能看到。
百花齊放。
鮮花,定會再開滿枝頭。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.