就在昨天,Manus 在國內(nèi)媒體間爆火,其號稱 “ 全球首個通用 AI 智能體 ”。
官方也曬出了幾十個Demo,供大家玩賞。
網(wǎng)友們驚艷于其效果后當(dāng)然躍躍欲試,卻發(fā)現(xiàn)試用需要邀請碼。我們問了一圈 AI 專家,都說沒用過,也沒聽自己哪個同行用過,“ 目前都是媒體在用吧?”
到這里就需要謹慎了,沒有較大規(guī)模公開測試、沒有專家實名自發(fā)背書過的技術(shù)或產(chǎn)品( ChatGPT、NotebookLM、DeepSeek 等都是有的 ),實力終歸是存疑的。
從產(chǎn)品體驗來看,Manus 雖然效果驚艷,但是很多人其實不買賬,因為寫 PPT、寫 HTML、Python 數(shù)據(jù)分析、生成 Excel、搜索等功能目前各個通用模型都能做。即便 Manus 說自己比 OpenAI 的 DeepResearch 更厲害,但這和 Cursor 說自己比 Claude 更厲害有什么區(qū)別?兩者的可比性是錯位的。
功能上,Manus 是整合了 Computer use、虛擬機、Multi agent 協(xié)同的套殼產(chǎn)品。技術(shù)實現(xiàn)上是基于 Claude 模型生成能力、開源模型后訓(xùn)練增強的規(guī)劃能力,再結(jié)合各種預(yù)制的 Agent,按照設(shè)定好的工作流:構(gòu)建 todo 清單、新建虛擬機環(huán)境、調(diào)用工具、結(jié)果整合、自我檢查、輸出結(jié)果,來解決任務(wù)。
所以,Manus 技術(shù)上有其復(fù)雜性,但沒有太多創(chuàng)新,當(dāng)然,其功能多樣性導(dǎo)致工程量極大,業(yè)內(nèi)專家認為很有可能是基于 MCP 協(xié)議的聚合模式。
過去 Agent 更多是在專業(yè)領(lǐng)域做深耕,而 Manus 通過工程上極致整合、酷炫低門檻的 UI 交互套殼產(chǎn)品想讓 Agent 直接出圈了。
總有人說,套殼到極致就是勝利,就是價值,確實,至少從 Manus 的演示視頻來看,是這樣。
既然有價值,那么很快就會有人跟上,這不,為了實現(xiàn) Manus 的價值,MetaGPT 團隊花費了 3 小時開發(fā)了 OpenManus 并開源,無需邀請碼就能使用。
項目地址:
https://github.com/mannaandpoem/OpenManus
在項目的演示視頻中,輸入提示詞:“對 Karpathy 的網(wǎng)站( https://karpathy.ai/ )進行全面的 SEO 審核,并提供詳細的優(yōu)化報告,包括可操作的改進建議?!?/p>
接下來,OpenManus 會展開思考,拆分執(zhí)行步驟:
?檢查網(wǎng)站,收集基本信息;
?分析關(guān)鍵SEO要素;
?檢查 SEO 技術(shù)方面的問題;
?整理優(yōu)化建議;
接下來就是一步一步地執(zhí)行任務(wù)了。
可以看到,演示視頻展示的結(jié)果遠不如 Manus 那么細致和豐富,OpenManus 目前功能還很初級,但團隊還公開了后續(xù)的開發(fā)路線,照這個路線,基本上全面復(fù)刻 Manus 不是問題:
? 更優(yōu)的規(guī)劃系統(tǒng)
? 實時演示功能
? 運行回放
? 強化學(xué)習(xí)微調(diào)模型
? 全面的性能基準測試
:OpenManus 是怎么來的?
:兩個月前的一次邊吃飯邊頭腦風(fēng)暴的過程中,我們想到,一個極簡的 Agent 框架,應(yīng)該是可插拔的 Tools 和 System Prompt 的組合,之后我們沿著這個思路,寫了一個完整的 Agent 迷你框架。
前天晚上看到 Manus 時,凌晨就和同事商量,下班后的晚上就可以搞一個,應(yīng)該 3 小時夠了。
:為什么要采用可插拔的 Tools 和 System Prompt?
:決定一個 ReAct Agent( Reasoning and Action Agent,一種結(jié)合了反應(yīng)和行動規(guī)劃能力的智能體 )的效果的關(guān)鍵是 Prompt( 提示信息 )和 Action( 行動 ),Prompt 控制了 Agent 整體的行為邏輯,Tools 給定了 Agent 的行動空間,二者被定義就能完整詮釋一個 ReAct Agent。
可插拔的優(yōu)點是可組合,我可以把幾個不同場景下的 Tools 組合到一起來創(chuàng)造一個新的 Agent,定義也很方便,不需要單獨寫內(nèi)部邏輯,只需要修改動作空間( Tools )。Tools 本身就該是可組合的,我們的工作是把抽象做得更干凈,目前 HuggingFace 的 Smolagents 也是類似的思路了。
Manus 效果上讓大家覺得很新奇,實際上主要是由于 Browser Use 和 Computer Use 的使用,所以只要給了 Agent 這兩個工具,那它就都能做到。
:OpenManus 在實現(xiàn)中,有哪些關(guān)鍵技術(shù)挑戰(zhàn)?
:在 OpenManus 的實現(xiàn)中,前端界面的實現(xiàn)很關(guān)鍵。Manus 很出彩的地方是產(chǎn)品展示很漂亮,我當(dāng)時打算用 Streamlit 寫前端,方便做類似的展示,但 Streamlit 的底層和 Browser Use 沖突,后來就換了 Gradio,但信息展示有一些問題,當(dāng)時沒辦法做到實時更新,最后還是改成了 log,直接在命令行里做展示。
如何有效復(fù)現(xiàn)和優(yōu)化 PlanningTool 的使用也是非常重要的一環(huán),這樣才能充分發(fā)揮 Agent 的規(guī)劃和工具調(diào)用能力,探索其能力上限。Manus 的用例展示了 Agent 在線性任務(wù)規(guī)劃中的強大表現(xiàn),而 OpenManus 需要解決如何設(shè)計更復(fù)雜的規(guī)劃結(jié)構(gòu)( 如使用 DAG 有向無環(huán)圖表示任務(wù)依賴關(guān)系 ),以及如何讓 Agent 動態(tài)更新規(guī)劃以適應(yīng)變化的需求,這不僅考驗技術(shù)實現(xiàn),還涉及算法設(shè)計和智能體的自適應(yīng)能力。
目前 OpenManus 的規(guī)劃設(shè)計與 Manus 保持一致,都是線性的,而DAG規(guī)劃對于處理現(xiàn)實世界中更復(fù)雜的任務(wù),在一定程度上會更準確,Data Interpreter 就是一個很好的例子。
:聽起來 OpenManus 的規(guī)劃已經(jīng)有要超越 Manus 的苗頭了,你們對這個產(chǎn)品有什么期望嗎?
:OpenManus 前期目標打算達到原始 Manus 的相同的效果,后續(xù)會不斷優(yōu)化 Computer Use、Browser Use 和 Planning Use,以及工具調(diào)用的能力,從而超越 Manus。
Manus 產(chǎn)品交互做的挺好的,有很多技術(shù)也值得學(xué)習(xí),比如對后訓(xùn)練技術(shù)的結(jié)合,流程設(shè)計上比如規(guī)劃、Multi Agent 系統(tǒng)也是很優(yōu)秀的,具體細節(jié)我們還在研究。至于 OpenManus 我們沒有單獨調(diào)效果,目前達到的效果其實很一般。后續(xù)主要靠開源社區(qū)小伙伴來貢獻,我們希望開源協(xié)作能帶來更高的智能涌現(xiàn)~
好了,到這里知危編輯部與 MetaGPT 團隊的溝通就到這里了,我們也可以期待一波 OpenManus 未來的效果。
最后,或許我們可以探討一下到底什么應(yīng)該是好的 Agent ?
Manus 有優(yōu)點、有亮點,但有夸大之嫌。人們在試用的時候,還是能發(fā)現(xiàn) Manus 有不少毛病,用錯了假數(shù)據(jù)、來源引用錯誤、表格讀取錯誤等等毛病一個不落,幻覺問題還是不小。
Agent 應(yīng)用的一大通病是,自動化執(zhí)行過程越復(fù)雜,錯誤發(fā)現(xiàn)和查找原因就越困難,而且 Agent 的執(zhí)行需要經(jīng)過多個 LLM,每個 LLM 的幻覺一路累積下來的誤差將是巨大的,比如 95% 的準確率,連續(xù)經(jīng)過 10 個 LLM,最后準確率能直接降到約 60% 。
在全面擁抱 Agent 之前,我們首先還是得多關(guān)注一下,目前市面上的通用大模型,它們的幻覺率仍然不是一般的高。
所以,想實現(xiàn)真正好用的 Agent,我們?nèi)匀灰タ舜竽P偷讓幽芰Φ奶嵘?。里子不夠好,套太多的殼也沒用。
與此同時,我們還需要強調(diào)的一點是,追求 Agent 的過程中,我們一定是要回歸實用主義的:不是所有問題都需要用 Agent 來做。
Devin 前不久還被爆出出錯率極高并且出錯方式?jīng)]有規(guī)律可循,還不如用 Cursor 一步一步來,加上之前的演示造假事件,過于激進的 Agent 產(chǎn)品越來越受到質(zhì)疑。
與此同時,Agent 的一大通病是,步驟拆解越多,token 消耗量越大,對所有任務(wù)一律無腦使用 Agent,對于企業(yè)的成本控制而言具有極大的風(fēng)險。
Agent 的最關(guān)鍵的作用就是工作流編排,簡單的任務(wù)其實并不需要 Agent 的參與,反而會導(dǎo)致客戶等待時間過長。
Anthropic 就曾經(jīng)分享過構(gòu)建智能體的基本原則,就是 “ 簡單為王,實用至上 ”,能用 API 就不要用工作流,能用工作流就不要用智能體。
這些都是手段,哪個不能交付結(jié)果呢?
Agent 終究是一個產(chǎn)品概念,不像 LLM 有無法預(yù)測的潛在價值( 比如推理能力的發(fā)現(xiàn)和增強 )值得冒極大風(fēng)險押注。
所以回過頭來看,我們應(yīng)該更多關(guān)注開源社區(qū)的新技術(shù),比如阿里在 Manus 發(fā)布同一天剛開源的 QWQ-32B 模型,就像前文講的那樣,在追求 Agent 的路上,我們更應(yīng)該關(guān)注模型的突破。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.