“字節(jié)版Manus”有多能打?量子位實(shí)測(cè)在此。
△扣子智能體生成的活動(dòng)介紹網(wǎng)頁
我們用光了一天的對(duì)話額度,考驗(yàn)了扣子空間(Coze Space)的信息整理、任務(wù)執(zhí)行、工具調(diào)用等多項(xiàng)技能。
結(jié)果,仍處在早期測(cè)試中的扣子空間整體表現(xiàn)已經(jīng)相當(dāng)驚艷,在自主任務(wù)規(guī)劃和資料搜集方面表現(xiàn)不錯(cuò),已經(jīng)具備解決很多真實(shí)任務(wù)的潛力。
不過在指令遵循方面,還是比較“有自己的想法”。
簡(jiǎn)單介紹一下,扣子空間是字節(jié)在剛剛過去的周末推出的智能體協(xié)作系統(tǒng),官方主打“你和AI Agent協(xié)同辦公的最佳場(chǎng)所”。
由于放出來的demo效果驚艷,過去幾天里還出現(xiàn)了擠爆服務(wù)器的場(chǎng)面。
而第一波拿到邀請(qǐng)碼的幸運(yùn)兒,在體驗(yàn)后也第一時(shí)間分享了使用感受:
- 對(duì)比智能體確實(shí)是一個(gè)大飛躍。
- 更適合用來分析報(bào)告,主要作用是幫助用戶搭起整體框架。
當(dāng)然,作為幸運(yùn)兒之一,我們也趕緊進(jìn)行了一波實(shí)測(cè)。
有腦有手的通用智能體
扣子平臺(tái)的通用智能體,分成了探索和規(guī)劃兩種模式,官方的介紹是這樣的:
實(shí)際用下來的話,探索模式更注重效率,而規(guī)劃模式則會(huì)對(duì)任務(wù)進(jìn)行詳細(xì)拆分,條理更加清晰。
自動(dòng)整理搜集信息,一句話制作網(wǎng)頁/PPT
先來看探索模式,我們讓它整理了一下波音747系列飛機(jī)的發(fā)展歷程。
可以看到,智能體根據(jù)給出的話題自行擴(kuò)展延伸了許多搜索詞并執(zhí)行了檢索,最后形成了一份文字報(bào)告。
利用整理好的資料,可以直接制作出一個(gè)網(wǎng)頁(或者PPT也可以),頁面包含了比較豐富的內(nèi)容,排布簡(jiǎn)潔,美觀性也說得過去。
并且除了文字內(nèi)容,生成網(wǎng)頁時(shí)智能體還補(bǔ)充了產(chǎn)量統(tǒng)計(jì)圖和關(guān)鍵時(shí)間線。
有腦還有手,自主規(guī)劃執(zhí)行任務(wù)
在規(guī)劃模式下,扣子智能體不僅會(huì)整理資料,還支持在虛擬沙盒環(huán)境中操縱電腦、瀏覽網(wǎng)頁,執(zhí)行訂票等操作。
比如我們讓它幫忙訂一張明天(23日)下午從北京到上海的高鐵票。
比較有意思的是,智能體一開始的動(dòng)作是搜索高鐵票該怎么訂,不清楚是模型自己真的不知道,還是這里強(qiáng)制設(shè)定了檢索過程,但總之,如果真遇到不會(huì)的技能,通過檢索來彌補(bǔ)也不失為一種策略。
12306平臺(tái)需要登錄才能進(jìn)行訂票,智能體能夠準(zhǔn)確識(shí)別到這種狀況,并提示我們手動(dòng)接管。
不過,可能是沙盒環(huán)境受到了限制,在執(zhí)行檢索之后頁面并未顯示結(jié)果,因此整個(gè)流程未能順利完成。
但從智能體的操作過程來看,網(wǎng)頁信息識(shí)別和規(guī)劃執(zhí)行能力已經(jīng)很不錯(cuò)了。
接入MCP,智能體不再“孤軍奮戰(zhàn)”
除此之外,扣子也支持MCP協(xié)議,并接入了飛書文檔、GitHub、MySQL數(shù)據(jù)庫、天氣、地圖等一系列MCP應(yīng)用。
于是結(jié)合MCP,我們來整個(gè)大活。
上周,量子位中國AIGC產(chǎn)業(yè)峰會(huì)2025成功舉行,我們將其會(huì)議流程和嘉賓信息整理到了一份文檔當(dāng)中,要求智能體將這些材料整理出一份網(wǎng)頁版會(huì)議指南。
并且還調(diào)用了地圖、天氣和語音合成三個(gè)MCP插件,在網(wǎng)頁中加入天氣預(yù)報(bào)、交通指南和嘉賓介紹語音播報(bào)。
可以看到,智能體首先利用工具從文檔中提取出文本,然后通過MCP協(xié)議調(diào)取了天氣、地圖等信息。
由于任務(wù)比較復(fù)雜,制作耗時(shí)也比較長(zhǎng),第一版成品長(zhǎng)這樣:
這個(gè)版本,要求的內(nèi)容都有呈現(xiàn),但是活動(dòng)流程沒有遵循要求的格式,天氣預(yù)報(bào)的日期也不對(duì)。
所以我們針對(duì)這兩點(diǎn)要求智能體進(jìn)行修改,修改的過程沒有一步到位,而是經(jīng)過了多輪調(diào)整。
以及到后面修改的過程才發(fā)現(xiàn),扣子智能體一開始偷懶并沒有合成嘉賓介紹的語音,只是在網(wǎng)頁里放了按鈕,單獨(dú)指出之后才開始合成。
不過最終還是得到了符合期待的頁面,該有的內(nèi)容都正常展現(xiàn),滑動(dòng)和點(diǎn)擊查看詳情的功能都成功實(shí)現(xiàn),合成的音頻也能正常播放。
雖然整體經(jīng)歷了不短的時(shí)間,但對(duì)于一個(gè)完全不懂網(wǎng)頁制作的用戶而言,扣子智能體已經(jīng)很好地解決了工具有無的問題。
在時(shí)間上,一個(gè)可以改進(jìn)的方向是讓可以并行進(jìn)行的任務(wù)同時(shí)進(jìn)行,比如這個(gè)任務(wù)當(dāng)中的語音合成實(shí)際上是獨(dú)立于網(wǎng)頁設(shè)計(jì)的,而智能體目前采用的是串行方式,帶來了不少的額外耗時(shí)。
總結(jié)一下,作為一個(gè)通用智能體,扣子智能體的任務(wù)規(guī)劃比較合理,資料搜集能力也表現(xiàn)不錯(cuò),不過在指令遵循方面,還是比較“有自己的想法”。
當(dāng)然作為通用智能體,優(yōu)先考量是提升技能的豐富度,盡可能覆蓋更多的任務(wù),所以在具體任務(wù)細(xì)節(jié)上,也還有不少提升空間。
更懂行的專家智能體
所以,在通用Agent之外,扣子空間還提供了「專家模式」。
Beta測(cè)試版首頁,目前有兩個(gè)專家Agent:
- 用戶研究專家:模型學(xué)習(xí)了字節(jié)資深用研專家、產(chǎn)品經(jīng)理等分享的用研工作技巧;
- 華泰A股觀察助手:扣子團(tuán)隊(duì)與華泰證券聯(lián)合孵化的Agent,讓模型學(xué)習(xí)了如何分析上市公司和發(fā)展?jié)摿Φ葘I(yè)知識(shí)。
我們實(shí)測(cè)下來發(fā)現(xiàn),吸收了更多私人數(shù)據(jù)和第三方數(shù)據(jù)的專家Agent,在實(shí)用性方面確實(shí)大有提升,尤其在面對(duì)復(fù)雜任務(wù)過程中易出錯(cuò)的問題,它總是能自主發(fā)現(xiàn)錯(cuò)誤并不斷嘗試更正。
不過由于涉及的領(lǐng)域確實(shí)比較專業(yè),任務(wù)耗時(shí)也大大增加,類似股票分析的任務(wù)往往需要運(yùn)行幾十分鐘。
以下為具體實(shí)測(cè)過程。
0產(chǎn)品經(jīng)驗(yàn)也能做出完整用戶調(diào)研
假如有一個(gè)新入行的產(chǎn)品經(jīng)理,想要設(shè)計(jì)一個(gè)北京地區(qū)的戶外活動(dòng)APP,需要對(duì)用戶需求進(jìn)行調(diào)研。
盡管沒有工作經(jīng)驗(yàn),也可以使用簡(jiǎn)單描述來生成一份用戶訪談提綱。
實(shí)測(cè)不到1分鐘,這個(gè)Agent就生成了一份可下載的Markdown文檔,10個(gè)問題基本覆蓋了我們想要調(diào)研的需求。
然后我們又繼續(xù)在輸入框中下達(dá)新指令:
- 再幫我生成一份調(diào)研問卷。
從思考過程可以看到,面對(duì)一個(gè)比較模糊的需求,它能通過自主規(guī)劃(設(shè)計(jì)約30個(gè)問題的調(diào)研問卷)進(jìn)一步明確任務(wù)。
而且評(píng)估其生成效果,從一名資深戶外運(yùn)動(dòng)愛好者的角度來看,這份調(diào)研報(bào)告可謂非常完整——
7個(gè)大類、30個(gè)小問題,從用戶基本信息到戶外運(yùn)動(dòng)參與情況、活動(dòng)信息與獲取等等,均考慮到了。
接下來,鑒于我們目前缺少真實(shí)問卷結(jié)果,所以又給它扔了個(gè)“麻煩”:
- 能直接幫我生成一份虛擬完整用戶調(diào)研數(shù)據(jù),并最終生成一份用戶分析報(bào)告嗎?
大約幾分鐘后,這個(gè)Agent自己生成了一份虛擬用戶數(shù)據(jù):
橫向標(biāo)準(zhǔn)項(xiàng)需要長(zhǎng)時(shí)間拖動(dòng)才能看完整,豎向共有100條數(shù)據(jù):
當(dāng)然,過程中Agent也自己發(fā)現(xiàn)了錯(cuò)誤,并多次嘗試更正。
最終,基于虛擬數(shù)據(jù),Agent確實(shí)生成了一份可下載的完整用戶畫像報(bào)告。
整體而言,這個(gè)用戶研究Agent具備問卷數(shù)據(jù)分析、訪談紀(jì)要總結(jié)、調(diào)研問卷生成、訪談提綱生成這四大能力,即使零產(chǎn)品經(jīng)驗(yàn)也能通過持續(xù)對(duì)話實(shí)現(xiàn)自己的調(diào)研需求。
每天都能收到專屬股票早報(bào)
而另一個(gè)股票專家Agent,由于涉及的領(lǐng)域比較復(fù)雜,官網(wǎng)顯示平均任務(wù)耗時(shí)為42分鐘。
能做的事兒包括下面這些:
這里我們簡(jiǎn)單測(cè)試了其早報(bào)生成功能。
支持選定3支關(guān)注的股票(這里就不具體展示選了哪些了),以及三個(gè)關(guān)注的板塊,然后給出當(dāng)日A股早報(bào)。
有意思的是,相比之前的用戶調(diào)研Agent,這個(gè)智能體則更加謹(jǐn)慎了,過程中還需要用戶手動(dòng)確認(rèn)其階段性完成情況,然后才繼續(xù)執(zhí)行。
而且整個(gè)過程搜集了大量數(shù)據(jù):
不過比較遺憾的是,截至發(fā)稿前(已經(jīng)跑了一個(gè)多小時(shí)),可能由于服務(wù)器資源問題,暫時(shí)沒有跑出最終結(jié)果。
然而,從其他網(wǎng)友對(duì)該智能體的測(cè)試來看,據(jù)稱效果驚艷。
- (股票功能)實(shí)測(cè)蠻驚艷的
小結(jié)一下,相比通用Agent,專家Agent在實(shí)用性方面確實(shí)更勝一籌。
就產(chǎn)品的初步設(shè)計(jì)來看,和“扣子空間”這個(gè)名字相呼應(yīng),扣子團(tuán)隊(duì)希望打造一個(gè)“通用Agent和專家Agent協(xié)作的系統(tǒng)”。
不過按照扣子團(tuán)隊(duì)的長(zhǎng)期設(shè)想,最終目標(biāo)則還是打造一個(gè)開放的Agent系統(tǒng)——
當(dāng)用戶提出需求時(shí),系統(tǒng)能自動(dòng)調(diào)度最合適的一位或多位專家Agent協(xié)同完成任務(wù)。
而拋開長(zhǎng)遠(yuǎn)不談,僅就當(dāng)下這個(gè)測(cè)試版扣子空間而言,得益于它在自主規(guī)劃和任務(wù)驅(qū)動(dòng)方面的加強(qiáng),對(duì)于絕大多數(shù)實(shí)際情況,它已經(jīng)是一個(gè)可以上手、能用的Agent系統(tǒng)了。
One More Thing
這一次,字節(jié)在扣子空間上還搞了一波“裂變玩法”。
我們實(shí)測(cè)過程中發(fā)現(xiàn),在執(zhí)行完第一個(gè)任務(wù)之后,還可以得到五個(gè)邀請(qǐng)碼。
并且當(dāng)五個(gè)邀請(qǐng)碼全部用完后,還能獲得更多邀請(qǐng)資格。
所以相比其他家那種完全封閉的測(cè)試,扣子空間的體驗(yàn)資格也更容易獲得。
最后,有獲得邀請(qǐng)碼的童鞋來說說你的使用體驗(yàn)嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.