文:王智遠(yuǎn) | ID:Z201440
去年10月份,字節(jié)舉辦一場豆包大模型相關(guān)的活動(dòng)。
活動(dòng)中,他們不僅把大模型價(jià)格降下來了,還展示了豆包視覺大模型的解析能力;當(dāng)時(shí),我看到后表示驚訝:以后跟AI打電話,通過共享屏幕,它就能幫我理解一切,太快了。
不過,當(dāng)時(shí)展示的似乎更像一個(gè)炫技的demo,一直沒開放出來;三個(gè)月過去了,期間看他們不斷內(nèi)測(cè),今天終于拿到體驗(yàn)資格。
這個(gè)能力到底是什么?
簡單講,在與豆包進(jìn)行語音通話時(shí),界面會(huì)多出一個(gè)“共享屏幕”的按鈕;點(diǎn)擊后,它能實(shí)時(shí)看到桌面內(nèi)容,并對(duì)場景進(jìn)行解析,提供建議和幫助解決實(shí)質(zhì)性問題。
我習(xí)慣使用快捷鍵,所以,直接按了Option + S來呼出功能。當(dāng)然,你也可以點(diǎn)擊界面上的按鈕來使用,這主要取決于個(gè)人習(xí)慣。
首先,我問它:你能看到我屏幕不?
它說:我看不到。我心想,怎么回事?搗鼓了一分鐘,我掛斷電話又重新打開,這回可以了。估計(jì)是系統(tǒng)延遲導(dǎo)致的bug。
接下來,決定試試它的本事。當(dāng)時(shí),屏幕上開著三個(gè)頁面:第一個(gè)和Kimi聊天的窗口,第二個(gè)我的微信群聊,第三個(gè)是正在寫的文檔。
我問它:你能看到我屏幕上都有啥不?
豆包回答:你所在的微信群里有個(gè)朋友叫宋敬緯,看他的名字像是來自分眾傳媒。他在群里說,60歲是該拼的時(shí)候,其他朋友也在討論這個(gè)事兒。
我有點(diǎn)驚呆,豆包居然能看這么細(xì)。
我又接著問:那你能看到我跟Kimi在聊啥不?它說:你這Kimi窗口開著,看著好像有問題想問。要不我?guī)湍阆胂?,告訴它?的確,我開著Kimi的聊天窗口,但還沒輸入任何內(nèi)容。這,難道要控制Kimi?
然后,我瞅一眼屏幕右邊的文檔,又問:你能看到我的文檔不?他說:能看到,你正在寫對(duì)豆包的體驗(yàn)......,的確,我正在寫這篇體驗(yàn)文檔。
最后,我打開Safari瀏覽器,上了百度搜索;它說:我看到你在搜索東西,需要幫忙不?我可以幫你想想。
這系統(tǒng)交互能力是很快,像有個(gè)眼睛盯著電腦屏幕;我覺得光看圖片、讀聊天記錄、閱讀文字實(shí)在有些基礎(chǔ)。于是,又測(cè)試了一下它的數(shù)學(xué)能力。
讓我手寫一個(gè)復(fù)雜公式,現(xiàn)在腦子明顯不夠用。于是,把這個(gè)問題交給了Kimi。Kimi寫完問題后,我把它復(fù)制到備忘錄里,然后,通過共享屏幕讓豆包幫我解答。
豆包大概只用了3秒鐘,給出了答案:18元。除了答案,他還詳細(xì)地解釋了他的計(jì)算過程,整體非常絲滑。
體驗(yàn)到這,我突然想到一個(gè)問題:
既然豆包能夠識(shí)別屏幕上的平面內(nèi)容,那它能否處理立體或動(dòng)態(tài)內(nèi)容呢?比如:看短視頻。
于是,我打開了一段前幾天拍攝的短視頻,時(shí)長約一分鐘,問豆包能不能幫我“觀看”這段視頻。不出所料,豆包回答說無法直接觀看。這也在情理之中,畢竟視頻是動(dòng)態(tài)的,對(duì)它來說可能難以實(shí)時(shí)解析。
不過,我沒有放棄。
打開一個(gè)視頻號(hào),等視頻內(nèi)容播放完,再問它,視頻講了什么?豆包說,你在看一個(gè)視頻號(hào)的內(nèi)容,內(nèi)容主要是兩人相親的場面。
這個(gè)過程中也有一些痛點(diǎn)。如果視頻太長,豆包可能只聽了一分鐘左右,就會(huì)自動(dòng)中斷并開始總結(jié),而此時(shí)視頻可能還沒有播放完。
所以,我測(cè)試了四點(diǎn):看社群聊天記錄、操作Kimi、看圖片、看視頻。
像屏幕共享軟件、操作電腦桌面、解析內(nèi)容和視覺的產(chǎn)品,有很多。比如:Highlight AI。
非常強(qiáng)大的桌面 AI 工具,我很早在用;它能直接操作微信、Notion 等應(yīng)用,交互非常絲滑,直接用語音和自定義快捷鍵就能操作;我還能讓它幫我提取公眾號(hào)的內(nèi)容,或者翻譯屏幕上的文字。
谷歌的 ScreenAI,它主要能解析屏幕上的圖標(biāo)、圖片和地圖,并生成摘要。我還能用它分享一個(gè)網(wǎng)頁的設(shè)計(jì)布局,或解答圖標(biāo)里的問題,非常適合處理視覺信息。
還有 OmniParser、ChatGPT,這些工具雖然側(cè)重點(diǎn)不同,但都圍繞著屏幕內(nèi)容共享、操作、解析這三點(diǎn)展開的。
對(duì)于一個(gè)國內(nèi)用戶來說,我認(rèn)為唯一劣勢(shì)是:網(wǎng)絡(luò)問題,體驗(yàn)不夠好;有時(shí)候,使用過程中會(huì)頻繁卡頓,甚至中斷;豆包AI助理共享屏幕語音出現(xiàn),恰巧解決了該問題。
我一直在想豆包這個(gè)能力,到底適合什么場景下使用?
后來覺得,AI助理不能直接用場景來定義它的用途,因?yàn)楸举|(zhì)更像是一個(gè)全能的代理人。代理人要具備更廣泛的能力,不應(yīng)該被局限在某個(gè)特定場景下。
另外,我認(rèn)為,AI助理的挑戰(zhàn)已經(jīng)從“能力”轉(zhuǎn)向了“交互”。這種新的交互模式,可以看作圖形用戶界面(Graphical User Interface,簡稱GUI)的一次重大升級(jí)。
為什么這么說呢?
過去使用電腦時(shí),主要依賴點(diǎn)擊圖標(biāo)、按按鈕、查找菜單等。雖然這種方式看似直觀,但當(dāng)功能越來越多時(shí),屏幕會(huì)變得雜亂無章,學(xué)習(xí)成本也隨之增加,使用起來也顯得繁瑣。
此外,每次想要完成一個(gè)任務(wù),都要手動(dòng)操作——點(diǎn)這兒點(diǎn)那兒,既被動(dòng)又耗時(shí)。比如,同時(shí)處理多個(gè)任務(wù)時(shí),我們需要在寫文檔、查資料、看文件之間來回切換,效率很低,體驗(yàn)也不夠流暢。
而AI助理的出現(xiàn)改變了這一切。
它能夠聽懂我們的語言指令,想讓它做什么,直接開口就行,完全不要記住復(fù)雜的操作步驟。我想記錄一個(gè)想法,只需說“幫我記下來”;遇到問題時(shí),可以說“幫我解決”,整個(gè)過程簡單高效。
更重要的是,AI助理還能在后臺(tái)自動(dòng)完成任務(wù),無需我們時(shí)刻盯著屏幕。它能夠理解我的意圖,將復(fù)雜任務(wù)分解成多個(gè)步驟,并逐步完成。
我有一個(gè)深刻的體會(huì):以前問問題時(shí),需要逐字輸入,有時(shí)還沒打完,思路就中斷了。
現(xiàn)在,通過語音輸入,可以一口氣把問題說完,即使表達(dá)得不夠完整,AI助理也能理解我的意思,并分段幫我解決問題。
在我看來,AI TOC產(chǎn)品經(jīng)理應(yīng)該深入思考一個(gè)命題:如何進(jìn)一步優(yōu)化交互方式,讓用戶和人的關(guān)系,從傳統(tǒng)按鈕變成更自然的對(duì)話。也許,唯有這樣,才能真正做到從「工具」到「智能伙伴」。
你覺得呢?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.