文:王智遠 | ID:Z201440
這幾天,看了一些關于聊天機器人(Chatbot)的論文,也想了不少東西;這里分享一下我的看法,如果有謬誤,可以提出來,也歡迎和我交流。
事情是這樣:
我前些天遇到一個問題,電腦里、各種工具(比如印象筆記、Obsidian、飛書、釘釘)里,文檔太多了,到處亂放,看著就頭疼。人天生不喜歡亂糟糟的東西,這太煩了。
我就想,要有個本地模型或者AI助理,我一問,它就能幫我把相關內容找出來,整理好,直接給我一個清晰的答案,那該多好;不過,想法只是想法,要實現它還得好好探索。
在探索過程中,我又一次接觸到了聊天機器人(Chatbot)和人工智能體(AI Agent)這兩個詞。很多人以為它們是一樣的,其實完全不一樣。
有什么不一樣呢?
Chatbot收到你的問題后,會用自然語言處理技術去理解你的意思,然后,生成一個合適的回答。在這個過程中,Chatbot得能理解你的話(語義理解),還得記住你們的對話內容(對話管理),這樣才能準確回答你的問題。
比如,你問它:今天天氣怎么樣?它得先明白你想問天氣,然后去查今天的天氣,最后告訴你答案。要是你接著問:“明天呢?”它還得記得你剛剛問過天氣,接著回答明天的情況。
Chatbot在很多地方都很有用,不管是生產還是研究,要是它沒有本地知識,可能就答不上你的問題了。
你有沒有想過,為啥工業界都這么喜歡Chatbot呢?因為它能自動跟人對話,能當智能客服,也能當語音助手。比如天貓、京東、滴滴、支付寶這些平臺,它們的智能客服就是Chatbot,能幫我們解決很多問題,效率很高。
再說說Chatbot的種類,我大概知道有三種。
第一種是關鍵字識別類。
這種機器人很常見,在電商平臺和銀行APP里。它會從你的話里找出關鍵字,然后根據關鍵字來回答你,或者,引導你下一步該怎么做。這種機器人主要是給企業用的,比較實用。
第二種是按鈕/菜單類。
這種機器人沒有太多對話功能。用戶只要點按鈕或者選菜單,就能找到自己想要的信息。它有時候會和關鍵字識別類的機器人一起用,方便用戶操作。
第三種是AI + ML類(人工智能加機器學習)。這種機器人最厲害,它能根據聊天的內容和上下文,進行自然的對話。在GPT出來之前,這種高級的聊天機器人基本都被大公司壟斷了。
后來,隨著自然語言處理技術(NLP)的發展,它有了一個新名字,叫AI Agent。
為啥叫AI Agent呢?
因為現在的聊天機器人變得更強大、更靈活了。按功能分,有任務型、閑聊型和混合型。任務型的機器人像一個小助手,能幫你訂機票、查股票價格或者管理日程,通過多輪對話幫你完成任務。
閑聊型的機器人,主要是陪你聊天,提供情感陪伴,給它一個話題,它都能回應,不過它沒有那么明確的目標;混合型的機器人則是把任務型、閑聊型的特點結合起來,像個全能選手。
再說說對話領域。
開放域的機器人,可以和它聊任何話題。比如你用過Kimi、DeepSeek這些AI聊天框,它們有個聯網功能,打開后就能邊搜邊回答,這就是開放域。
半開放域的機器人,范圍稍微窄一些,但也能聊很多東西。它更專注,聊天范圍很明確,像百度給比亞迪做的那個智能體一樣,它只回答和比亞迪有關的內容。
現在最流行的聊天機器人,大家都知道,是既能檢索又能生成,既可以單輪對話,也能多輪對話,既可以開放域,也能封閉域。因為它們變得這么靈活,功能也升級了,它的名字也升級了,才叫:AI Agent。
這就是它的不同和升級之處。
既然這樣,問題來了,是不是AI Agent出來后,代表著傳統的chatbot能力沒用了呢?不是的。我認為,諸多廠商都在補齊這個能力。
為什么這么說呢?先說說我的解決方案,你就明白了。
我電腦里存了大量資料,像各種各樣的文件夾,生活工作的照片,還有五花八門的文檔,Word、Excel、PDF啥都有。
為了讓MacBook里的文件和筆記能快速找到,又不想部署本地模型,我就在Cherry Studio里接入了BAAI/bge-m3模型,這樣,它能調用本地知識庫,我現在可以用對話框,對電腦知識庫提問。
說個例子:
比如,我現在想知道電腦里幾十個PPT里,關于某個方案的結論。我的做法是,把它們放到一個主題文件夾里,然后在Cherry Studio的對話框里輸入問題,比如:這個方案的最終結論是什么?
模型就會自動從這些PPT里找到相關內容,把結論整理出來告訴我。這樣,我就不要一個個打開PPT去翻找了,方便多了;其實,這個能力是Chatbot、工具、本地知識庫和AI模型結合起來實現的。
再舉個例子,Obsidian。
我之前說過,Obsidian里有500多萬字的內容,這些是我一點點積累下來的碎片化想法。但是,內容這么多,用Dataview插件都過濾不出來,要是靠人工去查找特定信息,那可太累了。
怎么辦?
后來,我在Obsidian里裝了一個Copilot插件,然后通過API接入了豆包大模型。有了這個Chatbot,豆包直接基于我的知識庫給我回答問題,它不僅能給我相關鏈接,還能生成我想要的內容,方便多了。
所以,結論是:AI Agent并不是獨立存在的。
我是通過工具(比如Cherry Studio、Copilot)接入API,用它來索引本地知識庫,這樣,智能體,就能更好地融入工作流、理解和回答我的問題。
但是,這樣還不夠。因為,它只能做生成式回答,還不具備制定任務和執行復雜操作的能力。
換句話說,它能根據我的問題調動電腦上任何交流的內容、資料,生成合適的回答,但沒辦法主動去安排任務、乃至,協調多個步驟或者管理復雜的工作流程。
市面上,目前我看到把檢索、本地知識和技能打通的有三家:Notion、釘釘、Apple Intelligence。
Notion的特點是,你可以直接對著它的Notion AI進行操作,比如做表格、提問、畫流程圖、頭腦風暴想法,或者起草會議流程。它把那些繁瑣的操作都隱藏起來,實現了自動化。它的搜索功能,本質上已經像一個智能體了。
釘釘的個人AI助理,是聊天機器人的升級版。它不僅有了“手腳”(通過API接入各種技能),還能記住本地知識庫的內容,并且能幫你制定任務。
蘋果的Apple Intelligence本質上也是一個聊天機器人。你可能在小紅書或抖音上看到過很多人用Intelligence的場景,用戶只要對著iPhone問問題、提任務、做搜索或者做備忘,它都能搞定。
所以,他們三家的前瞻之處在于,從根源、從系統的底層入手,都在理解,并嘗試解決一個人在面對工具和內容混亂時的低效和協同性問題。
AIPC到來,相信肯定也是電腦上帶一個AI助理,用嘴喊一下,“嗨,Siri,幫我打開微信,我要給……
但這種簡單的語音指令只是表面功能,而背后是不是像我上述說的一樣:自動整合相關工具、內容,從而讓用戶從繁瑣的操作中解放出來呢?我想,肯定會的,應該快了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.