3月的最后一天,文小言進行了全面煥新,帶來了多模型融合調度、全新語音大模型、圖片問答和拍題講解等強大功能升級。本文將通過實際體驗,深入剖析文小言此次升級的亮點,探討其在學習教育、旅游戶外、日常生活、設計創作等場景中的應用表現,以及這些升級如何讓AI交互更智能、更貼近用戶需求。
———— / BEGIN / ————
3 月的 AI 圈持續熱鬧非凡,先是 AI Agent 領域的 Manus 引發關注,隨后 GPT-4o 升級又在社交平臺掀起一波“吉卜力風”圖片熱潮,讓 AI 視覺生成能力再次成為焦點。
而在 3 月的最后一天,百度的文小言也進行了全面煥新,不僅上新了多模型融合調度、全新語音大模型的能力,同時也推出了更強大的圖片問答、拍題講解能力。
我第一時間進行了體驗,這次升級不僅讓 AI 交互更智能、更流暢,也讓我更加期待 2025 年 AI 應用體驗的進一步躍升。
接下來,就和大家分享下這次文小言的主要升級點:
模型開放:多模型融合調度,打造更強大腦
如果說 OpenAI 正式推出 ChatGPT 標志著基于 LLM 的 AI 開始走入大眾視野,掐指一算,現在也已經過去了2 年多,但隨著不同模型的推出,背后其實呈現了一個共同規律,那就是模型層的發展,已經開始根據特定的應用場景進行能力的深化,無論是針對視頻領域的 sora,還是近期推出的針對 svg 矢量圖的starVector,都是如此。
但對于普通大眾用戶而言,要去識別在不同場景下使用什么模型,是難度很大的一件事,雖然不同模型基本都會給出在不同應用場景下的測試效果,但這仍依賴一定的專業背景。
有沒有可能讓用戶只需專注表達需求,讓產品來智能匹配最適合的模型,自動生成最優解呢?
我在文小言這次的升級中看到了一種新的解法,那就是它的“自動模式”:
選擇自動模式后,文小言會智能匹配最合適的模式來生成回答,我在自動模式下嘗試提問了不同類型的問題,可以看到,在針對寫詩這類文學創作,以及一些常識類的問題時,借助這個機制,可以更快速地獲取我們需要的內容,而不是仍通過深度思考在那分析我為啥需要開除濕:
但當我提問類似“如何集合自己的需求買保險”這類復雜問題時,文小言則會自動調用深度思考,給我提供一個更結構化、更全面的內容:
除了“自動模式”,我也可以自行選擇使用特定的模型,除了百度最新的文心4.5 和x1 模型外,也可以選擇DeepSeek-R1滿血版,不得不說,這對于一家在自研模型投入巨大的廠商而言,更顯難能可貴。
基于生態開放的思路,文小言本質是將選擇權留給了用戶。不僅提升了產品競爭力,背后也可以看到,它的產品升級邏輯已經從“技術突破”轉向了“用戶價值”,比拼的也不再是單一模型能力,而是誰能讓 AI 能力更高效、更便捷地提供給用戶,這種思路在我接下來的體驗測評中,將更加直觀地展現出來。
全新圖片問答:更全面化的個人助理
這次文心 4.5 模型和 X1 模型(可以理解為為百度「自研的DS」)的接入,為 AI 的場景應用提供了更強大的多模態理解、深度思考、連續任務執行等能力,除了可以做到從圖片中抽取更豐富、更準確的信息,還可以在問答中直接輸出圖文混合的內容。
為了更全面地體驗到文小言的能力,我在不同的場景里都做了體驗測評,包括學習教育、旅行戶外、日常生活、設計、娛樂等方面:
1. 學習教育場景
在這個場景里,我嘗試了大多數家長比較頭疼的小孩作業輔助問題。
在文小言APP里選擇“拍照解題”后,直接對習題冊或試卷拍照,它可以生成不同的解答方案,還提供專業的講解視頻,可以有效解決過往我們過往輔導作業時“只知道問題答案,但難以給小孩講解清楚”的問題,在題干識別、解答廣度、解答質量上,效果都還不錯。
2. 旅游戶外場景
在這個場景里面比較麻煩到的,主要是出國旅游的時候,面對語言環境的差異,我可能連菜單都看不懂,文小言有可能成為我搞定嗎?
我上傳了一張實拍的菜單圖片,拍完后讓文小言直接幫我點菜:
可以看到,它不但識別出了菜單的內容和價格,還結合我的需求生成了點餐的方案,這個場景看似簡單,其實背后對多模態理解能力有極強的要求,不但要能提取到圖片信息,還要對里面哪些是菜品名、哪些是價格有內容層面的理解,這樣才能對特定菜品進行排除,對價格進行計算,從而匹配我的點餐訴求。
除了點餐,在旅游路上看到一些風景想了解地點時,也可以直接通過文小言調用攝像頭直接拍照,它結合圖片搜索地點,并給我回復:
3. 日常生活場景
生活場景里我重點體驗的是比較復雜的消費決策場景,第一個是裝修。
在這個場景里,有時光看樣圖和樣品房很難想象出實際的裝修效果,這個時候結合文小言的「圖文混排生成能力」有奇效,它可以結合我描述的戶型情況,生成不同風格的裝修效果圖:
第二個場景是購物場景,在購買食品、化妝品和衣服的時候,我們經常需要看食品配料、化妝品成分,以及衣服的材質,但通常要么看不懂,要么是搜索麻煩,現在通過文小言,拍照上傳直接提問就能搞定了:
4. 設計創作場景
這是我體驗過程中最驚艷的場景之一。只需提供一個靈感點,文小言就能將其轉化為具體的設計。例如,我讓它以孫克弘的《玉堂芝蘭圖》為靈感,設計一套旗袍,并生成前后效果圖:
在這個過程中,它得先找到《玉堂芝蘭圖》,然后理解這幅圖的元素特點,再和旗袍圖片的特點進行圖生圖的結合,還得確保不同角度展示的合理性,最終再以圖文混排形式整合輸出——這個復雜的過程,如今也簡化到了用戶輸入一句話就能實現的程度。
我相信無論是服裝設計、珠寶設計,還是其他創意設計領域,這種靈感創作能力都將極大提升設計效率與創作自由度。
全新語音大模型:更會聊天的文小言
除了像助理一樣幫我們解決各種難題,文小言這次還升級了全新的語音模型。
據百度語音首席架構師賈磊透露,該模型是百度在業界首個推出、基于全新互相關注意力(Cross-Attention)的端到端語音語言大模型,除了調用成本比行業平均降低50%-90%外,在推理響應速度上,更是將語音交互等待時間壓縮至1秒左右,同時還支持方言對話、復雜知識問答及隨時打斷等場景。
在這個語音模型的加持下,體驗的提升還是比較明顯,一個是對話過程更加自然流暢了,讓整個互動的過程更具“真人感”,另外就是多了講故事、聊方言、角色扮演等好玩的互動場景,讓文小言更像一個貼身陪伴我們的智能伙伴。
總結
總體來看,這次文小言的全面煥新,不僅讓產品更智能、更好用,在多模型融合調度的加持下,也讓 AI 生態更加開放,為用戶提供了更多選擇空間。
無論是語聊的流暢度提升,還是圖片問答、拍題講解等能力的增強,都讓 AI 在實際應用中更高效、更貼近用戶需求。
可以預見,隨著 AI 技術的持續演進,文小言還將不斷優化,讓智能體驗更便捷、更個性化,也讓開放生態帶來的價值進一步釋放。
本文來自作者:Way
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.