網易首頁 > 網易號 > 正文申請入駐

百度“不裝了”：文小言開放生態，用戶薅到羊毛

2025-03-31 20:58:04　來源: 人人都是產品經理社區

廣東舉報

分享至

3月的最后一天，文小言進行了全面煥新，帶來了多模型融合調度、全新語音大模型、圖片問答和拍題講解等強大功能升級。本文將通過實際體驗，深入剖析文小言此次升級的亮點，探討其在學習教育、旅游戶外、日常生活、設計創作等場景中的應用表現，以及這些升級如何讓AI交互更智能、更貼近用戶需求。

———— / BEGIN / ————

3 月的 AI 圈持續熱鬧非凡，先是 AI Agent 領域的 Manus 引發關注，隨后 GPT-4o 升級又在社交平臺掀起一波“吉卜力風”圖片熱潮，讓 AI 視覺生成能力再次成為焦點。

而在 3 月的最后一天，百度的文小言也進行了全面煥新，不僅上新了多模型融合調度、全新語音大模型的能力，同時也推出了更強大的圖片問答、拍題講解能力。

我第一時間進行了體驗，這次升級不僅讓 AI 交互更智能、更流暢，也讓我更加期待 2025 年 AI 應用體驗的進一步躍升。

接下來，就和大家分享下這次文小言的主要升級點：

模型開放：多模型融合調度，打造更強大腦

如果說 OpenAI 正式推出 ChatGPT 標志著基于 LLM 的 AI 開始走入大眾視野，掐指一算，現在也已經過去了2 年多，但隨著不同模型的推出，背后其實呈現了一個共同規律，那就是模型層的發展，已經開始根據特定的應用場景進行能力的深化，無論是針對視頻領域的 sora，還是近期推出的針對 svg 矢量圖的starVector，都是如此。

但對于普通大眾用戶而言，要去識別在不同場景下使用什么模型，是難度很大的一件事，雖然不同模型基本都會給出在不同應用場景下的測試效果，但這仍依賴一定的專業背景。

有沒有可能讓用戶只需專注表達需求，讓產品來智能匹配最適合的模型，自動生成最優解呢？

我在文小言這次的升級中看到了一種新的解法，那就是它的“自動模式”：

選擇自動模式后，文小言會智能匹配最合適的模式來生成回答，我在自動模式下嘗試提問了不同類型的問題，可以看到，在針對寫詩這類文學創作，以及一些常識類的問題時，借助這個機制，可以更快速地獲取我們需要的內容，而不是仍通過深度思考在那分析我為啥需要開除濕：

但當我提問類似“如何集合自己的需求買保險”這類復雜問題時，文小言則會自動調用深度思考，給我提供一個更結構化、更全面的內容：

除了“自動模式”，我也可以自行選擇使用特定的模型，除了百度最新的文心4.5 和x1 模型外，也可以選擇DeepSeek-R1滿血版，不得不說，這對于一家在自研模型投入巨大的廠商而言，更顯難能可貴。

基于生態開放的思路，文小言本質是將選擇權留給了用戶。不僅提升了產品競爭力，背后也可以看到，它的產品升級邏輯已經從“技術突破”轉向了“用戶價值”，比拼的也不再是單一模型能力，而是誰能讓 AI 能力更高效、更便捷地提供給用戶，這種思路在我接下來的體驗測評中，將更加直觀地展現出來。

全新圖片問答：更全面化的個人助理

這次文心 4.5 模型和 X1 模型（可以理解為為百度「自研的DS」）的接入，為 AI 的場景應用提供了更強大的多模態理解、深度思考、連續任務執行等能力，除了可以做到從圖片中抽取更豐富、更準確的信息，還可以在問答中直接輸出圖文混合的內容。

為了更全面地體驗到文小言的能力，我在不同的場景里都做了體驗測評，包括學習教育、旅行戶外、日常生活、設計、娛樂等方面：

1. 學習教育場景

在這個場景里，我嘗試了大多數家長比較頭疼的小孩作業輔助問題。

在文小言APP里選擇“拍照解題”后，直接對習題冊或試卷拍照，它可以生成不同的解答方案，還提供專業的講解視頻，可以有效解決過往我們過往輔導作業時“只知道問題答案，但難以給小孩講解清楚”的問題，在題干識別、解答廣度、解答質量上，效果都還不錯。

2. 旅游戶外場景

在這個場景里面比較麻煩到的，主要是出國旅游的時候，面對語言環境的差異，我可能連菜單都看不懂，文小言有可能成為我搞定嗎？

我上傳了一張實拍的菜單圖片，拍完后讓文小言直接幫我點菜：

可以看到，它不但識別出了菜單的內容和價格，還結合我的需求生成了點餐的方案，這個場景看似簡單，其實背后對多模態理解能力有極強的要求，不但要能提取到圖片信息，還要對里面哪些是菜品名、哪些是價格有內容層面的理解，這樣才能對特定菜品進行排除，對價格進行計算，從而匹配我的點餐訴求。

除了點餐，在旅游路上看到一些風景想了解地點時，也可以直接通過文小言調用攝像頭直接拍照，它結合圖片搜索地點，并給我回復：

3. 日常生活場景

生活場景里我重點體驗的是比較復雜的消費決策場景，第一個是裝修。

在這個場景里，有時光看樣圖和樣品房很難想象出實際的裝修效果，這個時候結合文小言的「圖文混排生成能力」有奇效，它可以結合我描述的戶型情況，生成不同風格的裝修效果圖：

第二個場景是購物場景，在購買食品、化妝品和衣服的時候，我們經常需要看食品配料、化妝品成分，以及衣服的材質，但通常要么看不懂，要么是搜索麻煩，現在通過文小言，拍照上傳直接提問就能搞定了：

4. 設計創作場景

這是我體驗過程中最驚艷的場景之一。只需提供一個靈感點，文小言就能將其轉化為具體的設計。例如，我讓它以孫克弘的《玉堂芝蘭圖》為靈感，設計一套旗袍，并生成前后效果圖：

在這個過程中，它得先找到《玉堂芝蘭圖》，然后理解這幅圖的元素特點，再和旗袍圖片的特點進行圖生圖的結合，還得確保不同角度展示的合理性，最終再以圖文混排形式整合輸出——這個復雜的過程，如今也簡化到了用戶輸入一句話就能實現的程度。

我相信無論是服裝設計、珠寶設計，還是其他創意設計領域，這種靈感創作能力都將極大提升設計效率與創作自由度。

全新語音大模型：更會聊天的文小言

除了像助理一樣幫我們解決各種難題，文小言這次還升級了全新的語音模型。

據百度語音首席架構師賈磊透露，該模型是百度在業界首個推出、基于全新互相關注意力(Cross-Attention)的端到端語音語言大模型，除了調用成本比行業平均降低50%-90%外，在推理響應速度上，更是將語音交互等待時間壓縮至1秒左右，同時還支持方言對話、復雜知識問答及隨時打斷等場景。

在這個語音模型的加持下，體驗的提升還是比較明顯，一個是對話過程更加自然流暢了，讓整個互動的過程更具“真人感”，另外就是多了講故事、聊方言、角色扮演等好玩的互動場景，讓文小言更像一個貼身陪伴我們的智能伙伴。

總結

總體來看，這次文小言的全面煥新，不僅讓產品更智能、更好用，在多模型融合調度的加持下，也讓 AI 生態更加開放，為用戶提供了更多選擇空間。

無論是語聊的流暢度提升，還是圖片問答、拍題講解等能力的增強，都讓 AI 在實際應用中更高效、更貼近用戶需求。

可以預見，隨著 AI 技術的持續演進，文小言還將不斷優化，讓智能體驗更便捷、更個性化，也讓開放生態帶來的價值進一步釋放。

本文來自作者：Way

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.