西風 發自 凹非寺
量子位 | 公眾號 QbitAI
剛剛,百度文小言全面升級了。
基于多模型的能力,文小言升級了包括全新大語音模型圖片問答等在內的一系列有趣兒又實用的新玩法。
比如圖片問答,拍四只不同鸚鵡的大頭照,問它鸚鵡性別(doge)
你還真別說,這都能回答對,分析得頭頭是道:
而且現在圖片問答還可以這樣玩,基于原圖元素一鍵二創,小雛菊杯子搖身幻化出小雛菊手機殼、抽紙盒:
內外兼收,支持多模型融合調度
本次升級,文小言直接把自家剛上線不久的新模型,包括文心大模型X1和4.5,和“隔壁學霸”DeepSeek-R1滿血版擺一塊兒了,進行了多模型融合調度
現在,文小言的用戶在一個頁面可隨意切換使用DeepSeek或是文心X1/4.5特定模型,愛翻誰的牌子就翻誰的。
文心X1是百度半個月前剛發布的號稱是“首個自主運用工具的深度思考模型”。
文心大模型4.5是百度自主研發的新一代原生多模態基礎大模型,在多模態交互、理解方面更強,原生模型聯合預訓練能實現更深層次的模態融合。
另外,文小言上線了「自動模式」,它能夠根據用戶提出的問題識別用戶需求,自動選擇最合適的模型
現在,兩款新模型直接和DeepSeek融合調度,讓文小言擁有了更強的“大腦”。據介紹,他們對DeepSeek還進行了多種功能維度的融合,打通了圖片問答、生圖等鏈路
我們先來考驗一下這個更強“大腦”的邏輯思維能力。
拋給它一個腦筋急轉彎:
- 在一個封閉房間里有三盞燈,門外有三個開關,每個開關分別控制一盞燈。你只能進房間一次。如何判斷出每個開關對應哪盞燈?
只見文小言三下五除二,輕輕松松一步步推理給出了標準答案。判斷依據中也會解釋打開一個開關等待5-10分鐘是為了讓燈發熱等諸如此類的細節。
和一般推理模型不一樣的是,在給出答案之后,它還會自動推薦視頻,有詳解這道題目的視頻,也有和此題類似的更多題目。
如此一來,就方便了大家對題目的延伸理解。
接下來再來一道著名概率難題——“二孩悖論”。
這道題初始表述至少可追溯至1959年,由著名數學家馬丁·加德納在《科學美國人》雜志的“數學游戲”專欄中提出,曾引發數學家們的廣泛爭論,直到現在大家對這道題目的討論似乎也還沒有停止。
問題是醬嬸兒的:
- 史密斯先生有兩個孩子。其中至少有一個是男孩。問:兩個孩子都是男孩的概率是多少?
加德納最初給出的答案是1/3,但他后來承認第二個問題的表述存在歧義,若“至少有一個是男孩”這一信息的獲取方式不同,答案也可能是1/2
那么文小言是怎么回答的?它是1/3派,還是1/2?
文小言在分析中成功發現歧義,認為:
- 根據傳統概率問題,概率應該是1/3,但問題的答案可能取決于信息的獲取方式……另一個孩子是男孩的概率也能是1/2。
最終文小言通過基礎概率空間、條件篩選、目標概率計算分布解析,并用條件概率公式進行驗證得出答案1/3,同時明確給出了歧義辨析
當然,末尾同樣附帶有推薦視頻。
妙就妙在,你還可以讓文小言幫你繪制圖表,這樣分析過程就更一目了然了。
它還挺“懂事兒”自己做了補充,連常見混淆點對比表也一并繪制出來了。
也可以再讓它生成配圖,「自動模式」無需切換模型:
而若切換模型特意指定文心X1來解決問題,它的優勢在于,能夠更靈活地調用各種工具
據百度介紹,文心X1利用遞進式強化學習訓練方法基于思維鏈和行動鏈的端到端訓練多元統一的獎勵系統等技術,文心X1的推理輸出是直接可以圖文混合連續完成任務
比如告訴它:
- 家里的客廳朝向是南偏東,35平米,有一整扇落地窗,請根據要求畫出淺色奶油風、暗黑輕奢風、跳脫童趣風三種不同風格的裝修效果,三個戶型必須一致。
對于這樣的問題,文心X1能多次連續調用AI繪圖等工具,一口氣搞定:
基于文心X1多模態自主運用工具深度思考、文心4.5原生多模態能力以及DeepSeek的推理能力,文小言圖片問答能力更強了,還上新了不少多模態新功能。
多模態功能再升級
現在上新的圖片問答功能可以這樣玩:
能一次性上傳或拍攝多張圖聯合分析問答;也可在拍攝的過程中直接用語音問,說完話它會自動拍攝并識別語音進行作答。
基于文心4.5圖片理解力,它的識別更強,能進行多圖比較;基于文心X1、DeepSeek,它的推理/輸出更強。就像是紅藍buff都加上了。
所以,僅憑借一個山頭的一張照片,它就能分析出這是哪座山:
更復雜一些的任務,比如天氣變暖想出國旅游,人生地不熟定哪個酒店拿捏不準?也可以讓它幫忙參謀參謀。
直接上傳幾張酒店信息截圖,提出需求:
- 從里面推薦2個酒店,適合女生旅游住,有早餐,交通方便,性價比高,給RMB報價和推薦理由。
輕輕松松就能get一份綜合的推薦指南:
諸如此類,比如上傳幾張外文菜單,告訴它想吃什么口味的、預算是多少,它也可以幫你分析總結。
另外,百度把拍照搜題功能也整合過來了,文小言會自動調出百度多年積累的教育資源,很多題目都有視頻版講解:
值得一提的是,新增的“圖個冷知識”功能更富趣味性,用戶可預設“歷史學者”、“科技達人”等人設視角,為同一圖片賦予多維解讀
例如,當用戶詢問“貓窗探秘,為何貓愛窗邊的科學真相?”,文小言能從狩獵本能、能量獲取、領地意識等角度給出獨特解讀。
視頻鏈接:https://mp.weixin.qq.com/s/lOrYfWN-WxsHBlQK_f39FQ
再來看多模態另一個方面,語音通話功能,由百度的全新語音大模型加持。
據了解,該模型是百度在業界首個推出基于全新互相關注意力(cross attention)的端到端語音語言大模型,調用成本較行業平均降低5-10倍,推理響應速度極快,將語音交互等待時間壓縮至1秒左右,極大提升了交互流暢性。
用下來,整體對話流暢自然、延遲度低,belike:
視頻鏈接:https://mp.weixin.qq.com/s/lOrYfWN-WxsHBlQK_f39FQ
特別要指出的是其中的百變大咖功能,支持角色模仿和方言,能用各種有趣的腔調陪你聊天;還有知識問答功能更專注于常識知識科普。
有了百變大咖,所以,你還可以聽到廣西版的睡前故事:
視頻鏈接:https://mp.weixin.qq.com/s/lOrYfWN-WxsHBlQK_f39FQ
除了這些功能,文小言還融合了AI修圖、AI視頻生成、寫作幫手、翻譯、手抄報、聽聽音樂等諸多功能,感興趣的童鞋可以親自上手試試。
下面是AI視頻生成,讓圖片動起來的效果:
AI落地趨勢變了
總結文小言這一次的大翻新,不難發現它正朝著兩個關鍵方向轉變:生態更開放、用戶價值第一
這次直接將DeepSeek接入文小言,不怕跟自家新模型做競爭,足以見其開放的決心。
當大家還在爭論“文心X1與DeepSeek孰強孰弱”,文小言早已跳出了單一模型競爭的維度,攜手更多伙伴,究其本質,是為了帶給用戶更好的體驗。
為什么會有這種轉變?
背后是AI落地趨勢正在發生的變化。
自DeepSeek從開源圈殺出重圍,大模型競賽逐漸呈現出一種戲劇性轉折,行業意識到模型本身正逐漸成為一種可替換的“標準件”。以前比模型,就像比誰家的菜刀鋼材硬,現在更比誰切菜順手,甚至能幫你把土豆絲炒好了。
當技術紅利逐步釋放后,如何讓AI解決真實場景問題成為關鍵,技術優勢必須轉化為可感知的用戶價值。
百度在2025開年后,不論是文小言免費,還是文心大模型開源,種種系列革新舉措,就是盯準了AI落地的新趨勢。
在這種背景下,文小言選擇的路徑頗具啟示性——生態層選擇開放,另外在場景層深耕,同時在價值層進行重構。
作為國產自研大模型出發最早、積累最厚的玩家,文小言的新進展,不容小覷,或將有望成為新一輪被模仿的對象。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.