如果說去年沒有自研類 GPT-4 模型是寸步難行,那么今年 AI 的發展方向愈發具象化——沒有深度推理模型同樣是萬萬不能。
這也激發了大廠在 AI 敘事的新一輪競賽,除了接入 DeepSeek ,騰訊元寶、阿里夸克等都密集推出自己的深度思考模式,爭奪 AI 時代的超級應用。
百度也不例外,自年初以來,旗下百度文庫、文小言 App 等產品陸續整合了 DeepSeek-R1 模型。
當然,自研模型與接入 DeepSeek 并非對立的選擇,也無需在二者間做非此即彼的取舍。
在文心一言初次亮相兩周年之際,百度今天正式發布了文心大模型 4.5 以及深度思考模型 X1,APPSO 也受邀提前進行了體驗。
簡單概括這兩款模型的「人設」:
???模型 4.5:原?多模態基礎?模型,具備萬億級參數,擅長生成或解讀圖片、解答問題
深度思考 X1:深度思考模型,基于慢思考技術發展?來,支持多?具調?
兩款模型已在文心一言官網上線,附上免費使用
https://yiyan.baidu.com
挑西瓜、懂梗圖、辨古畫,文心 4.5 的多模態能力到底有多強?
先說文心 4.5,作為原?多模態基礎?模型,它在多模態識別理解能力上給了我不少驚喜。
面對經典的挑西瓜環節,文心 4.5 給出了顏色、條紋、聲音、瓜地等多種判斷依據,但作為一個成熟且務實的 AI 老瓜農,它也沒敢把話說死。
話糙理不糙,只有切開嘗過才知道哪個西瓜最甜。
在識別「梗圖」方面,文心 4.5 也手拿把掐。
扔一張表情包試試水,它成功識別了這個豬豬俠的身份,而在另一張表情包的識別上,文心 4.5 不僅讀懂字面意思,還能準確捕捉到背后的隱喻和言外之意。
這里有個小竅門,除了基本的分享功能,它的回答還能一鍵存百度網盤,或者自動生成文檔,遇到 AI 的神回復還能隨時收藏,操作銜接相當絲滑。
再考考理解力,腦筋急轉彎走起。
「有一個字,人人見都會念錯?是什么字?」這題它輕松拿下,沒有被繞進去,邏輯推理過程條理清晰,還順手拋出幾個貼合主題的追問。
9.8 和 9.11 哪個大?小菜一碟。然而,我連續測試了幾次「Strawberry 里有幾個 r」,它的自信溢出屏幕,但也都接連翻車了。
來道能同時考究運算能力和圖片識別能力的物理題。 它先淡定分析結構,再逐一拆解選項,最后穩穩鎖定正確答案 D,過程有理有據,頗有幾分「物理課代表」的風采。
日常生活中,我經常會碰到一些不知出處的古畫或者電影截圖,最慣常的做法就是在社交平臺上發帖和在評論區求助熱心網友,現在或許可以丟給文心 4.5 試試。
經過測試,即便關閉聯網搜索功能,它依然能一一精確作答。
除了圖片,音頻識別也不含糊,比如我隨手用手機錄了段《晴天》,它靠歌詞秒認出歌曲,不過,碰上一些過于冷門小眾的歌曲,就不太能指望它。
另外,不管是上傳科技行業報告,還是前陣子李飛飛在 X 平臺公開的那段 44 秒機器人最新成果演示視頻,文心 4.5 的總結能力都讓人挑不出毛病。
去年 11 月份,百度發布了檢索增強的文生圖技術 iRAG 技術,主打一個無幻覺,超真實。
其核心原理是將百度搜索的億級圖片資源與強大的基礎模型能力相結合,通過檢索真實可靠的圖片數據,為生成圖像提供精準的參考。現在文心 4.5 同樣支持生成圖片。
比方說,最近特斯拉市值波動劇烈。于是,我給世界首富馬斯克謀了條出路,讓文心 4.5 生成一張「馬斯克夜晚擺攤賣燒烤」的照片,
燒烤攤還差個招牌,別急,它還支持局部重繪功能,細節調整很人性化。
不過,它在生成文字上還有不少提升空間,比如我想給馬斯克「重繪」一個「馬氏招牌」,要么文字難以辨認,要么位置偏差,幾輪嘗試下來均以失敗告終。
慢思考≠慢,X1 打開深度推理模型的正確使用方式?
再來說說,百度今天推出的深度推理模型 X1,這顯然是對標 DeepSeek R1 的一款模型。
X1 由百度 2023 年 10 ?發布的慢思考技術進化而來,理解、規劃、反思、進化能力全面拉滿,還支持多模態。
趕時間,把問題交給文心 4.5,復雜長任務則由深度推理能力更強的 X1 負責。
拿推薦廣州美食這事來說,文心 4.5 只是潦草回答一些籠統的美食稱呼,比如「腸粉」之類敷衍了事,而 X1 直接化身「貼心導游」,店名+地址一條龍奉上,更懂游客的心思。
面對經典的電車難題,X1 的思考時間并不算慢,分析得頭頭是道,還從不同倫理體系的角度聊了聊結果,深度和廣度都在線。
再來一道更復雜的邏輯推理題,X1 的表現也可圈可點。
多?具調?是?? X1 的特?之?。
官方表示,X1 目前已經解鎖高級搜索、文檔問答、圖片理解、AI 繪圖、代碼解釋器等多款工具。
我突發奇想,上傳了一張心形圖片,圖片中實則嵌著一個數學公式,看似簡單卻頗具挑戰性,畢竟從圖像中提取數學信息需要較高的視覺理解和邏輯處理能力。
至于結果嘛,它順利提取出公式內容,還解釋了這個公式的含義。
復雜的文字生成能力也是 X1 的亮點,我首先要求 X1 生成一個 500 字的劇本,主題是「林黛玉倒拔垂楊柳」,劇本「以柔克剛」,保留了林黛玉的性格特征,還融入了戲劇化的沖突與轉折。
緊接著,我進一步要求 X1 從心理學的角度分析這個劇本,并在此基礎上潤色出一版 1000 字的新劇本。
這次的任務顯然更復雜,X1 運用的理論得當,雖然不算特別深刻,但對于一個 AI 模型來說,能在短時間內完成如此跨學科的解讀,已屬難能可貴。當然,也不是沒有缺點,字數就沒達到要求。
就回復而已,相比于 DeepSeek 有點「通貨膨脹」的社科黑話,X1 在語言輸出上顯然比較克制,表達更流暢也更接地氣,多了一些直抵人心的溫度。
DeepSeek 則以全面的思考見長,追求技術深度和思維廣度,但語言上稍顯疏遠。
最近,科技博主 Alexander Doria 拋出個觀點—— AI 領域的下一個發展周期將是「 模型本身即產品」,誰能搞定模型訓練,誰就握住了未來。
他還引用了 Databricks 投資人 Naveen Rao 的預測: 「未來 2-3 年,閉源 AI 提供商將停掉 API 服務,只有開源模型會繼續提供 API,閉源公司會轉而打造更獨特的能力。 」
反觀國內市場,百度的表現頗具代表性。
自兩年前文心一言發布以來,百度在自研模型上的投入持續加碼,迭代節奏穩定,文心 4.5 和 X1 的亮相,同樣是「模型即應用」趨勢的最佳注腳。
前者靠萬億參數直擊多模態能力,后者憑慢思考和多工具調用秀出推理肌肉。這種差異化的能力布局,讓模型本身從單純的技術內核轉變為可以直接上手使用的「產品」。
回溯歷史,百度在搜索時代的技術積累和移動互聯網時期的轉型嘗試,都曾讓其站在風口之上,但也因節奏把握或市場競爭而錯失一些先機。
如果將 AI 比作「火種」,兩年前的百度無疑是中國市場上最懂得用火的「普羅米修斯」,卻常被外界調侃起了個大早,趕了個晚集。
這離不開 AI 行業生態的潮水流動。 OpenAI CEO Sam Altman 曾在上月預測,使用固定級別 AI 的成本大約每 12 個月驟降 90%。
成本的快速下降削弱了閉源模式賴以生存的高壁壘,使得技術壟斷的護城河逐漸變淺。 與此同時,開源與免費的模式因其低門檻和高可及性,成為吸引用戶、擴大技術影響力的新路徑。
DeepSeek 和 Manus 接連在短時間快速滲透,也說明了目前 AI 產品還沒有顯著的壁壘,哪個體驗更好用戶就轉向哪個,不會有一點留戀。
無論對于百度還是其他大廠,抑或獨立開發者,似乎又回到了移動互聯網興起的草莽時代。
我們正在招募伙伴
簡歷投遞郵箱
hr@ifanr.com
?? 郵件標題
「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.