如果說去年沒有自研類 GPT-4 模型是寸步難行,那么今年 AI 的發(fā)展方向愈發(fā)具象化——沒有深度推理模型同樣是萬萬不能。
這也激發(fā)了大廠在 AI 敘事的新一輪競賽,除了接入 DeepSeek ,騰訊元寶、阿里夸克等都密集推出自己的深度思考模式,爭奪 AI 時代的超級應(yīng)用。
百度也不例外,自年初以來,旗下百度文庫、文小言 App 等產(chǎn)品陸續(xù)整合了 DeepSeek-R1 模型。
當(dāng)然,自研模型與接入 DeepSeek 并非對立的選擇,也無需在二者間做非此即彼的取舍。
在文心一言初次亮相兩周年之際,百度今天正式發(fā)布了文心大模型 4.5 以及深度思考模型 X1,APPSO 也受邀提前進(jìn)行了體驗。
簡單概括這兩款模型的「人設(shè)」:
- ???模型 4.5:原?多模態(tài)基礎(chǔ)?模型,擅長生成或解讀圖片、解答問題
- 深度思考 X1:深度思考模型,支持多?具調(diào)?
兩款模型已在文心一言官網(wǎng)上線,附上免費(fèi)使用
https://yiyan.baidu.com
挑西瓜、懂梗圖、辨古畫,文心 4.5 的多模態(tài)能力到底有多強(qiáng)?
先說文心 4.5,作為原?多模態(tài)基礎(chǔ)?模型,它在多模態(tài)識別理解能力上給了我不少驚喜。
面對經(jīng)典的挑西瓜環(huán)節(jié),文心 4.5 給出了顏色、條紋、聲音、瓜地等多種判斷依據(jù),但作為一個成熟且務(wù)實的 AI 老瓜農(nóng),它也沒敢把話說死。
話糙理不糙,只有切開嘗過才知道哪個西瓜最甜。
在識別「梗圖」方面,文心 4.5 也手拿把掐。扔一張表情包試試水,它成功識別了這個豬豬俠的身份,而在另一張表情包的識別上,文心 4.5 不僅讀懂字面意思,還能準(zhǔn)確捕捉到背后的隱喻和言外之意。
這里有個小竅門,除了基本的分享功能,它的回答還能一鍵存百度網(wǎng)盤,或者自動生成文檔,遇到 AI 的神回復(fù)還能隨時收藏,操作銜接相當(dāng)絲滑。
再考考理解力,腦筋急轉(zhuǎn)彎走起。
「有一個字,人人見都會念錯?是什么字?」這題它輕松拿下,沒有被繞進(jìn)去,邏輯推理過程條理清晰,還順手拋出幾個貼合主題的追問。
9.8 和 9.11 哪個大?小菜一碟。然而,我連續(xù)測試了幾次「Strawberry 里有幾個 r」,它的自信溢出屏幕,但也都接連翻車了。
來道能同時考究運(yùn)算能力和圖片識別能力的物理題。它先淡定分析結(jié)構(gòu),再逐一拆解選項,最后穩(wěn)穩(wěn)鎖定正確答案 D,過程有理有據(jù),頗有幾分「物理課代表」的風(fēng)采。
日常生活中,我經(jīng)常會碰到一些不知出處的古畫或者電影截圖,最慣常的做法就是在社交平臺上發(fā)帖和在評論區(qū)求助熱心網(wǎng)友,現(xiàn)在或許可以丟給文心 4.5 試試。
經(jīng)過測試,即便關(guān)閉聯(lián)網(wǎng)搜索功能,它依然能一一精確作答。
除了圖片,音頻識別也不含糊,比如我隨手用手機(jī)錄了段《晴天》,它靠歌詞秒認(rèn)出歌曲,不過,碰上一些過于冷門小眾的歌曲,就不太能指望它。
另外,不管是上傳科技行業(yè)報告,還是前陣子李飛飛在 X 平臺公開的那段 44 秒機(jī)器人最新成果演示視頻,文心 4.5 的總結(jié)能力都讓人挑不出毛病。
去年 11 月份,百度發(fā)布了檢索增強(qiáng)的文生圖技術(shù) iRAG 技術(shù),主打一個無幻覺,超真實。
其核心原理是將百度搜索的億級圖片資源與強(qiáng)大的基礎(chǔ)模型能力相結(jié)合,通過檢索真實可靠的圖片數(shù)據(jù),為生成圖像提供精準(zhǔn)的參考。現(xiàn)在文心 4.5 同樣支持生成圖片。
比方說,最近特斯拉市值波動劇烈。于是,我給世界首富馬斯克謀了條出路,讓文心 4.5 生成一張「馬斯克夜晚擺攤賣燒烤」的照片,
燒烤攤還差個照片,別急,它還支持局部重繪功能,細(xì)節(jié)調(diào)整很人性化。
不過,它在生成文字上還有待改進(jìn),比方說,我想給馬斯克「重繪」一個「馬氏招牌」,要么文字模糊難以辨認(rèn),要么位置偏差,幾輪嘗試下來均以失敗告終。
慢思考≠慢,X1 打開深度推理模型的正確使用方式?
再來說說,百度今天推出的深度推理模型 X1,這顯然是對標(biāo) DeepSeek R1 的一款模型。
據(jù)官方介紹,???模型 X1 由百度 2023 年 10 ?發(fā)布的慢思考技術(shù)進(jìn)化而來,理解、規(guī)劃、反思、進(jìn)化能力全面拉滿,還支持多模態(tài)。
趕時間,把問題交給文心 4.5,復(fù)雜長任務(wù)則由深度推理能力更強(qiáng)的 X1 負(fù)責(zé)。
拿推薦廣州美食這事來說,文心 4.5 只是潦草回答一些籠統(tǒng)的美食稱呼,比如「腸粉」之類敷衍了事,而 X1 直接化身「貼心導(dǎo)游」,店名+地址一條龍奉上,更懂游客的心思。
面對經(jīng)典的電車難題,X1 的思考時間并不算慢,分析得頭頭是道,還從不同倫理體系的角度聊了聊結(jié)果,深度和廣度都在線。
再來一道更復(fù)雜的邏輯推理題,X1 的表現(xiàn)也可圈可點。
多?具調(diào)?是?? X1 的特?之?。
官方表示,X1 目前已經(jīng)解鎖高級搜索、文檔問答、圖片理解、AI 繪圖、代碼解釋器等多款工具。
我突發(fā)奇想,上傳了一張心形圖片,圖片中實則嵌著一個數(shù)學(xué)公式,看似簡單卻頗具挑戰(zhàn)性,畢竟從圖像中提取數(shù)學(xué)信息需要較高的視覺理解和邏輯處理能力。
至于結(jié)果嘛,它順利提取出公式內(nèi)容,還解釋了這個公式的含義。
復(fù)雜的文字生成能力也是 X1 的亮點,我首先要求 X1 生成一個 500 字的劇本,主題是「林黛玉倒拔垂楊柳」,劇本「以柔克剛」,保留了林黛玉的性格特征,還融入了戲劇化的沖突與轉(zhuǎn)折。
緊接著,我進(jìn)一步要求 X1 從心理學(xué)的角度分析這個劇本,并在此基礎(chǔ)上潤色出一版 1000 字的新劇本。
這次的任務(wù)顯然更復(fù)雜,X1 運(yùn)用的理論得當(dāng),雖然不算特別深刻,但對于一個 AI 模型來說,能在短時間內(nèi)完成如此跨學(xué)科的解讀,已屬難能可貴。當(dāng)然,也不是沒有缺點,字?jǐn)?shù)就沒達(dá)到要求。
就回復(fù)而已,相比于 Deepseek 滿嘴「通貨膨脹」的社科黑話,X1 在語言輸出上顯然比較克制,表達(dá)更流暢也更接地氣,多了一些直抵人心的溫度。
DeepSeek 則以全面的思考見長,追求技術(shù)深度和思維廣度,但語言上稍顯疏遠(yuǎn)。
最近,科技博主 Alexander Doria 拋出個觀點—— AI 領(lǐng)域的下一個發(fā)展周期將是「模型本身即產(chǎn)品」,誰能搞定模型訓(xùn)練,誰就握住了未來。
他還引用了 Databricks 投資人 Naveen Rao 的預(yù)測:
「未來 2-3 年,閉源 AI 提供商將停掉 API 服務(wù),只有開源模型會繼續(xù)提供 API,閉源公司會轉(zhuǎn)而打造更獨特的能力。」
反觀國內(nèi)市場,百度的表現(xiàn)頗具代表性。
自兩年前文心一言發(fā)布以來,百度在自研模型上的投入持續(xù)加碼,迭代節(jié)奏穩(wěn)定,文心 4.5 和 X1 的亮相,同樣是「模型即應(yīng)用」趨勢的最佳注腳。
前者靠萬億參數(shù)直擊多模態(tài)能力,后者憑慢思考和多工具調(diào)用秀出推理肌肉。這種差異化的能力布局,精準(zhǔn)契合了用戶多樣化的需求,更讓模型本身從單純的技術(shù)內(nèi)核轉(zhuǎn)變?yōu)榭梢灾苯由鲜质褂玫摹府a(chǎn)品」。
回溯歷史,百度在搜索時代的技術(shù)積累和移動互聯(lián)網(wǎng)時期的轉(zhuǎn)型嘗試,都曾讓其站在風(fēng)口之上,但也因節(jié)奏把握或市場競爭而錯失一些先機(jī)。
映照當(dāng)下,如果將 AI 比作「火種」,兩年前的百度無疑是中國市場上最懂得用火的「普羅米修斯」。但奈何與過往一般,作為中國 AI「黃埔軍校」的百度,卻是起了個大早,趕了個晚集。
這離不開 AI 行業(yè)生態(tài)的潮水流動。
OpenAI CEO Sam Altman 曾在上月預(yù)測,使用固定級別 AI 的成本大約每 12 個月驟降 90%。
成本的快速下降削弱了閉源模式賴以生存的高壁壘,使得技術(shù)壟斷的護(hù)城河逐漸變淺。與此同時,開源與免費(fèi)的模式因其低門檻和高可及性,成為吸引用戶、擴(kuò)大技術(shù)影響力的新路徑。
DeepSeek 和 Manus 接連在短時間快速滲透,也說明了目前 AI 產(chǎn)品還沒有顯著的壁壘,哪個體驗更好用戶就轉(zhuǎn)向哪個,不會有一點留戀。
無論對于百度還是其他大廠,抑或獨立開發(fā)者,似乎又回到了移動互聯(lián)網(wǎng)興起的草莽時代。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.