網易首頁 > 網易號 > 正文申請入駐

全面評測文心X1/4.5 Turbo！思維鏈升級，推理白菜價，多模態被玩瘋了

2025-04-25 19:49:41　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯漠影

智東西4月25日報道，今天上午，在Create 2025百度AI開發者大會上，百度正式發布文心大模型4.5 Turbo與文心大模型X1 Turbo。這兩款模型的多模態能力、推理能力均有明顯提升，更是在性價比上實現了新的突破——文心X1 Turbo輸入價格為1元/百萬tokens，輸出價格為4元/百萬tokens，均為DeepSeek-R1的25%。

文心4.5 Turbo是一款源自文心4.5的多模態大模型，并在性能與成本上更具優勢。文心X1 Turbo則由上月發布的文心X1升級而來，具備更先進的思維鏈，問答、創作、邏輯推理、工具調用和多模態能力進一步增強。

在數學、寫作、編程、邏輯等領域的多項基準測試中，文心X1 Turbo總體優于DeepSeek-R1、V3最新版。

文心4.5 Turbo的多模態能力與GPT 4.1持平、優于GPT 4o；文本能力與DeepSeek V3最新版持平，優于GPT 4.5、GPT 4.1、GPT 4o。

文心4.5 Turbo、文心X1 Turbo已經文心一言上線，用戶僅需點擊頁面左上角選擇模型便可免費體驗其能力。這兩款模型也已正式上線百度智能云千帆大模型平臺，企業用戶和開發者登錄即可調用API。

新模型發布之際，智東西也在第一時間進行了全面測評。這兩款模型不僅能勝任研報、公文寫作，也能解答編程、醫學、貿易方面的專業問題，并具備強大多模態能力，因而解鎖了拍照出菜譜、識地點、生成產品圖等多樣玩法。

近一個月，百度已密集上4款新模型，文心大模型的能力邊界，正迎來持續拓展，堪稱實力卷王。

一、既能寫研報也會解難題，思維鏈更有條理了

推理模型已成為各家大模型廠商角力的重要方向，本次，文心X1 Turbo的思維鏈迎來升級，具備了邊思考邊調用工具的能力。

在回答一則醫學研究設計問題時，文心X1 Turbo先是將這一任務拆解為清晰的四個步驟，然后根據其自行制定的計劃調用工具、整理信息。其思維鏈重點明確，條理清晰，而非連續的大段文字，用戶可更方便地閱讀大模型的思考過程。

智東西還向一位外科醫生求證了文心X1 Turbo生成結果的專業性，得到的評價如下：

對于新近發生的熱點與時事，文心X1 Turbo展現出不錯的理解與分析能力。當被問及關稅對我國當前經濟的影響時，它給出的數據詳實、分析也較為全面，覆蓋貿易、產業、宏觀經濟三方面。

文心X1 Turbo的工具調用能力使其通用性、可玩性進一步提升。隨手選取一張菜品網圖，發給文心X1 Turbo后，它運用多模態理解、代碼解釋器等工具，打造了一份PDF的制作工序文件。

將一張零件的三視圖發送給文心X1 Turbo，它能精確地識別圖中的零件尺寸、結構，并使用python計算零件的具體體積，可謂是超強生產力工具了。

文本創作一直是文心大模型的強項。收到一份近2萬字的工作報告后，文心X1 Turbo利用?檔問答工具，結合模型自身能力，迅速輸出了一篇2000字的心得體會。引用內容準確，分析方向也恰到好處，符合公文的文風文體。

與文心X1 Turbo同時發布的文心4.5 Turbo，則在多模態理解能力上展現出不俗的實力。

將聊天群里的高糊網絡梗圖甩給文心4.5 Turbo，它既識別出圖中的文字和其他元素，還能將這些元素整合理解，給出準確又兼具趣味性的解讀。

將網友分享的旅游景點找發給文心4.5 Turbo，它馬上就報出了圖中景點的“坐標”，還給出了相關背景信息，這回再也不用追著博主求分享機位了。

文心4.5 Turbo不僅具有圖片理解能力，還能聽懂、看懂音視頻內容。例如，文心4.5 Turbo可以根據行車記錄儀的畫面，給出車禍的責任劃分建議，其對畫面的描述符合事實，并運用了交規知識。

文心4.5 Turbo的多模態能力還可與生圖能力結合。向其發送一張產品海報后，文心4.5 Turbo按照用戶需求將其改為短款襪子，生成了多張不同設計、不同風格的宣傳圖。在電商場景中，這能幫助中小商家們節省許多精力與成本。

邏輯推理方面，文心4.5 Turbo雖并未使用思維鏈，但其生成結果也較有說服力。為反駁“缸中之腦”這一實驗，文心4.5 Turbo給出了5個反駁理由，正反方觀點都得到呈現，反駁簡潔有力。

在開發場景，文心4.5 Turbo能以極快的速度打造出視覺特效、網頁游戲等實用程序。設計下方這一交互特效，文心4.5 Turbo用時20秒。

總體來看，文心4.5 Turbo、文心X1 Turbo在深度思考、問答、創作、邏輯推理、工具調用和多模態能力均迎來升級的，這背后的技術實現路徑與升級邏輯，究竟是什么？

二、模型學習效率提高近2倍，多模態理解效果提升超過30%

從模型類型上來看，文心4.5 Turbo、文心X1 Turbo都是多模態大模型，實現了文本、圖像和視頻的混合訓練。

對許多用戶，尤其是企業用戶而言，同時處理文本、圖像、視頻等多模態數據已近乎成為剛需。在今天的百度Create開發者大會上，百度創始人李彥宏也發表了類似觀點：“多模態將成為未來基礎模型的標配，純文本模型的市場會越變越小，多模態模型的市場會越來越大。”

針對不同模態數據在結構、規模、知識密度上的差異，文心4.5和4.5 Turbo在訓練過程中通過多模態異構專家建模、自適應分辨率視覺編碼、時空重排列的三維旋轉位置編碼、自適應模態感知損失計算等技術，大幅提升跨模態學習效率和多模態融合效果，學習效率提高近2倍，多模態理解效果提升超過30%。

后訓練方面，這兩款模型采用自反饋增強的技術框架，基于大模型自身的生成和評估反饋能力，實現了“訓練-生成-反饋-增強”的模型迭代閉環，不僅解決了大模型對齊過程中，數據生產難度大、成本高、速度慢等問題，還顯著降低了模型幻覺，模型理解和處理復雜任務的能力大幅提升。

為提升模型的理解、生成、邏輯和記憶等能力，文心4.5和4.5 Turbo還使用了融合偏好學習的強化學習技術，通過多元統一獎勵機制，提升了對結果質量判別的準確率，通過離線偏好學習和在線強化學習統一優化，進一步提升了數據利用效率和訓練穩定性，并增強了模型對高質量結果的感知。

在上方案例中，我們已直觀體會到文心X1 Turbo思維鏈升級后增強的問題解決能力。如今，這款模型已突破了僅基于思維鏈優化的范式，在思考路徑中結合工具調用，構建了融合思考和行動的復合思維鏈。同時，結合多元統一的獎勵機制，文心X1 Turbo還實現了長距離思考和行動鏈的端到端優化，大幅提升了跨領域的問題解決能力。

百度還打造了“數據挖掘與合成-數據分析與評估-模型能力反饋”的數據建設閉環，為模型訓練源源不斷地生產知識密度高、類型多樣、領域覆蓋廣的大規模數據，同時，數據建設流程具備良好的可擴展性，能夠輕松遷移到全新的數據類型，實現快速、高效的數據生產。

針對不同模態數據割裂、跨模態語義關聯難度大等問題，他們還研制了融合語義對齊的多模態平行數據構建、融合視覺知識的描述生成等技術，大幅提升不同模態數據的對齊精度和深度語義關聯，增強多模態理解能力。

文心X1 Turbo在多個領域的測試中取得了顯著成績，包括中文簡單問答（Chinese SimpleQA）、寫作評估（WritingBench）、數學（AIME2024、Math-500、DROP）、邏輯推理（Zebra Logic）、中文語義理解（CLUEWSC）、編程能力（Livecodebench）以及指令遵循評估（IFEval和BFCL）。

這些測試涵蓋了從基礎問答到復雜邏輯推理的廣泛領域，展示了文心X1 Turbo在多樣化任務中的綜合能力。文心X1 Turbo在上述測試中的平均分高于DeepSeek-R1、DeepSeek-V3最新版，與OpenAI o1基本持平。

文心4.5 Turbo的多項基準測試成績顯著優于GPT-4o，平均分達到81.90，超過GPT-4.5的80.04，并領先DeepSeek-V3最新版。

三、文心飛槳聯合優化，拉爆AI訓推性價比

百度今天發布的兩款新模型還在性價比上展現出明顯優勢。文心X1 Turbo輸入、輸出價格均為DeepSeek-R1的25%。文心4.5 Turbo每百萬token的輸入價格僅為0.8元，輸出價格3.2元，僅為DeepSeek-V3的40%。

文心大模型的能力拓展和效率提升，以及數字人、代碼智能體等技術創新，離不開飛槳深度學習框架與文心模型的深度協同優化。這種優化涵蓋框架-模型、框架-算力，既提升訓練效果，又優化推理效率，為文心大模型訓推成本的下降提供支撐。

訓練階段，多模態統一掩碼注意力加速技術顯著降低了跨模態計算的掩碼構建開銷，訓練性能大幅提升。推理時，百度引入多模態流式分塊預填充機制，減少首Token延遲，降低顯存峰值，提升推理批次大小和吞吐性能。

相比前代，文心4.5 Turbo訓練吞吐提升5.4倍，推理吞吐提升8倍，極大降低大模型應用成本。

作為AI技術底座，飛槳框架3.0在自動并行、神經網絡編譯器、高階自動微分等方面實現突破，幫助開發者高效構建大模型應用。

飛槳框架3.0動靜統一的自動并行技術，讓大模型分布式訓練代碼量減少80%，開發者可以像寫單機代碼一樣寫分布式代碼。訓推一體技術則將強化學習訓練速度提升114%，加速模型迭代。科學計算場景下，飛槳框架3.0微分方程求解速度較PyTorch快115%。其神經網絡編譯器端到端訓練速度提升27%，計算效率優化成果顯著。

飛槳還支持國內外60+芯片架構，并積極推動軟硬協同優化，這點對有國產化算力需求的國內企業而言十分友好。

大會上，百度還向外界分享了飛槳文心開發者生態的最新數據，目前，飛槳文心擁有超2185萬開發者，服務超過67萬家企業，創建的模型達到110萬。

結語：文心大模型密集迭代，多模態成重要方向

文心大模型的演進歷程展現了百度在AI領域的持續創新。2019年3月，文心大模型1.0正式發布；2023年3月，文心一言的誕生融合了知識增強、檢索增強和對話增強等核心技術，實現了語言理解的飛躍；同年10月，文心4.0版本推出，首次引入慢思考智能體；2025年，文心4.5版本進一步升級為多模態模型，深度思考模型文心X1也同時發布；短短1個多月后，文心4.5 Turbo和文心X1 Turbo的亮相，再次提升了模型效率與能力。

從知識融合、邏輯推理到慢思考、多模態，文心大模型正不斷突破技術邊界，實現了效果與效率的雙重提升。如今，文心大模型已構建起從基礎模型到應用工具的完整生態體系。

旗艦模型如文心4.5和X1在多模態與深度思考領域表現卓越，而文生圖模型、場景模型和輕量模型則滿足了不同場景的需求。文心一言和智能體技術進一步拓展了交互能力，同時，百度還為開發者提供了數據生產、后訓練、推理部署等全流程工具，加速行業創新。

這一布局不僅體現了文心大模型的技術全面性，更展現了其靈活、高效的生態支撐力。進入2025年，百度的模型更新不斷提速，效果更好、成本更低。而在模型之上，就是Create大會主題后半句“應用的天下”這盤更大的棋。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.