網易首頁 > 網易號 > 正文申請入駐

豆包1.5·深度思考模型上線「視覺版本」大模型多模態推理時代來了

2025-04-17 20:02:31　來源: 機器之心Pro

天津舉報

分享至

機器之心報道

作者：蛋醬

這幾天的大模型圈子，特別熱鬧。凌晨是 OpenAI 的 o3 和 o4-mini，一覺醒來，國內這邊的豆包大模型又上新了一波。

巧合的是，都是能看懂圖像、能調用工具的新一代推理模型。

就在今天上午，2025 火山引擎 Force Link AI 創新巡展首站來到杭州。火山引擎總裁譚待宣布，「豆包 1.5?深度思考模型」加入豆包大模型全家桶。即日起，用戶可在火山方舟官網直接調用「豆包 1.5?深度思考模型」API。

豆包 1.5?深度思考模型包含兩個版本，第一個主線版本是大語言模型 Doubao-1.5-thinking-pro，第二個是具備多模態能力的視覺版 Doubao-1.5-thinking-pro-vision。前者推理能力更強，后者支持視覺推理，開發者可以按需使用。

經多項主流基準測試評估，Doubao-1.5-thinking-pro 在數學推理、編程競賽、科學推理等專業領域任務以及創意寫作等通用任務中均表現突出：

進一步想，讓大模型的深度思考疊加視覺理解能力，必然能解鎖更廣泛更好玩的應用方式。Doubao-1.5-thinking-pro-vision 具備強大的視覺理解能力，就像人類一樣，不光基于文字思考，更能基于所見畫面思考，且思考得更立體、更深度。

與此同時，豆包家族的幾位成員也迎來了重磅升級：豆包?視覺理解模型增強了視覺定位能力和視頻搜索能力；豆包文生圖模型 3.0 版本發布，憑借「更好的文字排版表現、實拍級的圖像生成效果、2K 的高清圖片生成」三大優勢，重新樹立了生成式視覺技術的工業級應用標桿。

近一年來，不斷增加的調用量和多場景覆蓋，讓豆包大模型家族持續壯大、越來越全面。去年 12 月，豆包大模型的日均 tokens 調用量達成 4 萬億里程碑。截至 2025 年 3 月底，這個數字已經超過了 12.7 萬億，相比剛發布時實現了超過 106 倍的超高速增長。

本次活動中，火山引擎面向 Agent 服務，發布了 OS Agent 解決方案、GUI Agent 大模型 —— 豆包 1.5?UI-TARS 模型；面向大規模推理，發布了 AI 云原生?ServingKit 推理套件。

不斷提升模型面向企業復雜場景分析能力，為智能決策與行動提供支持，這也是火山引擎穩居國產 AI 云服務平臺第一梯隊的根本原因。據 IDC 報告，2024 年中國公有云大模型調用量激增，火山引擎以 46.4% 的市場份額位居中國市場第一。

能看能思考

「原生多模態」成為推理模型標配

對于大部分豆包 APP 的用戶來說，3 月初上線的「深度思考」是一項非常實用、好用的功能，但關于背后的推理模型的細節，我們卻知之甚少。

從今天的現場發布信息來看，Doubao-1.5-thinking-pro 模型采用 MoE 架構，總參數為 200B，激活參數僅 20B，具備顯著的訓練和推理成本優勢。

專業級推理上，在數學、代碼、科學等專業領域推理任務中表現出色，均已達到或接近全球第一梯隊水平。

數學推理方面，該模型的 AIME 2024 得分為 86.7，追平 OpenAI o3-mini-high。
代碼能力方面，該模型的 Codeforces pass@8 達到了 55.0%，接近 Gemini 2.5 Pro。
科學推理方面，該模型的 GPQA 得分為 77.3%，接近 o3-mini-high。

在創意寫作等非推理任務中，Doubao-1.5-thinking-pro 也展示出優秀的泛化能力，能夠勝任更廣泛和復雜的使用場景。

為了提升模型的通用能力，團隊優化了數據處理策略，把可驗證數據與創意性數據進行融合處理，滿足各類任務的需求。此外，大規模強化學習是訓練推理模型的關鍵技術，團隊通過采用創新的雙軌獎勵機制，兼顧「對錯分明」和「見仁見智」的任務，有效實現了算法的可靠優化。

低延遲對于模型深度思考能力的應用來說是一項關鍵指標。基于高效算法，豆包 1.5?深度思考模型在提供行業極高并發承載能力的同時，實現了 20 毫秒極低延遲。

對于當下的大模型應用來說，深度思考能力已經成為標配。我們都習慣了給 AI 多一點時間「深度思考」再回答問題。但很多生活中的實際問題，解決的過程中也是需要隨時查詢實時信息的。

值得一提的是，目前的豆包 APP 基于豆包 1.5?深度思考模型進行了定向訓練，將聯網能力和深度思考進行了深度綁定。這就很像人類的思維方式 ——「邊想邊搜」。無需人為設定工作流，模型會自動通過強化學習探索中間用什么樣的步驟和過程能達到好的結果，幫助用戶獲得更加全面、準確、契合需求的結果。

我們看一個很常見的用法。在購物推薦這個典型場景中，給到一個條件很苛刻的問題：「一對夫妻帶兩個孩子去露營，溫度低，有雨，希望把裝備買齊，要考慮預算限制，還要兼顧便攜性和安全性。」

豆包首先是拆解每個具體需求需要的注意事項，比如裝備、預算、安全等方面的注意事項，規劃出需要的信息，然后經過了 3 輪搜索，終于給出了符合預算范圍、非常細致、深思熟慮的答案。

話又說回來，總有那么一些問題，你沒辦法純粹用語言向大模型描述。

所以，讓擅長深度思考的模型具備原生的多模態深度理解能力就變得更為重要，也是讓用戶交互方式更自然順暢的關鍵。

僅文本輸入的推理模型做不到處理需要空間、形態或動態變化的任務，而此次推出的視覺版 Doubao-1.5-thinking-pro-vision，可以結合文本、圖像等多源信息，解決需要綜合感知的任務。同時，視覺信息的輸入也能補充文本描述中的模糊性。

比如，面對一張航拍地貌的圖片，豆包 1.5?深度思考模型不僅能注意到不同顏色的湖泊，還觀察到了湖泊的邊緣有白色的鹽結晶和旅游設施情況。然后根據地貌、開發情況、地理位置等進行深度思考和判斷，并對類似景點進行了逐一排除。最終得出準確答案：是「青海大柴旦翡翠湖」！

一手實測

「視覺理解」+「深度思考」有多好用？

「視覺理解」和「深度思考」復合能力的加持，讓豆包 1.5?深度思考模型視覺版提供了非常獨特的用戶體驗。

還有哪些實用的打開方式？這里可以看看機器之心的測試結果：

先來一道幾何證明題。采用「瞪眼法」，我們感覺到答案應該是「30 度」，但我們更想知道解題時的「腦回路」是怎樣的，畢竟不寫證明過程也是不得分的。那就問問豆包 1.5?深度思考模型視覺版：

我們可以看到，模型用了 15 秒，深度思考了滿滿一屏：

然后它用 5 秒寫出了所有解題步驟和最終答案。如果用戶看完答案還不明白，就回去翻看思維鏈過程對比著學即可。

再來一個：在這個沒有紅綠燈的十字路口發生的交通事故，責任如何認定？左轉私家車應該讓直行出租車嗎？

這張照片拍攝的是一個繁忙的十字路口，包含眾多車輛，就算是行人路過想看個熱鬧，也得反應好幾秒。而豆包 1.5?深度思考模型視覺版迅速鎖定了事故車輛雙方的行駛軌跡和碰撞情況，首先列出清晰的法律依據，然后從「原則上」和「例外」兩種情況推理出責任如何判定，考慮的相當全面：

上面這幾個例子都是生活中常見或有趣的用法，接下來，我們再給豆包上點新的難度。

往專業了說，在醫療診斷場景中，豆包 1.5?深度思考模型視覺版還可以協助人類分析醫學影像（X 光、MRI）并生成診斷報告。

患者自述「反復發燒，吃藥不見好」，CT 結果如圖，怎么治？

看看「豆包大夫」怎么分析的。因為我們是以「醫生」的口吻提問，所以豆包 1.5?深度思考模型視覺版給出了多種可能性：「如果能看到雙肺多發斑片狀磨玻璃影或實變，伴有支氣管充氣征，可能提示肺炎，但如果是慢性過程，需要排除結核或真菌感染。如果有鈣化灶，可能提示陳舊性病變」。

需要注意的是，普通人最好只參考它的回復進行初步自查，最終如何治療還是要遵醫囑。

我們測評的最后一個任務涉及專業領域的內容創作，豆包 1.5?深度思考模型視覺版能夠以相當專業的眼光去審視作品，輔助設計或改進創作內容。

這里我們給到了一張建筑草圖，而模型不僅推理了結構力學合理性，還會給出非常專業細致的優化建議：

整體測下來，感覺很厲害。具備視覺推理能力的豆包 1.5?深度思考模型，就像是一個天生長有「聰明大腦」和「眼睛」的超級 AI，解決問題的能力大大提升。

從今天起，人工智能確實進入了一個新的時代，推理模型不再「單打獨斗」，一舉突破純文本或單模態的局限，得以進入到更多復雜、核心、高價值的場景。我們完全可以說，AI 的能力邊界正在無限趨近于人類專家。

視覺理解模型、文生圖模型再升級

在充分認識「豆包 1.5?深度思考模型」的新成員之后，還有兩位豆包大模型家族的成員也迎來了重磅升級。

一位是家族已有成員「豆包?文生圖模型」，此次正式升級為 3.0 版本。

近半年來，文生圖賽道經歷了一場由 GPT-4o 帶來的狂飆突進。而豆包?文生圖模型 3.0 重新樹立了生成式視覺技術的工業級應用標桿。具體來說，它實現了三大突破性升級：更好的文字排版表現、實拍級的圖像生成效果、2K 的高清圖片生成。

首先是中文小字和長文本的生成。新模型不僅較好地解決了小字和長文本的生成難題，更大幅提升了海報排版的美感。比如下方的藝術展海報，里面有中英文混合的 7 種大小字以及長文本，模型在精準生成的基礎上還做到了完美的融合排版：

其次，AI 生成人物圖像的真實感和美感終于「到位」了。大家可以看一下，這兩張都是豆包文生圖 3.0 模型的作品，皮膚質感、表情走向、衣服的紋理等細節的真實度都很贊：

此外，豆包?文生圖 3.0 模型實現了不需要經過二次處理的 2K 高清直出：

豆包?文生圖 3.0 模型也扛住了領域內基準測試的考驗，在最新的文生圖領域權威榜單 Artificial Analysis 競技場中，已超越業界諸多主流模型，躋身全球第一梯隊。

另一位重磅升級的成員是「豆包?視覺理解模型」。

自去年 12 月 Force 大會上發布后，豆包?視覺理解模型已大量應用商業化場景中，且模型能力也在不斷升級。這一次的版本更新帶來了更強視覺定位能力和視頻搜索能力。

首先，最新版本的視覺理解模型支持對單目標、多目標、小目標等進行邊界框或點提示進行定位，并支持基于定位進行計數或描述所定位內容，此外還支持 3D 定位。視覺定位能力的提升，可以讓模型進一步擴展應用場景，例如各行業的巡檢場景、圖形界面操作智能體、機器人訓練、自動駕駛訓練等。

此外，最新版本的視覺理解模型在視頻能力上也有大幅提升，如對話交互、記憶能力、對話交互、總結理解、方向 / 速度 / 順序的感知能力、長視頻能力等。

我們能夠基于視頻理解打造非常有趣的商業化應用。比如，人類白天出門辦公，但家中有寵物需要看管，我們就可以基于視頻理解能力，加上知識庫、向量搜索等能力，對家中的監控視頻進行搜索。

你可能好奇「小貓今天在家都做了什么」，模型能夠毫秒級返回語義相關的視頻片段供查看：

技術超越之后

生態協同效應的釋放

從一年前官宣誕生至今，豆包大模型家族已經「枝繁葉茂」，發展到了 15 位成員的規模。

大模型在業務場景落地的關鍵挑戰：效果不好、成本太貴、落地太難，而豆包大模型始終以更強模型、更低價格、更易落地，幫助企業解決上述問題。

與此同時，火山引擎打造了覆蓋完整鏈路的相關產品，支持 AI 應用落地。在這次活動上，更是有一系列工具和解決方案發布。

作為專為人工智能開發設計的工具，AI IDE 對大模型技術的落地，特別是在簡化模型訓練與調試、數據管理增強、加速模型部署等方面具備關鍵作用。

字節跳動此前發布了國內首個 AI IDE——Trae（The Real AI Engineer）。相比于傳統的 AI 插件產品來說，Trae 將 AI 與 IDE 深度融合，提供更智能的開發體驗，具備交付化、智能化、協作化三個核心特質，使開發者更聚焦解決復雜業務問題而非工程細節。

Agent 賽道從去年火到了今年，也確實是一個極具前景的大模型落地方向。OS Agent 是目前業界公認的真正能從底層發揮 AI Agent 潛力的通用形態，但企業和個人如何打造專屬的通用 Agent，是個挑戰重重的問題。

火山引擎不直接「銷售」Agent 能力，而是希望將構建 OS Agent 的解決方案開放給客戶。

在賦能 AI 應用代碼智能和瀏覽器智能方面，火山引擎解決方案的核心組件是豆包大模型和 veFaaS（函數即服務）、云服務器、云手機等產品。豆包大模型實現代碼的生成和 agent 的流程，veFaaS 則實現代碼沙箱和瀏覽器沙箱的托管，讓企業和開發者可以輕松構建自己的 Code use 和 Browser use。

到了交互和任務相對復雜的 Computer Use 和 Mobile Use 場景，Agent 需要操作電腦或者手機完成任務。火山引擎的解決方案是通過自研 Doubao 1.5 UI TARS 模型以及 Agent，驅動圖形用戶界面進行交互（GUI），而無需依賴特定的應用程序編程接口（API），并且能夠精準識別用戶的任務需求，進行智能感知、自主推理并準確行動。

其中，UI-TARS 是一款助力客戶打造通用智能體的大模型。它將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在單一模型中，突破傳統自動化工具依賴預設規則的局限性，為智能體的界面交互提供了智能體更類似人類、接近人類的模型基礎。

豆包 1.5?UI-TARS 模型在 OS World（https://os-world.github.io/）等 OS 類測試集中取得比較高的分數（目前測下來是 28 分），僅次于 OpenAI CUA 和 Claude sonnet 模型，在國內各類模型中效果最優。目前，豆包?UI-Tars 模型已經上線火山方舟平臺，面向全體用戶提供穩定、高效的服務。

本次新發布的 AI 云原生?ServingKit 推理套件是經過火山方舟 AI 業務、豆包大模型和互聯網、汽車、金融各行業客戶驗證的推理模型部署的一套解決方案，用于幫助客戶更快、更省地完成大模型推理服務。通過 AI 容器編排、AI 網關、推理全鏈路觀測和 AI 加速套件，ServingKit 支持在大規模 GPU 集群上運行推理工作負載，并保障推理服務的高性能、高可用性和資源成本優勢。企業可快速構建高性能、低成本的生產可用的推理服務，聚焦業務創新而非底層運維。

如果說技術解決了「能不能做」的問題，而生態決定的是「如何做得好且可持續」，進而釋放 AI 技術落地的全局價值。火山引擎打造的一系列工具，無一不在大模型落地層面起到了標準化流程、提升效率和促進協作的作用。

從中，我們不僅看到了國產 AI 技術的超越，更看到了生態協同效應的釋放。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.