網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

豆包1.5深度思考模型發(fā)布：暴砍參數(shù)量，能看圖思考，數(shù)學(xué)編程超DeepSeek-R1

2025-04-17 16:02:49　來源: 智東西

北京舉報(bào)

分享至

智東西
作者陳駿達(dá)
編輯心緣

智東西4月17日?qǐng)?bào)道，今天，火山引擎正式發(fā)布了豆包1.5·深度思考模型，采用MoE架構(gòu)，總參數(shù)量為200B，激活參數(shù)僅20B，在多項(xiàng)基準(zhǔn)測(cè)試中達(dá)到或接近全球第一梯隊(duì)水平。

在數(shù)學(xué)、編程、科學(xué)領(lǐng)域，豆包1.5·深度思考模型的測(cè)試表現(xiàn)超過DeepSeek-R1、QwQ-32B等國產(chǎn)推理模型，與OpenAI o1、o3-mini-high等模型能力相仿。在高難度通用人工智能測(cè)試ARC-AGI上，其得分更是超過了OpenAI o1和o3-mini-high。

豆包1.5·深度思考模型具有“邊想邊搜”、“視覺理解”等實(shí)用能力，即日起，企業(yè)用戶可以在火山方舟平臺(tái)使用豆包1.5·深度思考模型。火山引擎還升級(jí)了豆包·文生圖模型3.0、豆包·視覺理解模型。

數(shù)據(jù)顯示，截至2025年3月底，豆包大模型日均tokens調(diào)用量已超過12.7萬億，是2024年12月的3倍，是一年前剛剛發(fā)布時(shí)的106倍。IDC報(bào)告顯示，2024年中國公有云大模型調(diào)用量激增，火山引擎以46.4%的市場(chǎng)份額位居中國市場(chǎng)第一。

一、高并發(fā)場(chǎng)景延遲僅20毫秒，可邊想邊搜、視覺理解

豆包1.5·深度思考模型較小的參數(shù)量和激活參數(shù)量，使其具備更低的訓(xùn)練和推理成本，可在高并發(fā)場(chǎng)景實(shí)現(xiàn)20毫秒低延遲。

搜索能力是豆包1.5·深度思考模型的亮點(diǎn)之一。與其他推理模型“先搜索再思考”的模式不同，豆包App基于豆包1.5·深度思考模型進(jìn)行了定向訓(xùn)練，可以“邊想邊搜”。

例如，在給用戶推薦露營裝備時(shí)，豆包1.5·深度思考模型可以拆解每個(gè)具體需求的注意事項(xiàng)，規(guī)劃信息，自行判斷信息是否完備，并補(bǔ)充搜索信息。在3輪搜索后，豆包1.5·深度思考模型給出了預(yù)算范圍內(nèi)、細(xì)致周到的推薦。

豆包1.5·深度思考模型還具備視覺理解能力，能基于文字、圖像信息進(jìn)行思考。在下方場(chǎng)景中，豆包1.5·深度思考模型就做到了理解菜單內(nèi)容，分析每道菜的組成、照顧不同人的口味和過敏食物，給出預(yù)算內(nèi)的點(diǎn)餐推薦。

據(jù)火山引擎介紹，為了提升豆包1.5·深度思考模型的通用能力，模型團(tuán)隊(duì)優(yōu)化了數(shù)據(jù)處理策略，把可驗(yàn)證數(shù)據(jù)與創(chuàng)意性數(shù)據(jù)進(jìn)行融合處理，滿足各類任務(wù)的需求。

此外，大規(guī)模強(qiáng)化學(xué)習(xí)是訓(xùn)練推理模型的關(guān)鍵技術(shù)，通過采用創(chuàng)新的雙軌獎(jiǎng)勵(lì)機(jī)制，兼顧“對(duì)錯(cuò)分明”和“見仁見智”的任務(wù)，有效實(shí)現(xiàn)了算法的可靠優(yōu)化。

二、多項(xiàng)跑分打平OpenAI推理模型，AGI測(cè)試優(yōu)勢(shì)明顯

火山引擎公布了豆包1.5·深度思考模型在多項(xiàng)權(quán)威基準(zhǔn)測(cè)試上的跑分結(jié)果。

在AIME 2024、AIME 2025這類數(shù)學(xué)測(cè)試中，豆包1.5·深度思考模型的得分與OpenAI o3-mini-high基本打平，但在難度更高的Beyond AIME上仍與后者有明顯差距。

在博士級(jí)推理難題測(cè)試集GPQA Diamond上，豆包1.5·深度思考模型的得分為77.3，與OpenAI o1、o3-mini-high僅有微小差距。

在編程基準(zhǔn)測(cè)試Code Forces和SWE-bench上，豆包1.5·深度思考模型實(shí)現(xiàn)了接近或超越DeepSeek-R1的成績。

在高難度通用人工智能測(cè)試ARC-AGI上，其得分更是大幅超過了OpenAI o1和o3-mini-high，達(dá)39.9分。

在創(chuàng)意寫作等非推理任務(wù)中，豆包1.5·深度思考模型也展示出泛化能力，能夠勝任更廣泛和復(fù)雜的使用場(chǎng)景。

三、直出2K高清圖片，還能搜索視頻內(nèi)容

全新升級(jí)的豆包·文生圖模型3.0，能夠?qū)崿F(xiàn)更好的文字排版表現(xiàn)、實(shí)拍級(jí)的圖像生成效果，以及2K的高清圖片生成方式。

▲豆包·文生圖模型3.0生成的2K人像（圖源：火山引擎）

豆包·文生圖模型3.0還可廣泛應(yīng)用于影視、海報(bào)、繪畫、玩偶設(shè)計(jì)等營銷、電商、設(shè)計(jì)場(chǎng)景，生成的文字準(zhǔn)確無誤，畫面有設(shè)計(jì)感。

▲豆包·文生圖模型3.0生成的海報(bào)（圖源：火山引擎）

在最新的文生圖領(lǐng)域權(quán)威榜單Artificial Analysis競技場(chǎng)中，豆包·文生圖3.0模型已超越業(yè)界諸多主流模型，排名全球第一梯隊(duì)。

新版本的豆包·視覺理解模型則具備更強(qiáng)的視覺定位能力，支持多目標(biāo)、小目標(biāo)、通用目標(biāo)的框定位和點(diǎn)定位，并支持定位計(jì)數(shù)、描述定位內(nèi)容、3D定位。可應(yīng)用于線下門店的巡檢場(chǎng)景、GUI agent、機(jī)器人訓(xùn)練、自動(dòng)駕駛訓(xùn)練等。

將一盒草莓的圖片發(fā)送給豆包·視覺理解模型，它能迅速數(shù)出有多少草莓，并框定其位置。

同時(shí)，新版本在視頻理解能力上也有大幅提升，比如記憶、總結(jié)理解、速度感知、長視頻理解等。豆包·視覺理解模型結(jié)合向量搜索，可直接對(duì)視頻進(jìn)行語義搜索，廣泛適用于安防、家庭看護(hù)等商業(yè)化場(chǎng)景。

結(jié)語：國產(chǎn)推理模型角逐激烈

推理模型已經(jīng)成為國內(nèi)各大模型廠商角逐的重要方向。本次豆包1.5·深度思考模型在推理成本、視覺理解等方面的新能力，或許將成為下一輪推理模型升級(jí)的重要方向。

同日，火山引擎還發(fā)布了OS Agent解決方案、GUI Agent大模型（豆包1.5·UI-TARS）；面向大規(guī)模推理，發(fā)布AI云原生·ServingKit推理套件。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.