智東西
作者 陳駿達(dá)
編輯 心緣
智東西4月17日?qǐng)?bào)道,今天,火山引擎正式發(fā)布了豆包1.5·深度思考模型,采用MoE架構(gòu),總參數(shù)量為200B,激活參數(shù)僅20B,在多項(xiàng)基準(zhǔn)測(cè)試中達(dá)到或接近全球第一梯隊(duì)水平。
在數(shù)學(xué)、編程、科學(xué)領(lǐng)域,豆包1.5·深度思考模型的測(cè)試表現(xiàn)超過DeepSeek-R1、QwQ-32B等國產(chǎn)推理模型,與OpenAI o1、o3-mini-high等模型能力相仿。在高難度通用人工智能測(cè)試ARC-AGI上,其得分更是超過了OpenAI o1和o3-mini-high。
豆包1.5·深度思考模型具有“邊想邊搜”、“視覺理解”等實(shí)用能力,即日起,企業(yè)用戶可以在火山方舟平臺(tái)使用豆包1.5·深度思考模型。火山引擎還升級(jí)了豆包·文生圖模型3.0、豆包·視覺理解模型。
數(shù)據(jù)顯示,截至2025年3月底,豆包大模型日均tokens調(diào)用量已超過12.7萬億,是2024年12月的3倍,是一年前剛剛發(fā)布時(shí)的106倍。IDC報(bào)告顯示,2024年中國公有云大模型調(diào)用量激增,火山引擎以46.4%的市場(chǎng)份額位居中國市場(chǎng)第一。
一、高并發(fā)場(chǎng)景延遲僅20毫秒,可邊想邊搜、視覺理解
豆包1.5·深度思考模型較小的參數(shù)量和激活參數(shù)量,使其具備更低的訓(xùn)練和推理成本,可在高并發(fā)場(chǎng)景實(shí)現(xiàn)20毫秒低延遲。
搜索能力是豆包1.5·深度思考模型的亮點(diǎn)之一。與其他推理模型“先搜索再思考”的模式不同,豆包App基于豆包1.5·深度思考模型進(jìn)行了定向訓(xùn)練,可以“邊想邊搜”。
例如,在給用戶推薦露營裝備時(shí),豆包1.5·深度思考模型可以拆解每個(gè)具體需求的注意事項(xiàng),規(guī)劃信息,自行判斷信息是否完備,并補(bǔ)充搜索信息。在3輪搜索后,豆包1.5·深度思考模型給出了預(yù)算范圍內(nèi)、細(xì)致周到的推薦。
豆包1.5·深度思考模型還具備視覺理解能力,能基于文字、圖像信息進(jìn)行思考。在下方場(chǎng)景中,豆包1.5·深度思考模型就做到了理解菜單內(nèi)容,分析每道菜的組成、照顧不同人的口味和過敏食物,給出預(yù)算內(nèi)的點(diǎn)餐推薦。
據(jù)火山引擎介紹,為了提升豆包1.5·深度思考模型的通用能力,模型團(tuán)隊(duì)優(yōu)化了數(shù)據(jù)處理策略,把可驗(yàn)證數(shù)據(jù)與創(chuàng)意性數(shù)據(jù)進(jìn)行融合處理,滿足各類任務(wù)的需求。
此外,大規(guī)模強(qiáng)化學(xué)習(xí)是訓(xùn)練推理模型的關(guān)鍵技術(shù),通過采用創(chuàng)新的雙軌獎(jiǎng)勵(lì)機(jī)制,兼顧“對(duì)錯(cuò)分明”和“見仁見智”的任務(wù),有效實(shí)現(xiàn)了算法的可靠優(yōu)化。
二、多項(xiàng)跑分打平OpenAI推理模型,AGI測(cè)試優(yōu)勢(shì)明顯
火山引擎公布了豆包1.5·深度思考模型在多項(xiàng)權(quán)威基準(zhǔn)測(cè)試上的跑分結(jié)果。
在AIME 2024、AIME 2025這類數(shù)學(xué)測(cè)試中,豆包1.5·深度思考模型的得分與OpenAI o3-mini-high基本打平,但在難度更高的Beyond AIME上仍與后者有明顯差距。
在博士級(jí)推理難題測(cè)試集GPQA Diamond上,豆包1.5·深度思考模型的得分為77.3,與OpenAI o1、o3-mini-high僅有微小差距。
在編程基準(zhǔn)測(cè)試Code Forces和SWE-bench上,豆包1.5·深度思考模型實(shí)現(xiàn)了接近或超越DeepSeek-R1的成績。
在高難度通用人工智能測(cè)試ARC-AGI上,其得分更是大幅超過了OpenAI o1和o3-mini-high,達(dá)39.9分。
在創(chuàng)意寫作等非推理任務(wù)中,豆包1.5·深度思考模型也展示出泛化能力,能夠勝任更廣泛和復(fù)雜的使用場(chǎng)景。
三、直出2K高清圖片,還能搜索視頻內(nèi)容
全新升級(jí)的豆包·文生圖模型3.0,能夠?qū)崿F(xiàn)更好的文字排版表現(xiàn)、實(shí)拍級(jí)的圖像生成效果,以及2K的高清圖片生成方式。
▲豆包·文生圖模型3.0生成的2K人像(圖源:火山引擎)
豆包·文生圖模型3.0還可廣泛應(yīng)用于影視、海報(bào)、繪畫、玩偶設(shè)計(jì)等營銷、電商、設(shè)計(jì)場(chǎng)景,生成的文字準(zhǔn)確無誤,畫面有設(shè)計(jì)感。
▲豆包·文生圖模型3.0生成的海報(bào)(圖源:火山引擎)
在最新的文生圖領(lǐng)域權(quán)威榜單Artificial Analysis競技場(chǎng)中,豆包·文生圖3.0模型已超越業(yè)界諸多主流模型,排名全球第一梯隊(duì)。
新版本的豆包·視覺理解模型則具備更強(qiáng)的視覺定位能力,支持多目標(biāo)、小目標(biāo)、通用目標(biāo)的框定位和點(diǎn)定位,并支持定位計(jì)數(shù)、描述定位內(nèi)容、3D定位。可應(yīng)用于線下門店的巡檢場(chǎng)景、GUI agent、機(jī)器人訓(xùn)練、自動(dòng)駕駛訓(xùn)練等。
將一盒草莓的圖片發(fā)送給豆包·視覺理解模型,它能迅速數(shù)出有多少草莓,并框定其位置。
同時(shí),新版本在視頻理解能力上也有大幅提升,比如記憶、總結(jié)理解、速度感知、長視頻理解等。豆包·視覺理解模型結(jié)合向量搜索,可直接對(duì)視頻進(jìn)行語義搜索,廣泛適用于安防、家庭看護(hù)等商業(yè)化場(chǎng)景。
結(jié)語:國產(chǎn)推理模型角逐激烈
推理模型已經(jīng)成為國內(nèi)各大模型廠商角逐的重要方向。本次豆包1.5·深度思考模型在推理成本、視覺理解等方面的新能力,或許將成為下一輪推理模型升級(jí)的重要方向。
同日,火山引擎還發(fā)布了OS Agent解決方案、GUI Agent大模型(豆包1.5·UI-TARS);面向大規(guī)模推理,發(fā)布AI云原生·ServingKit推理套件。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.