網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

一周五連發(fā)！AI大模型卷出新高度：阿里豆包谷歌哪家強？

2025-03-28 21:19:12　來源: 雷科技

廣東舉報

分享至

大模型又卷起來了。

3 月 28 日，阿里和字節(jié)不約而同地發(fā)布了各自大模型的重磅升級：一邊是能看圖、讀視頻、還會解數(shù)學(xué)題的視覺推理模型 QVQ-Max；另一邊是豆包開啟測試能邊想邊搜的新版「深度思考」。

圖/ Qwen

同一天，兩大國產(chǎn)大模型都按下了新一輪大模型更新的啟動鍵，或許并非巧合。就在本周，各家主流大模型都發(fā)布了一輪更新：

DeepSeek 發(fā)布 V3-0324 新版本，推理、寫作、編碼能力再提升；Google 也推出了 Gemini-2.5-Pro，幾乎獲得了全方位的能力提升，還在 LMArena 榜單上打出了 40 分的絕對領(lǐng)先優(yōu)勢；OpenAI 也升級了 GPT-4o 圖像生成功能，可控性和質(zhì)量大幅進化。

各家基礎(chǔ)模型又卷了起來。

從圖像生成到視覺推理，從多模態(tài)到超長上下文，這一輪更新更像是一場全方位能力升級的排位賽——不僅卷功能、卷質(zhì)量，還在卷「智能體時代」誰能提供更好的基礎(chǔ)模型。

五大模型集體上新，到底在卷什么？

1、阿里 QVQ-Max：視覺推理能力全開。

圖/ 阿里

對于視覺推理模型，阿里的野心和意圖都非常明顯。早在去年 12 月，阿里 Qwen 團隊就探索性地推出了 QVQ-72B-Preview 視覺推理模型。到了今年 1 月，又為雷鳥創(chuàng)新打造了用于雷鳥 V3 AI 眼鏡的定制模型。

而 QVQ-Max 則是一次全面的升級，不僅能「看懂」圖表、照片、甚至對視頻內(nèi)容進行理解，結(jié)合這些信息進行分析、推理，給出解決方案。比如，它能「看」出一組幾何圖形之間的角度關(guān)系，或是預(yù)測視頻中下一秒可能發(fā)生的行為，在多模態(tài)基準測試上表現(xiàn)出色。

簡單來說，QVQ-Max 對圖片的解析能力非常強，無論是復(fù)雜的圖表還是日常生活中隨手拍的照片，它都能快速識別出關(guān)鍵元素，同時 QVQ-Max 還能進一步分析這些信息，并結(jié)合背景知識得出結(jié)論。

圖/ Qwen

另外值得一提，QVQ-Max 目前已經(jīng)上線了 Qwen Chat（https://chat.qwen.ai），簡單上手體驗了下，對于照片的分析明顯強于Qwen2.5-Max，甚至可以根據(jù)「左上角logo是中國銀行」的提醒對應(yīng)到照片中。

2、豆包新版「深度思考」，主打一個推理進階。

幾乎在同一時間，字節(jié)豆包也測試上線了新版「深度思考」能力，支持在思維鏈條展開的同時動態(tài)發(fā)起搜索，實現(xiàn)「邊想邊搜」。實際體驗中，豆包會在思考過程中搜索資料，不斷通過搜索補充信息再思考。

簡單來說，用戶提問如果涉及時間、地點、上下文變化或需要跨知識鏈的信息整合，豆包將不再「一次性搜一堆」，而是會在推理過程中多次觸發(fā)搜索節(jié)點，不斷修正和豐富自身的思維路徑。

了解 QVQ-Max 的思考過程，圖/豆包

比如我就嘗試了讓豆包深入了解下 QVQ-Max 模型，它就進行了兩次搜索：第一次找到 16 篇參考資料，考慮到部分信息的缺失又進行了第二次搜索，找到 8 篇參考資料。

與 DeepSeek-R1、GPT 系列此前的工具調(diào)度能力相比，豆包此次升級雖并非開創(chuàng)性，但顯然補上了此前在復(fù)雜問題求解方面的短板。

3、DeepSeek-V3 小版本升級，每一點都強了點。

圖/ DeepSeek

DeepSeek-V3 最新發(fā)布的 0324 小版本升級，依舊延續(xù)了「小體積+大能力」的路線，主要借鑒了 DeepSeek-R1 在模型訓(xùn)練中使用的強化學(xué)習(xí)技術(shù)，針對推理、寫作、編程能力做了進一步優(yōu)化。

在前端開發(fā)能力上，新版模型能生成更具現(xiàn)代設(shè)計感的網(wǎng)頁結(jié)構(gòu)，在代碼生成、轉(zhuǎn)換和編輯能力上也更為穩(wěn)定；寫作方面則明顯提升了中文中長篇文本的邏輯性和通順度，更適合小說、劇本等內(nèi)容創(chuàng)作。

4、Gemini 2.5 Pro：谷歌最強通用模型來了。

相比 DeepSeek-V3 ，Google 本周推出的 Gemini 2.5 Pro 是一次真正意義上的「大升級」，在編碼、數(shù)學(xué)、視覺推理、搜索調(diào)度等能力上都得到了全面增強。簡而言之，它正在將「大語言模型」推向「高可信度、多輪決策型智能體」的方向演進。

作為 Google 首個「全能型智能體底座」模型，Gemini 2.5 Pro 在對話能力上可以說是技壓群雄，在機制相對比較合理的大模型競技場 Chatbot Arena 上坐到了第一，并且大幅領(lǐng)先其他一眾頂級大模型，包括 Grok-3、GPT-4.5、DeepSeek-R1。

圖/ Chatbot Arena

編碼方面也就是 Agentic Coding（智能體編碼）弱于 Claude-3.7-Sonnet，但在 SWE-Bench Verified 編程測試中遙遙領(lǐng)先，尤其擅長創(chuàng)建復(fù)雜 web 應(yīng)用程序和代理工具鏈。圖像生成方面，Gemini 2.5 Pro 也有了巨大的進步，在 GPT-4o 升級圖像生成能力之前也驚艷了不少人。

5、GPT-4o 原生圖片生成，效果震撼全球網(wǎng)友。

單從熱度上，GPT-4o（0326）的更新無疑是這一輪集體升級中最大的贏家。本周，OpenAI 為 GPT-4o 推出新一輪的升級，不僅提高了解決復(fù)雜技術(shù)和編碼問題的能力，最出圈的可能還是原生的圖像生成功能。

上線之后，無數(shù)網(wǎng)友在嘗試新版本的圖像生成功能，尤其是讓 GPT-4o 用「吉卜力風(fēng)格」重畫更是塞滿了我的社交媒體時間線。按照 OpenAI CEO 山姆?奧爾特曼（Sam Altman）的說法，GPT-4o 更新之后文生圖需求劇增，甚至造成了 GPU 超負荷。

（ChatGPT 4o 根據(jù)照片生成，原始照片為嗶哩嗶哩在AWE2025的展臺）

相比之前，此次更新顯著提升了對復(fù)雜指令的理解能力和圖文混排渲染的可控性，尤其是在生成圖像中的文字內(nèi)容上，準確率大幅提升。更重要的是，新版 GPT-4o 支持多輪對話過程中連續(xù)地修改圖像風(fēng)格與構(gòu)圖元素，可以逐步調(diào)優(yōu)，視覺一致性也更強，用戶交互體驗也提升了一個維度。

智能體時代逼近，大模型不約而同拼內(nèi)功

如果說此前幾個月大模型的更新節(jié)奏還略顯零散，那么這次幾乎同步到來的集體升級，已經(jīng)清晰地釋放出一個信號：大模型正在全方位補齊能力，并為智能體的爆發(fā)做準備。

過去一年，大模型行業(yè)主旋律是「多模態(tài)」和「高性能」，但這一輪更新之后可以發(fā)現(xiàn)，大廠們開始集體聚焦于三個方向：更強的推理鏈條、更高質(zhì)量的內(nèi)容生成、更接近智能體形態(tài)的系統(tǒng)調(diào)度能力。

推理能力，毫無疑問是重中之重。 QVQ-Max 通過強化視覺推理打開了多模態(tài)理解的深層能力，豆包則借助「邊想邊搜」補上復(fù)雜問題處理的弱項，而 DeepSeek 和 Gemini 更是通過 RLHF（強化學(xué)習(xí)）強化了多輪決策和長期規(guī)劃。

這些動作都指向一個目標：讓大模型不止于「答題機器」，而是能夠真正參與復(fù)雜任務(wù)和流程執(zhí)行。

圖/ Google

與此同時，內(nèi)容生成的質(zhì)量也普遍得到了提升。GPT-4o 升級圖像生成功能背后，實則是文本到圖像再到排版的全流程可控性提升；DeepSeek V3 新版也在強調(diào)從代碼到長文本，內(nèi)容生成質(zhì)量的提高。

無論是圖像生成、代碼生成還是小說生成，今天的模型更強調(diào)「結(jié)構(gòu)正確、風(fēng)格統(tǒng)一、過程透明」，簡言之就是大模型基礎(chǔ)能力的夯實。

而在推理和基礎(chǔ)能力之外，大模型還在快速補齊智能體所需的基礎(chǔ)能力，就比如工具調(diào)用。不管是豆包「動態(tài)搜索」的工具調(diào)用能力，還是 Gemini 在 SWE-Bench 中構(gòu)建多步驟程序的能力，本質(zhì)上都是在為「模型能自主執(zhí)行任務(wù)」做準備。

從這輪更新看，大模型的「智能體化」正在成為下一場大競賽的起點，而基礎(chǔ)能力的全方位補齊，正在讓這場競賽變得越來越像是「拼內(nèi)功」的長期戰(zhàn)役。

而且確信的是，ChatBot 不是大模型的終點，而是 AI 代理，或者說 AI 智能體才是大模型真正無處不在的入口。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.