網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌發(fā)布最強(qiáng)Gemini 2.5 Pro：超越Grok-3，首次在LMArena上排名第一

2025-03-26 11:41:09　來(lái)源: 學(xué)術(shù)頭條

北京舉報(bào)

分享至

今日凌晨，Google 發(fā)布了他們迄今為止性能最強(qiáng)的 Gemini 模型——Gemini 2.5 Pro 實(shí)驗(yàn)版。

據(jù)介紹，Gemini 2.5 Pro 顯示了強(qiáng)大的推理能力和先進(jìn)的代碼能力，并在一系列基準(zhǔn)測(cè)試中均處于領(lǐng)先地位，并首次在 LMArena 上排名第一。

作為會(huì)思考的模型，Gemini 2.5 能夠在做出反應(yīng)前進(jìn)行推理，從而提高性能和準(zhǔn)確性。這種“推理 ”能力不僅僅指分類(lèi)和預(yù)測(cè)，還有系統(tǒng)分析信息、得出邏輯結(jié)論、結(jié)合上下文和細(xì)微差別并做出明智決策的能力。

這是 Google 推出的首個(gè)思維模型，通過(guò) Gemini 2.5，將顯著增強(qiáng)的基礎(chǔ)模型與改進(jìn)的后訓(xùn)練相結(jié)合，將性能提升到新的水平。谷歌表示，在所有模型中直接構(gòu)建這些思維能力，這樣它們就能處理更復(fù)雜的問(wèn)題，支持能力更強(qiáng)的情境感知智能體。

Gemini 2.5 Pro 還顯示出強(qiáng)大的推理和編碼能力，在常見(jiàn)的編碼、數(shù)學(xué)和科學(xué)基準(zhǔn)測(cè)試中領(lǐng)先。在未來(lái)幾周內(nèi)，Google 將推出定價(jià)功能，使人們能夠以更高的速率限制來(lái)使用 2.5 Pro，從而實(shí)現(xiàn)規(guī)模化生產(chǎn)。

增強(qiáng)的推理能力

在一系列需要高級(jí)推理的基準(zhǔn)測(cè)試中，不使用多數(shù)投票等會(huì)增加成本的測(cè)試時(shí)間技術(shù)的情況下，Gemini 2.5 Pro 在 GPQA 和 AIME 2025 等數(shù)學(xué)和科學(xué)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了領(lǐng)先。

此外，在由數(shù)百位學(xué)科專(zhuān)家設(shè)計(jì)的數(shù)據(jù)集“人類(lèi)最后的考試”（Humanity's Last Exam）中，在不使用工具的情況下，2.5 Pro 在各種模型中的得分率高達(dá) 18.8%，達(dá)到了 SOTA。

先進(jìn)的代碼能力

Gemini 2.5 Pro 擅長(zhǎng)創(chuàng)建視覺(jué)上引人注目的網(wǎng)絡(luò)應(yīng)用程序和智能體代碼應(yīng)用程序，以及代碼轉(zhuǎn)換和編輯。在智能體代碼評(píng)估的行業(yè)標(biāo)準(zhǔn) SWE-Bench Verified 上，Gemini 2.5 Pro 通過(guò)自定義智能體設(shè)置獲得了 63.8% 的分?jǐn)?shù)。

在一下視頻中，Gemini 2.5 Pro 通過(guò)單行提示即可生成可執(zhí)行代碼，創(chuàng)建一個(gè)視頻游戲。

參考文獻(xiàn)：

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking

整理：與可

如需轉(zhuǎn)載或投稿，請(qǐng)直接在公眾號(hào)內(nèi)留言

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.