今日凌晨,Google 發(fā)布了他們迄今為止性能最強(qiáng)的 Gemini 模型——Gemini 2.5 Pro 實(shí)驗(yàn)版。
據(jù)介紹,Gemini 2.5 Pro 顯示了強(qiáng)大的推理能力和先進(jìn)的代碼能力,并在一系列基準(zhǔn)測(cè)試中均處于領(lǐng)先地位,并首次在 LMArena 上排名第一。
作為會(huì)思考的模型,Gemini 2.5 能夠在做出反應(yīng)前進(jìn)行推理,從而提高性能和準(zhǔn)確性。這種“推理 ”能力不僅僅指分類(lèi)和預(yù)測(cè),還有系統(tǒng)分析信息、得出邏輯結(jié)論、結(jié)合上下文和細(xì)微差別并做出明智決策的能力。
這是 Google 推出的首個(gè)思維模型,通過(guò) Gemini 2.5,將顯著增強(qiáng)的基礎(chǔ)模型與改進(jìn)的后訓(xùn)練相結(jié)合,將性能提升到新的水平。谷歌表示,在所有模型中直接構(gòu)建這些思維能力,這樣它們就能處理更復(fù)雜的問(wèn)題,支持能力更強(qiáng)的情境感知智能體。
Gemini 2.5 Pro 還顯示出強(qiáng)大的推理和編碼能力,在常見(jiàn)的編碼、數(shù)學(xué)和科學(xué)基準(zhǔn)測(cè)試中領(lǐng)先。在未來(lái)幾周內(nèi),Google 將推出定價(jià)功能,使人們能夠以更高的速率限制來(lái)使用 2.5 Pro,從而實(shí)現(xiàn)規(guī)模化生產(chǎn)。
增強(qiáng)的推理能力
在一系列需要高級(jí)推理的基準(zhǔn)測(cè)試中,不使用多數(shù)投票等會(huì)增加成本的測(cè)試時(shí)間技術(shù)的情況下,Gemini 2.5 Pro 在 GPQA 和 AIME 2025 等數(shù)學(xué)和科學(xué)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了領(lǐng)先。
此外,在由數(shù)百位學(xué)科專(zhuān)家設(shè)計(jì)的數(shù)據(jù)集“人類(lèi)最后的考試”(Humanity's Last Exam)中,在不使用工具的情況下,2.5 Pro 在各種模型中的得分率高達(dá) 18.8%,達(dá)到了 SOTA。
先進(jìn)的代碼能力
Gemini 2.5 Pro 擅長(zhǎng)創(chuàng)建視覺(jué)上引人注目的網(wǎng)絡(luò)應(yīng)用程序和智能體代碼應(yīng)用程序,以及代碼轉(zhuǎn)換和編輯。在智能體代碼評(píng)估的行業(yè)標(biāo)準(zhǔn) SWE-Bench Verified 上,Gemini 2.5 Pro 通過(guò)自定義智能體設(shè)置獲得了 63.8% 的分?jǐn)?shù)。
在一下視頻中,Gemini 2.5 Pro 通過(guò)單行提示即可生成可執(zhí)行代碼,創(chuàng)建一個(gè)視頻游戲。
參考文獻(xiàn):
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking
整理:與可
如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.