網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌終于登頂！最強(qiáng)推理模型Gemini 2.5 Pro實(shí)測(cè)體驗(yàn)，有點(diǎn)東西

2025-03-26 17:42:11　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

作者：佳琳、佳琪

谷歌有史以來(lái)最智能的 AI 模型。

深夜悄悄搞事情的不只 OpenAI，搶在 OpenAI 開(kāi)直播之前，谷歌上線了最強(qiáng)大的推理模型 Gemini 2.5 Pro。

谷歌 CEO「劈柴哥」甚至用：「這是谷歌有史以來(lái)最智能的 AI 模型。」為它站臺(tái)。

不過(guò)，從 Gemini 2.5 Pro 的成績(jī)單來(lái)看，它可能確實(shí)擔(dān)得起「有史以來(lái)最強(qiáng)」的名號(hào)。

首先來(lái)看推理能力，在被視為人類給 AI 的終極考驗(yàn)的 Humanity's Last Exam 基準(zhǔn)測(cè)試中，不額外調(diào)用工具的 Gemini 2.5 Pro 取得了 18.8% 的準(zhǔn)確率，超過(guò)了能秒解圖論難題的 OpenAI o3-mini（high）。

和推理能力強(qiáng)相關(guān)的科學(xué)和數(shù)學(xué)能力，在 GPQA、AIME 2025 等主流基礎(chǔ)測(cè)試中，Gemini 2.5 Pro 也是遙遙領(lǐng)先，具體成績(jī)?nèi)缦拢?/p>

在編程能力方面，Gemini 2.5 Pro 相比 2.0 實(shí)現(xiàn)了質(zhì)的飛躍，未來(lái)還將不斷增強(qiáng)。

其中，SWE-bench 衡量的是編碼能力，Aider Polyglot 衡量的是模型的代碼編輯水平。除了在 Agentic coding 方面遜色于 Claude 3.7 Sonnet，Gemini 2.5 Pro 均斬獲第一：

谷歌稱 Gemini 2.5 Pro 比較擅長(zhǎng)在創(chuàng)建視覺(jué)效果精美的網(wǎng)頁(yè)應(yīng)用和操作智能體。在官方放出的 demo 中，只需一行提示詞，Gemini 2.5 Pro 就開(kāi)動(dòng)腦筋，逐步推理出了這個(gè)類似「flappy bird」的小游戲的全部代碼，并且直接可玩：

再來(lái)是對(duì)話能力，在大模型競(jìng)技場(chǎng) Chatbot Arena 的榜單上，Gemini 2.5 Pro 以絕對(duì)優(yōu)勢(shì)強(qiáng)勢(shì)登頂，創(chuàng)下了前所未有的最大分?jǐn)?shù)飛躍，比 Grok - 3 和 GPT - 4.5 高接近 40 分：

從第二名以下的成績(jī)，不難發(fā)現(xiàn)，Chatbot Arena 的前幾名分差往往很小，幾乎不超過(guò) 10 分。Grok-3 上個(gè)月剛登頂，第一的位置還沒(méi)坐幾個(gè)月，就被 Gemini 2.5 Pro 甩開(kāi)了。

除了對(duì)話能力，Gemini 2.5 Pro 在 Chatbot Arena 的復(fù)雜指令、編程、數(shù)學(xué)、創(chuàng)意寫(xiě)作、指令跟隨的榜單上也是全面領(lǐng)先，堪稱「六邊形戰(zhàn)士」。

和其他家推理模型不同的是，Gemini 2.5 延續(xù)了 Gemini 系列模型的核心優(yōu)勢(shì) —— 原生多模態(tài)能力和長(zhǎng)上下文窗口。Gemini 2.5 Pro 版本擁有 100 萬(wàn) token 的上下文窗口（沒(méi)有縮減，即將提升至 200 萬(wàn) token），支持文本、音頻、圖像、視頻及完整代碼庫(kù)輸入。

支持把圖像轉(zhuǎn)化為可以 3D 打印的格式。

從 Vision Arena 榜單來(lái)看，Gemini 2.5 Pro 不止支持原生多模態(tài)，能力更是一騎絕塵。

防盜水印一秒蒸發(fā)、證件照 10 秒摳圖，以下是第四名 Gemini-2.0-flash-thinking 「一句話 P 圖」的效果。如今，在新的第一名面前，更是被遠(yuǎn)遠(yuǎn)超越。

作為一個(gè)會(huì)「思考」的模型，Gemini 2.5 Pro 專為復(fù)雜任務(wù)設(shè)計(jì)，更夠能智能地分析信息、理解問(wèn)題的背景和情境以及做出明智的決策。

不過(guò)，谷歌并未公開(kāi)技術(shù)報(bào)告，我們只能從谷歌放出的博客中得知，他們的技術(shù)突破在于強(qiáng)化學(xué)習(xí)、思維鏈提示和后訓(xùn)練。

現(xiàn)在登錄 Google AI Studio，普通用戶和企業(yè)就能體驗(yàn)到 Gemini 2.5 Pro。如果是高貴的 Gemini Advanced 用戶，在桌面和移動(dòng)設(shè)備下來(lái)菜單，就能直接使用了。未來(lái)幾周內(nèi)，Gemini 2.5 Pro 也將登陸 Vertex AI 平臺(tái)。

其實(shí)前幾天，Chatbot Arena 上就有一個(gè)代號(hào)「Nebula」的神秘模型在 LMSYS Arena 屠榜，擊敗了包括 o1、o3-mini 和 Claude 3.7 Thinking 在內(nèi)的眾多對(duì)手。

不知道是不是谷歌偷師了 OpenAI 的營(yíng)銷技巧，正式公布 Gemini 2.5 Pro 之前，劈柴哥也神秘兮兮地發(fā)了一條推特：

不過(guò)現(xiàn)在再模仿「strawberry」可能有點(diǎn)晚了，遇到大佬無(wú)緣無(wú)故開(kāi)始在社交平臺(tái)上發(fā)「詩(shī)和遠(yuǎn)方」，都可以召喚 Grok 來(lái)甄別。

一手實(shí)測(cè)

看完了成績(jī)單，Gemini 2.5 Pro 的實(shí)際水平是否也如此出色呢？

實(shí)測(cè)見(jiàn)真章，機(jī)器之心先對(duì)它的推理、數(shù)學(xué)、科學(xué)和編程四個(gè)方面展開(kāi)了一番測(cè)評(píng)。

推理

根據(jù)之前測(cè)試推理模型的經(jīng)驗(yàn)，我們總結(jié)了幾道很難答對(duì)的邏輯題來(lái)考驗(yàn) Gemini 2.5 Pro。

提示詞：兩個(gè)人同時(shí)來(lái)到了河邊，都想過(guò)河，但只有一條小船，而且小船只能載一個(gè)人。請(qǐng)問(wèn)：他們能否都過(guò)河？

僅用了 11 秒，Gemini 2.5 Pro 成功識(shí)破了邏輯陷阱：「兩個(gè)人同時(shí)來(lái)到了河邊」不一定都在同岸，如果是對(duì)岸就成立了。

提示詞：校長(zhǎng)室的玻璃被人用足球砸壞了，有四個(gè)人被校長(zhǎng)懷疑，四人依次陳述自己理由，其中有一個(gè)人說(shuō)法很可疑，他就是肇事者。
甲：我沒(méi)有砸玻璃。
乙：甲說(shuō)的是對(duì)的。
丙：丁在說(shuō)謊。
丁：我沒(méi)有玩足球。
請(qǐng)問(wèn)肇事者是誰(shuí)？

這回 Gemini 2.5 Pro 的思考時(shí)間長(zhǎng)了一點(diǎn)，但是由于它忽略了在現(xiàn)實(shí)中丙的發(fā)言順序在丁之前，所以丙說(shuō)的一定為假，因此正確答案是丙，Gemini 2.5 Pro 答錯(cuò)了。

其他推理模型很難搞定的圖推題，Gemini 2.5 Pro 也能一次答對(duì)。

數(shù)學(xué)

要檢驗(yàn)推理模型的有多聰明，數(shù)學(xué)題是最好的「智商測(cè)試」，我們先來(lái)一道今年的考研數(shù)學(xué)真題：

過(guò)程和結(jié)果，Gemini 2.5 Pro 都輕松拿下。

再上點(diǎn)強(qiáng)度，來(lái)一道 IMO 2024 年的真題：

一陣強(qiáng)勁的思考過(guò)后，Gemini 2.5 Pro 給出的答案也是正確的。

拼多多砍一刀背后蘊(yùn)含的「極限」思想，也沒(méi)難倒它。

科學(xué)

來(lái)一道 2023 年理綜物理真題 ——

Gemini 2.5 Pro 稍加思考，輕松回答出正確答案。

Gemini 2.0 Flash 則遺憾離場(chǎng)。

編程

我們先讓 Gemini 2.5 Pro 生成一個(gè)貪吃蛇游戲。

「創(chuàng)建一個(gè)經(jīng)典的貪吃蛇小游戲，游戲界面為 400 × 400 像素的畫(huà)布。蛇由若干個(gè) 10 × 10 像素的方塊組成，初始長(zhǎng)度為 3 個(gè)方塊，初始位置在畫(huà)布中心。蛇可以向上、向下、向左、向右移動(dòng)，使用鍵盤(pán)的方向鍵控制蛇的移動(dòng)方向。游戲中隨機(jī)生成一個(gè) 10 × 10 像素的紅色食物，當(dāng)蛇吃到食物時(shí)，長(zhǎng)度增加 1 個(gè)方塊，分?jǐn)?shù)增加 10 分，并重新生成食物。如果蛇撞到畫(huà)布邊界或自身，則游戲結(jié)束，彈出一個(gè)對(duì)話框顯示最終得分，并提供重新開(kāi)始的選項(xiàng)。游戲開(kāi)始時(shí)，蛇以中等速度移動(dòng)，隨著時(shí)間的推移逐漸加快速度，增加游戲的挑戰(zhàn)性。」

Gemini 2.5 Pro 表示毫無(wú)壓力，還貼心附上操作指南。

然后上點(diǎn)難度「增加不可移動(dòng)的障礙物（地圖邊緣 + 隨機(jī) 3 個(gè)方塊）」。

再來(lái)添加一點(diǎn) buff「添加特殊道具（吃到的效果任選 2 種）：加速 / 減速道具，臨時(shí)穿墻（10 秒），清除所有障礙物」。

現(xiàn)在把主場(chǎng)交給 Gemini 2.5 Pro，看看它有什么奇妙想法。

還是非常絲滑～

以上操作 Gemini 2.5 Pro 都是一次成功，沒(méi)有報(bào)錯(cuò)。

最后，我們來(lái)檢查一下 Gemini 2.5 Pro 的代碼審查能力。我們先請(qǐng) DeepSeek 在代碼中植入一些隱藏彩蛋，隨后讓 Gemini 2.5 Pro 檢查修改后的代碼。

不出所料，它精準(zhǔn)地識(shí)別出了問(wèn)題，給出了標(biāo)準(zhǔn)的專業(yè)分析。

不過(guò)，在讓眾多大模型惱火的鵜鶘騎自行車大賽 svg 繪圖大賽中，Gemini 2.5 Pro 還是沒(méi)打過(guò) Claude 3.7 Sonnet。

圖左是 Gemini 2.5 pro 生成的，圖右是 Claude 3.7 Sonnet 生成的。

測(cè)到這里，Gemini 2.5 pro 的水平如何，相信讀者心中已大概有數(shù)了。

與新版 DeepSeek-V3 不約而同的是，Gemini 2.5 pro 也在編程和邏輯方面加強(qiáng)了不少。最近谷歌在多模態(tài)頻頻發(fā)力，不斷推動(dòng)著推理模型原生多模態(tài)能力的提升。

DeepSeek-R1 問(wèn)世后，我們一直在期待能「強(qiáng)推理、慢思考」的大模型進(jìn)化成多模態(tài)模式。這一突破，是否會(huì)由 Gemini 系列率先實(shí)現(xiàn)呢？

http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025

https://x.com/sundarpichai/status/1904579419496386736

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.