機(jī)器之心報(bào)道
作者:佳琳、佳琪
谷歌有史以來(lái)最智能的 AI 模型。
深夜悄悄搞事情的不只 OpenAI,搶在 OpenAI 開(kāi)直播之前,谷歌上線了最強(qiáng)大的推理模型 Gemini 2.5 Pro。
谷歌 CEO「劈柴哥」甚至用:「這是谷歌有史以來(lái)最智能的 AI 模型。」為它站臺(tái)。
不過(guò),從 Gemini 2.5 Pro 的成績(jī)單來(lái)看,它可能確實(shí)擔(dān)得起「有史以來(lái)最強(qiáng)」的名號(hào)。
首先來(lái)看推理能力,在被視為人類給 AI 的終極考驗(yàn)的 Humanity's Last Exam 基準(zhǔn)測(cè)試中,不額外調(diào)用工具的 Gemini 2.5 Pro 取得了 18.8% 的準(zhǔn)確率,超過(guò)了能秒解圖論難題的 OpenAI o3-mini(high)。
和推理能力強(qiáng)相關(guān)的科學(xué)和數(shù)學(xué)能力,在 GPQA、AIME 2025 等主流基礎(chǔ)測(cè)試中,Gemini 2.5 Pro 也是遙遙領(lǐng)先,具體成績(jī)?nèi)缦拢?/p>
在編程能力方面,Gemini 2.5 Pro 相比 2.0 實(shí)現(xiàn)了質(zhì)的飛躍,未來(lái)還將不斷增強(qiáng)。
其中,SWE-bench 衡量的是編碼能力,Aider Polyglot 衡量的是模型的代碼編輯水平。除了在 Agentic coding 方面遜色于 Claude 3.7 Sonnet,Gemini 2.5 Pro 均斬獲第一:
谷歌稱 Gemini 2.5 Pro 比較擅長(zhǎng)在創(chuàng)建視覺(jué)效果精美的網(wǎng)頁(yè)應(yīng)用和操作智能體。在官方放出的 demo 中,只需一行提示詞,Gemini 2.5 Pro 就開(kāi)動(dòng)腦筋,逐步推理出了這個(gè)類似「flappy bird」的小游戲的全部代碼,并且直接可玩:
再來(lái)是對(duì)話能力,在大模型競(jìng)技場(chǎng) Chatbot Arena 的榜單上,Gemini 2.5 Pro 以絕對(duì)優(yōu)勢(shì)強(qiáng)勢(shì)登頂,創(chuàng)下了前所未有的最大分?jǐn)?shù)飛躍,比 Grok - 3 和 GPT - 4.5 高接近 40 分:
從第二名以下的成績(jī),不難發(fā)現(xiàn),Chatbot Arena 的前幾名分差往往很小,幾乎不超過(guò) 10 分。Grok-3 上個(gè)月剛登頂,第一的位置還沒(méi)坐幾個(gè)月,就被 Gemini 2.5 Pro 甩開(kāi)了。
除了對(duì)話能力,Gemini 2.5 Pro 在 Chatbot Arena 的復(fù)雜指令、編程、數(shù)學(xué)、創(chuàng)意寫(xiě)作、指令跟隨的榜單上也是全面領(lǐng)先,堪稱「六邊形戰(zhàn)士」。
和其他家推理模型不同的是,Gemini 2.5 延續(xù)了 Gemini 系列模型的核心優(yōu)勢(shì) —— 原生多模態(tài)能力和長(zhǎng)上下文窗口。Gemini 2.5 Pro 版本擁有 100 萬(wàn) token 的上下文窗口(沒(méi)有縮減,即將提升至 200 萬(wàn) token),支持文本、音頻、圖像、視頻及完整代碼庫(kù)輸入。
支持把圖像轉(zhuǎn)化為可以 3D 打印的格式。
從 Vision Arena 榜單來(lái)看,Gemini 2.5 Pro 不止支持原生多模態(tài),能力更是一騎絕塵。
防盜水印一秒蒸發(fā)、證件照 10 秒摳圖,以下是第四名 Gemini-2.0-flash-thinking 「一句話 P 圖」的效果。如今,在新的第一名面前,更是被遠(yuǎn)遠(yuǎn)超越。
作為一個(gè)會(huì)「思考」的模型,Gemini 2.5 Pro 專為復(fù)雜任務(wù)設(shè)計(jì),更夠能智能地分析信息、理解問(wèn)題的背景和情境以及做出明智的決策。
不過(guò),谷歌并未公開(kāi)技術(shù)報(bào)告,我們只能從谷歌放出的博客中得知,他們的技術(shù)突破在于強(qiáng)化學(xué)習(xí)、思維鏈提示和后訓(xùn)練。
現(xiàn)在登錄 Google AI Studio,普通用戶和企業(yè)就能體驗(yàn)到 Gemini 2.5 Pro。如果是高貴的 Gemini Advanced 用戶,在桌面和移動(dòng)設(shè)備下來(lái)菜單,就能直接使用了。未來(lái)幾周內(nèi),Gemini 2.5 Pro 也將登陸 Vertex AI 平臺(tái)。
其實(shí)前幾天,Chatbot Arena 上就有一個(gè)代號(hào)「Nebula」的神秘模型在 LMSYS Arena 屠榜,擊敗了包括 o1、o3-mini 和 Claude 3.7 Thinking 在內(nèi)的眾多對(duì)手。
不知道是不是谷歌偷師了 OpenAI 的營(yíng)銷技巧,正式公布 Gemini 2.5 Pro 之前,劈柴哥也神秘兮兮地發(fā)了一條推特:
不過(guò)現(xiàn)在再模仿「strawberry」可能有點(diǎn)晚了,遇到大佬無(wú)緣無(wú)故開(kāi)始在社交平臺(tái)上發(fā)「詩(shī)和遠(yuǎn)方」,都可以召喚 Grok 來(lái)甄別。
一手實(shí)測(cè)
看完了成績(jī)單,Gemini 2.5 Pro 的實(shí)際水平是否也如此出色呢?
實(shí)測(cè)見(jiàn)真章,機(jī)器之心先對(duì)它的推理、數(shù)學(xué)、科學(xué)和編程四個(gè)方面展開(kāi)了一番測(cè)評(píng)。
推理
根據(jù)之前測(cè)試推理模型的經(jīng)驗(yàn),我們總結(jié)了幾道很難答對(duì)的邏輯題來(lái)考驗(yàn) Gemini 2.5 Pro。
提示詞:兩個(gè)人同時(shí)來(lái)到了河邊,都想過(guò)河,但只有一條小船,而且小船只能載一個(gè)人。請(qǐng)問(wèn):他們能否都過(guò)河?
僅用了 11 秒,Gemini 2.5 Pro 成功識(shí)破了邏輯陷阱:「兩個(gè)人同時(shí)來(lái)到了河邊」不一定都在同岸,如果是對(duì)岸就成立了。
提示詞:校長(zhǎng)室的玻璃被人用足球砸壞了,有四個(gè)人被校長(zhǎng)懷疑,四人依次陳述自己理由,其中有一個(gè)人說(shuō)法很可疑,他就是肇事者。
甲:我沒(méi)有砸玻璃。
乙:甲說(shuō)的是對(duì)的。
丙:丁在說(shuō)謊。
丁:我沒(méi)有玩足球。
請(qǐng)問(wèn)肇事者是誰(shuí)?
這回 Gemini 2.5 Pro 的思考時(shí)間長(zhǎng)了一點(diǎn),但是由于它忽略了在現(xiàn)實(shí)中丙的發(fā)言順序在丁之前,所以丙說(shuō)的一定為假,因此正確答案是丙,Gemini 2.5 Pro 答錯(cuò)了。
其他推理模型很難搞定的圖推題,Gemini 2.5 Pro 也能一次答對(duì)。
數(shù)學(xué)
要檢驗(yàn)推理模型的有多聰明,數(shù)學(xué)題是最好的「智商測(cè)試」,我們先來(lái)一道今年的考研數(shù)學(xué)真題:
過(guò)程和結(jié)果,Gemini 2.5 Pro 都輕松拿下。
再上點(diǎn)強(qiáng)度,來(lái)一道 IMO 2024 年的真題:
一陣強(qiáng)勁的思考過(guò)后,Gemini 2.5 Pro 給出的答案也是正確的。
拼多多砍一刀背后蘊(yùn)含的「極限」思想,也沒(méi)難倒它。
科學(xué)
來(lái)一道 2023 年理綜物理真題 ——
Gemini 2.5 Pro 稍加思考,輕松回答出正確答案。
Gemini 2.0 Flash 則遺憾離場(chǎng)。
編程
我們先讓 Gemini 2.5 Pro 生成一個(gè)貪吃蛇游戲。
「創(chuàng)建一個(gè)經(jīng)典的貪吃蛇小游戲,游戲界面為 400 × 400 像素的畫(huà)布。蛇由若干個(gè) 10 × 10 像素的方塊組成,初始長(zhǎng)度為 3 個(gè)方塊,初始位置在畫(huà)布中心。蛇可以向上、向下、向左、向右移動(dòng),使用鍵盤(pán)的方向鍵控制蛇的移動(dòng)方向。游戲中隨機(jī)生成一個(gè) 10 × 10 像素的紅色食物,當(dāng)蛇吃到食物時(shí),長(zhǎng)度增加 1 個(gè)方塊,分?jǐn)?shù)增加 10 分,并重新生成食物。如果蛇撞到畫(huà)布邊界或自身,則游戲結(jié)束,彈出一個(gè)對(duì)話框顯示最終得分,并提供重新開(kāi)始的選項(xiàng)。游戲開(kāi)始時(shí),蛇以中等速度移動(dòng),隨著時(shí)間的推移逐漸加快速度,增加游戲的挑戰(zhàn)性。」
Gemini 2.5 Pro 表示毫無(wú)壓力,還貼心附上操作指南。
然后上點(diǎn)難度「增加不可移動(dòng)的障礙物(地圖邊緣 + 隨機(jī) 3 個(gè)方塊)」。
再來(lái)添加一點(diǎn) buff「添加特殊道具(吃到的效果任選 2 種):加速 / 減速道具,臨時(shí)穿墻(10 秒),清除所有障礙物」。
現(xiàn)在把主場(chǎng)交給 Gemini 2.5 Pro,看看它有什么奇妙想法。
還是非常絲滑~
以上操作 Gemini 2.5 Pro 都是一次成功,沒(méi)有報(bào)錯(cuò)。
最后,我們來(lái)檢查一下 Gemini 2.5 Pro 的代碼審查能力。我們先請(qǐng) DeepSeek 在代碼中植入一些隱藏彩蛋,隨后讓 Gemini 2.5 Pro 檢查修改后的代碼。
不出所料,它精準(zhǔn)地識(shí)別出了問(wèn)題,給出了標(biāo)準(zhǔn)的專業(yè)分析。
不過(guò),在讓眾多大模型惱火的鵜鶘騎自行車大賽 svg 繪圖大賽中,Gemini 2.5 Pro 還是沒(méi)打過(guò) Claude 3.7 Sonnet。
圖左是 Gemini 2.5 pro 生成的,圖右是 Claude 3.7 Sonnet 生成的。
測(cè)到這里,Gemini 2.5 pro 的水平如何,相信讀者心中已大概有數(shù)了。
與新版 DeepSeek-V3 不約而同的是,Gemini 2.5 pro 也在編程和邏輯方面加強(qiáng)了不少。最近谷歌在多模態(tài)頻頻發(fā)力,不斷推動(dòng)著推理模型原生多模態(tài)能力的提升。
DeepSeek-R1 問(wèn)世后,我們一直在期待能「強(qiáng)推理、慢思考」的大模型進(jìn)化成多模態(tài)模式。這一突破,是否會(huì)由 Gemini 系列率先實(shí)現(xiàn)呢?
http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025
https://x.com/sundarpichai/status/1904579419496386736
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.