99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

谷歌終于登頂!最強(qiáng)推理模型Gemini 2.5 Pro實(shí)測(cè)體驗(yàn),有點(diǎn)東西

0
分享至



機(jī)器之心報(bào)道

作者:佳琳、佳琪

谷歌有史以來(lái)最智能的 AI 模型。

深夜悄悄搞事情的不只 OpenAI,搶在 OpenAI 開(kāi)直播之前,谷歌上線了最強(qiáng)大的推理模型 Gemini 2.5 Pro。

谷歌 CEO「劈柴哥」甚至用:「這是谷歌有史以來(lái)最智能的 AI 模型。」為它站臺(tái)。



不過(guò),從 Gemini 2.5 Pro 的成績(jī)單來(lái)看,它可能確實(shí)擔(dān)得起「有史以來(lái)最強(qiáng)」的名號(hào)。

首先來(lái)看推理能力,在被視為人類給 AI 的終極考驗(yàn)的 Humanity's Last Exam 基準(zhǔn)測(cè)試中,不額外調(diào)用工具的 Gemini 2.5 Pro 取得了 18.8% 的準(zhǔn)確率,超過(guò)了能秒解圖論難題的 OpenAI o3-mini(high)。

和推理能力強(qiáng)相關(guān)的科學(xué)和數(shù)學(xué)能力,在 GPQA、AIME 2025 等主流基礎(chǔ)測(cè)試中,Gemini 2.5 Pro 也是遙遙領(lǐng)先,具體成績(jī)?nèi)缦拢?/p>





在編程能力方面,Gemini 2.5 Pro 相比 2.0 實(shí)現(xiàn)了質(zhì)的飛躍,未來(lái)還將不斷增強(qiáng)。

其中,SWE-bench 衡量的是編碼能力,Aider Polyglot 衡量的是模型的代碼編輯水平。除了在 Agentic coding 方面遜色于 Claude 3.7 Sonnet,Gemini 2.5 Pro 均斬獲第一:



谷歌稱 Gemini 2.5 Pro 比較擅長(zhǎng)在創(chuàng)建視覺(jué)效果精美的網(wǎng)頁(yè)應(yīng)用和操作智能體。在官方放出的 demo 中,只需一行提示詞,Gemini 2.5 Pro 就開(kāi)動(dòng)腦筋,逐步推理出了這個(gè)類似「flappy bird」的小游戲的全部代碼,并且直接可玩:



再來(lái)是對(duì)話能力,在大模型競(jìng)技場(chǎng) Chatbot Arena 的榜單上,Gemini 2.5 Pro 以絕對(duì)優(yōu)勢(shì)強(qiáng)勢(shì)登頂,創(chuàng)下了前所未有的最大分?jǐn)?shù)飛躍,比 Grok - 3 和 GPT - 4.5 高接近 40 分:



從第二名以下的成績(jī),不難發(fā)現(xiàn),Chatbot Arena 的前幾名分差往往很小,幾乎不超過(guò) 10 分。Grok-3 上個(gè)月剛登頂,第一的位置還沒(méi)坐幾個(gè)月,就被 Gemini 2.5 Pro 甩開(kāi)了。

除了對(duì)話能力,Gemini 2.5 Pro 在 Chatbot Arena 的復(fù)雜指令、編程、數(shù)學(xué)、創(chuàng)意寫(xiě)作、指令跟隨的榜單上也是全面領(lǐng)先,堪稱「六邊形戰(zhàn)士」。



和其他家推理模型不同的是,Gemini 2.5 延續(xù)了 Gemini 系列模型的核心優(yōu)勢(shì) —— 原生多模態(tài)能力和長(zhǎng)上下文窗口。Gemini 2.5 Pro 版本擁有 100 萬(wàn) token 的上下文窗口(沒(méi)有縮減,即將提升至 200 萬(wàn) token),支持文本、音頻、圖像、視頻及完整代碼庫(kù)輸入。



支持把圖像轉(zhuǎn)化為可以 3D 打印的格式。

從 Vision Arena 榜單來(lái)看,Gemini 2.5 Pro 不止支持原生多模態(tài),能力更是一騎絕塵。



防盜水印一秒蒸發(fā)、證件照 10 秒摳圖,以下是第四名 Gemini-2.0-flash-thinking 「一句話 P 圖」的效果。如今,在新的第一名面前,更是被遠(yuǎn)遠(yuǎn)超越。



作為一個(gè)會(huì)「思考」的模型,Gemini 2.5 Pro 專為復(fù)雜任務(wù)設(shè)計(jì),更夠能智能地分析信息、理解問(wèn)題的背景和情境以及做出明智的決策。

不過(guò),谷歌并未公開(kāi)技術(shù)報(bào)告,我們只能從谷歌放出的博客中得知,他們的技術(shù)突破在于強(qiáng)化學(xué)習(xí)、思維鏈提示和后訓(xùn)練。



現(xiàn)在登錄 Google AI Studio,普通用戶和企業(yè)就能體驗(yàn)到 Gemini 2.5 Pro。如果是高貴的 Gemini Advanced 用戶,在桌面和移動(dòng)設(shè)備下來(lái)菜單,就能直接使用了。未來(lái)幾周內(nèi),Gemini 2.5 Pro 也將登陸 Vertex AI 平臺(tái)。



其實(shí)前幾天,Chatbot Arena 上就有一個(gè)代號(hào)「Nebula」的神秘模型在 LMSYS Arena 屠榜,擊敗了包括 o1、o3-mini 和 Claude 3.7 Thinking 在內(nèi)的眾多對(duì)手。

不知道是不是谷歌偷師了 OpenAI 的營(yíng)銷技巧,正式公布 Gemini 2.5 Pro 之前,劈柴哥也神秘兮兮地發(fā)了一條推特:



不過(guò)現(xiàn)在再模仿「strawberry」可能有點(diǎn)晚了,遇到大佬無(wú)緣無(wú)故開(kāi)始在社交平臺(tái)上發(fā)「詩(shī)和遠(yuǎn)方」,都可以召喚 Grok 來(lái)甄別。



一手實(shí)測(cè)

看完了成績(jī)單,Gemini 2.5 Pro 的實(shí)際水平是否也如此出色呢?

實(shí)測(cè)見(jiàn)真章,機(jī)器之心先對(duì)它的推理、數(shù)學(xué)、科學(xué)和編程四個(gè)方面展開(kāi)了一番測(cè)評(píng)。

推理

根據(jù)之前測(cè)試推理模型的經(jīng)驗(yàn),我們總結(jié)了幾道很難答對(duì)的邏輯題來(lái)考驗(yàn) Gemini 2.5 Pro。

提示詞:兩個(gè)人同時(shí)來(lái)到了河邊,都想過(guò)河,但只有一條小船,而且小船只能載一個(gè)人。請(qǐng)問(wèn):他們能否都過(guò)河?



僅用了 11 秒,Gemini 2.5 Pro 成功識(shí)破了邏輯陷阱:「兩個(gè)人同時(shí)來(lái)到了河邊」不一定都在同岸,如果是對(duì)岸就成立了。

提示詞:校長(zhǎng)室的玻璃被人用足球砸壞了,有四個(gè)人被校長(zhǎng)懷疑,四人依次陳述自己理由,其中有一個(gè)人說(shuō)法很可疑,他就是肇事者。
甲:我沒(méi)有砸玻璃。
乙:甲說(shuō)的是對(duì)的。
丙:丁在說(shuō)謊。
丁:我沒(méi)有玩足球。
請(qǐng)問(wèn)肇事者是誰(shuí)?



這回 Gemini 2.5 Pro 的思考時(shí)間長(zhǎng)了一點(diǎn),但是由于它忽略了在現(xiàn)實(shí)中丙的發(fā)言順序在丁之前,所以丙說(shuō)的一定為假,因此正確答案是丙,Gemini 2.5 Pro 答錯(cuò)了。

其他推理模型很難搞定的圖推題,Gemini 2.5 Pro 也能一次答對(duì)。



數(shù)學(xué)

要檢驗(yàn)推理模型的有多聰明,數(shù)學(xué)題是最好的「智商測(cè)試」,我們先來(lái)一道今年的考研數(shù)學(xué)真題:



過(guò)程和結(jié)果,Gemini 2.5 Pro 都輕松拿下。

再上點(diǎn)強(qiáng)度,來(lái)一道 IMO 2024 年的真題:



一陣強(qiáng)勁的思考過(guò)后,Gemini 2.5 Pro 給出的答案也是正確的。



拼多多砍一刀背后蘊(yùn)含的「極限」思想,也沒(méi)難倒它。



科學(xué)

來(lái)一道 2023 年理綜物理真題 ——



Gemini 2.5 Pro 稍加思考,輕松回答出正確答案。





Gemini 2.0 Flash 則遺憾離場(chǎng)。



編程

我們先讓 Gemini 2.5 Pro 生成一個(gè)貪吃蛇游戲。

「創(chuàng)建一個(gè)經(jīng)典的貪吃蛇小游戲,游戲界面為 400 × 400 像素的畫(huà)布。蛇由若干個(gè) 10 × 10 像素的方塊組成,初始長(zhǎng)度為 3 個(gè)方塊,初始位置在畫(huà)布中心。蛇可以向上、向下、向左、向右移動(dòng),使用鍵盤(pán)的方向鍵控制蛇的移動(dòng)方向。游戲中隨機(jī)生成一個(gè) 10 × 10 像素的紅色食物,當(dāng)蛇吃到食物時(shí),長(zhǎng)度增加 1 個(gè)方塊,分?jǐn)?shù)增加 10 分,并重新生成食物。如果蛇撞到畫(huà)布邊界或自身,則游戲結(jié)束,彈出一個(gè)對(duì)話框顯示最終得分,并提供重新開(kāi)始的選項(xiàng)。游戲開(kāi)始時(shí),蛇以中等速度移動(dòng),隨著時(shí)間的推移逐漸加快速度,增加游戲的挑戰(zhàn)性。」

Gemini 2.5 Pro 表示毫無(wú)壓力,還貼心附上操作指南。







然后上點(diǎn)難度「增加不可移動(dòng)的障礙物(地圖邊緣 + 隨機(jī) 3 個(gè)方塊)」。



再來(lái)添加一點(diǎn) buff「添加特殊道具(吃到的效果任選 2 種):加速 / 減速道具,臨時(shí)穿墻(10 秒),清除所有障礙物」。



現(xiàn)在把主場(chǎng)交給 Gemini 2.5 Pro,看看它有什么奇妙想法。



還是非常絲滑~



以上操作 Gemini 2.5 Pro 都是一次成功,沒(méi)有報(bào)錯(cuò)

最后,我們來(lái)檢查一下 Gemini 2.5 Pro 的代碼審查能力。我們先請(qǐng) DeepSeek 在代碼中植入一些隱藏彩蛋,隨后讓 Gemini 2.5 Pro 檢查修改后的代碼。



不出所料,它精準(zhǔn)地識(shí)別出了問(wèn)題,給出了標(biāo)準(zhǔn)的專業(yè)分析。



不過(guò),在讓眾多大模型惱火的鵜鶘騎自行車大賽 svg 繪圖大賽中,Gemini 2.5 Pro 還是沒(méi)打過(guò) Claude 3.7 Sonnet。



圖左是 Gemini 2.5 pro 生成的,圖右是 Claude 3.7 Sonnet 生成的。

測(cè)到這里,Gemini 2.5 pro 的水平如何,相信讀者心中已大概有數(shù)了。

與新版 DeepSeek-V3 不約而同的是,Gemini 2.5 pro 也在編程和邏輯方面加強(qiáng)了不少。最近谷歌在多模態(tài)頻頻發(fā)力,不斷推動(dòng)著推理模型原生多模態(tài)能力的提升。

DeepSeek-R1 問(wèn)世后,我們一直在期待能「強(qiáng)推理、慢思考」的大模型進(jìn)化成多模態(tài)模式。這一突破,是否會(huì)由 Gemini 系列率先實(shí)現(xiàn)呢?

http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025

https://x.com/sundarpichai/status/1904579419496386736

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
NBA官方曬圖:歷史首次三人同賽季300+三分!

NBA官方曬圖:歷史首次三人同賽季300+三分!

直播吧
2025-04-18 01:25:06
黃仁勛時(shí)隔3個(gè)月再次到訪北京

黃仁勛時(shí)隔3個(gè)月再次到訪北京

財(cái)聯(lián)社
2025-04-17 15:03:07
廣東33歲殉情男子后續(xù):岳母發(fā)聲講女兒遭遇,女婿也是一個(gè)可憐人

廣東33歲殉情男子后續(xù):岳母發(fā)聲講女兒遭遇,女婿也是一個(gè)可憐人

江山揮筆
2025-04-17 15:38:05
馬克龍:美烏歐在法磋商烏克蘭問(wèn)題“積極且有建設(shè)性”

馬克龍:美烏歐在法磋商烏克蘭問(wèn)題“積極且有建設(shè)性”

界面新聞
2025-04-18 07:16:36
恒安集團(tuán)創(chuàng)始人許連捷逝世,享年73歲

恒安集團(tuán)創(chuàng)始人許連捷逝世,享年73歲

澎湃新聞
2025-04-18 00:34:27
傳溫州大佬從28樓墜亡,年僅56歲!疑被朋友做局輸了1.9億想不開(kāi)

傳溫州大佬從28樓墜亡,年僅56歲!疑被朋友做局輸了1.9億想不開(kāi)

烏娛子醬
2025-04-17 21:41:50
炸裂!“兩女一男”婚禮風(fēng)波持續(xù)發(fā)酵,酒店緊急聲明取消特殊預(yù)訂

炸裂!“兩女一男”婚禮風(fēng)波持續(xù)發(fā)酵,酒店緊急聲明取消特殊預(yù)訂

秒懂資訊
2025-04-17 10:59:35
難怪撞了人還這么囂張!網(wǎng)友曝兇手家庭背景父母身份,果然有情況

難怪撞了人還這么囂張!網(wǎng)友曝兇手家庭背景父母身份,果然有情況

老鵜愛(ài)說(shuō)事
2025-04-17 11:40:57
4張重磅罰單!山西遭遇頂格重罰,再犯將失去主場(chǎng),廣東3人被處罰

4張重磅罰單!山西遭遇頂格重罰,再犯將失去主場(chǎng),廣東3人被處罰

墨羽怪談
2025-04-18 00:49:28
美軍司令:如果中國(guó)敢在臺(tái)海設(shè)立禁飛區(qū),美軍將擊沉解放軍軍艦

美軍司令:如果中國(guó)敢在臺(tái)海設(shè)立禁飛區(qū),美軍將擊沉解放軍軍艦

混沌錄
2025-04-17 17:49:16
已經(jīng)確認(rèn)波音訂單被叫停、零部件也全斷!那么用C919替代靠譜嗎?

已經(jīng)確認(rèn)波音訂單被叫停、零部件也全斷!那么用C919替代靠譜嗎?

翻開(kāi)歷史和現(xiàn)實(shí)
2025-04-17 17:09:49
女子因做外貿(mào)頻繁翻墻,深夜被上門教育,網(wǎng)友問(wèn)用的什么手機(jī),答:“華為”

女子因做外貿(mào)頻繁翻墻,深夜被上門教育,網(wǎng)友問(wèn)用的什么手機(jī),答:“華為”

小蘿卜絲
2025-04-17 20:32:18
痛惜!知名紡織企業(yè)董事長(zhǎng)突然離世,年僅56歲

痛惜!知名紡織企業(yè)董事長(zhǎng)突然離世,年僅56歲

每日經(jīng)濟(jì)新聞
2025-04-17 17:06:06
天助C羅!0-2大冷門,沙特聯(lián)領(lǐng)頭羊10輪不敗終結(jié),本澤馬進(jìn)球被吹

天助C羅!0-2大冷門,沙特聯(lián)領(lǐng)頭羊10輪不敗終結(jié),本澤馬進(jìn)球被吹

側(cè)身凌空斬
2025-04-18 04:06:48
曝延吉一早餐門臉被人擋門擺攤賣早餐,門臉老板:城管孫主任安排的

曝延吉一早餐門臉被人擋門擺攤賣早餐,門臉老板:城管孫主任安排的

小蘿卜絲
2025-04-17 18:57:20
全面封殺!英偉達(dá)、AMD芯片被"卡脖子",千億訂單或流向"中國(guó)芯"

全面封殺!英偉達(dá)、AMD芯片被"卡脖子",千億訂單或流向"中國(guó)芯"

二向箔
2025-04-17 16:29:31
鄉(xiāng)巴佬事后,中國(guó)網(wǎng)友以德報(bào)怨,幫萬(wàn)斯找到了爸爸!感動(dòng)國(guó)外媒體

鄉(xiāng)巴佬事后,中國(guó)網(wǎng)友以德報(bào)怨,幫萬(wàn)斯找到了爸爸!感動(dòng)國(guó)外媒體

鐵錘簡(jiǎn)科
2025-04-17 21:56:22
山西大同訂婚QJ案必將和當(dāng)年的彭宇案一樣具有里程碑的意義!

山西大同訂婚QJ案必將和當(dāng)年的彭宇案一樣具有里程碑的意義!

逍遙論經(jīng)
2025-04-18 05:42:12
晚上8點(diǎn),重磅決定!KD做出驚人讓步,休城或迎歷史性轉(zhuǎn)折

晚上8點(diǎn),重磅決定!KD做出驚人讓步,休城或迎歷史性轉(zhuǎn)折

十點(diǎn)體壇
2025-04-17 23:30:20
男子在足浴店欲與女技師發(fā)生性關(guān)系被控強(qiáng)奸,辯護(hù)律師稱項(xiàng)目疑涉黃,法學(xué)專家解讀

男子在足浴店欲與女技師發(fā)生性關(guān)系被控強(qiáng)奸,辯護(hù)律師稱項(xiàng)目疑涉黃,法學(xué)專家解讀

瀟湘晨報(bào)
2025-04-17 16:53:12
2025-04-18 09:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10373文章數(shù) 142295關(guān)注度
往期回顧 全部

科技要聞

特朗普再出招 限制芯片能鎖住中國(guó)AI騰飛?

頭條要聞

美烏礦產(chǎn)協(xié)議取得重大進(jìn)展 特朗普、澤連斯基發(fā)聲

頭條要聞

美烏礦產(chǎn)協(xié)議取得重大進(jìn)展 特朗普、澤連斯基發(fā)聲

體育要聞

結(jié)束16年等待,一支強(qiáng)硬的阿森納向我們走來(lái)

娛樂(lè)要聞

張檬順利產(chǎn)子,韓國(guó)婆婆趕赴香港陪產(chǎn)

財(cái)經(jīng)要聞

小心 ,全球衰退不遠(yuǎn)了

汽車要聞

一躍跳過(guò)障礙/秒切防御姿態(tài) 看懂嵐圖"開(kāi)掛"絕技

態(tài)度原創(chuàng)

房產(chǎn)
家居
手機(jī)
公開(kāi)課
軍事航空

房產(chǎn)要聞

最后一波!15萬(wàn)起上車海口超級(jí)大盤(pán),還是準(zhǔn)現(xiàn)房!

家居要聞

現(xiàn)代極簡(jiǎn) 舒適與美觀并存

手機(jī)要聞

摩托羅拉 Moto G86 5G 手機(jī)渲染圖首曝:Edge 風(fēng)格、5000 萬(wàn)主攝

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

朝鮮譴責(zé)美國(guó)派遣戰(zhàn)略轟炸機(jī)至朝鮮半島

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 泸州市| 吉林市| 大城县| 岫岩| 博乐市| 探索| 怀远县| 牙克石市| 鹤庆县| 甘肃省| 白银市| 韶山市| 积石山| 乐山市| 海丰县| 中牟县| 肥城市| 分宜县| 莆田市| 武川县| 澜沧| 白沙| 白河县| 平远县| 育儿| 楚雄市| 鹤峰县| 阜宁县| 长子县| 澄城县| 武冈市| 西乡县| 安图县| 宜川县| 交口县| 栖霞市| 房产| 含山县| 荃湾区| 济源市| 交城县|