魚羊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
又雙叒,搶在OpenAI直播之前,谷歌Gemini 2.5系列來了。
首個版本Pro Experimental一登場就搶下大模型競技場第一名,并且整整比GPT-4.5高出40分!
Gemini 2.5同樣是推理模型,用Jeff Dean的說法是:
這是我們最智能的模型,具有令人印象深刻的高級推理和編碼能力。
Be like,給出一段提示詞:
幫我制作一款吸引人的無盡跑酷游戲。屏幕上要有關(guān)鍵操作說明。使用p5js,不要用HTML。我喜歡像素風(fēng)格的恐龍和有趣的背景。
1分鐘左右,就能得到:
谷歌“最先進復(fù)雜任務(wù)模型”
谷歌介紹,相較于Gemini 2.0 Flash Thinking這個谷歌首個推理模型,Gemini 2.5在基礎(chǔ)模型和后訓(xùn)練技術(shù)上都有改進。
不僅是在大模型競技場上一舉拿下高分,在各種推理、數(shù)學(xué)、科學(xué)、編程基準(zhǔn)上,Gemini 2.5 Pro都表現(xiàn)出色,屬于是編程能跟Claude 3.7 Sonnet掰手腕,數(shù)學(xué)能跟Grok 3相媲美。
更詳細測試結(jié)果看這里:
Gemini 2.5 Pro的上下文窗口是1M tokens,并且支持原生多模態(tài):可以理解龐大數(shù)據(jù)集并處理來自不同信息源的復(fù)雜問題,包括文本、音頻、圖像、視頻,甚至是整個代碼庫。
在推理能力之外,谷歌官方還強調(diào)了一把Gemini 2.5 Pro的編程性能:
2.5 pro擅長創(chuàng)造視覺上引人注目的Web應(yīng)用程序和智能體代碼。
谷歌DeepMind研究員們也釋出了更多案例,比如把“六邊形內(nèi)旋轉(zhuǎn)小球”這事整得更加酷炫:
Jeff Dean則興奮地放出了一個編程+數(shù)學(xué)的用例,還說:
我記起了小時候第一次了解到曼德布羅特集時的興奮之情。
(曼德布羅特集:一種在復(fù)平面上形成的分形集合)
p.s. 距離谷歌上新Gemini 2.0家族,也不過一個多月時間,怕不是讓DeepSeek給逼急了(doge)。
目前,Gemini 2.5 Pro已經(jīng)面向Gemini Advanced付費用戶開放,開發(fā)人員也可以在Google AI Studio中試用。谷歌表示,未來幾周內(nèi)還將在Vertex AI上推出該模型。
不過,當(dāng)我們拿最新大模型難題“竹竿問題”測試Gemini 2.5 Pro時,它并沒能順利通關(guān)。
試玩地址:
http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25
參考鏈接:
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.