最近這個月谷歌已經火力全開,以驚人的速度推出一系列 AI 新品,從小型語言模型 Gemma 3,到強大的 Gemini 圖像編輯功能,再到具身智能模型 Gemini Robotics..... 各種新品層出不窮。當地時間 3 月 25 日,谷歌又推出了其新一代 AI 模型 Gemini 2.5,再次向世界展示了其技術實力。這是繼三個月前發布 Gemini 2.0 之后,谷歌再次升級其旗艦 AI 模型系列。谷歌 DeepMind 首席技術官 Koray Kavukcuoglu 在官方博客中宣稱,Gemini 2.5 是該公司“迄今為止最智能的 AI 模型”,代表著谷歌在“讓 AI 更智能、更具推理能力”目標上的又一重大進展。
據谷歌官方表示,Gemini 2.5 被定位為一款“思考型模型”,將推理能力直接嵌入了模型中,它能夠在回答問題前先進行思考分析,從而提供更準確、更深入的回答。與前代產品相比,谷歌通過顯著增強基礎模型和改進后期訓練,使 Gemini 2.5 達到了全新的性能水平。Kavukcuoglu 解釋道:“我們正在將這些思考能力直接構建到所有模型中,使它們能夠處理更復雜的問題,并支持更強大、更具上下文感知的智能體。”
首個發布的 2.5 系列模型是 Gemini 2.5 Pro 實驗版,它具備強大的多模態理解能力,可以處理來自文本、音頻、圖像、視頻和大型數據集的輸入,甚至能夠理解整個代碼倉庫的結構和內容。這款模型目前提供 100 萬 token 的上下文窗口,谷歌計劃很快將其擴展到 200 萬 token,這是目前 Gemini 實驗模型中最大的上下文窗口之一,使其能夠處理和理解更長、更復雜的內容。
在各項基準測試中,Gemini 2.5 Pro 的表現相當出色。它在大模型競技場 LMArena 排行榜(這一指標衡量的是人類對模型回答的偏好度)上以顯著優勢位居第一。
在不使用工具輔助的情況下,Gemini 2.5 Pro 在“人類最終考試”(Humanity's Last Exam)數據集上獲得了 18.8% 的成績,創下業界新高。此外,該模型在 GPQA 和 AIME 2025 等數學和科學基準測試中也全面領先,超越了 Claude 3.7、Grok3、GPT4.5、DeepSeek-R1 等一眾頂尖模型。
圖丨基準測試結果(來源:谷歌)
在各大社交平臺,已經有許多用戶進行了實測,表現確實足夠出色。例如,從經典的小球碰撞測試來看,Gemini 2.5 Pro 與 o1 Pro 都表現不錯。相對來說,Gemini 碰撞物理效果要更好,不過在最后卻丟失了一顆小球(何況 Gemini 還是免費的)。
還有用戶用一行簡單的提示(“用純 three.js,不下載任何資源或紋理,創建一個可以在瀏覽器中運行的飛機飛行模擬器游戲”),就成功讓 Gemini 2.5 Pro 創建了一個完整的 3D 飛行模擬器,包括飛機控制、速度和高度顯示等功能。
谷歌高級研究員 Jeff Dean 也在社交媒體上分享了 Gemini 2.5 Pro 的實際應用案例,特別強調了這款模型在編碼和數學交叉領域的出色表現。他提到,僅通過“p5js to explore a Mandelbrot set”(使用 p5js 探索曼德布洛特集)的簡單提示,Gemini 2.5 Pro 就能編寫出完整的可視化代碼。
此外,前不久在社交媒體爆火的用 Claude 生成 3D 對象的能力,Gemini 2.5 Pro 也成功實現了。有一位用戶使用 Gemini 2.5 Pro 將一個簡單的手繪生日蛋糕草圖轉換為 3D 可打印對象,并最終成功打印出實物。
圖丨相關推文(來源:X)
根據谷歌博客展示,Gemini 2.5 Pro 在創建視覺上吸引人的 Web 應用程序和智能體代碼應用方面表現尤為出色。例如,它能夠利用其推理能力,從一行提示中生成完整的視頻游戲可執行代碼。在專業代碼評估基準 SWE-Bench Verified 上,使用自定義智能體設置,Gemini 2.5 Pro 獲得了 63.8% 的得分,超越了除 Claude 3.7 之外的其他所有模型。
Gemini 2.5 Pro 目前已在 Google AI Studio 和 Gemini 應用程序中向 Gemini Advanced 用戶提供,并將很快登陸 Vertex AI 平臺。Google AI Studio 產品經理 Logan Kilpatrick 表示,Gemini 2.5 Pro 是“第一個具有更高速率限制和計費功能的實驗模型”,谷歌計劃在未來幾周內公布 Gemini 2.5 系列模型的定價。
短短一個月內,谷歌已經數次證明了他們的實力。而在今年,谷歌計劃單獨投資 750 億美元用于 AI 開發,這 750 億美元還將誕生多少成果,值得我們保持期待。
參考資料:
1.https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#building-on-best-gemini
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.