網易首頁 > 網易號 > 正文申請入駐

谷歌推出新一代AI模型Gemini 2.5，推理、數學等能力橫掃頂級模型

2025-03-26 17:25:28　來源: DeepTech深科技

北京舉報

分享至

最近這個月谷歌已經火力全開，以驚人的速度推出一系列 AI 新品，從小型語言模型 Gemma 3，到強大的 Gemini 圖像編輯功能，再到具身智能模型 Gemini Robotics..... 各種新品層出不窮。當地時間 3 月 25 日，谷歌又推出了其新一代 AI 模型 Gemini 2.5，再次向世界展示了其技術實力。這是繼三個月前發布 Gemini 2.0 之后，谷歌再次升級其旗艦 AI 模型系列。谷歌 DeepMind 首席技術官 Koray Kavukcuoglu 在官方博客中宣稱，Gemini 2.5 是該公司“迄今為止最智能的 AI 模型”，代表著谷歌在“讓 AI 更智能、更具推理能力”目標上的又一重大進展。

據谷歌官方表示，Gemini 2.5 被定位為一款“思考型模型”，將推理能力直接嵌入了模型中，它能夠在回答問題前先進行思考分析，從而提供更準確、更深入的回答。與前代產品相比，谷歌通過顯著增強基礎模型和改進后期訓練，使 Gemini 2.5 達到了全新的性能水平。Kavukcuoglu 解釋道：“我們正在將這些思考能力直接構建到所有模型中，使它們能夠處理更復雜的問題，并支持更強大、更具上下文感知的智能體。”

首個發布的 2.5 系列模型是 Gemini 2.5 Pro 實驗版，它具備強大的多模態理解能力，可以處理來自文本、音頻、圖像、視頻和大型數據集的輸入，甚至能夠理解整個代碼倉庫的結構和內容。這款模型目前提供 100 萬 token 的上下文窗口，谷歌計劃很快將其擴展到 200 萬 token，這是目前 Gemini 實驗模型中最大的上下文窗口之一，使其能夠處理和理解更長、更復雜的內容。

在各項基準測試中，Gemini 2.5 Pro 的表現相當出色。它在大模型競技場 LMArena 排行榜（這一指標衡量的是人類對模型回答的偏好度）上以顯著優勢位居第一。

在不使用工具輔助的情況下，Gemini 2.5 Pro 在“人類最終考試”（Humanity's Last Exam）數據集上獲得了 18.8% 的成績，創下業界新高。此外，該模型在 GPQA 和 AIME 2025 等數學和科學基準測試中也全面領先，超越了 Claude 3.7、Grok3、GPT4.5、DeepSeek-R1 等一眾頂尖模型。

圖丨基準測試結果（來源：谷歌）

在各大社交平臺，已經有許多用戶進行了實測，表現確實足夠出色。例如，從經典的小球碰撞測試來看，Gemini 2.5 Pro 與 o1 Pro 都表現不錯。相對來說，Gemini 碰撞物理效果要更好，不過在最后卻丟失了一顆小球（何況 Gemini 還是免費的）。

還有用戶用一行簡單的提示（“用純 three.js，不下載任何資源或紋理，創建一個可以在瀏覽器中運行的飛機飛行模擬器游戲”），就成功讓 Gemini 2.5 Pro 創建了一個完整的 3D 飛行模擬器，包括飛機控制、速度和高度顯示等功能。

谷歌高級研究員 Jeff Dean 也在社交媒體上分享了 Gemini 2.5 Pro 的實際應用案例，特別強調了這款模型在編碼和數學交叉領域的出色表現。他提到，僅通過“p5js to explore a Mandelbrot set”（使用 p5js 探索曼德布洛特集）的簡單提示，Gemini 2.5 Pro 就能編寫出完整的可視化代碼。

此外，前不久在社交媒體爆火的用 Claude 生成 3D 對象的能力，Gemini 2.5 Pro 也成功實現了。有一位用戶使用 Gemini 2.5 Pro 將一個簡單的手繪生日蛋糕草圖轉換為 3D 可打印對象，并最終成功打印出實物。

圖丨相關推文（來源：X）

根據谷歌博客展示，Gemini 2.5 Pro 在創建視覺上吸引人的 Web 應用程序和智能體代碼應用方面表現尤為出色。例如，它能夠利用其推理能力，從一行提示中生成完整的視頻游戲可執行代碼。在專業代碼評估基準 SWE-Bench Verified 上，使用自定義智能體設置，Gemini 2.5 Pro 獲得了 63.8% 的得分，超越了除 Claude 3.7 之外的其他所有模型。

Gemini 2.5 Pro 目前已在 Google AI Studio 和 Gemini 應用程序中向 Gemini Advanced 用戶提供，并將很快登陸 Vertex AI 平臺。Google AI Studio 產品經理 Logan Kilpatrick 表示，Gemini 2.5 Pro 是“第一個具有更高速率限制和計費功能的實驗模型”，谷歌計劃在未來幾周內公布 Gemini 2.5 系列模型的定價。

短短一個月內，谷歌已經數次證明了他們的實力。而在今年，谷歌計劃單獨投資 750 億美元用于 AI 開發，這 750 億美元還將誕生多少成果，值得我們保持期待。

參考資料：

1.https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#building-on-best-gemini

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.