作者|周雅
這邊OpenAI持續12天的直播連續劇還沒完結,那邊谷歌已經坐不住了開始放大招,火藥味溢出屏幕。
就在北京時間12月11日深夜23:30,谷歌正式發布Gemini 2.0,標志著其向能夠獨立完成復雜任務的AI系統邁出了雄心勃勃的一步。并且谷歌基于這次版本更新,一次性發布多個AI Agent(智能體)成果,包括:
用多模態理解現實世界的智能體「Project Astra」這次升級了技能;發布Project Mariner,一個建立在 Gemini 2.0之上的新智能體,可以幫忙瀏覽網頁,并處理復雜任務;發布Jules,一個由 Gemini 2.0驅動的新型編碼智能體,主要面向開發者;以及發布一些用于游戲、機器人、深度研究場景的智能體,用實力詮釋什么叫做“要啥有啥”。除了智能體系列霸屏之外,谷歌此次還官宣了第六代TPU——Trillium正式面向客戶開放。
Google 和 Alphabet 首席執行官 Sundar Pichai(桑達爾·皮查伊)在寄語里直言:“Gemini 2.0是谷歌迄今為止最強大的模型,它能夠構建新的AI智能體,從而讓我們離構建通用助手的愿景更進一步。”桑達爾·皮查伊第一時間發了推文,向開發者安利這款模型。
Google 和 Alphabet 首席執行官 Sundar Pichai(桑達爾·皮查伊)的社交平臺截圖
不難看出,這次谷歌的強勢出手,都是圍繞一個主軸——AI智能體(Agent)。其實不止谷歌,很多AI巨頭,尤其是以 OpenAI、Anthropic 和谷歌為首,一直是AI智能體的布道者。桑達爾·皮查伊在這次發布的致辭中,將AI智能體描述為“能夠更多地了解你周圍的世界、提前思考多個步驟、并在你的監督下代表你采取行動的模型”。
在這次發布前夕的媒體溝通會上,Google DeepMind Gemini產品管理總監Tulsee Doshi指出:“Google DeepMind研究AI智能體能力已經有很長一段時間了,我認為這個特定詞在過去幾個月已經有了新的含義。”以Project Astra為例,它的核心原則是擁有眼睛、耳朵和聲音的智能體,可以識別并理解物理世界,并與人交互,幫人做事。
談及背后邏輯,Google DeepMind Project Astra項目產品經理徐Bibo Xu在采訪中指出,在技術發展方向上,谷歌正在平衡兩個關鍵領域:一方面繼續擴大模型規模,提升基礎性能;另一方面,加強后期訓練優化和推理技術的改進,尤其關注多模態能力的提升,希望讓AI能更好地理解和處理各類信息。
Google DeepMind團隊透露,明年初將推出Gemini 2.0系列模型的更多版本,大家很快就能見識到Gemini更強大的表現。
Gemini 2.0:為Agent而生
去年年底,Gemini 1.0問世。Gemini 1.0和1.5是谷歌第一個基于多模態的模型,它支持多模態和長上下文,可以理解文本、視頻、圖像、音頻和代碼中的信息,并處理更多信息。
一年后的今天,谷歌發布 Gemini 2.0 系列模型中的第一個版本:Gemini 2.0 Flash 體驗版。在MMLU-Pro基準測試中,2.0 Flash的速度是1.5 Pro的兩倍。
在功能方面,2.0 Flash 除了能夠支持圖片、視頻和音頻等多模態輸入,它還可以支持多模態輸出,例如可以直接生成圖像與文本混合的內容,以及原生生成可控的多語言文本轉語音(TTS)音頻。而且,它還可以原生調用 Google Search、代碼執行以及第三方用戶定義的函數等工具。
谷歌特別強調了對開發者的賦能。官網資料里提到,Gemini 2.0 Flash 現在可以通過谷歌的兩款生成式AI產品—— Google AI Studio 和 Vertex AI 中的 Gemini API 獲取,所有開發者均可使用「多模態輸入」和「文本輸出」,可使用原生文本轉語音和圖像的生成功能。該產品將于2025年1月份上市,到時候Gemini 2.0將迎來更多版本型號。
為了幫助開發者構建動態和交互式應用程序,谷歌還發布了最新Multimodal Live API,它具有實時音頻、視頻流輸入、以及使用多個組合工具的能力。
谷歌強調,在接下來的幾個月里,將把Gemini 2.0 引入Android Studio、Chrome DevTools、Firebase等平臺。開發人員可以在Gemini Code Assist中注冊使用Gemini 2.0 Flash,以便在流行的ide(如Visual Studio Code、IntelliJ、PyCharm等)中增強編碼輔助功能。
而對于更廣泛的個人用戶,全球的 Gemini 用戶可以通過在電腦端和移動端網頁的模型下拉菜單中進行選擇,來體驗2.0 Flash 體驗版,并且該版本將很快在 Gemini 移動應用中推出。2025年初,谷歌還會將 Gemini 2.0 擴展到更多產品中。
比如,Gemini 2.0 的高級推理能力將融入谷歌搜索中的AI概覽(AI Overviews),以攻克更復雜的主題和多步驟問題,包括高等數學方程、多模態查詢和編碼。該功能本周已經進行了小范圍測試,明年初將在更大范圍推出。
Agent!Agent!還是Agent!
這次發布或許最重要的是,谷歌推出了一批基于 Gemini 2.0 架構的原型 AI智能體,展示了在該領域的野心。其中包括:
1、Project Astra大幅升級,用于探索未來通用AI助手能力的研究原型。
Project Astra的首次亮相是在今年5月份的Google I/O 大會上,當時科技行者在現場目睹了那次發布,在演示視頻中,Project Astra通過手機攝像頭能看見、能識別、能理解物理世界的周圍環境,還能解答用戶提問并提供即時反饋。當時在現場收獲了一陣掌聲。
而現在,基于 Gemini 2.0 版本的Project Astra,進行了一系列升級,谷歌對此又發了一支演示視頻。
看起來,進化后的Project Astra與人交互更自然了,這次的更新具體而言覆蓋了方方面面:
首先,它實現了更流暢的對話。演示視頻中可見,Project Astra可以在多種語言之間進行自然對話,比如法語和泰米爾語,能理解不同口音和生僻單詞。
其次,它能調用新工具。看起來是通過文本、語音、圖像和視頻回答問題并執行任務,并在需要時調用現有的谷歌應用,如搜索、地圖和攝像頭。“它融合了我們這個時代一些最強大的信息檢索系統。”Bibo Xu在這次媒體溝通會上說道。
第三,它有了更強的記憶力。演示視頻中,Project Astra 能夠記住門禁密碼,并且過了一段時間被問到時,還是能準確回憶起門禁密碼。在整個測試過程中,即使經過多個不同場景的對話,Project Astra仍能準確調取之前存儲的信息。
關于Project Astra的記憶能力,Bibo Xu在媒體溝通會上介紹,Project Astra 擁有兩種記憶能力,一個是「圖形記憶能力」,最多可以記住10分鐘內看到的每一個畫面像素;另一個是「對話記憶能力」,最多可以存儲60段歷史對話,并在需要時調用這些內容。
據悉,谷歌正在將Project Astra的功能植入自家產品中,比如Gemini app、智能眼鏡等。而且即將開放給一批“受信任的測試人員”,測試 Project Astra 在原型智能眼鏡上的表現。
2、除了Project Astra的升級之外,谷歌此次還發布一個新的智能體Project Mariner。
Project Mariner能夠理解和推理瀏覽器頁面中的信息(包括像素、文本、代碼、圖像和表單等),然后通過Chrome 擴展程序使用這些信息,為用戶完成復雜任務。
谷歌指出,在 WebVoyager 基準測試(該測試針對智能體在端到端的真實世界網頁任務的性能)中,Project Mariner 作為單個智能體設置實現了 83.5% 的工作效率,達到了最先進的水平。
從安全性的角度考慮,谷歌在博客中強調:“正在積極研究新型風險和應對措施,始終保持有人類的參與和監督。例如,Project Mariner 只能在瀏覽器上的活動標簽頁中鍵入、滾動或單擊,而它在采取某些敏感操作(如購買某物)之前,會要求用戶進行最終確認。”
3、面向開發者的編碼智能體Jules。
谷歌這次發布的另一個新智能體,是專門面向開發者的編碼智能體Jules,它可以直接集成到 GitHub 工作流程中來協助開發者工作。
對于開發者來說,比寫代碼更頭疼的可能是找bug,而現在,可以將Python和Javascript編碼任務交給Jules,Jules可以處理bug修復和其他耗時的任務,它可以有效修改多個文件,甚至拉取請求來直接將修復返回到GitHub,那么開發者就可以專注于其他任務。
4、更多“智能體們”,用于游戲、機器人、研究等更多領域。
除了上述“叫得上名字的”智能體之外,谷歌這次還演示了一些內置在Gemini 2.0的“智能體們”,用于游戲、機器人、研究等更多領域。
“Google DeepMind 一直以來都在利用游戲幫助AI模型更好地遵守規則、進行規劃、并運用邏輯思維。”谷歌在官網資料里指出。比如在上周,谷歌推出了Genie 2,一個可以從單個圖像創建無限多種可玩 3D 世界的 AI 模型。
而這次,谷歌基于Gemini 2.0 構建了一些智能體,專門用于游戲場景。演示視頻中可見,該智能體可以根據屏幕上的實時畫面,分析游戲情況,并提供下一步操作建議;此外,當被用戶問到游戲知識時,它還能調用搜索,檢索到相關知識并給出建議。
為了進一步探索智能體在游戲領域的應用,谷歌正在與Supercell等游戲開發團隊合作,通過測試它們在《部落沖突》、《海島奇兵》等各種游戲中的表現,來評估智能體們理解游戲規則、應對挑戰的能力。
除了探索虛擬世界的智能體能力外,谷歌還將 Gemini 2.0 的空間推理能力應用于機器人領域,嘗試讓智能體在現實世界中提供幫助。不過谷歌方面指出,這項研究仍處于初期階段。
此外,谷歌在 Gemini Advanced 中還引入了一項名為“深度研究(Deep Research)”的新代理功能,這是一個研究助手,可以深入研究復雜主題并為創建包含相關來源鏈接的報告。該功能自今日起對 Gemini Advanced 用戶開放。
“思維鏈是我們思考如何構建模型的重要組成部分。”Tulsee Doshi在媒體采訪中指出,比如AlphaCode和AlphaProof,這些都是能夠展示深度思維和推理時間的真正強大模型,它們能夠在代碼和數學方面提升性能。
值得一提的是,谷歌這次依然特別強調了安全與責任的重要性,為此制定了“負責任的AI”原則,在數據處理、模型訓練等各個環節都實施了嚴格的安全把關。
谷歌在對外發布資料里強調了秉持“負責任的AI”原則
Gemini 2.0背后的功臣:第六代Trillium
如此密集的AI智能體們,以及承載這些智能體的AI大模型們,給硬件基礎設施帶來了特殊挑戰。因為這些模型需要巨大的計算能力和專門的硬件來有效地處理訓練、微調和推理。
十多年前,谷歌開始開發定制的人工智能加速器——張量處理單元(TPU),它集成了軟硬件、機器學習框架、以及大模型,以滿足人工智能工作負載不斷增長的需求,為多模態人工智能鋪平道路。
桑達爾·皮查伊在寄語里把Gemini 2.0的進展一部分歸功于TPU。他寫道:“Gemini 2.0 的進展得益于我們所特有的長達 10 年全棧式 AI 創新研究的投入,它基于我們定制的硬件第六代 TPU Trillium 構建而成。TPU 為 Gemini 2.0 的訓練和推理提供 100% 算力支持。”谷歌第六代TPU Trillium發布于今年5月份的Google I/O大會上。
而現在,谷歌宣布第六代 TPU Trillium正式面向客戶開放。
相比于上一代,第六代Trillium訓練成績提高4倍以上,推理吞吐量提高3倍,能源效率提高67%,每個芯片的峰值計算性能提高了4.7倍,HBM (High Bandwidth Memory)容量翻倍,ICI (Interchip Interconnect)帶寬增加一倍。
谷歌Cloud計算與人工智能基礎設施副總裁Mark Lohmeyer在官方資料里指出,這些增強功能使Trillium能夠在廣泛的人工智能工作負載中脫穎而出,包括:擴展AI訓練工作量、培訓法學碩士包括密集和混合專家(MoE)模型、推理性能和集合調度、Embedding-intensive模型、提供培訓和推理性價比等。
谷歌第六代 TPU Trillium
結合這次整場發布可以看出,谷歌正在努力平衡AI的加度和深度思考能力,希望找到一個既能快速響應、又能進行深度推理的平衡點,目標是將這些先進技術以最實用的方式帶給用戶和產業。這個過程雖然充滿挑戰,但也充滿希望。
就像桑達爾·皮查伊在寄語里寫道:“信息是人類進步的基石。26 年來,我們始終專注于我們的使命——整合全球信息,供大眾使用,讓人人受益。這也是我們持續拓展人工智能前沿領域的原因。我們整合來自世界各地的信息,并通過多樣化的輸出方式,讓這些信息觸手可及,真正為你所用。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.