又是一屆谷歌開發者大會(2024 Google I/O Connect),從今年6月至8月歷時兩個月,這場“環球之旅”先后走過德國柏林、印度班加羅爾,最后壓軸之站來到中國北京。
作為每年Google I/O大會之后的衍生篇,“Connect系列活動”如同“Connect(連接)”一詞的內涵,更主張local+global(本地化+全球化)。彼時科技行者同時參與了5月份在美國山景城的Google I/O,感受頗深的是,谷歌一直在強調用Gemini將AI踐行到底;只不過這次在中國的內容,谷歌傳遞了很多特色故事,這些故事有谷歌的AI如何點亮中國傳統文化,如何創造種類繁多的AI應用,以及更重要的,如何賦能中國開發者的成功出海。
這次北京活動的第一天,剛好是8月7日,中國節氣里的立秋,是收獲的季節,但是在現場,或許“春耕”才符合他們的真實寫照。
AI舞臺上的“東方力量”
“中國開發者是全球舞臺上不可或缺的先鋒力量。”Google大中華區總裁陳俊廷的這句開場白,無疑是整場活動的最佳注解,“過去一年里,來自中國的25個開發團隊,共有31款游戲和應用,在全球不同地區斬獲了50個Google Play年度最佳獎項。”
Google大中華區總裁陳俊廷
與這個成績相呼應的,是陳俊廷接下來列舉的一個個案例,講述了中國公司如何利用AI、重塑商業模式、驅動業務升級、為全球用戶帶去驚喜。
· 在數字營銷領域。網易游戲在海外接觸Google Cloud Vertex AI平臺,提升了廣告文案創作效率,工作時間從原來的1周縮減到幾個小時,每月累計可以生成700多條定制化文案,定制化的營銷服務“信手拈來”。
· 同樣是數字營銷領域。“當紅炸子雞”家居在線平臺Homary,通過Google AI賦能海外廣告投放,實現了投資回報率提升49%、轉化價值提升50%,可謂是賣爆全球。
· 在消費電子領域。小米在海外提前布局AI,利用Google Cloud和Gemini,讓海外用戶感受“中國智造”的魅力。
當然,AI助推進步不僅限于尖端生產力,在傳承中國文化與造福社會方面,同樣擁有無限潛力。譬如:
· AI賦能傳統與現代的融合創新。廣州博物館與谷歌藝術與文化(Google Arts & Culture)合作,通過沉浸式線上展覽,向全球用戶呈現廣州千年港口的璀璨和飲食文化的魅力,比如廣彩、德化瓷、鎮海樓等,涵蓋了127件珍貴館藏圖片和10個豐富的文化故事。
· AI賦能可持續發展。在四川高原牧場,西南民族大學借助谷歌的AI開源技術,改善了當地牧民生活。一位參與該項目的西南民族大學同學分享道:“紅原縣平均海拔3600米,這里有一望無際的草場,牦牛有沒有長肉是牧民尤其關心的問題,我們收集了大量的牦牛圖像數據,利用TensorFlow訓練牦牛的關鍵點檢測,借助輕量化的TensorFlow Lite模型部署在APP上,現在牧民只需要拍攝牦牛的照片,就能估算出牦牛的體重,適時調整養殖策略。為了幫助農民更好的進行放牧規劃,我們利用谷歌的AI開源技術ARCore,在APP上設計了放牧規劃模塊、草畜平衡模塊,幫助牧民進入自家牧場了解情況,推動牧場的可持續發展。”
· AI賦能社會公益。在中國26所偏遠地區的小學課堂上,谷歌公益攜手欣欣教育基金會,通過“編譯夢想”項目,對900多名學生進行AI入門和基礎教育,為孩子們打開AI世界的大門;在“善創未來”黑客馬拉松中,40多名開發者以公益實踐為主題,帶來了兼具人文關懷、實用性和前瞻性的技術解決方案,比如此次會議介紹的兩個AI技術開源項目:“手語村”與“智引線”,為聽障和視障人士提供更多學習和生活的便利。
在谷歌看來,AI正在改變「開發」的格局,從激發應用創意,到重塑構建方法,而谷歌始終致力于通過AI賦能的產品開發工具和平臺,幫助出海開發者大膽創新、高效創造、觸達全球。
那么對于這群可愛的開發者們而言,有哪些AI賦能的產品開發工具和平臺?答案,就要從Gemini開始說起。
用AI重塑開發,狂卷Gemini
如果說,曾經你還搞不清楚谷歌千千萬萬產品的名字,那么以后不必擔心,因為當談及谷歌的AI時,它們只會指向同一個名字——Gemini。
Gemini,是谷歌現在最核心的基礎模型,同時被廣泛認為是這家公司在AI時代的野心,此前谷歌CEO桑達爾·皮查伊(Sundar Pichai)在2024 Google I/O更是直言“谷歌正式邁向Gemini時代”。
從谷歌的表述來看,Gemini的獨特之處在于“它不是單獨在文本語料庫上訓練的,而是一開始就被設計為「多模態模型」”,所以它可同時處理多種類型的數據,文本、圖像、音視頻、代碼等。迄今,Gemini一共發布了兩代,Gemini 1.0(發布于2023年12月)和Gemini 1.5(發布于2024年2月),而為了匹配不同場景下的開發需求,它目前一共有Ultra、Pro、Flash、Nano四個版本。其中:
· Gemini Ultra是谷歌規模最大、功能最強的模型,適用于“高度復雜的任務”。據說它是第一個在 57 門學科的大規模多任務語言理解(MMLU)測試中優于人類專家的語言模型,得分90%,這些學科包括數學、物理、歷史、法律、醫學等等。
· Gemini Pro適用于“各種廣泛的任務”。目前,Gemini 1.5 Pro版本做了顯著改進,不僅支持200萬token的上下文窗口,還提升了在編寫代碼、邏輯推理和規劃、多輪對話、理解音頻和圖像方面的能力,所以它適合“需要最高質量響應的復雜任務”,它回答的質量也高。
· Gemini Nano是最高效的模型,適合處理“端側任務”(比如安卓手機),它可直接在移動設備上運行,提供低延遲響應和數據隱私保護。
· Gemini Flash是谷歌迄今速度最快、最經濟的模型,專門針對大規模、高頻率的運算任務進行了優化,適合處理“高容量任務”。有意思的是,1.5 Flash是通過1.5 Pro 的訓練過程進行“提取”得到的,也就是說,將大模型中的核心知識和技能轉移到這個較小但更高效的模型上。不過,盡管與1.5 Pro相比,1.5 Flash更輕量,但后者在處理大量信息時仍展現出強大的多模態推理能力,擅長摘要制作、聊天應用、提供圖說和視頻字幕、以及從長篇文件和表格中提取數據等任務。
總之,谷歌將逐漸把Gemini納入旗下所有產品里,包括搜索、地圖、照片、Workspace、安卓等。Gemini也會被集成到谷歌的眾多開發工具中,包括Android Studio、Chrome DevTools、Project IDX、Colab、VS Code、IntelliJ和Firebase,可以幫助開發者編寫、調試和測試代碼,還可以生成文檔、理解整個代碼庫等,化身“開發助手”。
在谷歌的設想下,有了Gemini全家桶,開發者可以專注于構建AI功能,而谷歌專注于打磨這一王牌選手。但是,這還不夠。
Google Developer X和開發者關系副總裁兼總經理Jeanine Banks
Google Developer X和開發者關系副總裁兼總經理Jeanine Banks現場指出,為了滿足開發者對靈活性和掌控力的需求,根據具體應用場景對AI進行微調、增強和接地氣,谷歌自己卷自己,推出與Gemini“一脈相承”的開源大模型——Gemma,采用與Gemini相同的研究和技術。
Gemma發布于今年2月,分為2B(20億參數)和7B(70億參數)兩種尺寸版本,2B版本甚至可直接在筆記本電腦上運行;今年6月,谷歌又推出了更強大、更高效、更安全的Gemma 2,擁有90億(?9B)?和270億(?27B)?兩種參數大小。
當然,技術參數是一方面,怎么善用工具更重要。
谷歌這次也像往年一樣,分享了全套應用開發工具和服務的更新,覆蓋AI、Web、移動端、云這4個開發平臺,為AI時代的開發者提供沃土。
比如谷歌的開源UI工具包——Flutter,它可以在移動端、Web端、桌面端觸及用戶,其全部使用單一共享代碼庫。而在會上,谷歌宣布更新了Flutter 3.24和Dart 3.5版本,其中包括新的Flutter GPU API 的早期預覽、Web上元素嵌入的增強、以及針對 iOS 生態系統構建的幾項更新,包括對Swift Package Manager的早期支持,以及對Cupertino widget 的功能更新。
傳統上,跨平臺框架在視覺效果上需要妥協,因為它們依賴于底層平臺提供的高級抽象。而Flutter采用了不同的方法,擁有自己的渲染層,可以在每個設備上,提供硬件加速的圖形和流暢的性能。谷歌在Impeller和著色器方面取得了實質性進展,為圖形處理帶來了激動人心的新可能 ——比如3D。
其中最大的亮點是Flutter GPU API的早期預覽,這是一個強大的底層圖形API,它直接集成到Flutter SDK中,開發者可以通過該API,自定義光柵管線并直接向GPU提交繪制調用,使得創建專門的渲染器成為可能,如2D Canvas替代品、3D場景圖、甚至粒子系統,以創建視覺上令人驚嘆、高性能和身臨其境的體驗,而無需通常需要的引擎級別的開銷。
在flutter_scene中渲染的科幻太空頭盔的3D動畫
現場聯動環節,小米展示了利用Flutter,為小米SU7開發車載配套應用,包括遠程車輛控制、接收車輛狀態的實時更新、在后排懸掛Pad安裝另外一塊拓展屏App等。“上手Flutter非常容易,并且開發進展迅速,我們預估比使用原生框架的效率高60%。”小米汽車智能座艙手機APP客戶端高級研發工程師陳作斌在宣傳片里分享道。
除了上述更新,谷歌還揭秘了開源項目Project Oscar。它是一個 AI代理(AI Agent)的參考實現,可協助維護開源項目。它以Go編程語言項目為入手點,將來能為各種不同的開源項目帶來助力,幫助開發者全心投入編程工作。
這可以是AI開發的試驗田
誠然,幾乎所有開發者活動,其實都有一個共性:盡可能激勵開發者的創作靈感,谷歌的這次活動也不例外。所以,如果我們把視角從主題演講的發布,挪到范圍更大的其他環節,就會發現有更多的開發者聚集在現場的工作坊、展區體驗、各種交流的場合里。
展區體驗環節同樣是圍繞AI、Web、移動端、云這4個主題分布,然而當我實際體驗時才得知,這些案例中的大部分,并非是已經商業化的成熟案例,而是作為一個單純的demo,為啟發開發者的創作靈感而準備的。
比如多次亮相于谷歌開發者大會的“大黃”——谷歌的一個實驗性項目,目的是為了給開發者提供靈感,展示AI如何量身定制一款交互助手。大黃的技術基因很多,它囊括了PaLM2、MakerSuite、MediaPipe、Vertex AI等,有了這些技術的加持,大黃可以與人實時對話。不過與去年相比,今年的大黃不僅會“說話”,還能“看見”周圍環境。開發者可以通過“大黃”,了解到如何用Gemma開發交互助手。
再比如展區現場的“Golf with Gemini(高爾夫陪練)”體驗,Gemini可以作為教練,從準度、是否違規、優雅度、桿前動作、姿勢與力量、最終得分、總結等維度,對你每一次的揮桿,給出專業指導。現場采訪中,工作人員介紹了它的工作流:
· 視頻捕捉和處理:攝像機抓取玩家的高爾夫球比賽場景,所拍攝的視頻上傳到Google Cloud Storage;同時,利用計算機視覺的目標檢測技術,在視頻中逐幀追蹤高爾夫球的運動,并提取球的位置、與球洞的距離、擊球次數等數據;
· 數據存儲與分析:提取的數據被實時傳輸到BigQuery,大量的數據被高效存儲和分析,分析結果隨后可被可視化,以更加了解高爾夫進程。
· 基于生成式AI的實時趣味解說:Gemini 1.5 Pro將基于拍攝的視頻和數據,生成實時趣味解說。
諸如此類的體驗還有很多,谷歌一直在通過寓教于樂的方式,來挖掘開發潛能。甚至,為了培養中國開發者,谷歌從教育抓起——「谷歌數字人才培養計劃」自2022年起與教育部合作,目前已為全國150多所高校的560多名教師開展線下培訓,累計覆蓋4萬多名在校學生。
為了更好服務于中國開發者走向海外,Google開發者中文網站還上線了Google AI頁面,專門提供Google AI技術更新、實時的新聞動態、豐富的學習資源;同時,谷歌通過“出海創業加速器(GFSA,Google for Startups Accelerator)”項目,助力中國創業者和開發者決勝全球,并且每年舉行為期3個月的訓練營,為入營企業提供三個月的免費創業支持。
Google AI頁面(中文版)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.