白交 發自 凹非寺
量子位 | 公眾號 QbitAI
單GPU就能跑的最強模型來了!
谷歌最新模型Gemma 3,主打開源與高效。
27B輕松擊敗671B滿血的DeepSeek V3、o3-mini、Llama-405B,僅次于R1。
而從所需算力來看,其他模型要實現差不多的性能,所需算力資源至少增加10倍,有的情況下甚至高達32倍。
在ChatBot Arena Imarena大模型競技場中,Gemma 3也躋身Top 10,不僅在同等參數量模型中達到SOTA,開源模型里也僅次于R1。
網友們紛紛表示驚呆,尤其對單GPU就能跑、128K上下文印象深刻。
不過除了這劇情是不是有點似曾相識,有人注意到為啥沒有跟QwQ 32B比較。
目前,Gemma 3可以直接在Google AI Studio上體驗,在包括抱抱臉、Ollama或者Kaggle等平臺下載。
可在單個GPU運行的最強模型
此次Gemma 3有四個版本,27B是最大,還有1B、4B、12B。既有預訓練模型,也有通用指令微調版本。
展開來看,主要有這些特點:
- 單GPU/TPU運行:Gemma 3在單GPU/TPU運行情況下,在LMArena排行榜的初步人類偏好評估中勝過Llama-405B、DeepSeek-V3和o3-mini。
如此高效的模型性能不在端側應用部署可惜了。谷歌也專門給了教程和案例,手把手教的那種。
比如1B模型量化版在手機端運行,在三星Galaxy S24 Ultra上運行的性能如下:
還有在電腦Web端本地創建社媒內容。
MacBook Pro 2023(Apple M3 Pro 芯片)性能如下:
- 多模態和多語言,可以分析圖片、文本、短視頻等模態。
語言語種方面,提供對超過35種語言的開箱即用支持;以及對超過140種語言的預訓練支持。
- 多工具支持靈活開發,支持Hugging Face Transformers、Ollama、JAX、Keras、PyTorch、Google AI Edge、UnSloth、vLLM 和Gemma.cpp的等平臺。
- 128k Token上下文窗口
另外還支持函數調用、結構化輸出,以幫助您自動執行任務并構建Agent,官方還引入了量化版本。
他們還推出了ShieldGemma 2:一款基于Gemma 3構建的4B圖像安全檢查器。開發人員可以定制 ShieldGemma 2來滿足他們的安全需求。
更多技術細節
與模型一同發布的,還有一份25頁的技術報告,里面有不少細節。
如何訓練的?
此次結合蒸餾、強化學習和模型合并等方法,對Gemma的前訓練和后期訓練過程進行了優化。
Gemma 3使用了與Gemma 2一樣的Tokenizer,支持140多種語言,并使用JAX框架在Google TPU上對1B的2T tokens、4B的4T tokens、12B的12T tokens和27B的14T tokens進行了訓練。
在后訓練方面,Gemma 3使用了4個組件:
- 從較大的指令模型中提煉出Gemma 3預訓練檢查點。
- RLHF,使模型預測與人類偏好保持一致。
- 從機器反饋中強化學習RLMF,以增強數學推理能力。
- 執行反饋強化學習(RLEF),以提高編碼能力。
這種方法提高了數學、編碼和指令跟蹤方面的性能,使其在LMArena分數達到了1338分。
與之前的版本相比情況:
正文最后一頁還放了主要作者們,共同一作共有16位。
OMT:英偉達直接參與優化
除此之外,在技術報告里還看到了這些亮點。
首先,英偉達直接參與了Gemma 3模型的優化,以確保其在任何規格的GPU上都能獲得最佳性能,包括Jetson Nano 到最新的Blackwell芯片。
而在英偉達API目錄中也出現了Gemma 3,只需調用API即可快速進行原型設計。
針對谷歌自家的TPU,Gemma 3也進行了優化,并通過開源ROCmTM堆棧與AMD GPU集成。還有CPU的解決方案。
Gemma 3還附帶了改進的代碼庫,其中包括高效微調和推理的配方。開發者可以根據特定需求來定制和調整模型。
在其他模型火熱的當下,Gemma系列已經來到了一周年,下載量已經默默超過1億次,在社區中又超過60000個變體誕生。
如今在開源模型這塊的競爭,又激烈了不少。
最后,感興趣的朋友可直接戳下方鏈接哦~
https://aistudio.google.com/prompts/new_chat
參考鏈接:
[1]https://blog.google/technology/developers/gemma-3/
[2]https://x.com/sundarpichai/status/1899779090472644881?s=46
[3]https://developers.googleblog.com/en/introducing-gemma3/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.