品玩4月21日訊,據 Winbuzzer 報道,谷歌近日發布了其 Gemma 3 系列的特別優化版本,使其可以在消費級GPU上運行。
這些模型采用了量化感知訓練(Quantization-Aware Training,QAT)技術,并使用 4 位整數精度(int4)--與 BFloat16(BF16)等常見的 16 位類型相比,這種數值格式每個參數僅使用 4 位--來大幅縮減內存需求。其主要成果是,包括大型 Gemma 3 27B 變體在內的復雜模型現在可以在流行的消費級顯卡上運行,從而使它們不再是高端數據中心加速器的專屬領域。
谷歌曾表示打算提供壓縮版本,承諾 “在保持高精度的同時,減少模型大小和計算要求”?,F在,這一計劃通過這些 QAT 版本得以實現。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.