小扎終于想起發布 Llama 4 了,本來早就應該發布的的節奏全被DeepSeek R1打亂了,哈哈!
Meta 剛剛放出了 Llama 4 系列的首批模型,按照官推的說法這次發布是對 Llama 系列的一次徹底重新設計
先劃重點:
核心變化:Llama 4 全系采用混合專家(MoE)架構,并且是原生多模態訓練,不再是 Llama 3 那樣的純文本模型了。這次發布了Llama 4 Scout和Llama 4 Maverick,同時還有最強大的Llama 4 Behemoth預覽
下面給大家第一時間做個梳理,
Llama 4 Scout:
定位:性能最強的小尺寸模型
參數:17B 激活參數,16 個專家,總參數量 109B
亮點:速度極快,原生支持多模態,擁有業界領先的 1000 萬+ Token 多模態上下文窗口(相當于處理 20 多個小時的視頻?。⑶?strong>能在單張 H100 GPU 上運行(Int4 量化后)
Llama 4 Maverick:
定位:同級別中最佳的多模態模型
性能:在多個主流基準測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash,推理和編碼能力與新發布的 DeepSeek v3 相當,但激活參數量不到后者一半
參數:17B 激活參數,128 個專家,總參數量 400B,上下文窗口 100 萬+
性價比:提供了同類最佳的性能成本比。其實驗性聊天版本在 LMArena 上 ELO 評分達到 1417,排名第二
部署:可以在單個主機上運行
Llama 4 Behemoth (預覽,訓練中):
定位:Meta 迄今最強模型,全球頂級 LLM 之一
性能:在多個 STEM 基準上優于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro
參數:288B 激活參數,16 個專家,總參數量高達2萬億 (2T)
訓練細節:使用 FP8 精度,在32000 塊 GPU上訓練了30 萬億多模態 Token
角色:作為 Maverick 模型進行代碼蒸餾時的教師模型
技術亮點解讀
原生多模態:所有模型都采用早期融合(early fusion)策略,將文本、圖像、視頻 Token 無縫整合到統一的模型骨干中
訓練流程優化:采用了 輕量級 SFT → 在線 RL → 輕量級 DPO 的后訓練流程。開發者強調,過度使用 SFT/DPO 會過度約束模型,限制在線 RL 階段的探索能力,所以要保持“輕量”
超長上下文的秘密 (10M+):實現這一突破的關鍵是iRoPE 架構("i" 代表 interleaved layers, infinite)
核心思想:通過追求無限上下文的目標來指導架構設計,特別是利用長度外推能力——在短序列上訓練,泛化到極長序列。最大訓練長度是 256K
具體做法:
? 本地注意力層(Local Attention)使用 RoPE 處理短上下文(如 8K),可并行化
? 全局注意力層(Global Attention)才負責處理長上下文(>8K),且不使用位置編碼(NoPE 思想),這有助于提升外推能力
? 為了解決上下文變長時注意力權重趨于平坦、影響推理的問題,在推理時對全局層應用溫度縮放,增強長距離推理,同時保持短上下文性能。公式大致為:xq *= 1 + log(floor(i / α) + 1) * β
(i 是位置索引)
大佬評價:
一個遺憾 (前kaggle總裁,fast AI 創始人Jeremy Howard):雖然感謝開源,但 Jeremy Howard 也表達了失望。Llama 4 Scout 和 Maverick 都是大型 MoE 模型,即使量化后也無法在消費級 GPU 上運行,這對開源社區的可及性來說是個不小的損失
Jim Fan(英偉達高級研究經理):
部署便利性優先:Jim Fan 認為,對于開源模型,特別是 MoE 架構,易于部署正變得比單純追求模型尺寸更重要。Meta 強調 Llama 4 Scout 能在單張 H100 上運行,這與 Llama-3 401B(雖然強大但采用率較低)形成對比,說明 MoE 是一個更符合當前開源策略的方向
智能調參 MetaP:MetaP這個用于智能調整訓練超參數的新技術。雖然細節不多,但他猜測這可能類似于 Meta 開源的Ax 框架中的貝葉斯優化,能在有限的試驗預算內進行自適應實驗(如 A/B 測試)
后訓練策略:重 RL 輕 SFT/DPO: Llama 4 的后訓練策略是降低 SFT/DPO 的權重,提升在線 RL 的權重。原因是過多的 SFT/DPO 會過度約束模型,限制其在 RL 階段的探索能力
自我批判式數據篩選:一個有趣的技術點是,訓練過程中模型較早的檢查點(checkpoint)可以作為“批評家”來評估后續模型,幫助過濾掉過于簡單的訓練樣本/提示,讓模型在不斷篩選和學習中變得更強
Behemoth 的訓練細節與數據挑戰: Llama 4 Behemoth 的龐大規模(FP8 精度、32K GPU、30T tokens 訓練)。由于模型能力太強,普通的 SFT 數據對它來說太“簡單”了,因此需要裁剪掉高達 95% 的 SFT 數據,而小模型只需要裁剪約 50%
實現千萬級上下文窗口的技術手段看起來“相當簡單”:
1.去除部分位置編碼:在某些注意力層(特別是全局層)不使用位置編碼,借鑒了NoPE (No Positional Embedding)論文的思想
2.調整 Softmax 注意力:根據上下文的長度來調整 Softmax 注意力計算
這次Llama 4的推理模型還不見蹤影,這多少有點說不過去,大家覺得呢?畢竟Meta也是妥妥的大廠??!不過Meta 表示這只是開始,后續還有更多模型,團隊正在全力開發中,特別提到了Llama 4 Reasoning模型
另外相比于DeepSeek的MIT開源方式,Llama 4 的新許可證有幾個限制:
- 每月活躍用戶超過 7 億的公司必須向 Meta 申請特殊許可,Meta 可自行決定授予或拒絕該許可。
- 必須在網站、界面、文檔等處突出顯示“使用 Llama 構建”。
- 使用 Llama Materials 創建的任何 AI 模型的名稱開頭都必須包含“Llama”
- 必須在任何分發的“通知”文本文件中包含具體的歸屬通知 - 使用必須遵守 Meta 單獨的可接受使用政策(參考 http://llama.com/llama4/use-policy...) - 僅出于符合品牌要求的有限許可使用“Llama”名稱
參考:
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.