網易首頁 > 網易號 > 正文申請入駐

Meta深夜開源Llama 4！首次采用MoE，驚人千萬token上下文，競技場超越DeepSeek

2025-04-06 09:25:00　來源: 學術頭條

北京舉報

分享至

內容來自：機器之心

萬萬沒想到。Meta 選擇在周六日，發布了最新 AI 模型系列 ——Llama 4，這是其 Llama 家族的最新成員。

該系列包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。所有這些模型都經過了大量未標注的文本、圖像和視頻數據的訓練，以使它們具備廣泛的視覺理解能力。

Meta GenAI 負責人 Ahmad Al-Dahle 表示，Llama 4 展示了 Meta 對開源 AI、整個開源 AI 社區的長期承諾以及堅定不移的信念 —— 開放系統將產出最好的小型、中型和即將出現的前沿大模型。

谷歌 CEO 劈查伊不禁感嘆，人工智能世界永遠不無聊，恭喜 Llama 4 團隊，繼續前進！

在大模型競技場（Arena），Llama 4 Maverick 的總排名第二，成為第四個突破 1400 分的大模型。其中開放模型排名第一，超越了 DeepSeek；在困難提示詞、編程、數學、創意寫作等任務中排名均為第一；大幅超越了自家 Llama 3 405B，得分從 1268 提升到了 1417；風格控制排名第五。

那么 Llama 4 模型系列有何特點呢？具體而言：

Llama 4 Scout 是一個擁有 170 億激活參數和 16 個專家的模型，是同類中全球最佳的多模態模型，比前幾代 Llama 模型更強大，且能適配單個 NVIDIA H100 GPU。此外，Llama 4 Scout 提供了業界領先的 10M 上下文窗口，在廣泛報道的基準測試中表現優于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。

Llama 4 Maverick 是一個擁有 128 位專家、 170 億個激活參數模型，是同類中最好的多模態模型，在廣泛報道的基準測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash，同時在推理和編程方面取得了與新 DeepSeek v3 相當的結果 —— 激活參數不到一半。Llama 4 Maverick 提供了一流的性價比，其實驗性聊天版本在 LMArena 上的 ELO 得分為 1417。

以上這兩個模型是 Meta 迄今為止最好的模型，主要得益于它們是從擁有 2880 億激活參數和 16 個專家的 Llama 4 Behemoth 模型進行知識蒸餾而來。

Llama 4 Behemoth 是 Meta 目前最強大的模型之一，也是世界上最智能的大型語言模型之一。在多項科學、技術、工程和數學（STEM）基準測試中，Llama 4 Behemoth 的表現優于 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Pro。

不過，Llama 4 Behemoth 仍在訓練中，后續 Meta 會放出更多內容。

好消息是，用戶現在就可以在 llama.com 和 Hugging 上下載 Llama 4 Scout 和 Llama 4 Maverick 最新模型。

所有 Llama 4 模型均采用原生多模態設計，比如上傳一張圖像，你可以問關于這張圖像的任何問題

Llama 4 Scout 支持長達 1000 萬 token 的上下文，這是目前行業內最長的上下文長度，解鎖了圍繞記憶、個性化和多模態應用的新用例。

Llama 4 在圖像 grounding 方面也是一流的，能夠將用戶提示與相關的視覺概念對齊，并將模型響應錨定到圖像中的區域。

Llama 4 還經過預訓練和微調，能夠理解 12 種語言的無與倫比的文本，支持全球開發和部署。

預訓練

Meta 在構建下一代 Llama 模型時，在預訓練階段嘗試了多種新方法。

首先，這是 Meta 首次采用混合專家（Mixture of Experts, MoE）架構。在 MoE 模型中，單個 token 僅激活總參數的一部分。Meta 表示，MoE 架構在訓練和推理時計算效率更高，在固定訓練 FLOPs 預算下，相比密集模型提供更高的質量。

以 Llama 4 Maverick 模型為例，該模型擁有 170 億激活參數和 4000 億總參數。Meta 采用交替的密集層和混合專家（MoE）層來提高推理效率。在 MoE 層中，他們使用了 128 個路由專家和一個共享專家。每個 token 都會被發送到共享專家以及 128 個路由專家中的一個。

因此，盡管所有參數都存儲在內存中，但在服務這些模型時，只有總參數的一部分被激活。這通過降低模型服務成本和延遲來提高推理效率 ——Llama 4 Maverick 可以在單個 NVIDIA H100 DGX 主機上運行，便于部署，也可以通過分布式推理實現最高效率。

Llama 4 系列模型采用原生多模態設計，通過早期融合將文本和視覺 token 無縫整合到統一的模型骨干中。早期融合是一個重大進步，因為這樣能夠使用大量未標記的文本、圖像和視頻數據對模型進行聯合預訓練。此外，Meta 還改進了 Llama 4 中的視覺編碼器，該編碼器基于 MetaCLIP，以更好地使編碼器適應 LLM。

另外，Meta 還開發了一種新的訓練技術，稱為 MetaP，其能夠可靠地設置模型超參數，例如每層的學習率和初始化規模。Meta 發現，選定的超參數在不同批量大小、模型寬度、深度和訓練 token 值之間具有良好的遷移性。

Llama 4 通過在 200 種語言上進行預訓練，支持開源微調工作，其中包括超過 100 種語言，每種語言都超過 10 億 token，總體上比 Llama 3 多 10 倍的多語言 token。

此外，Meta 采用 FP8 精度進行訓練，兼具質量并確保高 FLOPs 利用率。在使用 FP8 和 32K GPU 預訓練 Llama 4 Behemoth 模型時，Meta 實現了每 GPU 390 TFLOPs。訓練所用的數據混合總量超過 30 萬億 token，是 Llama 3 預訓練數據混合量的兩倍多，涵蓋了多樣化的文本、圖像和視頻數據集。

最后，Meta 還通過所謂的中期訓練（mid-training）繼續訓練模型，提升模型核心能力，包括利用專門的數據集擴展長上下文。這使 Meta 在提升模型質量的同時，為 Llama 4 Scout 解鎖了業界領先的 1000 萬輸入上下文長度。

后訓練

Llama 4 Maverick 在圖像和文本理解方面提供了無與倫比、行業領先的性能，能夠創建跨越語言障礙的復雜人工智能應用。作為通用助手和聊天用例的產品主力模型，Llama 4 Maverick 在精確圖像理解和創意寫作方面表現出色。

在對 Llama 4 Maverick 模型進行后訓練時，最大的挑戰是平衡多種輸入模態、推理能力和對話能力。為了混合模態，Meta 設計了一種精心策劃的課程策略，與單一模態專家模型相比，這種策略不會降低性能。

在 Llama 4 中，Meta 通過采用不同的方法對后訓練流程進行了全面改進：輕量級監督微調（SFT）> 在線強化學習（RL）> 輕量級直接偏好優化（DPO）。Meta 發現，SFT 和 DPO 可能會過度約束模型，限制在線 RL 階段的探索能力，從而導致推理、編程和數學領域的精度下降。

為了解決這一問題，Meta 使用 Llama 模型作為評判，移除了超過 50% 的標記為簡單（easy）的數據，并在剩余較難的數據集上進行了輕量級監督微調（SFT）。在隨后的多模態在線強化學習（RL）階段，通過精心選擇較難的提示，實現了性能的顯著提升。

此外，Meta 還實施了持續在線 RL 策略，交替訓練模型并使用它持續過濾并保留中等至高難度的提示。這種策略在計算和準確性權衡方面非常有益。

最后，Meta 還進行了輕量級直接偏好優化（DPO），以處理與模型響應質量相關的邊緣情況，有效實現了模型智能與對話能力的良好平衡。這些改進促成了一個業界領先的通用聊天模型，具備最先進的智能和圖像理解能力。

性能

Llama 4 Maverick 包含 170 億激活參數、128 個專家和 4000 億總參數，相比 Llama 3.3 70B，以更低的價格提供了更高的質量。由下表可知，Llama 4 Maverick 是同類中最佳的多模態模型，在編碼、推理、多語言、長上下文和圖像基準測試中，其性能超過了類似模型如 GPT-4o 和 Gemini 2.0，并且在編碼和推理方面與規模更大的 DeepSeek v3.1 具有競爭力。

較小模型 Llama 4 Scout 是一款通用型模型，擁有 170 億激活參數、16 個專家和 1090 億總參數，能夠在其所屬類別中提供最先進的性能。Llama 4 Scout 將支持的上下文長度從 Llama 3 的 128K 大幅提升至業界領先的 1000 萬 token。這為多文檔摘要、解析廣泛用戶活動以實現個性化任務以及推理龐大代碼庫等應用提供了更多可能性。

Llama 4 Scout 在預訓練和后訓練中均使用 256K 上下文長度，使基礎模型具備強大的長上下文泛化能力。在大海撈針檢索等任務中，該模型均展示了令人信服的結果。

Llama 4 架構的關鍵創新之一是使用無位置嵌入的交錯注意力層（interleaved attention layers），并通過推理時的溫度縮放來增強長上下文泛化能力。這種架構被稱為 iRoPE 架構，其中 i 代表交錯（interleaved）注意力層，強調其支持無限上下文長度的長期目標；RoPE 指大多數層中使用的旋轉位置嵌入。

Meta 對兩款模型進行了廣泛的圖像和視頻幀靜止圖像訓練，以賦予它們廣泛的視覺理解能力，包括對時序活動及相關圖像的理解。這使得模型能夠在多圖像輸入和文本提示下輕松進行視覺推理和理解任務。這些模型在預訓練時最多支持 48 張圖像，并且在后訓練中可以支持 8 張圖像，結果良好。

Llama 4 Scout 在圖像定位方面表現卓越，能夠將用戶提示與相關視覺概念對齊，并將模型響應錨定到圖像中的特定區域。這使得大型語言模型能夠更精確地進行視覺問答，更好地理解用戶意圖并定位感興趣的對象。

此外，Llama 4 Scout 在編碼、推理、長上下文和圖像基準測試中超越了類似模型，并且比所有之前的 Llama 模型表現更強。

將 Llama 推向新的尺度：2T Behemoth

Llama 4 Behemoth 預覽版是一個教師模型，也是一個多模態混合專家模型，擁有 2880 億激活參數、16 個專家和近 2 萬億總參數。

在數學、多語言和圖像基準測試中，它提供了非推理模型的最先進性能，是教授較小 Llama 4 模型的完美選擇。

對一個擁有兩萬億參數的模型進行后訓練是一個巨大的挑戰，這要求研究者從數據規模開始，徹底重新設計和改進訓練方案。為了最大化性能，Meta 不得不對監督微調（SFT）數據進行 95% 的剪枝，而較小模型的剪枝比例為 50%。這一舉措是為了在質量和效率上取得必要的平衡。Meta 還發現，先進行輕量級監督微調（SFT），再進行大規模強化學習（RL），能夠顯著提升模型的推理和編碼能力。

Meta 的強化學習（RL）方案專注于通過策略模型進行 pass@k 分析，采樣難度較高的提示，并構建難度逐漸增加的訓練課程。此外，在訓練過程中動態過濾掉零優勢的提示，并構建包含多種能力的混合提示訓練批次，這些措施在數學、推理和編碼方面為模型帶來了顯著的性能提升。最后，從多種系統指令中采樣對于確保模型在推理和編碼任務中保持指令遵循能力至關重要，這使得模型能夠在多種任務中表現出色。

為兩萬億參數的模型擴展強化學習（RL）也是一項巨大的挑戰，這迫使 Meta 不得不重新設計并改進底層的強化學習基礎設施，以應對前所未有的規模。

Meta 對混合專家（MoE）并行化的設計進行了優化，以提升速度，從而加快迭代過程。此外，他們還開發了一個完全異步的在線強化學習訓練框架，增強了靈活性。與現有的分布式訓練框架相比，后者為了將所有模型加載到內存中而犧牲了計算內存，Meta 的新基礎設施能夠靈活地將不同模型分配到不同的 GPU 上，并根據計算速度在多個模型之間平衡資源。這一創新使得訓練效率相比上一代提升了約 10 倍。

Llama 4 Scout 和 Llama 4 Maverick 現已開放下載，地址：

llama.com：https://www.llama.com/llama-downloads/
Hugging Face 地址：https://huggingface.co/meta-llama

參考鏈接：https://ai.meta.com/blog/llama-4-multimodal-intelligence/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.