網易首頁 > 網易號 > 正文申請入駐

LIama 4發布重奪開源第一！DeepSeek同等代碼能力但參數減一半

2025-04-06 10:44:05　來源: 量子位

北京舉報

分享至

白交衡宇發自凹非寺
量子位 | 公眾號 QbitAI

AI不過周末，硅谷也是如此。

大周日的，Llama家族上新，一群LIama 4就這么突然發布了。

這是Meta首個基于MoE架構模型系列，目前共有三個款：

Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。

最后一個尚未推出，只是預告，但Meta已經毫不避諱地稱前兩者是“我們迄今為止最先進的型號，也是同類產品中最好的多模態型號”。

詳細來看一些關鍵詞——

Llama 4 Scout，16位專家的170億激活參數的多模態模型，單個H100 GPU可運行，同類SOTA，并擁有10M上下文窗口

Llama 4 Maverick，128位專家的170億激活參數多模態模型，擊敗GPT-4o和Gemini 2.0 Flash，與DeepSeek-V3同等代碼能力參數只要一半，主打與DeepSeek一樣的性價比，單個H100主機即可運行。

Llama 4 Behemoth：2萬億參數的超大超強模型，以上二者都由這個模型蒸餾而來；目前還在訓練中；多個基準測試超過GPT-4.5、Claude Sonnet 3.7和 Gemini 2.0 Pro。

Meta官推激情表示，這些Llama 4模型標志著Llama生態系統新時代——原生多模態AI創新的開始。

與此同時，大模型競技場排名迎來一輪更新。

此次發布的Llama 4 Maverick，在困難提示、編碼、數學、創意寫作方面并列第一；得分1417，不僅大大超越了此前Meta自家的Llama-3-405B（提升了149分），還成為史上第4個突破1400分的模型；。

而且跑分明確——超越DeepSeek-V3，實現亮相即登頂，直接成為排名第一的開源模型。

谷歌CEO劈柴哥第一時間發來賀電：

AI世界，從不平淡！
恭喜呀！前進吧，Llama 4團隊！

中杯、大杯首批亮相

了解了Llama 4家族全體成員后，我們先來見識一下首批發布的2個模型：

中杯
：Llama 4 Scout（偵查兵Llama 4）。
大杯
：Llama 4 Maverick（特立獨行的Llama 4）。

兩者均已能在Llama官網和抱抱臉上下載。

我們抓取并提煉出這倆模型的一些特點：

Meta首批MoE架構模型

這是Llama系列，第一批使用MoE（混合專家模型）構建的模型。

中杯Llama 4 Scout有17B激活參數，擁有16個專家模型。

大杯Llama 4 Maverick擁有17B激活參數，擁有128個專家模型。

至于還沒和大家正式見面的超大杯Llama 4 Maverick，擁有288B激活參數，擁有16個專家模型。

非常長————的上下文

Llama 4系列，均具有很長的上下文窗口。

這一點主要體現在Meta公布的中杯Llama 4 Scout的詳細數據里：

Llama 4 Scout提供了行業領先的100萬上下文窗口
經過預訓練和后訓練，Llama 4 Scout長度為256K，這使基本模型具有高級長度泛化能力。

這個配置，讓它在廣泛的測評集上，比Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1的結果更優秀。

它在「大海撈針」測試上的表現如下：

結果如下：

那么之前的Llama系列模型的上下文窗口情況呢？

Llama 1，上下文窗口為2k；
Llama 2，上下文窗口默認為4k，但可以通過微調等可以拓展到32k；
Llama 3，上下文窗口是8k，后來Llama 3.1的長文本能力拓展到了128k。

Meta官方博客中是這么寫的：

（Llama 4的長上下文）開辟了一個充滿可能性的世界，包括多文檔摘要、解析廣泛的用戶活動以執行個性化任務以及對龐大的代碼庫進行推理。

原生多模態設計

Llama 4系列，開啟了Llama的原生多模態時代。

而已經公開對外的中杯和大杯，被官方稱為“輕量級原生多模態模型”。

給用戶的體驗就是，上傳一張圖片，可以直接在對話框中提問關于這張圖片的各種問題。

不是我說，Llama終于長眼睛了！！！

上面這張動圖展示的僅僅是最基礎的，“為難”程都升級也不怕。

比如喂它一張鋪滿工具的圖片，問它哪些適合來干某個活。

它會很快地把適用的工具圈出來：

要認顏色+認小鳥，也沒在怕的：

中杯和大杯都在官方介紹中被打上了“世界上同類產品中最好的多模態模型”的tag。

來看和Llama系列前作、Gemma 3、Mistral 3.1、Gemini 2.0 Flash-Lite的對比結果——

可以看到，在各個測評集上的表現，Llama 4 Scout樣樣都是新SOTA。

語言天賦Max

經過了預訓練和微調的Llama 4，掌握全球12種語言，以此“方便全球開發者的部署”。

比DeepSeek更狠的“AI模型拼多多”

一定要跟大家分享的一個細節，Meta這次在模型API價格方面，下狠手了！

先說結果：

系列超大杯Llama 4 Maverick，不僅超越了同類型號其它模型，價格還非常之美麗。

更直觀地來看這張表格，真的狠過DeepSeek——從性能到價格各個緯度。

要知道，超大杯Llama 4 Behemoth屬于是Llama 4系列的教師模型。

如果說中杯和大杯是輕量級選手，這位就是絕對的重磅玩家。

288B激活參數，16個專家模型。

最重要的是，它的總參數量高達2000B！

在數學、多語言和圖像基準測試中，它提供了非推理模型的最先進性能。

當“最牛”和“最便宜”擺在一起的時候，試問哪位開發者會不心動？（doge）

訓練細節

用他們自己的話來說，Llama系列是進行了徹底的重新設計。目前第一組LIama 4系列模型，他們也公布了具體的訓練細節。

預訓練

他們首次使用混合專家MoE架構，在MoE架構中，單個token僅激活總參數的一小部分。MoE架構在訓練和推理方面具有更高的計算效率，固定訓練FLOP成本情況下質量更高。

比如，Llama 4Maverick模型有17B個激活參數和400B個總參數。他們使用交替的密集層和混合專家(MoE)層來提高推理效率。

MoE層使用128位路由（Routed）專家和一位共享專家。每個令牌都會發送給共享專家以及128位路由（Routed）專家之一。

因此，雖然所有參數都存儲在內存中，但在為這些模型提供服務時，只有總參數的子集被激活。

這通過降低模型服務成本和延遲來提高推理效率——Llama 4 Maverick 可以在單個H100 DGX主機上運行，以便于部署，也可以通過分布式推理實現最高效率。

他們早期融合，將文本和視覺token無縫集成到統一模型中。

他們開發了一種新的訓練技術：MetaP，可以設置關鍵模型超參數，比如每層的學習率和初始化尺度。

結果發現，所選的超參數能在批量大小、模型寬度、深度和訓練token的不同值之間很好地擴展和泛化——

Llama 4通過在200種語言（包括100多種語言，每種語言有超過10億個詞庫）上進行預訓練，實現了開源微調工作，多語言詞庫總量是Llama 3的10倍。

此外，他們使用FP8精度進行高效模型訓練，同時不犧牲質量并確保模型 FLOPs的高利用率—在使用FP8和32K GPU 預訓練 Llama 4 Behemoth模型時，結果他們實現了390TFLOPs/GPU。

用于訓練的整體混合數據包括30多萬億個token，是Llama 3預訓練混合物的兩倍多，其中包括各種文本、圖像和視頻數據集。

在所謂的“中期訓練”中繼續訓練模型，通過新的訓練方法（包括使用專業數據集進行長上下文擴展）來提高模型的核心功能。

后訓練

后訓練階段，他們提出一個課程策略，與單個模式專家模型相比，該策略不會犧牲性能。

在Llama 4中，采用了一種不同的方法來改造我們的后期訓練管道：

輕量級監督微調(SFT)>在線強化學習(RL)>輕量級直接偏好優化 (DPO)。

一個關鍵的教訓是，SFT和DPO可能會過度約束模型，限制在線強化學習階段的探索，并導致精度降低，尤其是在推理、編碼和數學領域。

為了解決這個問題，他們使用Llama模型作為評判標準，刪除了50%以上被標記為簡單的數據，并對剩余的較難數據集進行了輕量級SFT處理。

在隨后的在線強化學習階段，通過仔細選擇較難的提示，我們實現了性能上的飛躍。

此外，他們還實施了一種連續的在線強化學習策略，即交替訓練模型，然后利用模型不斷過濾并只保留中等難度到較高難度的提示。事實證明，這種策略在計算量和準確性的權衡方面非常有利。

然后，他們采用輕量級DPO來處理與模型響應質量相關的拐角情況，從而有效地在模型的智能性和對話能力之間實現了良好的平衡。流水線架構和帶有自適應數據過濾功能的連續在線RL策略，最后造就了現在的LIama 4。

總結來看，Llama 4架構的一項關鍵創新是使用交錯注意力層，而無需位置嵌入。此外，他們還采用了注意力推理時間溫度縮放來增強長度泛化。

這些他們稱之為iRoPE架構，其中“i”代表 “交錯 ”注意力層，突出了支持 “無限”上下文長度的長期目標，而 “RoPE ”指的是大多數層中采用的旋轉位置嵌入。

Llama 4 Behemoth

最后，他們還透露了超大模型Llama 4 Behemoth一些蒸餾和訓練細節。

我們開發了一種新穎的蒸餾損失函數，可通過訓練動態加權軟目標和硬目標。

預訓練階段，Llama 4 Behemoth的代碼蒸餾功能可以攤銷學生訓練中使用的大部分訓練數據計算蒸餾目標所需的資源密集型前向傳遞的計算成本。對于納入學生訓練的其他新數據，他們在Behemoth模型上運行前向傳遞，以創建蒸餾目標。

后訓練階段，為了最大限度地提高性能，他們刪減了95%的SFT數據，而小型模型只需刪減50%的數據，以實現對質量和效率的必要關注。

他們在進行輕量級SFT后，再進行大規模強化學習（RL），模型的推理和編碼能力會有更顯著的提高。

強化學習方法側重于通過對策略模型進行pass@k分析來抽取高難度提示，并根據提示難度的增加精心設計訓練課程。

此外還發現，在訓練過程中動態過濾掉優勢為零的提示語，并構建包含多種能力的混合提示語的訓練批次，有助于提高數學、推理和編碼的性能。最后，從各種系統指令中取樣對于確保模型在推理和編碼方面保持指令跟隨能力并在各種任務中表現出色至關重要。

由于其規模空前，要為兩萬億個參數模型擴展RL，還需要改造底層RL基礎設施。

他們優化了MoE并行化的設計，從而加快了迭代速度；并開發了一個完全異步的在線RL訓練框架，提高了靈活性。

現有的分布式訓練框架會犧牲計算內存以將所有模型堆疊在內存中，相比之下，他們新基礎架構能夠將不同模型靈活分配到不同GPU上，并根據計算速度在多個模型之間平衡資源。

與前幾代產品相比，這一創新使訓練效率提高了約10倍。

One More Thing

要知道，由于昨天DeepSeek發了新論文，搞得奧特曼都坐不住了，趕緊出來發聲：

計劃改變：我們可能在幾周之后先發布o3和o4-mini。
GPT-5就在幾個月后啊～

但，誰知道半路又殺出個Llama 4？！

前有猛虎，后有豺狼，OpenAI你真的得加油了……

網友調侃道，當奧特曼一睜眼，看到Llama 4來了，而且Llama 4的成本比GPT-4.5降低了3個數量級后——

他的狀態一定是醬嬸兒的：

以及相比Llama，現在可能神秘低調的DeepSeek，可能不知道什么時候突然就會推出DeepSeek R2和V4…同在杭州的通義千問也干勁十足，Llama也好GPT也好，基本成為平行參考了。

太平洋這頭，已經開始落地應用和智能體了。

參考鏈接：
[1]https://www.llama.com/
[2]https://ai.meta.com/blog/llama-4-multimodal-intelligence/
[3]https://x.com/AIatMeta/status/1908598456144531660
[4]https://x.com/lmarena_ai/status/1908601011989782976
[5]https://x.com/IOHK_Charles/status/1908635624036590070

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.