網易首頁 > 網易號 > 正文申請入駐

Llama 4 先后被 DeepSeek、英偉達暴擊，Meta 不再是大模型開源“霸主”了

2025-04-12 15:20:59　來源: InfoQ

北京舉報

分享至

整理 I 褚杏娟

當地時間 4 月 8 日，英偉達宣布推出其最新大語言模型 Llama3.1 Nemotron Ultra 253B。該模型基于 Meta 的 Llama-3.1-405B-Instruct 構建，并利用創新的神經架構搜索（NAS）技術進行了深度優化。其性能超越了最近發布的 Llama4，如 Behemoth、Maverick，并在 Hugging Face 平臺上開源，引起 AI 社區廣泛關注的同時，也再次“暴擊”了 Meta。

可查看： https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

M eta 在大模型開源領域一直是作為領頭羊的存在，但上周末發布的 Llama 4 卻一度讓 Meta 陷入尷尬。

Abacus.AI 首席執行官 Bindu Reddy 表示，“如果沒有 DeepSeek 和 Qwen，開源就會落后很多。”還有網友評價道，“Meta 頹勢盡顯，從 Llama3.1 起，技術上 insight 就慢慢落后了。回顧往昔，Llama2 還真是最巔峰。”Llama 4 的翻車還引發了大家對 Qwen 3 的期待。

目前，大家對 Llama 4 的批評主要集中在以下三點：

突然發布，沒有配套工具，哪怕是因為時間緊張，也還是太草率；
LM Arena“作弊”事件，最為嚴重，極大損害了公眾的信任；
用戶更加追逐“推理模型”，Llama 4 在推理上介紹較少，整體顯得沒那么突出。

現在，是否可以真的說 Meta 4 已經“折戟”了？

“作弊”事件引發信任危機

上周末，Meta 發布了兩個新的 Llama 4 模型：Scout （16 個專家，17B 激活參數）和 Maverick（128 個專家，17B 激活參數）。發布不久后，AI 社區就開始流傳一個傳聞：Meta 有意讓 Llama 4 更擅長跑分測試，并掩蓋其真實限制。

YouTube 博主的實測結果

“作弊”事件的主角是是 Maverick。Meta 宣稱，Maverick 能在“廣泛被引用的基準測試中”擊敗 GPT-4o 和 Gemini 2.0 Flash。Maverick 很快就在 AI 基準測試平臺 LMArena 上奪得了第二名的位置。

LMArena 是一個由用戶對比多個系統輸出并投票評選最佳結果的平臺。Meta 稱 Maverick 的 ELO 分數為 1417，高于 OpenAI 的 4o，僅次于 Gemini 2.5 Pro。（ELO 分數越高，表示模型在對戰中獲勝的頻率越高。）

這一成績讓 Meta 的開源模型 Llama 4 看上去有實力挑戰 OpenAI、Anthropic 和 Google 等公司最先進的閉源模型。然而，多位 AI 研究人員在仔細查閱文檔后發現了一些不尋常的地方。在文檔的細節部分，Meta 承認：用于 LMArena 測試的 Maverick 并不是公開提供的版本。根據 Meta 自身的資料顯示，他們在 LMArena 上部署的是一個“對話性能優化”的實驗性聊天版本的 Maverick。

根據外媒 TechCrunch 的說法，LMArena 從來都不是評估 AI 模型性能最可靠的標準。但過去 AI 公司通常不會專門去定制或微調模型以在 LMArena 上獲得更高分，至少沒人承認這么做過。

問題在于：如果你為一個基準測試定制了模型，但并不公布這個定制版本，而是只發布一個“原味”版本（vanilla variant），這會讓開發者很難準確預測這個模型在具體應用場景中的真實表現。而且，這種做法也具有誤導性。

理想情況下，盡管現有基準測試本身也有很多缺陷，但它們起碼應該能提供一個關于單個模型在不同任務上的能力概覽。

事實上，已經有研究人員指出，公開發布的 Maverick 模型和 LM Arena 上托管的那個版本行為差異非常明顯。LM Arena 的那個版本經常使用大量表情符號，而且回答特別啰嗦。

LMArena 在 Llama 4 發布兩天后在 X 發文表示：“Meta 對我們政策的理解與我們對模型提供方的期望不一致。Meta 應該更明確地說明 ‘Llama-4-Maverick-03-26-Experimental’ 是一個為迎合人類偏好而定制的模型。為此，我們正在更新排行榜政策，以加強對公平、可復現評測的承諾，避免未來再次出現類似混淆。”

雖然 Meta 的做法并未明確違反 LMArena 的規則，該平臺仍表達了對“操縱評測系統”的擔憂，并采取措施防止“過擬合”和“基準測試泄漏”。

當公司在排行榜上提交特別調優的模型版本，而向公眾發布的是另一個版本時，像 LMArena 這樣的排行榜作為現實表現參考的意義就會被削弱。同時，公眾也會對公司后續大模型版本的測評結果保持懷疑。

Meta 發言人 Ashley Gabriel 回應：“我們會嘗試各種定制版本。”她表示，“‘Llama-4-Maverick-03-26-Experimental’ 是我們試驗的一種聊天優化版本，在 LMArena 上的表現也很不錯。我們現在已經發布了開源版本，接下來將看看開發者如何根據自身需求定制 Llama 4。”

對此，Meta 生成式 AI 副總裁 Ahmad Al-Dahle 在 X 上發文否認了這些質疑：“我們也聽到了有關我們使用測試集進行訓練的指控——這根本不是事實，我們絕不會這么做。我們最合理的理解是，大家看到的質量差異是因為目前的實現版本仍需進一步穩定。”

這次事件揭示出，Meta 渴望被視為 AI 領頭羊——即使這意味著需要用“打榜技巧”操作規則，但其確實面臨著研發困境。

“DeepSeek 效應”的后續？

不少人注意到，Llama 4 的發布時間很奇怪——周六通常不是發布重大 AI 新聞的時間。有人在 Threads 上問為什么要在周末發布，Meta CEO 馬克·扎克伯格回應說：“因為那時它準備好了。”可見，選擇這個時間點發布是扎克伯格同意的。

Llama 是 Meta 最寄予厚望的一款模型，扎克伯格的目標是將其作為全球的行業標準，并在今年實現 10 億的用戶數量。此前，有人猜測 Meta 可能會在 4 月 29 日首次舉辦的 LlamaCon AI 會議推出 Llama 最新模型。

專注于追蹤 AI 模型的 Simon Willison 表示：“這次發布總體上非常令人困惑。模型評分對我來說毫無價值，因為我甚至無法使用那個得分很高的模型版本。”

Meta 發布 Llama 4 的過程并不順利。根據 The Information 的報道，由于模型未能達到內部預期，Meta 多次推遲發布。內部對這個版本預期尤其高，因為 DeepSeek 開源模型對其帶來了很大沖擊。

1 月底時有消息稱，Meta 的生成式 AI 團隊陷入了恐慌狀態。“一切始于 DeepSeek V3，它讓 Llama 4 在基準測試中落后。”“工程師們正瘋狂地剖析 DeepSeek，復制一切能復制的東西。”

這次發布中，Meta 特意提到“Maverick 是同類最佳的多模態模型，在編碼、推理、多語言、長上下文和圖像基準測試中超越了 GPT-4o 和 Gemini 2.0 等同類模型，并且在編碼和推理方面可與規模大得多的 DeepSeek v3.1 相媲美。”

“總體來說，對 Llama 4 來說是有點失望，唯一的驚喜是 Scout 的 10M 上下文窗口，可以處理巨長文本和大視頻。但很可惜的是官方 Release Notes 沒提到支持中文。”有網友說道。

但在第三方的長上下文測評中，Llama 4 表現并不好。對此，CoreViewHQ 聯合創始人兼 CTO Ivan Fioravant 表示，“Llama-4 不可能在 120k 上下文長度下會退化得這么嚴重。像 Meta 這樣的大型 AI 實驗室怎么可能在發布中宣稱支持 10M 上下文窗口，卻在實際使用中表現這么差？我真心希望是某些地方出了 bug 才導致這種情況。”

網友實測，Llama 4 被低估了嗎？

“dionysio211”認為，在關于 Llama 4 的討論中，很多真正重要的內容都被忽視了。最近發布的這些模型，其實在大模型設計方面帶來了許多新穎的突破，包括：多模態趨勢、新的推理與非推理邏輯設計、各種類型的 MoE（專家混合）結構等。

這些創新讓普通用戶在“第一印象”上產生了偏差，導致他們誤以為模型退步了，而實際上模型正在快速進化。

以 Gemma 3 為例，它的多模態功能在上線時表現非常糟糕，直到現在在很多本地 LLM 平臺（如 LMStudio、Ollama、KoboldCPP 等）上都還沒有完全優化好。這其實很容易理解。要在現有消費級硬件上擠出更多性能、同時盡快將模型推向公眾，涉及到大量變量——其中很重要的一點就是：依賴開源平臺去“預判”或“適配”模型發布后的變化。

“如果每個新模型都沿用同樣的架構，那怎么會有創新呢？”dionysio211 表示，“現在還沒有任何主流平臺對音頻輸入做出統一標準，那面對即將推出的“omni 模型”又要怎么支持？我還沒看到有哪個平臺支持 Phi-4 的 omni 版本。”“再比如 Qwen 2.5 VL 已經發布很久了，可至今大部分本地推理平臺還不支持它。”

“從 Mixtral 開始，幾乎每一個有新架構的模型在落地時都會遇到各種卡頓和問題。我們應該習慣這種情況，而不是在模型還沒跑順的時候就輕下結論、否定模型本身的價值。”dionysio211 表示，這都是這個行業發展過程的一部分，我們要做的是等待平臺支持，而不是急著說模型研發團隊“不懂在干什么”。

在 dionysio211 看來，Llama 4 這種模型正是本地 LLM 的未來趨勢。它們通過構建高性能的 MoE 架構，繞過了“內存傳輸帶寬”這一大瓶頸，使得模型甚至能在 CPU 上運行，或者至少適配 AMD、Apple 等平臺。

如今信息密度已經高到 3B 規模的模型就能完成一年前 24B 才能做到的事情，并且速度甚至比部分云端模型還快。“這是目前少數已知方式中能在本地實現每秒 20+ tokens 且性能接近 Sonnet 3.5、GPT-4 的方案，也可能促使硬件廠商未來在架構上更注重內存通道優化，而不是試圖去比拼 VRAM。”

網友“randomfoo2 ”則在 vLLM 做了正式發布并驗證了推理精度之后自己做了評測，得到的結論是“還算可以。”結果顯示，Scout（17A109B）的水平大致可以和 Mistral Small 3.1（24B）和 Gemma 3（27B）相當；Maverick（17A400B）的表現大致相當于 GPT-4o 的水平，略微落后于 DeepSeek-V3（37A671B），但激活參數量只有后者的一半。

“Llama 4 的架構很復雜，有不少新特性，但如果你要用 40T token 來訓練一個模型，總得經過一系列 sanity check（合理性驗證）吧。所以，我認為底模本身其實是沒問題的（除非是推理實現上還有 bug）。”randomfoo2 還提到，Llama 3 最初的 IT 版本其實也不怎么樣，直到 3.1 才真正打磨出色。

“我覺得 Llama 4 還是很有潛力的，但我會再等等，不著急去微調或深入研究，因為肯定還會有一堆 bug。說真的，我上周才剛在給 Phi 4 寫訓練器時發現了新 bug。”randomfoo2 說道。”randomfoo2 說道。

網友“dionysio211”則一直在定期查看 vLLM 和 llama.cpp 的提交記錄，表示他們現在確實還在不斷修復和優化中。“我用 LM Studio 的 Scout 版本試了一下，表現還不錯。我在 6800XT 和 7900XT 上用 Vulkan 和 ROCm 大概能跑到 10 tokens/s，社區版本和 Unsloth 的版本表現也差不多。我確實覺得 Scout 應該排名高于 Mistral Small 和 Gemma 3 27B，希望后續發布能進一步打磨這些版本。”

當地時間 4 月 8 日，獨立分析人工智能模型和托管提供商 Artificial Analysis 復現了 Meta 聲稱的 MMLU Pro 和 GPQA Diamond 測試集得分，并聲稱，“我們依然認為 Scout 和 Maverick 是非常優秀的開源模型，對開放權重 AI 生態具有重要價值。”

這次所有測試均基于 Hugging Face 發布的 Llama 4 權重版本，覆蓋多個第三方云平臺。其評測結果并未使用提供給 LMArena 的實驗版 chat-tuned 模型（Llama-4-Maverick-03-26-Experimental）。做出的改變是接受了 Llama 4 所采用的回答格式 “The best answer is A” 作為有效答案。

AI 研究機構 Epoch 也表示親自評估了 Llama 4，結果顯示：在 GPQA Diamond 測試中，Maverick 和 Scout 的得分分別為 67% 和 52%，與 Meta 報告的 57% 和 69.8% 相近。在 MATH Level 5 測試中，Maverick 和 Scout 的得分分別為 73% 和 62%。結論是：Maverick 與領先的開放式或低成本型號相比具有競爭力，并且均優于 Llama 3。

https://www.theverge.com/meta/645012/meta-llama-4-maverick-benchmarks-gaming

https://x.com/ArtificialAnlys/status/1909624239747182989

https://www.reddit.com/r/LocalLLaMA/comments/1jtzue8/why_we_may_be_wrong_about_llama_4/

https://techstartups.com/2025/01/24/meta-ai-in-panic-mode-as-free-open-source-deepseek-outperforms-at-a-fraction-of-the-cost/

https://www.threads.net/@zuck/post/DIFAsupTS7Z

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.