整理 I 褚杏娟
當地時間 4 月 8 日,英偉達宣布推出其最新大語言模型 Llama3.1 Nemotron Ultra 253B。該模型基于 Meta 的 Llama-3.1-405B-Instruct 構建,并利用創新的神經架構搜索(NAS)技術進行了深度優化。其性能超越了最近發布的 Llama4,如 Behemoth、Maverick,并在 Hugging Face 平臺上開源,引起 AI 社區廣泛關注的同時,也再次“暴擊”了 Meta。
可查看: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
M eta 在大模型開源領域一直是作為領頭羊的存在,但上周末發布的 Llama 4 卻一度讓 Meta 陷入尷尬。
Abacus.AI 首席執行官 Bindu Reddy 表示,“如果沒有 DeepSeek 和 Qwen,開源就會落后很多。”還有網友評價道,“Meta 頹勢盡顯,從 Llama3.1 起,技術上 insight 就慢慢落后了。回顧往昔,Llama2 還真是最巔峰。”Llama 4 的翻車還引發了大家對 Qwen 3 的期待。
目前,大家對 Llama 4 的批評主要集中在以下三點:
突然發布,沒有配套工具,哪怕是因為時間緊張,也還是太草率;
LM Arena“作弊”事件,最為嚴重,極大損害了公眾的信任;
用戶更加追逐“推理模型”,Llama 4 在推理上介紹較少,整體顯得沒那么突出。
現在,是否可以真的說 Meta 4 已經“折戟”了?
“作弊”事件引發信任危機
上周末,Meta 發布了兩個新的 Llama 4 模型:Scout (16 個專家,17B 激活參數)和 Maverick(128 個專家,17B 激活參數)。發布不久后,AI 社區就開始流傳一個傳聞:Meta 有意讓 Llama 4 更擅長跑分測試,并掩蓋其真實限制。
YouTube 博主的實測結果
“作弊”事件的主角是是 Maverick。Meta 宣稱,Maverick 能在“廣泛被引用的基準測試中”擊敗 GPT-4o 和 Gemini 2.0 Flash。Maverick 很快就在 AI 基準測試平臺 LMArena 上奪得了第二名的位置。
LMArena 是一個由用戶對比多個系統輸出并投票評選最佳結果的平臺。Meta 稱 Maverick 的 ELO 分數為 1417,高于 OpenAI 的 4o,僅次于 Gemini 2.5 Pro。(ELO 分數越高,表示模型在對戰中獲勝的頻率越高。)
這一成績讓 Meta 的開源模型 Llama 4 看上去有實力挑戰 OpenAI、Anthropic 和 Google 等公司最先進的閉源模型。然而,多位 AI 研究人員在仔細查閱文檔后發現了一些不尋常的地方。在文檔的細節部分,Meta 承認:用于 LMArena 測試的 Maverick 并不是公開提供的版本。根據 Meta 自身的資料顯示,他們在 LMArena 上部署的是一個“對話性能優化”的實驗性聊天版本的 Maverick。
根據外媒 TechCrunch 的說法,LMArena 從來都不是評估 AI 模型性能最可靠的標準。但過去 AI 公司通常不會專門去定制或微調模型以在 LMArena 上獲得更高分,至少沒人承認這么做過。
問題在于:如果你為一個基準測試定制了模型,但并不公布這個定制版本,而是只發布一個“原味”版本(vanilla variant),這會讓開發者很難準確預測這個模型在具體應用場景中的真實表現。而且,這種做法也具有誤導性。
理想情況下,盡管現有基準測試本身也有很多缺陷,但它們起碼應該能提供一個關于單個模型在不同任務上的能力概覽。
事實上,已經有研究人員指出,公開發布的 Maverick 模型和 LM Arena 上托管的那個版本行為差異非常明顯。LM Arena 的那個版本經常使用大量表情符號,而且回答特別啰嗦。
LMArena 在 Llama 4 發布兩天后在 X 發文表示:“Meta 對我們政策的理解與我們對模型提供方的期望不一致。Meta 應該更明確地說明 ‘Llama-4-Maverick-03-26-Experimental’ 是一個為迎合人類偏好而定制的模型。為此,我們正在更新排行榜政策,以加強對公平、可復現評測的承諾,避免未來再次出現類似混淆。”
雖然 Meta 的做法并未明確違反 LMArena 的規則,該平臺仍表達了對“操縱評測系統”的擔憂,并采取措施防止“過擬合”和“基準測試泄漏”。
當公司在排行榜上提交特別調優的模型版本,而向公眾發布的是另一個版本時,像 LMArena 這樣的排行榜作為現實表現參考的意義就會被削弱。同時,公眾也會對公司后續大模型版本的測評結果保持懷疑。
Meta 發言人 Ashley Gabriel 回應:“我們會嘗試各種定制版本。”她表示,“‘Llama-4-Maverick-03-26-Experimental’ 是我們試驗的一種聊天優化版本,在 LMArena 上的表現也很不錯。我們現在已經發布了開源版本,接下來將看看開發者如何根據自身需求定制 Llama 4。”
對此,Meta 生成式 AI 副總裁 Ahmad Al-Dahle 在 X 上發文否認了這些質疑:“我們也聽到了有關我們使用測試集進行訓練的指控——這根本不是事實,我們絕不會這么做。我們最合理的理解是,大家看到的質量差異是因為目前的實現版本仍需進一步穩定。”
這次事件揭示出,Meta 渴望被視為 AI 領頭羊——即使這意味著需要用“打榜技巧”操作規則,但其確實面臨著研發困境。
“DeepSeek 效應”的后續?
不少人注意到,Llama 4 的發布時間很奇怪——周六通常不是發布重大 AI 新聞的時間。有人在 Threads 上問為什么要在周末發布,Meta CEO 馬克·扎克伯格回應說:“因為那時它準備好了。”可見,選擇這個時間點發布是扎克伯格同意的。
Llama 是 Meta 最寄予厚望的一款模型,扎克伯格的目標是將其作為全球的行業標準,并在今年實現 10 億的用戶數量。此前,有人猜測 Meta 可能會在 4 月 29 日首次舉辦的 LlamaCon AI 會議推出 Llama 最新模型。
專注于追蹤 AI 模型的 Simon Willison 表示:“這次發布總體上非常令人困惑。模型評分對我來說毫無價值,因為我甚至無法使用那個得分很高的模型版本。”
Meta 發布 Llama 4 的過程并不順利。根據 The Information 的報道,由于模型未能達到內部預期,Meta 多次推遲發布。內部對這個版本預期尤其高,因為 DeepSeek 開源模型對其帶來了很大沖擊。
1 月底時有消息稱,Meta 的生成式 AI 團隊陷入了恐慌狀態。“一切始于 DeepSeek V3,它讓 Llama 4 在基準測試中落后。”“工程師們正瘋狂地剖析 DeepSeek,復制一切能復制的東西。”
這次發布中,Meta 特意提到“Maverick 是同類最佳的多模態模型,在編碼、推理、多語言、長上下文和圖像基準測試中超越了 GPT-4o 和 Gemini 2.0 等同類模型,并且在編碼和推理方面可與規模大得多的 DeepSeek v3.1 相媲美。”
“總體來說,對 Llama 4 來說是有點失望,唯一的驚喜是 Scout 的 10M 上下文窗口,可以處理巨長文本和大視頻。但很可惜的是官方 Release Notes 沒提到支持中文。”有網友說道。
但在第三方的長上下文測評中,Llama 4 表現并不好。對此,CoreViewHQ 聯合創始人兼 CTO Ivan Fioravant 表示,“Llama-4 不可能在 120k 上下文長度下會退化得這么嚴重。像 Meta 這樣的大型 AI 實驗室怎么可能在發布中宣稱支持 10M 上下文窗口,卻在實際使用中表現這么差?我真心希望是某些地方出了 bug 才導致這種情況。”
網友實測,Llama 4 被低估了嗎?
“dionysio211”認為,在關于 Llama 4 的討論中,很多真正重要的內容都被忽視了。最近發布的這些模型,其實在大模型設計方面帶來了許多新穎的突破,包括:多模態趨勢、新的推理與非推理邏輯設計、各種類型的 MoE(專家混合)結構等。
這些創新讓普通用戶在“第一印象”上產生了偏差,導致他們誤以為模型退步了,而實際上模型正在快速進化。
以 Gemma 3 為例,它的多模態功能在上線時表現非常糟糕,直到現在在很多本地 LLM 平臺(如 LMStudio、Ollama、KoboldCPP 等)上都還沒有完全優化好。這其實很容易理解。要在現有消費級硬件上擠出更多性能、同時盡快將模型推向公眾,涉及到大量變量——其中很重要的一點就是:依賴開源平臺去“預判”或“適配”模型發布后的變化。
“如果每個新模型都沿用同樣的架構,那怎么會有創新呢?”dionysio211 表示,“現在還沒有任何主流平臺對音頻輸入做出統一標準,那面對即將推出的“omni 模型”又要怎么支持?我還沒看到有哪個平臺支持 Phi-4 的 omni 版本。”“再比如 Qwen 2.5 VL 已經發布很久了,可至今大部分本地推理平臺還不支持它。”
“從 Mixtral 開始,幾乎每一個有新架構的模型在落地時都會遇到各種卡頓和問題。我們應該習慣這種情況,而不是在模型還沒跑順的時候就輕下結論、否定模型本身的價值。”dionysio211 表示,這都是這個行業發展過程的一部分,我們要做的是等待平臺支持,而不是急著說模型研發團隊“不懂在干什么”。
在 dionysio211 看來,Llama 4 這種模型正是本地 LLM 的未來趨勢。它們通過構建高性能的 MoE 架構,繞過了“內存傳輸帶寬”這一大瓶頸,使得模型甚至能在 CPU 上運行,或者至少適配 AMD、Apple 等平臺。
如今信息密度已經高到 3B 規模的模型就能完成一年前 24B 才能做到的事情,并且速度甚至比部分云端模型還快。“這是目前少數已知方式中能在本地實現每秒 20+ tokens 且性能接近 Sonnet 3.5、GPT-4 的方案,也可能促使硬件廠商未來在架構上更注重內存通道優化,而不是試圖去比拼 VRAM。”
網友“randomfoo2 ”則在 vLLM 做了正式發布并驗證了推理精度之后自己做了評測,得到的結論是“還算可以。”結果顯示,Scout(17A109B) 的水平大致可以和 Mistral Small 3.1(24B) 和 Gemma 3(27B) 相當;Maverick(17A400B) 的表現大致相當于 GPT-4o 的水平,略微落后于 DeepSeek-V3(37A671B),但激活參數量只有后者的一半。
“Llama 4 的架構很復雜,有不少新特性,但如果你要用 40T token 來訓練一個模型,總得經過一系列 sanity check(合理性驗證)吧。所以,我認為底模本身其實是沒問題的(除非是推理實現上還有 bug)。”randomfoo2 還提到,Llama 3 最初的 IT 版本其實也不怎么樣,直到 3.1 才真正打磨出色。
“我覺得 Llama 4 還是很有潛力的,但我會再等等,不著急去微調或深入研究,因為肯定還會有一堆 bug。說真的,我上周才剛在給 Phi 4 寫訓練器時發現了新 bug。”randomfoo2 說道。”randomfoo2 說道。
網友“dionysio211”則一直在定期查看 vLLM 和 llama.cpp 的提交記錄,表示他們現在確實還在不斷修復和優化中。“我用 LM Studio 的 Scout 版本試了一下,表現還不錯。我在 6800XT 和 7900XT 上用 Vulkan 和 ROCm 大概能跑到 10 tokens/s,社區版本和 Unsloth 的版本表現也差不多。我確實覺得 Scout 應該排名高于 Mistral Small 和 Gemma 3 27B,希望后續發布能進一步打磨這些版本。”
當地時間 4 月 8 日,獨立分析人工智能模型和托管提供商 Artificial Analysis 復現了 Meta 聲稱的 MMLU Pro 和 GPQA Diamond 測試集得分,并聲稱,“我們依然認為 Scout 和 Maverick 是非常優秀的開源模型,對開放權重 AI 生態具有重要價值。”
這次所有測試均基于 Hugging Face 發布的 Llama 4 權重版本,覆蓋多個第三方云平臺。其評測結果并未使用提供給 LMArena 的實驗版 chat-tuned 模型(Llama-4-Maverick-03-26-Experimental)。做出的改變是接受了 Llama 4 所采用的回答格式 “The best answer is A” 作為有效答案。
AI 研究機構 Epoch 也表示親自評估了 Llama 4,結果顯示:在 GPQA Diamond 測試中,Maverick 和 Scout 的得分分別為 67% 和 52%,與 Meta 報告的 57% 和 69.8% 相近。在 MATH Level 5 測試中,Maverick 和 Scout 的得分分別為 73% 和 62%。結論是:Maverick 與領先的開放式或低成本型號相比具有競爭力,并且均優于 Llama 3。
https://www.theverge.com/meta/645012/meta-llama-4-maverick-benchmarks-gaming
https://x.com/ArtificialAnlys/status/1909624239747182989
https://www.reddit.com/r/LocalLLaMA/comments/1jtzue8/why_we_may_be_wrong_about_llama_4/
https://techstartups.com/2025/01/24/meta-ai-in-panic-mode-as-free-open-source-deepseek-outperforms-at-a-fraction-of-the-cost/
https://www.threads.net/@zuck/post/DIFAsupTS7Z
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.