99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Llama 4 先后被 DeepSeek、英偉達暴擊,Meta 不再是大模型開源“霸主”了

0
分享至


整理 I 褚杏娟

當地時間 4 月 8 日,英偉達宣布推出其最新大語言模型 Llama3.1 Nemotron Ultra 253B。該模型基于 Meta 的 Llama-3.1-405B-Instruct 構建,并利用創新的神經架構搜索(NAS)技術進行了深度優化。其性能超越了最近發布的 Llama4,如 Behemoth、Maverick,并在 Hugging Face 平臺上開源,引起 AI 社區廣泛關注的同時,也再次“暴擊”了 Meta。


可查看: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

M eta 在大模型開源領域一直是作為領頭羊的存在,但上周末發布的 Llama 4 卻一度讓 Meta 陷入尷尬。

Abacus.AI 首席執行官 Bindu Reddy 表示,“如果沒有 DeepSeek 和 Qwen,開源就會落后很多。”還有網友評價道,“Meta 頹勢盡顯,從 Llama3.1 起,技術上 insight 就慢慢落后了。回顧往昔,Llama2 還真是最巔峰。”Llama 4 的翻車還引發了大家對 Qwen 3 的期待。

目前,大家對 Llama 4 的批評主要集中在以下三點:

  • 突然發布,沒有配套工具,哪怕是因為時間緊張,也還是太草率;

  • LM Arena“作弊”事件,最為嚴重,極大損害了公眾的信任;

  • 用戶更加追逐“推理模型”,Llama 4 在推理上介紹較少,整體顯得沒那么突出。

現在,是否可以真的說 Meta 4 已經“折戟”了?

“作弊”事件引發信任危機

上周末,Meta 發布了兩個新的 Llama 4 模型:Scout (16 個專家,17B 激活參數)和 Maverick(128 個專家,17B 激活參數)。發布不久后,AI 社區就開始流傳一個傳聞:Meta 有意讓 Llama 4 更擅長跑分測試,并掩蓋其真實限制。


YouTube 博主的實測結果

“作弊”事件的主角是是 Maverick。Meta 宣稱,Maverick 能在“廣泛被引用的基準測試中”擊敗 GPT-4o 和 Gemini 2.0 Flash。Maverick 很快就在 AI 基準測試平臺 LMArena 上奪得了第二名的位置。

LMArena 是一個由用戶對比多個系統輸出并投票評選最佳結果的平臺。Meta 稱 Maverick 的 ELO 分數為 1417,高于 OpenAI 的 4o,僅次于 Gemini 2.5 Pro。(ELO 分數越高,表示模型在對戰中獲勝的頻率越高。)

這一成績讓 Meta 的開源模型 Llama 4 看上去有實力挑戰 OpenAI、Anthropic 和 Google 等公司最先進的閉源模型。然而,多位 AI 研究人員在仔細查閱文檔后發現了一些不尋常的地方。在文檔的細節部分,Meta 承認:用于 LMArena 測試的 Maverick 并不是公開提供的版本。根據 Meta 自身的資料顯示,他們在 LMArena 上部署的是一個“對話性能優化”的實驗性聊天版本的 Maverick。


根據外媒 TechCrunch 的說法,LMArena 從來都不是評估 AI 模型性能最可靠的標準。但過去 AI 公司通常不會專門去定制或微調模型以在 LMArena 上獲得更高分,至少沒人承認這么做過。

問題在于:如果你為一個基準測試定制了模型,但并不公布這個定制版本,而是只發布一個“原味”版本(vanilla variant),這會讓開發者很難準確預測這個模型在具體應用場景中的真實表現。而且,這種做法也具有誤導性。

理想情況下,盡管現有基準測試本身也有很多缺陷,但它們起碼應該能提供一個關于單個模型在不同任務上的能力概覽。

事實上,已經有研究人員指出,公開發布的 Maverick 模型和 LM Arena 上托管的那個版本行為差異非常明顯。LM Arena 的那個版本經常使用大量表情符號,而且回答特別啰嗦。


LMArena 在 Llama 4 發布兩天后在 X 發文表示:“Meta 對我們政策的理解與我們對模型提供方的期望不一致。Meta 應該更明確地說明 ‘Llama-4-Maverick-03-26-Experimental’ 是一個為迎合人類偏好而定制的模型。為此,我們正在更新排行榜政策,以加強對公平、可復現評測的承諾,避免未來再次出現類似混淆。”

雖然 Meta 的做法并未明確違反 LMArena 的規則,該平臺仍表達了對“操縱評測系統”的擔憂,并采取措施防止“過擬合”和“基準測試泄漏”。

當公司在排行榜上提交特別調優的模型版本,而向公眾發布的是另一個版本時,像 LMArena 這樣的排行榜作為現實表現參考的意義就會被削弱。同時,公眾也會對公司后續大模型版本的測評結果保持懷疑。

Meta 發言人 Ashley Gabriel 回應:“我們會嘗試各種定制版本。”她表示,“‘Llama-4-Maverick-03-26-Experimental’ 是我們試驗的一種聊天優化版本,在 LMArena 上的表現也很不錯。我們現在已經發布了開源版本,接下來將看看開發者如何根據自身需求定制 Llama 4。”

對此,Meta 生成式 AI 副總裁 Ahmad Al-Dahle 在 X 上發文否認了這些質疑:“我們也聽到了有關我們使用測試集進行訓練的指控——這根本不是事實,我們絕不會這么做。我們最合理的理解是,大家看到的質量差異是因為目前的實現版本仍需進一步穩定。”

這次事件揭示出,Meta 渴望被視為 AI 領頭羊——即使這意味著需要用“打榜技巧”操作規則,但其確實面臨著研發困境。

“DeepSeek 效應”的后續?

不少人注意到,Llama 4 的發布時間很奇怪——周六通常不是發布重大 AI 新聞的時間。有人在 Threads 上問為什么要在周末發布,Meta CEO 馬克·扎克伯格回應說:“因為那時它準備好了。”可見,選擇這個時間點發布是扎克伯格同意的。


Llama 是 Meta 最寄予厚望的一款模型,扎克伯格的目標是將其作為全球的行業標準,并在今年實現 10 億的用戶數量。此前,有人猜測 Meta 可能會在 4 月 29 日首次舉辦的 LlamaCon AI 會議推出 Llama 最新模型。

專注于追蹤 AI 模型的 Simon Willison 表示:“這次發布總體上非常令人困惑。模型評分對我來說毫無價值,因為我甚至無法使用那個得分很高的模型版本。”

Meta 發布 Llama 4 的過程并不順利。根據 The Information 的報道,由于模型未能達到內部預期,Meta 多次推遲發布。內部對這個版本預期尤其高,因為 DeepSeek 開源模型對其帶來了很大沖擊。

1 月底時有消息稱,Meta 的生成式 AI 團隊陷入了恐慌狀態。“一切始于 DeepSeek V3,它讓 Llama 4 在基準測試中落后。”“工程師們正瘋狂地剖析 DeepSeek,復制一切能復制的東西。”


這次發布中,Meta 特意提到“Maverick 是同類最佳的多模態模型,在編碼、推理、多語言、長上下文和圖像基準測試中超越了 GPT-4o 和 Gemini 2.0 等同類模型,并且在編碼和推理方面可與規模大得多的 DeepSeek v3.1 相媲美。”

“總體來說,對 Llama 4 來說是有點失望,唯一的驚喜是 Scout 的 10M 上下文窗口,可以處理巨長文本和大視頻。但很可惜的是官方 Release Notes 沒提到支持中文。”有網友說道。

但在第三方的長上下文測評中,Llama 4 表現并不好。對此,CoreViewHQ 聯合創始人兼 CTO Ivan Fioravant 表示,“Llama-4 不可能在 120k 上下文長度下會退化得這么嚴重。像 Meta 這樣的大型 AI 實驗室怎么可能在發布中宣稱支持 10M 上下文窗口,卻在實際使用中表現這么差?我真心希望是某些地方出了 bug 才導致這種情況。”


網友實測,Llama 4 被低估了嗎?

“dionysio211”認為,在關于 Llama 4 的討論中,很多真正重要的內容都被忽視了。最近發布的這些模型,其實在大模型設計方面帶來了許多新穎的突破,包括:多模態趨勢、新的推理與非推理邏輯設計、各種類型的 MoE(專家混合)結構等。

這些創新讓普通用戶在“第一印象”上產生了偏差,導致他們誤以為模型退步了,而實際上模型正在快速進化。

以 Gemma 3 為例,它的多模態功能在上線時表現非常糟糕,直到現在在很多本地 LLM 平臺(如 LMStudio、Ollama、KoboldCPP 等)上都還沒有完全優化好。這其實很容易理解。要在現有消費級硬件上擠出更多性能、同時盡快將模型推向公眾,涉及到大量變量——其中很重要的一點就是:依賴開源平臺去“預判”或“適配”模型發布后的變化

“如果每個新模型都沿用同樣的架構,那怎么會有創新呢?”dionysio211 表示,“現在還沒有任何主流平臺對音頻輸入做出統一標準,那面對即將推出的“omni 模型”又要怎么支持?我還沒看到有哪個平臺支持 Phi-4 的 omni 版本。”“再比如 Qwen 2.5 VL 已經發布很久了,可至今大部分本地推理平臺還不支持它。”

“從 Mixtral 開始,幾乎每一個有新架構的模型在落地時都會遇到各種卡頓和問題。我們應該習慣這種情況,而不是在模型還沒跑順的時候就輕下結論、否定模型本身的價值。”dionysio211 表示,這都是這個行業發展過程的一部分,我們要做的是等待平臺支持,而不是急著說模型研發團隊“不懂在干什么”。

在 dionysio211 看來,Llama 4 這種模型正是本地 LLM 的未來趨勢。它們通過構建高性能的 MoE 架構,繞過了“內存傳輸帶寬”這一大瓶頸,使得模型甚至能在 CPU 上運行,或者至少適配 AMD、Apple 等平臺。

如今信息密度已經高到 3B 規模的模型就能完成一年前 24B 才能做到的事情,并且速度甚至比部分云端模型還快。“這是目前少數已知方式中能在本地實現每秒 20+ tokens 且性能接近 Sonnet 3.5、GPT-4 的方案,也可能促使硬件廠商未來在架構上更注重內存通道優化,而不是試圖去比拼 VRAM。”

網友“randomfoo2 ”則在 vLLM 做了正式發布并驗證了推理精度之后自己做了評測,得到的結論是“還算可以。”結果顯示,Scout(17A109B) 的水平大致可以和 Mistral Small 3.1(24B) 和 Gemma 3(27B) 相當;Maverick(17A400B) 的表現大致相當于 GPT-4o 的水平,略微落后于 DeepSeek-V3(37A671B),但激活參數量只有后者的一半。

“Llama 4 的架構很復雜,有不少新特性,但如果你要用 40T token 來訓練一個模型,總得經過一系列 sanity check(合理性驗證)吧。所以,我認為底模本身其實是沒問題的(除非是推理實現上還有 bug)。”randomfoo2 還提到,Llama 3 最初的 IT 版本其實也不怎么樣,直到 3.1 才真正打磨出色。

“我覺得 Llama 4 還是很有潛力的,但我會再等等,不著急去微調或深入研究,因為肯定還會有一堆 bug。說真的,我上周才剛在給 Phi 4 寫訓練器時發現了新 bug。”randomfoo2 說道。”randomfoo2 說道。

網友“dionysio211”則一直在定期查看 vLLM 和 llama.cpp 的提交記錄,表示他們現在確實還在不斷修復和優化中。“我用 LM Studio 的 Scout 版本試了一下,表現還不錯。我在 6800XT 和 7900XT 上用 Vulkan 和 ROCm 大概能跑到 10 tokens/s,社區版本和 Unsloth 的版本表現也差不多。我確實覺得 Scout 應該排名高于 Mistral Small 和 Gemma 3 27B,希望后續發布能進一步打磨這些版本。”

當地時間 4 月 8 日,獨立分析人工智能模型和托管提供商 Artificial Analysis 復現了 Meta 聲稱的 MMLU Pro 和 GPQA Diamond 測試集得分,并聲稱,“我們依然認為 Scout 和 Maverick 是非常優秀的開源模型,對開放權重 AI 生態具有重要價值。”

這次所有測試均基于 Hugging Face 發布的 Llama 4 權重版本,覆蓋多個第三方云平臺。其評測結果并未使用提供給 LMArena 的實驗版 chat-tuned 模型(Llama-4-Maverick-03-26-Experimental)。做出的改變是接受了 Llama 4 所采用的回答格式 “The best answer is A” 作為有效答案。


AI 研究機構 Epoch 也表示親自評估了 Llama 4,結果顯示:在 GPQA Diamond 測試中,Maverick 和 Scout 的得分分別為 67% 和 52%,與 Meta 報告的 57% 和 69.8% 相近。在 MATH Level 5 測試中,Maverick 和 Scout 的得分分別為 73% 和 62%。結論是:Maverick 與領先的開放式或低成本型號相比具有競爭力,并且均優于 Llama 3。

https://www.theverge.com/meta/645012/meta-llama-4-maverick-benchmarks-gaming

https://x.com/ArtificialAnlys/status/1909624239747182989

https://www.reddit.com/r/LocalLLaMA/comments/1jtzue8/why_we_may_be_wrong_about_llama_4/

https://techstartups.com/2025/01/24/meta-ai-in-panic-mode-as-free-open-source-deepseek-outperforms-at-a-fraction-of-the-cost/

https://www.threads.net/@zuck/post/DIFAsupTS7Z

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國乒名將宣布失戀分手,女方大三歲系舞蹈演員,身材很好顏值高

國乒名將宣布失戀分手,女方大三歲系舞蹈演員,身材很好顏值高

塵語者
2025-04-15 17:32:07
山西大同訂婚強奸案,必須厘清三大疑點

山西大同訂婚強奸案,必須厘清三大疑點

大象新聞
2025-03-26 18:00:19
英偉達H20,正式限制出口

英偉達H20,正式限制出口

半導體行業觀察
2025-04-16 09:10:40
不用上班真的爽ESPN:被曼聯停用的奧納納休整后感覺精神煥發

不用上班真的爽ESPN:被曼聯停用的奧納納休整后感覺精神煥發

直播吧
2025-04-16 11:38:15
英國強接中資鋼廠,中資停技術同步,抽走協同鏈條 配套 一夜蒸發

英國強接中資鋼廠,中資停技術同步,抽走協同鏈條 配套 一夜蒸發

小宇宙雙色球
2025-04-15 11:22:11
廣東隊季后賽12人大名單即將調整!大將缺席訓練 杜鋒或上調一人

廣東隊季后賽12人大名單即將調整!大將缺席訓練 杜鋒或上調一人

胖子噴球
2025-04-16 08:39:16
歐冠災難級失誤!巴薩隊長險成罪人:2年2次挖坑,難當主力

歐冠災難級失誤!巴薩隊長險成罪人:2年2次挖坑,難當主力

葉青足球世界
2025-04-16 05:36:39
正式簽約加盟!你好,霍華德!球員生涯最后一季……

正式簽約加盟!你好,霍華德!球員生涯最后一季……

籃球實戰寶典
2025-04-10 18:26:45
反轉!特朗普再次對華變臉,將取消豁免出狠招,中方:天塌不下來

反轉!特朗普再次對華變臉,將取消豁免出狠招,中方:天塌不下來

王墨觀察
2025-04-15 11:33:27
WNBA選秀:薩格斯女友海利-范麗絲第11順位當選,年薪8萬美元

WNBA選秀:薩格斯女友海利-范麗絲第11順位當選,年薪8萬美元

懂球帝
2025-04-16 08:13:17
“新型啃老”正在全國蔓延:孩子不上班也不伸手要錢,3000塊能活

“新型啃老”正在全國蔓延:孩子不上班也不伸手要錢,3000塊能活

巢客HOME
2025-04-05 23:19:55
“新型養老”火了,不麻煩兒女也不用去養老院,78歲大爺:挺好的

“新型養老”火了,不麻煩兒女也不用去養老院,78歲大爺:挺好的

惟來
2025-04-15 10:16:18
特朗普可以死心了,外交部打開天窗說亮話,中方不會跟野蠻人電話

特朗普可以死心了,外交部打開天窗說亮話,中方不會跟野蠻人電話

黃教授
2025-04-16 11:30:38
國內揪出5名間諜后續!貿易戰立大功,央視曝光正臉,建議死刑

國內揪出5名間諜后續!貿易戰立大功,央視曝光正臉,建議死刑

肆時說
2025-04-15 23:09:00
梅老板來一塊?薩拉赫續約時戴95萬美元的手表,梅西點贊

梅老板來一塊?薩拉赫續約時戴95萬美元的手表,梅西點贊

直播吧
2025-04-15 12:07:21
美媒:一旦中國武統臺島,美軍將全面空襲中國,解放軍敢開戰嗎?

美媒:一旦中國武統臺島,美軍將全面空襲中國,解放軍敢開戰嗎?

小晨同學啊
2025-04-14 15:58:48
取消1.9萬億出口退稅,利大于弊

取消1.9萬億出口退稅,利大于弊

克萊恩財經
2025-04-14 23:08:28
不聽話就關門,特朗普下狠招,哈佛大學果斷拒絕,中國留學生反擊

不聽話就關門,特朗普下狠招,哈佛大學果斷拒絕,中國留學生反擊

張學昆看世界
2025-04-15 17:13:22
許敏來北京支持李律,杜新枝再提U盤事件,田靜曬截圖維護郭威

許敏來北京支持李律,杜新枝再提U盤事件,田靜曬截圖維護郭威

男女那點事兒兒
2025-04-16 09:16:42
鬧大了!63歲重機車網紅去世,晚上騎車撞護欄,更多細節曝光

鬧大了!63歲重機車網紅去世,晚上騎車撞護欄,更多細節曝光

觀察鑒娛
2025-04-15 09:32:50
2025-04-16 12:16:49
InfoQ incentive-icons
InfoQ
有內容的技術社區媒體
11017文章數 51224關注度
往期回顧 全部

科技要聞

Model 2被斃內幕:馬斯克嫌無聊 高管勸不住

頭條要聞

"訂婚強奸案"男方家屬:將繼續申訴 兒子還挺堅強的

頭條要聞

"訂婚強奸案"男方家屬:將繼續申訴 兒子還挺堅強的

體育要聞

諾坎普奇跡的兩位當事人,差點靈魂互換

娛樂要聞

楊冪女兒小糯米長大了,神似媽媽!

財經要聞

一季度GDP同比增長5.4%!

汽車要聞

又帥又快超實用 極氪007GT獵裝車才是完美的車?

態度原創

藝術
教育
本地
數碼
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

初三家長必讀:分享一個考不上高中也能上本科的方法!還有更狠的:初中直接上本科!

本地新聞

云游湖北|相約安陸,解鎖限定版粉色春天

數碼要聞

1058.99 元,HyperX 颶風 3 加強版無線游戲耳機發布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 岱山县| 昌江| 红桥区| 彰化县| 安义县| 安宁市| 鲁山县| 栖霞市| 惠水县| 新龙县| 靖边县| 文山县| 滦平县| 乌鲁木齐市| 吴堡县| 东安县| 常山县| 印江| 个旧市| 湘阴县| 蒙城县| 依安县| 太和县| 吉水县| 康定县| 阿拉善右旗| 岳池县| 宜春市| 白河县| 同江市| 东安县| 镇坪县| 兴城市| 双流县| 阳高县| 冷水江市| 临汾市| 汕尾市| 黔南| 公主岭市| 双流县|