AI 圈今年最大丑聞曝光！Llama 4 被揭訓(xùn)練作弊，實測慘遭滑鐵盧，核心骨干憤然離職

2025-04-07 18:26:17　來源: 愛范兒

廣東舉報

分享至

昨天，Meta Llama 4 就這么突然地發(fā)布了。

紙面參數(shù)很高大上，號稱原生多模態(tài) MOE 模型，擊敗 DeepSeek V3，還有 2 萬億參數(shù)巨獸，連 Meta CEO 扎克伯格也發(fā)視頻，搖旗高呼迎接「Llama 4 日」。

歡呼是短暫的，當網(wǎng)友開始實測后，卻幾乎是一邊倒的負面評價，堪稱今年 AI 界最大的「翻車」事件。

在專門討論本地部署大語言模型的社區(qū) r/LocalLLaMA（可理解為 Llama「貼吧」）中，一篇標題為「我對 Llama 4 感到 incredibly disappointed（極度失望）」的帖子迅速獲得了大量關(guān)注和共鳴。

更有 Llama 忠實粉絲原地破防，直言是時候該將「LocalLLaMA」改名為「LocalGemma」了，調(diào)侃 Llama 4 的發(fā)布更像是遲到的愚人節(jié)玩笑。

實測表現(xiàn)貨不對板，曝 Llama 4 發(fā)布前瘋狂「灌題」

在 Reddit 的這篇原帖中，網(wǎng)友 karminski 強烈建議不要使用 Llama 4 進行編碼。

他表示 Llama-4-Maverick——總參數(shù)達 402B 的型號——在編碼能力上僅能與 Qwen-QwQ-32B 勉強匹敵。而 Llama-4-Scout（總參數(shù) 109B 的型號）表現(xiàn)則大致與 Grok-2 或 Ernie 4.5 相仿。

事實上，根據(jù)最新的 aider polyglot 編碼基準測試結(jié)果，Llama 4 Maverick 的得分僅為 16%。

這一基準測試旨在評估大型語言模型（LLM）在多語言編程任務(wù)中的表現(xiàn)，覆蓋了 C++、Go、Java、JavaScript、Python 和 Rust 六種主流編程語言。

而這個分數(shù)，在眾多模型中也是屬于妥妥的墊底水平。

博主 @deedydas 同樣表達了對 Llama 4 的失望，直呼其為「一個糟糕透頂?shù)木幊棠Ｐ汀埂?/p>

他指出，Scout (109B) 和 Maverick (402B) 在針對編程任務(wù)的 Kscores 基準測試中，表現(xiàn)遠不及 4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7。

另一位網(wǎng)友 Flavio Adamo 分別讓 Llama 4 Maverick 和 GPT-4o 生成一個小球在旋轉(zhuǎn)多邊形彈跳的動畫，并且，小球跳動的過程中要遵循重力和摩擦力的影響。

結(jié)果顯示，Llama 4 Maverick 生成的多邊形形狀缺乏開口，小球的運動也違背物理規(guī)律，相比之下，新版 GPT-4o 的表現(xiàn)明顯更勝一籌，而 Gemini 2.5 Pro 的表現(xiàn)則堪稱王者。

回望今年 1 月，扎克伯格還宣稱，AI 將達中級軟件工程師編程水平，就目前 Llama 4 糟糕的表現(xiàn)，屬實是打臉來的有些快。

另外，Llama 4 Scout 的上下文長度達到了 1000 萬 tokens。這一超長上下文長度使得 Llama 4 Scout 能夠處理和分析極長的文本內(nèi)容，例如整本書籍、大型代碼庫或多媒體檔案。

Meta 官方甚至還展示了「大海撈針」的測試結(jié)果以證明其能力。

然而，根據(jù) Fiction.LiveBench 最新給出的結(jié)果，Llama 4 模型的效果也是中看不中用，整體效果不及 Gemini 2.0 Flash，而 Gemini 2.5 Pro 依舊是當之無愧的長文本王者。

Google 上大分+1。

網(wǎng)友 karminski 進一步指出，Llama 4 在 1K 上下文召回率（近似理解為問題回答的正確率）時就已跌至 60% 以下，甚至 Llama-4-Scout 在超過 16K 時僅剩 22%。

他還給出了一個形象的例子「《哈利·波特與魔法石》的文本長度恰好約為 16K。

這意味著，如果你把整本書輸入模型，然后問「哈利小時候是住在臥室還是樓梯下的儲物間」，Llama-4-Scout 只有 22% 的概率能答對（近似理解，實際召回機制更復(fù)雜）。而這個成績自然也就遠低于頭部模型的平均水平。

不僅模型本身稍顯拉胯，Llama 4 作為「開源扛把子」的光環(huán)也在逐漸褪色。

Meta 開放了 Llama 4 的權(quán)重，但即使使用量化（quant），也無法在消費級 GPU 上運行。號稱單卡運行，但實際指的卻是 H100。門檻之高，對開發(fā)者可謂是相當不友好。

更何況，Llama 4 的新許可證還有幾個限制條款，其中備受詬病的則是擁有超過 7 億月活躍用戶的公司必須向 Meta 申請?zhí)貏e許可證，Meta 可以自行決定是否批準或拒絕。

等等，昨天 Meta 公布的紙面參數(shù)可不是這么說的，怎么過了一天，風向就全變了。

在大模型競技場（Arena）排名中，Llama 4 Maverick 名列總榜第二，成為第四個突破 1400 分的模型，在開源模型中更是高居榜首，更是超越了 DeepSeek V3。

面對實測性能的「貨不對板」，細心的網(wǎng)友很快嗅到一絲蹊蹺。在 LM Arena 上取得高分的 Maverick 其實用到了一個「實驗性聊天版本」。

這還沒完，今天一畝三分地社區(qū)的爆料貼也似乎揭開了一些內(nèi)幕。爆料稱，經(jīng)過反復(fù)訓(xùn)練后，Llama 4 未能取得開源 SOTA，甚至與之相差甚遠。

而 Meta 公司內(nèi)部設(shè)置發(fā)布的 deadline（截止日期）則是 4 月底。

于是，公司領(lǐng)導(dǎo)層建議將各個 benchmark 的測試集混合在 post-training 過程中，目的是希望能夠在各項指標上交差。拿出一個「看起來可以」的結(jié)果。

這里說的將各個 benchmark 的測試集混合在 post-training 過程中，是指在模型的后訓(xùn)練（post-training）階段，通過混合不同基準測試的數(shù)據(jù)集，模型可以在多種任務(wù)和場景中學(xué)習(xí)，從而提升其泛化能力。

打個簡單的比方，這就像考試時作弊。試題本該從保密題庫（benchmark 測試集）中隨機抽取，考前無人知曉。可如果有人提前偷看了題目并反復(fù)練習(xí)（相當于將測試集混入訓(xùn)練），那考試的時候肯定能考得很好。

帖主進一步解釋說，Llama 4 發(fā)布之后，實測結(jié)果遭到 X 和 Reddit 網(wǎng)友的吐槽。作為一名目前也在學(xué)術(shù)界的人他宣稱實在無法接受 Meta 的做法，已提交離職申請，并明確要求在 Llama 4 的 Technical Report 中剔除自己的名字。

他還表示，Meta 的 VP of AI 也是因為這個原因辭職的。而早在幾天前，就有報道稱 Meta AI 研究負責人喬爾·皮諾（Joelle Pineau）宣布將于 5 月 30 日離職。

不過，對于這樁疑似「刷榜作弊」的指控，真相究竟如何，或許還需更多證據(jù)。一位名為 LichengYu 的 Meta 員工也疑似在評論區(qū)實名回應(yīng)稱：

「這兩天虛心聆聽各方 feedback(比如 coding，creativewriting 等缺陷必須改進)，希望能在下一版有提升。但為了刷點而 overfit 測試集，我們從來沒有做過，實名 Licheng Yu，兩個 oss model 的 post training 有經(jīng)手我這邊。請告知哪條 prompt 是測試集選出來放進訓(xùn)練集的，我給你磕一個+道歉！」

公開資料顯示，Licheng Yu（虞立成）曾本科畢業(yè)于上海交通大學(xué)，2014 年獲佐治亞理工學(xué)院和上海交通大學(xué)雙碩士學(xué)位，在 2019 年 5 月獲北卡羅來納大學(xué)教堂山分校計算機科學(xué)博士學(xué)位，。

他的研究領(lǐng)域?qū)Ｗ⒂谟嬎銠C視覺和自然語言處理，多篇論文被 CVPR、ICLR、ECCV、KDD 等頂級會議接收。

Licheng Yu 曾在微軟、Adobe 等大廠有過工作經(jīng)歷，目前(2023.06 至今)擔任 Meta 的研究科學(xué)家經(jīng)理，曾參與 Llama3.2 多模態(tài)模型(11B+90B)的發(fā)布，以及領(lǐng)導(dǎo) Llama 4 項目中 17Bx128 和 17Bx16 的文本+圖像強化學(xué)習(xí)階段。

真假難辨，或許還可以讓子彈再飛一會。

開源大模型的「王座」，不能靠蠻力奪取

在去年這個時候，Meta 還被譽為 AI 行業(yè)的天選之子。

當然，脫下簡單的灰色T恤、牛仔褲和連帽衫，扎克伯格也開始頻繁地穿著大 LOGO 的名牌服裝，頸間掛上粗獷的大金鏈子，甚至在公開場合自信展示自己的健身成果。

醉翁之意不在酒的扎克伯格試圖通過展現(xiàn)更「真實」、更「接地氣」的一面，拉近與公眾的距離。這不僅讓 Meta 顯得更加親民，也使其順勢成為對抗 OpenAI 閉源模型的開源旗手，聲勢一時無兩。

與此同時，Meta 的雄厚實力為轉(zhuǎn)型提供了堅實后盾。據(jù)悉，Meta 計劃在 2025 年投入高達 650 億美元用于擴展其 AI 基礎(chǔ)設(shè)施，這一數(shù)字在業(yè)內(nèi)堪稱大手筆，到 2025 年底，Meta 計劃擁有超過 130 萬塊 GPU。

其次，Meta 坐擁豐富的社交平臺數(shù)據(jù)，這為其 AI 研發(fā)提供了得天獨厚的優(yōu)勢。

作為 Facebook、Instagram 和 WhatsApp 等全球知名社交平臺的母公司，Meta 掌握著數(shù)十億用戶的日常交互數(shù)據(jù)。據(jù)統(tǒng)計，其平臺的全球日活躍用戶數(shù)（DAU）在 2024 年已超過 30 億，這一龐大的數(shù)據(jù)體量為 AI 模型的訓(xùn)練提供了海量的原材料。

再者，Meta 在人才儲備上同樣不遑多讓。其 AI 部門的領(lǐng)軍人物是業(yè)界享有盛譽的圖靈獎得主 Yann LeCun。在他的帶領(lǐng)下，Meta 堅持開源策略，推出了 Llama 系列模型。

因此，Meta 也野心十足——它不僅要鞏固自身在社交領(lǐng)域的地位，更希望在 AI 領(lǐng)域?qū)崿F(xiàn)彎道超車，目標是在 2025 年底前超越 OpenAI 等強勁對手。

但眼見他起朱樓，眼見他宴賓客，眼見他樓塌了。

若一畝三分地的爆料屬實，Llama 4 的研發(fā)過程中可能存在為追求基準測試分數(shù)而「作弊」的行為——通過將測試集混入訓(xùn)練數(shù)據(jù)，也更像是「AI 流量焦慮」下的操作變形。

年初就曾有消息稱 DeepSeek 讓 Meta AI 團隊陷入恐慌：

「當生成式 AI 組織中的每個高管薪資都比訓(xùn)練整個 DeepSeek-V3 的成本還要高，而我們有好幾十個這樣的高管，他們要如何面對高層？」

2023 年，Meta 憑借 Llama 系列在開源大模型領(lǐng)域幾乎建立了壟斷地位，成為開源 AI 的代名詞和標桿。

然而，AI 一日，人間一年，在 Llama 4 遭遇「滑鐵盧」的評論區(qū)中，其他開源模型的好評隨處可見。其中，Google Gemma 以輕量高效和多模態(tài)能力贏得廣泛認可，阿里的 Qwen 系列基座模型嶄露頭角，而 DeepSeek 更以低成本高性能的黑馬姿態(tài)震撼了整個行業(yè)。

Meta 能否調(diào)整策略重回開源 AI 的模型領(lǐng)跑位置尚未可知，但無論如何，開源 AI 的百花齊放已經(jīng)不可逆轉(zhuǎn)地到來了。

秉持著哪個 AI 好用，用哪個的原則，Meta 也不能全然怪用戶「墻頭草」。更何況，在開源透明度方面，相較于上述幾家公司的開源模型，Llama 4 的自縛手腳，也頗有些自斷一臂的意味。

而 Meta 目前的掙扎或許也表明，即便手握全球所有的 GPU 算力和海量數(shù)據(jù)，資源優(yōu)勢已不再是決定性因素，開源大模型的「王座」，不能靠蠻力奪取。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.