網易首頁 > 網易號 > 正文申請入駐

大瓜來了！Llama 4 陷刷榜爭議：“內部員工”發帖控訴，測評版本被指特供？

2025-04-07 12:03:42　來源: AI寒武紀

江蘇舉報

分享至

新瓜，主角是昨天剛剛發布的Meta旗艦大模型——Llama 4

內部爆料：性能不達標，壓力下欲“優化”結果？

首先引爆討論的是一篇來自“一畝三分地”論壇的帖子，發帖人自稱是參與Llama 4訓練的內部員工，并表示已因此辭職

帖子內容信息量很大，主要說了幾點：

1.性能瓶頸：盡管團隊反復努力訓練，Llama 4的內部模型性能始終無法達到開源SOTA（State-of-the-Art，頂尖水平）基準，差距明顯。
2.“曲線救國”策略：公司領導層提出，在訓練后期，將各種基準測試的“測試集”數據混入訓練或微調數據中。這樣做的目的很直接——在各項指標上達成目標，交出一份“看起來很美”的成績單
3.Deadline壓力：這個“刷分”任務有明確的時間線——4月底。如果屆時無法達成目標，后果可能很嚴重
4.用戶反饋不佳：Llama 4發布后（帖子發布于模型剛發布時），X和Reddit上已有不少用戶反饋，實際測試效果非常糟糕
5.學術底線與辭職：發帖人表示，自己有學術背景，無法接受這種“為了達標而污染測試數據”的做法，因此提交了辭職，并明確要求不要將自己的名字寫入Llama 4的技術報告
6.高管動向（帖中提及）：帖子還提到，Meta的AI副總裁（VP of AI）也因類似原因辭職。（博主注：此為帖子單方面說法，需注意辨別）

這篇帖子迅速引發了圈內關注，大家都在討論這種做法是否違背了AI研發的基本誠信

這是后續，真實情況還有待于觀察

外部觀察：TechCrunch質疑測試版本“誤導性”

無獨有偶，知名科技媒體TechCrunch也發文，標題直指Meta新AI模型的性能測試“有點誤導人”。

TechCrunch的文章主要聚焦于Llama 4（即Maverick）在著名的人類評估排行榜LM Arena上的表現。Maverick確實取得了第二名的好成績，但這背后似乎另有隱情：

1.版本差異：Meta提交給LM Arena進行測試評估的Maverick版本，和公開發布給開發者使用的版本，可能不是同一個
2.官方標注：Meta在發布公告和Llama官網上其實也提到了這一點。他們明確說明，用于LM Arena測試的是一個“實驗性的聊天版本”，或者標注為“專門針對對話場景優化的Llama 4 Maverick”
3.“為榜單優化”的問題：TechCrunch指出，雖然LM Arena本身并非完美的評測工具，但過去AI公司通常不會（至少不公開承認）專門為了提升榜單排名而特供一個優化版本。Meta這次的做法，相當于針對基準測試優化了一個版本去打榜，卻給開發者提供了未經特別優化的“基礎版”
4.誤導開發者：這種操作會讓開發者難以根據榜單排名準確預估模型在自己實際應用場景中的真實表現。基準測試雖然有局限，但本應提供一個相對公平的參考
5.行為差異：X平臺上的研究人員也發現，公開下載的Maverick版本，和在LM Arena上測試的版本行為確實不同。榜單上的那個版本更喜歡用表情符號（emoji），回答也明顯更啰嗦

一些Llama 4的實測

號稱千萬上下文的召回率，上下文的實際表現，遠低于預期

Llama 4 Maverick 在 aider 多語言編碼基準測試中得分為實測僅為 16%

?星標AI寒武紀，好內容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.