99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Llama 4爆料大反轉,沒在測試集上訓練!華人員工實名辟謠,LeCun出面救火

0
分享至


新智元報道

編輯:編輯部 YNH

【新智元導讀】近日,關于Meta Llama 4的「訓練作弊」爆料搞得沸沸揚揚。Meta迅速反擊,Licheng Yu、Di Jin及GenAI負責人Ahmad Al-Dahle接連辟謠,首席AI科學家Yann LeCun也親自下場力挺。與此同時,Llama 4的實際表現卻頻頻被吐槽。

Llama 4大瓜,又有了新的反轉。

昨日,自稱是Meta內部員工的一則Llama 4訓練作弊爆料,徹底掀翻了全網。


緊接著,Meta研究科學家主管Licheng Yu實名辟謠,團隊根本沒有針對測試集過擬合訓練。

此前,他曾參與了Llama 3系列的研發,并這次負責Llama4 17B模型。


另一位Meta高級AI研究科學家Di Jin(此次負責Llama 4 288B)反懟道,「我參與了微調和強化學習的datamix,也沒有這種情況,樓主是否實名證實」?

而且,他還抓住了所謂爆料者的一大破綻——最近離職高級VP,并非是GenAI團隊的。但凡是內部的員工,不可能不了解這一點。



與此同時,領導Llama團隊的Meta GenAI副總裁兼負責人Ahmad Al-Dahle在X上發帖進行了澄清。

Ahmad表示,不同平臺間之所以會存在質量差異,是因為模型在完成開發后Meta便立即進行了開源。預計還需數日,各家才能完成優化適配。

至于那些「使用測試集訓練」的言論,可以說是毫無依據,因為這完全違背了Meta原則。

Ahmad堅信Llama 4模型標志著重大的技術進步,并期待與開發者社區攜手挖掘其潛能。

作為Meta首席AI科學家的Yann LeCun,也在第一時間轉發了Ahmad的帖子表示力挺。


話雖如此,但并不能「洗白」Meta在背后偷偷動了手腳——刷榜LMSYS的Llama 4是一款「提供版」模型。

競技場開撕Meta,2000+對話公開真相

Llama 4開源首日,Maverick模型在Chatbot Arena上拿下僅次于Gemini 2.5的高分。

然而,開發者下載后發現,Meta公開的與HF公開下載的模型大相徑庭,一時間大模型排行榜被全網罵慘。


今天,lmarena.ai團隊徹底坐不住了,直接下場開懟。

他們發文表示,為了確保完全透明,我們公開了2000+組模型對戰數據,包括用戶提示詞、模型回復、用戶偏好供超看。

更勁爆的是,團隊直指Meta在提交模型時,并非用的是原版,而是Llama-4-Maverick-03-26-Experimental。

這是一個經過DPO優化的定制模型,然而Meta在提交時并未明確說明這一點。


為了平息爭議,團隊火速給出解決方案,公開對戰數據同時,并盡快上線Llama 4 Maverick公開版,并隨后更新榜單結果。


Llama 4弱爆?吐槽一大片,但也有力挺

雖然整件事只是一個抓馬,但Llama 4實力拉跨是真的。


在aider多語言編程基準測試中,Llama 4 Maverick僅拿下了16%成績,遠不及Qwen2.5-Coder、DeepSeek V3開源模型。


更不用提Gemini 2.5 Pro和Claude 3.7 Sonnet了。


網友Flavio Adamo使用相同的提示詞,分別讓Llama 4 Maveric和GPT-4o制作一個旋轉多邊形的動畫。


可以看出,Llama 4 Maveric生成的多邊形并不規則而且沒有開口。小球也不符合物理規律,直接穿過多邊形掉下去了。

相比之下GPT-4o制作的動畫雖然也不完美,但至少要好得多。


另外,Llama 4 Scout最大優勢便是支持10000 token上下文,甚至當時有網友直呼「RAG已死」。

可事實上,在最新上下文基準測試中,Llama 4的排名幾乎可以算上倒數的了。


報告中指出,Llama 4的表現令人失望。Maverick未能改進本就低于平均水平的Llama 3.3 70b,而Scout模型更是糟糕透頂。


谷歌的博士研究員Kaixuan Huang表示Llama 4的數學能力弱爆了。


他們在MATH-Perturb基準測試上測試了Llama4-Scout,其得分排名甚至不及參數更小、發布更早的DeepSeek-R1-Distill-Qwen-14B。

實在難以想象這是一個新發布的模型。


地址:https://math-perturb.github.io/

不過,斯坦福計算機助理教授Percy Liang剛剛發布一個新基準,Llama 4 Maverick竟拿下了最高分。


針對這次基準烏龍事件,他本人也做出了回應,每個人不要過度解讀排行榜。如果對一個模型進行多樣測試,一切就清晰了。


DS太強,小扎按下恐慌按鈕

Llama 4效果如此不盡人意,難道Meta不能等一切準備就緒再發嗎?

時間來不及了!

有傳言稱,4月第二周,Qwen-3即將出世,而且說不定哪天DeepSeek R2突然發布了。


屆時,Llama 4可能更就拿不出手了,畢竟幾個月前,Meta前員工爆料稱,內部高層恐慌一片。


來自艾倫研究員Nathan Lambert發長文稱,Llama 4可能是今年最奇怪的一次模型發布。

曾經,Llama系列每一次迭代,都被視為AI領域年度大事件,如今Llama 4卻讓人感到迷失。


Llama 4包括三款模型,最大亮點采用了MoE架構,訓練計算量比Llama 3更少。

在LMArena排行榜上,Llama 4 Maverick取得了1417 ELO高分,表現搶眼。

但詭異的發布時間,「輕浮」的對話風格,以及評估數據的缺乏,都讓Llama 4的亮相盡顯慌亂。


業界一直發出質疑——Llama 4的設計更像是古早的模型,復雜MoE架構、超大參數規模、高內存需求,與開發者需求漸行漸遠。

相較之下,Qwen 2.5提供了多樣化模型選擇,更貼近開源標桿的設計。

從目前來看,Meta團隊似乎更專注于用AI賦能自家平臺,而非真正支撐開源的生態。

參考資料:

https://x.com/ylecun/status/1909313264460378114

https://x.com/emollick/status/1909306675174977637

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蘋果 iOS 18.4.1 正式版發布

蘋果 iOS 18.4.1 正式版發布

IT之家
2025-04-17 01:17:10
一旦活到了70歲,大部分人就會出現如下癥狀,看看你占了幾個?

一旦活到了70歲,大部分人就會出現如下癥狀,看看你占了幾個?

人間百態大全
2025-04-16 06:56:53
請“護住”儲戶存款!央行正式通知:以后存錢,要記得先看這3點

請“護住”儲戶存款!央行正式通知:以后存錢,要記得先看這3點

前沿天地
2025-04-16 10:25:38
假如中美開戰,誰會出兵幫助中國?這5個國家首當其沖

假如中美開戰,誰會出兵幫助中國?這5個國家首當其沖

混沌錄
2025-04-09 18:33:21
豐田 “小霸道” 竟 20 萬血虧開賣,國產車直接嚇癱!

豐田 “小霸道” 竟 20 萬血虧開賣,國產車直接嚇癱!

志叔說車
2025-04-15 17:05:26
《我的后半生》大結局!本以為驚喜是梅婷,沒想到卻是奚美娟前夫

《我的后半生》大結局!本以為驚喜是梅婷,沒想到卻是奚美娟前夫

農村教育光哥
2025-04-16 09:44:22
如果你身上有這些癥狀,就說明你肝血嚴重不足了

如果你身上有這些癥狀,就說明你肝血嚴重不足了

太極本草
2025-04-15 17:35:07
正式拒絕!曼聯強硬表態:必須永久轉會,西甲搶著要

正式拒絕!曼聯強硬表態:必須永久轉會,西甲搶著要

卡靈頓分析師
2025-04-16 15:08:21
10人排隊9人托,央媒為民除害,怒揭大鍋鹵菜騙局,結局大快人心

10人排隊9人托,央媒為民除害,怒揭大鍋鹵菜騙局,結局大快人心

博學老K雜談
2025-04-11 18:35:03
2025退休新規!6070后一次性補繳社保,要求流程一文說清

2025退休新規!6070后一次性補繳社保,要求流程一文說清

晨曦徐徐
2025-04-08 10:27:03
湖人掏空家底引進36+16怪獸,他將空降詹皇411工程,輔助東契奇

湖人掏空家底引進36+16怪獸,他將空降詹皇411工程,輔助東契奇

埃文凱爾
2025-04-17 00:07:59
王中磊兒子紐約留學,吃碗麻辣燙花300多,味道一般還貴直呼心疼

王中磊兒子紐約留學,吃碗麻辣燙花300多,味道一般還貴直呼心疼

八怪娛
2025-04-16 15:53:48
特朗普屈服了,他別無選擇,世界各國欠中國一個“謝謝”

特朗普屈服了,他別無選擇,世界各國欠中國一個“謝謝”

通文知史
2025-04-16 08:15:05
新加坡啟動2025年大選,李顯龍談美關稅:少了美國,其他國家仍可維護多邊貿易體系

新加坡啟動2025年大選,李顯龍談美關稅:少了美國,其他國家仍可維護多邊貿易體系

紅星新聞
2025-04-16 16:53:11
扛不住了,《紐約時報》:特朗普政府內部對中國態度嚴重分裂

扛不住了,《紐約時報》:特朗普政府內部對中國態度嚴重分裂

爆笑大聰明阿衿
2025-04-16 14:11:07
美軍6航母壓境,解放軍硬核劃禁區!中美真要開戰?

美軍6航母壓境,解放軍硬核劃禁區!中美真要開戰?

起喜電影
2025-04-12 09:52:51
杜鋒:球隊在極其艱苦惡劣的條件下拼得不錯,不知道為什么胡明軒拉架被罰下

杜鋒:球隊在極其艱苦惡劣的條件下拼得不錯,不知道為什么胡明軒拉架被罰下

懂球帝
2025-04-16 23:00:05
哈登才是快船的王,對手也知道按住哈登,快船隊進攻可能要啞火了

哈登才是快船的王,對手也知道按住哈登,快船隊進攻可能要啞火了

mvpmade
2025-04-17 06:54:00
國米殺進歐冠4強,決戰巴薩!勞塔羅創2大紀錄,7萬人狂歡

國米殺進歐冠4強,決戰巴薩!勞塔羅創2大紀錄,7萬人狂歡

葉青足球世界
2025-04-17 04:38:34
CBA又要開罰單了?山西頂風作案恐遭處罰:球迷辱罵聲貫徹全場?

CBA又要開罰單了?山西頂風作案恐遭處罰:球迷辱罵聲貫徹全場?

籃球快餐車
2025-04-17 00:25:19
2025-04-17 09:52:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12542文章數 66013關注度
往期回顧 全部

科技要聞

OpenAI重磅推出o3/o4-mini!能"看圖思考"

頭條要聞

特朗普聲稱1天能征20億美元關稅 美國海關:只有2.5億

頭條要聞

特朗普聲稱1天能征20億美元關稅 美國海關:只有2.5億

體育要聞

對著木板踢球的小鎮姑娘 成了皇馬第一人

娛樂要聞

娛樂圈的“現實”在岳云鵬身上應驗了

財經要聞

特朗普吹牛 美國海關“打臉”

汽車要聞

又帥又快超實用 極氪007GT獵裝車才是完美的車?

態度原創

本地
房產
健康
家居
公開課

本地新聞

云游湖北 | 七仙女都愛的山水,雙峰米酒一口上頭

房產要聞

中海|南海·叁號院,以海岸美學重塑海口灣生活向往

在中國,到底哪些人在吃“偉哥”?

家居要聞

秋日的風 木質簡約空間

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 肥城市| 南陵县| 江门市| 呈贡县| 德保县| 西吉县| 罗定市| 兰州市| 安乡县| 浪卡子县| 弋阳县| 湄潭县| 苗栗县| 白山市| 奉新县| 崇信县| 大同市| 博白县| 绥江县| 夏河县| 时尚| 曲阳县| 鄂托克旗| 上虞市| 仙居县| 南汇区| 普兰店市| 怀宁县| 嘉定区| 绥中县| 抚顺县| 武强县| 若羌县| 云南省| 宁德市| 通化市| 马龙县| 鄂尔多斯市| 印江| 锦屏县| 固始县|