99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<abbr id="1hst3"></abbr>

<meter id="1hst3"><sup id="1hst3"></sup></meter>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Llama 4訓練作弊爆出驚天丑聞！AI大佬憤而辭職，代碼實測崩盤全網炸鍋

2025-04-07 13:11:24　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：編輯部 NXY

【新智元導讀】Llama 4本該是AI圈的焦點，卻成了大型翻車現場。開源首日，全網實測代碼能力崩盤。更讓人震驚的是，模型訓練測試集被曝作弊，內部員工直接請辭。

Meta前腳剛發Llama 4，后腳就有大佬請辭了！

一畝三分地的爆料貼稱，經過反復訓練后，Llama 4未能取得SOTA，甚至與頂尖大模型實力懸殊。

為了蒙混過關，高層甚至建議：

在后訓練階段中，將多個benchmark測試集混入訓練數據。

在后訓練階段中，將多個benchmark測試集混入訓練數據。

最終目的，讓模型短期提升指標，拿出來可以看起來不錯的結果。

這位內部員工@dliudliu表示，「自己根本無法接受這種做法，甚至辭職信中明確要求——不要在Llama 4技術報告中掛名」。

另一方面，小扎給全員下了「死令」——4月底是Llama 4交付最后期限。

在一系列高壓之下，已有高管提出了辭職。

網友Flavio Adamo使用相同的提示詞，分別讓Llama 4 Maveric和GPT-4o制作一個旋轉多邊形的動畫。

可以看出，Llama 4 Maveric生成的多邊形并不規則而且沒有開口。小球也不符合物理規律，直接穿過多邊形掉下去了。

相比之下GPT-4o制作的動畫雖然也不完美，但至少要好得多。

甚至，有人直接曝出，Llama 4在LMarena上存在過擬合現象，有極大的「作弊」嫌疑。

而如今，內部員工爆料，進一步證實了網友的猜想。

沃頓商學院教授Ethan Mollick一語中的，「如果你經常使用 AI 模型，不難分辨出哪些是針對基準測試進行優化的，哪些是真正的重大進步」。

不過，另一位內部員工稱，并沒有遇到這類情況，不如讓子彈飛一會兒。

內部員工爆料，Llama 4訓練作弊？

幾位AI研究人員在社交媒體上都「吐槽」同一個問題，Meta在其公告中提到LM Arena上的Maverick是一個「實驗性的聊天版本」。

如果看得仔細一點，在Llama官網的性能對比測試圖的最下面一行，寫著「Llama 4 Maverick optimized for conversationality.」

翻譯過來就是「針對對話優化的Llama 4 Maverick」——似乎有些「雞賊」。

這種「區別對待」的會讓開發人員很難準確預測該模型在特定上下文中的表現。

AI的研究人員觀察到可公開下載的Maverick與LM Arena上托管的模型在行為上存在顯著差異。

而就在今天上午，已經有人爆料Llama 4的訓練過程存在嚴重問題！

即Llama 4內部訓練多次仍然沒有達到開源SOTA基準。

Meta的領導層決定在后訓練過程中混合各種基準測試集——讓Llama 4「背題」以期望在測試中取得「好成績」。

這個爆料的原始來源是「一畝三分地」，根據對話，爆料者很可能來自于Meta公司內部。

對話中提到的Meta AI研究部副總裁Joelle Pineau也申請了5月底辭職。（不過，也有網友稱并非是與Llama4相關）

但是根據Meta的組織架構體系，Pineau是FAIR的副總裁，而FAIR實際上是Meta內部與GenAI完全獨立的組織，GenAI才是負責Llama項目的組織。

GenAI的副總裁是Ahmad Al-Dahle，他并沒有辭職。

Llama 4才剛剛發布一天，就出現如此重磅的消息，讓未來顯得撲朔迷離。

代碼翻車，網友大失所望

在昨天網友的實測中，評論還是有好有壞。但是過去一天進行更多的測試后，更多的網友表達了對Llama 4的不滿。在Dr_Karminski的一篇熱帖中，他說Llama-4-Maverick——總參數402B的模型——在編碼能力方面大致只能與 Qwen-QwQ-32B相當。 Llama-4-Scout——總參數109B的模型——大概與Grok-2或Ernie 4.5類似。

在評論中，網友響應了這個判斷。

有人說Llama 4的表現比Gemma 3 27B還要差。

有人認為Llama 4的表現甚至和Llama 3.2一樣沒有任何進步，也無法完成寫詩。

其他用戶在測試后也表達了同樣的觀點，Llama 4有點不符合預期。

網友Deedy也表達了對Llama 4的失望，稱其為「一個糟糕的編程模型」。

他表示，Scout (109B) 和Maverick (402B)在針對編程任務的Kscores基準測試中表現不如4o、Gemini Flash、Grok 3、DeepSeek V3和Sonnet 3.5/7。

他還給出了貼出了Llama 4兩個模型的一張測試排名，結果顯示這兩個新發布的模型遠遠沒有達到頂尖的性能。

網友anton說，Llama 4「真的有點令人失望」。

他表示自己不會用它來輔助編碼，而Llama 4的定位有點尷尬。

anton認為Llama 4的兩個模型太大了，不太好本地部署。他建議Meta應該推出性能優秀的小模型，而不是去追求成為SOTA。

「因為目前他們根本做不到。」他寫道。

參考資料：

https://x.com/natolambert/status/1908959159959027903

https://x.com/karminski3/status/1908841453780177244

https://x.com/abacaj/status/1908884059264086520

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Meta Llama 4被疑考試「作弊」：在競技場刷高分，但實戰中頻翻車

機器之心Pro 2025-04-07 14:37:59
0 跟貼 0
AI 圈今年最大丑聞曝光！Llama 4 被揭訓練作弊，實測慘遭滑鐵盧，核心骨干憤然離職

愛范兒 2025-04-07 18:26:17
1 跟貼 1

Llama 4首測來襲，多模態驚艷代碼卻翻車

新智元 2025-04-06 15:04:12
8 跟貼 8

Llama 4發布36小時差評如潮！匿名員工爆料拒絕署名技術報告

量子位 2025-04-07 12:59:56
37 跟貼 37
Meta發布AI新模型系列Llama 4

每日經濟新聞 2025-04-06 07:58:06
2 跟貼 2

Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0

7B擴散LLM，居然能跟671B的DeepSeek V3掰手腕，誰才是未來？

機器之心Pro 2025-04-07 15:32:45
7 跟貼 7
清華耶魯推理模型新范式：動態推理實現高效測試時擴展

量子位 2025-04-07 17:34:42
1 跟貼 1

奧特曼力挺年輕人「套殼」，25年程序員效率暴增10倍！GPT-4o狂造十億圖像

新智元 2025-04-07 16:56:21
2 跟貼 2
微軟AI模型MatterGen能根據需求生成新材料

量子位 2025-01-21 18:07:40
29 跟貼 29
DeepSeek開口說話了反應超神無限打斷只要兩行代碼15分鐘

量子位 2025-03-07 14:20:34
0 跟貼 0
AI 時代的超級應用，是一個超級框

愛范兒 2025-03-13 11:56:19
0 跟貼 0
全網都在猜，這些視頻是不是字節AI生成的：該跟動捕說再見了？

機器之心Pro 2025-04-07 16:04:32
2 跟貼 2
首個個性化對齊大模型問世！可精準識別用戶內在動機和偏好

量子位 2025-04-07 17:08:38
0 跟貼 0
“充電廠商”為何跨界AI眼鏡？對話閃極創始人張波

量子位 2025-04-07 21:39:53
1 跟貼 1
“AI眼鏡的終極功能，是AI+社交” | 對話影目科技創始人

量子位 2025-04-07 21:46:09
0 跟貼 0
實測訊飛曉醫VS DeepSeek-R1，誰是更懂你的家庭健康助手？

量子位 2025-03-08 19:20:56
0 跟貼 0
虎嗅【作·嗅之星】周榜第255~256期

虎嗅APP 2025-04-08 01:00:07
0 跟貼 0
效果比談判管用，中方反制一出，特朗普被催辭職，美國內冒出叛徒

吳學蘭 2025-04-07 14:53:35
0 跟貼 0
“關稅核彈”讓美國民不聊生，美財長不當替罪羊，先行一步要辭職

杜文龍 2025-04-06 14:17:34
4 跟貼 4
美財長被曝受不了想辭職：對等關稅太荒謬

每日經濟新聞 2025-04-05 20:08:31
18 跟貼 18
美國的“百年大計”，一旦馬斯克辭職，將徹底淪為“百日維新”

深藍航跡 2025-04-05 09:00:00
0 跟貼 0
關鍵時刻人民日報重磅發聲：天塌不下來

北京青年報 2025-04-07 08:35:19
28953 跟貼 28953
天大丑聞？專家認定：阿爾瓦雷斯二次觸球視頻遭到歐足聯篡改

蠟筆足球 2025-04-06 10:30:28
9 跟貼 9
尹錫悅幕僚集體辭職，朝鮮第一時間表態，韓網民難得一見稱贊中國

東哥的東東嗆 2025-04-07 18:32:07
0 跟貼 0
美國財長貝森特因“荒謬關稅”想辭職：一場撕裂白宮的經濟鬧劇

名都陽光 2025-04-06 06:28:34
0 跟貼 0
美國人開啟瘋狂囤貨模式，“中國商品被搶空”，美媒曝美財長想辭職：無法忍受對等關稅

縱相新聞 2025-04-06 09:44:54
1 跟貼 1
撐不住了，馬斯克宣布辭職！下臺前瞄準了這些人，佩洛西首當其沖

寰球視聽 2025-04-07 16:25:47
0 跟貼 0
美國財長想辭職，加州州長要跳反，一場關稅戰打的特朗普眾叛親離

斷墨的筆 2025-04-07 19:14:37
0 跟貼 0
臺軍退將于北辰，公開叫囂解放軍，將臺灣省丑聞曝光

史記檔案 2025-04-06 09:43:00
0 跟貼 0
相聲：郭德綱于謙學密電碼考試作弊，上來就是一句我不會！

體育張師傅 2025-04-05 09:31:00
0 跟貼 0
俄軍核彈部隊行動，普京正式任職俄羅斯總統，美國選了3個替代者

鞋底騎車環球去旅行 2025-04-06 10:05:36
0 跟貼 0
心智觀察所：誰是美國對華科技戰“總架構師”

補懂事的孩紙 2025-04-05 01:53:00
0 跟貼 0
中方打響“第一槍”，招招直擊要害，美人民已行動，美財長想辭職

王又又來了 2025-04-07 16:55:18
0 跟貼 0
搞笑東北配音4881：馬斯克要辭職？心灰意冷了，特朗普很郁悶

輕拂兩袖風塵終 2025-04-06 07:25:08
0 跟貼 0
大公報公布殲35性能，核心參數被曝光，造最好的才能壓制敵人

豬小艷吖 2025-04-07 05:55:05
5 跟貼 5
美財長辭職掀起輿論狂潮，民眾反應激烈

秋風悲畫芯 2025-04-07 03:23:16
0 跟貼 0
Meta 如何通過 Facebook、Instagram 等平臺賺錢：商業模式全解析

鈦媒體APP 2025-04-07 22:16:20
0 跟貼 0
香港警務處處長為啥稱為“一哥”？相當于內地啥職務？漲知識了

星辰科普說 2025-04-07 08:01:00
0 跟貼 0
特朗普會讓馬斯克辭職？萬斯透露兩人真實打算

夏末的晨溪 2025-04-07 06:21:01
0 跟貼 0

銀行新規，全國已開始實施，以后，死者的存款不再受銀行的氣！

銀行新規，全國已開始實施，以后，死者的存款不再受銀行的氣！

巢客HOME

2024-12-04 07:25:03

看到趙麗穎素顏出鏡的樣子，發現她已經不僅僅是美這么簡單了

看到趙麗穎素顏出鏡的樣子，發現她已經不僅僅是美這么簡單了

娛你同歡

2025-04-07 17:33:59

外交部再回應中美關稅談判

財聯社

2025-04-07 15:45:10

尼克松提醒毛主席一定提防這個人，毛主席卻這么回復！

尼克松提醒毛主席一定提防這個人，毛主席卻這么回復！

書畫藝術收藏

2025-02-19 19:30:02

活久見！！！鄭淵潔都瘋了！！！

活久見！！！鄭淵潔都瘋了！！！

飛總聊IT

2025-03-03 08:03:52

壞消息，拉塞爾·威斯布魯克在4連敗中暗示掘金隊更衣室情況

壞消息，拉塞爾·威斯布魯克在4連敗中暗示掘金隊更衣室情況

好火子

2025-04-07 13:13:30

1938年，日軍抵達一寺廟，看到132名一絲不掛、且沒了頭顱的日軍

1938年，日軍抵達一寺廟，看到132名一絲不掛、且沒了頭顱的日軍

南權先生

2025-04-07 15:04:31

最新研究：幾乎一半2型糖友缺乏這4種營養素！

最新研究：幾乎一半2型糖友缺乏這4種營養素！

糖友云健康

2025-04-04 17:35:54

你愛吃的三文魚其實是“海底大肥豬”

你愛吃的三文魚其實是“海底大肥豬”

中國新聞周刊

2025-04-05 20:43:31

發現一個奇怪現象：50歲以后的中年女人，能活到90歲的，基本上50歲的時候，就不再做這3件事了

發現一個奇怪現象：50歲以后的中年女人，能活到90歲的，基本上50歲的時候，就不再做這3件事了

不二大叔

2025-03-31 21:41:28

約基奇轟41+15+13仍無緣今日最佳！對不起，你碰到暴走的盧卡了

約基奇轟41+15+13仍無緣今日最佳！對不起，你碰到暴走的盧卡了

世界體育圈

2025-04-07 11:04:29

特斯拉碰撞后起火車主索賠337萬被駁回

特斯拉碰撞后起火車主索賠337萬被駁回

南方都市報

2025-04-07 07:03:22

安徽美女道士胡小慧被捕：精通“胡媚術”，九名男徒弟揭露其罪行

安徽美女道士胡小慧被捕：精通“胡媚術”，九名男徒弟揭露其罪行

素衣讀史

2025-04-07 14:56:22

天津人注意！今日已開始！未來10天集中爆發！

天津人注意！今日已開始！未來10天集中爆發！

魯中晨報

2025-04-07 18:04:19

中國女婿，馬布里官宣與《好聲音》歌手汪妤凌結婚

中國女婿，馬布里官宣與《好聲音》歌手汪妤凌結婚

懂球帝

2025-04-07 21:56:33

不是36萬億而是230萬億？美專家：美國已經破產，美元成“假鈔”

不是36萬億而是230萬億？美專家：美國已經破產，美元成“假鈔”

南南說娛

2025-03-10 11:10:07

見勢不妙，李嘉誠安排退路，美國開始出手，制裁中方官員為李撐腰

見勢不妙，李嘉誠安排退路，美國開始出手，制裁中方官員為李撐腰

兵說

2025-04-06 23:26:42

小S搬出大S希望她工作吳珊儒高情商回答網友給滿分怪不得小S急

小S搬出大S希望她工作吳珊儒高情商回答網友給滿分怪不得小S急

鄭丁嘉話

2025-04-07 10:08:53

德天空：拜仁已和路易斯-恩里克的經紀團隊進行初步會談

德天空：拜仁已和路易斯-恩里克的經紀團隊進行初步會談

懂球帝

2025-04-08 00:56:09

你都發生過哪些小概率事件?網友分享一個比一個離譜!看得目瞪口呆

你都發生過哪些小概率事件?網友分享一個比一個離譜!看得目瞪口呆

熱鬧的河馬

2025-01-02 17:35:17

AI產業主平臺領航智能+時代

12486文章數 66006關注度

往期回顧全部

科技要聞

Llama 4發布36小時差評如潮！匿名員工爆料

頭條要聞

外媒稱中方實際未對美方征收67％的關稅外交部回應

頭條要聞

外媒稱中方實際未對美方征收67％的關稅外交部回應

體育要聞

刷屏中文互聯網，甲亢哥是怎么火的？

娛樂要聞

汪小菲身旁的朋友，對馬筱梅的評價

財經要聞

美股巨震！特朗普關稅，又有新變化？

汽車要聞

途昂Pro的五套組合拳打完看清油車的自我救贖

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

房產

健康

公開課

軍事航空

本地新聞

我在新昌當女主｜大佛寺氛圍感拉滿古偶頂流機位GET

房產要聞

生猛！三亞開始巨量拆遷！

在中國，到底哪些人在吃“偉哥”？

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最大沙漠中唯一的城市，周邊300公里被黃沙覆蓋
李彥宏：百度離破產30天

軍事要聞

特朗普關稅名單上沒俄羅斯白宮：為了不影響俄烏和談

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：吉林市| 灌云县| 莒南县| 平谷区| 若羌县| 商洛市| 苏尼特右旗| 黄浦区| 巴青县| 启东市| 布拖县| 苗栗县| 临洮县| 达孜县| 南华县| 买车| 囊谦县| 紫阳县| 宽甸| 宝兴县| 临湘市| 潜江市| 南安市| 抚顺市| 库车县| 开江县| 宁德市| 朔州市| 泽普县| 安远县| 兴安盟| 镇巴县| 贵港市| 巴彦淖尔市| 饶阳县| 华池县| 荣成市| 蒙自县| 吉水县| 重庆市| 诸城市|