99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Llama 4訓練作弊爆出驚天丑聞!AI大佬憤而辭職,代碼實測崩盤全網炸鍋

0
分享至


新智元報道

編輯:編輯部 NXY

【新智元導讀】Llama 4本該是AI圈的焦點,卻成了大型翻車現場。開源首日,全網實測代碼能力崩盤。更讓人震驚的是,模型訓練測試集被曝作弊,內部員工直接請辭。

Meta前腳剛發Llama 4,后腳就有大佬請辭了!

一畝三分地的爆料貼稱,經過反復訓練后,Llama 4未能取得SOTA,甚至與頂尖大模型實力懸殊。

為了蒙混過關,高層甚至建議:

在后訓練階段中,將多個benchmark測試集混入訓練數據。

在后訓練階段中,將多個benchmark測試集混入訓練數據。

最終目的,讓模型短期提升指標,拿出來可以看起來不錯的結果。


這位內部員工@dliudliu表示,「自己根本無法接受這種做法,甚至辭職信中明確要求——不要在Llama 4技術報告中掛名」。

另一方面,小扎給全員下了「死令」——4月底是Llama 4交付最后期限。

在一系列高壓之下,已有高管提出了辭職。


網友Flavio Adamo使用相同的提示詞,分別讓Llama 4 Maveric和GPT-4o制作一個旋轉多邊形的動畫。


可以看出,Llama 4 Maveric生成的多邊形并不規則而且沒有開口。小球也不符合物理規律,直接穿過多邊形掉下去了。

相比之下GPT-4o制作的動畫雖然也不完美,但至少要好得多。

甚至,有人直接曝出,Llama 4在LMarena上存在過擬合現象,有極大的「作弊」嫌疑。



而如今,內部員工爆料,進一步證實了網友的猜想。

沃頓商學院教授Ethan Mollick一語中的,「如果你經常使用 AI 模型,不難分辨出哪些是針對基準測試進行優化的,哪些是真正的重大進步」。


不過,另一位內部員工稱,并沒有遇到這類情況,不如讓子彈飛一會兒。


內部員工爆料,Llama 4訓練作弊?

幾位AI研究人員在社交媒體上都「吐槽」同一個問題,Meta在其公告中提到LM Arena上的Maverick是一個「實驗性的聊天版本」。


如果看得仔細一點,在Llama官網的性能對比測試圖的最下面一行,寫著「Llama 4 Maverick optimized for conversationality.」

翻譯過來就是「針對對話優化的Llama 4 Maverick」——似乎有些「雞賊」。


這種「區別對待」的會讓開發人員很難準確預測該模型在特定上下文中的表現。

AI的研究人員觀察到可公開下載的Maverick與LM Arena上托管的模型在行為上存在顯著差異。


而就在今天上午,已經有人爆料Llama 4的訓練過程存在嚴重問題!

即Llama 4內部訓練多次仍然沒有達到開源SOTA基準。

Meta的領導層決定在后訓練過程中混合各種基準測試集——讓Llama 4「背題」以期望在測試中取得「好成績」。


這個爆料的原始來源是「一畝三分地」,根據對話,爆料者很可能來自于Meta公司內部。


對話中提到的Meta AI研究部副總裁Joelle Pineau也申請了5月底辭職。(不過,也有網友稱并非是與Llama4相關)


但是根據Meta的組織架構體系,Pineau是FAIR的副總裁,而FAIR實際上是Meta內部與GenAI完全獨立的組織,GenAI才是負責Llama項目的組織。


GenAI的副總裁是Ahmad Al-Dahle,他并沒有辭職。


Llama 4才剛剛發布一天,就出現如此重磅的消息,讓未來顯得撲朔迷離。

代碼翻車,網友大失所望

在昨天網友的實測中,評論還是有好有壞。 但是過去一天進行更多的測試后,更多的網友表達了對Llama 4的不滿。 在Dr_Karminski的一篇熱帖中,他說Llama-4-Maverick——總參數402B的模型——在編碼能力方面大致只能與 Qwen-QwQ-32B相當。 Llama-4-Scout——總參數109B的模型——大概與Grok-2或Ernie 4.5類似。



在評論中,網友響應了這個判斷。

有人說Llama 4的表現比Gemma 3 27B還要差。


有人認為Llama 4的表現甚至和Llama 3.2一樣沒有任何進步,也無法完成寫詩。


其他用戶在測試后也表達了同樣的觀點,Llama 4有點不符合預期。


網友Deedy也表達了對Llama 4的失望,稱其為「一個糟糕的編程模型」。

他表示,Scout (109B) 和Maverick (402B)在針對編程任務的Kscores基準測試中表現不如4o、Gemini Flash、Grok 3、DeepSeek V3和Sonnet 3.5/7。


他還給出了貼出了Llama 4兩個模型的一張測試排名,結果顯示這兩個新發布的模型遠遠沒有達到頂尖的性能。


網友anton說,Llama 4「真的有點令人失望」。

他表示自己不會用它來輔助編碼,而Llama 4的定位有點尷尬。


anton認為Llama 4的兩個模型太大了,不太好本地部署。他建議Meta應該推出性能優秀的小模型,而不是去追求成為SOTA。

「因為目前他們根本做不到。」他寫道。


參考資料:

https://x.com/natolambert/status/1908959159959027903

https://x.com/karminski3/status/1908841453780177244

https://x.com/abacaj/status/1908884059264086520

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
銀行新規,全國已開始實施,以后,死者的存款不再受銀行的氣!

銀行新規,全國已開始實施,以后,死者的存款不再受銀行的氣!

巢客HOME
2024-12-04 07:25:03
看到趙麗穎素顏出鏡的樣子,發現她已經不僅僅是美這么簡單了

看到趙麗穎素顏出鏡的樣子,發現她已經不僅僅是美這么簡單了

娛你同歡
2025-04-07 17:33:59
外交部再回應中美關稅談判

外交部再回應中美關稅談判

財聯社
2025-04-07 15:45:10
尼克松提醒毛主席一定提防這個人,毛主席卻這么回復!

尼克松提醒毛主席一定提防這個人,毛主席卻這么回復!

書畫藝術收藏
2025-02-19 19:30:02
活久見!!!鄭淵潔都瘋了!!!

活久見!!!鄭淵潔都瘋了!!!

飛總聊IT
2025-03-03 08:03:52
壞消息,拉塞爾·威斯布魯克在4連敗中暗示掘金隊更衣室情況

壞消息,拉塞爾·威斯布魯克在4連敗中暗示掘金隊更衣室情況

好火子
2025-04-07 13:13:30
1938年,日軍抵達一寺廟,看到132名一絲不掛、且沒了頭顱的日軍

1938年,日軍抵達一寺廟,看到132名一絲不掛、且沒了頭顱的日軍

南權先生
2025-04-07 15:04:31
最新研究:幾乎一半2型糖友缺乏這4種營養素!

最新研究:幾乎一半2型糖友缺乏這4種營養素!

糖友云健康
2025-04-04 17:35:54
你愛吃的三文魚其實是“海底大肥豬”

你愛吃的三文魚其實是“海底大肥豬”

中國新聞周刊
2025-04-05 20:43:31
發現一個奇怪現象:50歲以后的中年女人,能活到90歲的,基本上50歲的時候,就不再做這3件事了

發現一個奇怪現象:50歲以后的中年女人,能活到90歲的,基本上50歲的時候,就不再做這3件事了

不二大叔
2025-03-31 21:41:28
約基奇轟41+15+13仍無緣今日最佳!對不起,你碰到暴走的盧卡了

約基奇轟41+15+13仍無緣今日最佳!對不起,你碰到暴走的盧卡了

世界體育圈
2025-04-07 11:04:29
特斯拉碰撞后起火 車主索賠337萬被駁回

特斯拉碰撞后起火 車主索賠337萬被駁回

南方都市報
2025-04-07 07:03:22
安徽美女道士胡小慧被捕:精通“胡媚術”,九名男徒弟揭露其罪行

安徽美女道士胡小慧被捕:精通“胡媚術”,九名男徒弟揭露其罪行

素衣讀史
2025-04-07 14:56:22
天津人注意!今日已開始!未來10天集中爆發!

天津人注意!今日已開始!未來10天集中爆發!

魯中晨報
2025-04-07 18:04:19
中國女婿,馬布里官宣與《好聲音》歌手汪妤凌結婚

中國女婿,馬布里官宣與《好聲音》歌手汪妤凌結婚

懂球帝
2025-04-07 21:56:33
不是36萬億而是230萬億?美專家:美國已經破產,美元成“假鈔”

不是36萬億而是230萬億?美專家:美國已經破產,美元成“假鈔”

南南說娛
2025-03-10 11:10:07
見勢不妙,李嘉誠安排退路,美國開始出手,制裁中方官員為李撐腰

見勢不妙,李嘉誠安排退路,美國開始出手,制裁中方官員為李撐腰

兵說
2025-04-06 23:26:42
小S搬出大S希望她工作 吳珊儒高情商回答 網友給滿分 怪不得小S急

小S搬出大S希望她工作 吳珊儒高情商回答 網友給滿分 怪不得小S急

鄭丁嘉話
2025-04-07 10:08:53
德天空:拜仁已和路易斯-恩里克的經紀團隊進行初步會談

德天空:拜仁已和路易斯-恩里克的經紀團隊進行初步會談

懂球帝
2025-04-08 00:56:09
你都發生過哪些小概率事件?網友分享一個比一個離譜!看得目瞪口呆

你都發生過哪些小概率事件?網友分享一個比一個離譜!看得目瞪口呆

熱鬧的河馬
2025-01-02 17:35:17
2025-04-08 01:47:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12486文章數 66006關注度
往期回顧 全部

科技要聞

Llama 4發布36小時差評如潮!匿名員工爆料

頭條要聞

外媒稱中方實際未對美方征收67%的關稅 外交部回應

頭條要聞

外媒稱中方實際未對美方征收67%的關稅 外交部回應

體育要聞

刷屏中文互聯網,甲亢哥是怎么火的?

娛樂要聞

汪小菲身旁的朋友,對馬筱梅的評價

財經要聞

美股巨震!特朗普關稅,又有新變化?

汽車要聞

途昂Pro的五套組合拳打完 看清油車的自我救贖

態度原創

本地
房產
健康
公開課
軍事航空

本地新聞

我在新昌當女主|大佛寺氛圍感拉滿 古偶頂流機位GET

房產要聞

生猛!三亞開始巨量拆遷!

在中國,到底哪些人在吃“偉哥”?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普關稅名單上沒俄羅斯 白宮:為了不影響俄烏和談

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 吉林市| 灌云县| 莒南县| 平谷区| 若羌县| 商洛市| 苏尼特右旗| 黄浦区| 巴青县| 启东市| 布拖县| 苗栗县| 临洮县| 达孜县| 南华县| 买车| 囊谦县| 紫阳县| 宽甸| 宝兴县| 临湘市| 潜江市| 南安市| 抚顺市| 库车县| 开江县| 宁德市| 朔州市| 泽普县| 安远县| 兴安盟| 镇巴县| 贵港市| 巴彦淖尔市| 饶阳县| 华池县| 荣成市| 蒙自县| 吉水县| 重庆市| 诸城市|