99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI 圈今年最大丑聞曝光!Llama 4 被揭訓(xùn)練作弊,實測慘遭滑鐵盧,核心骨干憤然離職

0
分享至


昨天,Meta Llama 4 就這么突然地發(fā)布了。

紙面參數(shù)很高大上,號稱原生多模態(tài) MOE 模型,擊敗 DeepSeek V3,還有 2 萬億參數(shù)巨獸,連 Meta CEO 扎克伯格也發(fā)視頻,搖旗高呼迎接「Llama 4 日」。

歡呼是短暫的,當網(wǎng)友開始實測后,卻幾乎是一邊倒的負面評價,堪稱今年 AI 界最大的「翻車」事件。

在專門討論本地部署大語言模型的社區(qū) r/LocalLLaMA(可理解為 Llama「貼吧」)中,一篇標題為「我對 Llama 4 感到 incredibly disappointed(極度失望)」的帖子迅速獲得了大量關(guān)注和共鳴。

更有 Llama 忠實粉絲原地破防,直言是時候該將「LocalLLaMA」改名為「LocalGemma」了,調(diào)侃 Llama 4 的發(fā)布更像是遲到的愚人節(jié)玩笑。


實測表現(xiàn)貨不對板,曝 Llama 4 發(fā)布前瘋狂「灌題」

在 Reddit 的這篇原帖中,網(wǎng)友 karminski 強烈建議不要使用 Llama 4 進行編碼。

他表示 Llama-4-Maverick——總參數(shù)達 402B 的型號——在編碼能力上僅能與 Qwen-QwQ-32B 勉強匹敵。而 Llama-4-Scout(總參數(shù) 109B 的型號)表現(xiàn)則大致與 Grok-2 或 Ernie 4.5 相仿。

事實上,根據(jù)最新的 aider polyglot 編碼基準測試結(jié)果,Llama 4 Maverick 的得分僅為 16%。

這一基準測試旨在評估大型語言模型(LLM)在多語言編程任務(wù)中的表現(xiàn),覆蓋了 C++、Go、Java、JavaScript、Python 和 Rust 六種主流編程語言。


而這個分數(shù),在眾多模型中也是屬于妥妥的墊底水平。

博主 @deedydas 同樣表達了對 Llama 4 的失望,直呼其為「一個糟糕透頂?shù)木幊棠P汀埂?/p>

他指出,Scout (109B) 和 Maverick (402B) 在針對編程任務(wù)的 Kscores 基準測試中,表現(xiàn)遠不及 4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7。


另一位網(wǎng)友 Flavio Adamo 分別讓 Llama 4 Maverick 和 GPT-4o 生成一個小球在旋轉(zhuǎn)多邊形彈跳的動畫,并且,小球跳動的過程中要遵循重力和摩擦力的影響。

結(jié)果顯示,Llama 4 Maverick 生成的多邊形形狀缺乏開口,小球的運動也違背物理規(guī)律,相比之下,新版 GPT-4o 的表現(xiàn)明顯更勝一籌,而 Gemini 2.5 Pro 的表現(xiàn)則堪稱王者。


回望今年 1 月,扎克伯格還宣稱,AI 將達中級軟件工程師編程水平,就目前 Llama 4 糟糕的表現(xiàn),屬實是打臉來的有些快。

另外,Llama 4 Scout 的上下文長度達到了 1000 萬 tokens。這一超長上下文長度使得 Llama 4 Scout 能夠處理和分析極長的文本內(nèi)容,例如整本書籍、大型代碼庫或多媒體檔案。

Meta 官方甚至還展示了「大海撈針」的測試結(jié)果以證明其能力。


然而,根據(jù) Fiction.LiveBench 最新給出的結(jié)果,Llama 4 模型的效果也是中看不中用,整體效果不及 Gemini 2.0 Flash,而 Gemini 2.5 Pro 依舊是當之無愧的長文本王者。

Google 上大分+1。


網(wǎng)友 karminski 進一步指出,Llama 4 在 1K 上下文召回率(近似理解為問題回答的正確率)時就已跌至 60% 以下,甚至 Llama-4-Scout 在超過 16K 時僅剩 22%。

他還給出了一個形象的例子「《哈利·波特與魔法石》的文本長度恰好約為 16K。

這意味著,如果你把整本書輸入模型,然后問「哈利小時候是住在臥室還是樓梯下的儲物間」,Llama-4-Scout 只有 22% 的概率能答對(近似理解,實際召回機制更復(fù)雜)。而這個成績自然也就遠低于頭部模型的平均水平。

不僅模型本身稍顯拉胯,Llama 4 作為「開源扛把子」的光環(huán)也在逐漸褪色。

Meta 開放了 Llama 4 的權(quán)重,但即使使用量化(quant),也無法在消費級 GPU 上運行。號稱單卡運行,但實際指的卻是 H100。門檻之高,對開發(fā)者可謂是相當不友好。

更何況,Llama 4 的新許可證還有幾個限制條款,其中備受詬病的則是擁有超過 7 億月活躍用戶的公司必須向 Meta 申請?zhí)貏e許可證,Meta 可以自行決定是否批準或拒絕。


等等,昨天 Meta 公布的紙面參數(shù)可不是這么說的,怎么過了一天,風向就全變了。

在大模型競技場(Arena)排名中,Llama 4 Maverick 名列總榜第二,成為第四個突破 1400 分的模型,在開源模型中更是高居榜首,更是超越了 DeepSeek V3。

面對實測性能的「貨不對板」,細心的網(wǎng)友很快嗅到一絲蹊蹺。在 LM Arena 上取得高分的 Maverick 其實用到了一個「實驗性聊天版本」。


這還沒完,今天一畝三分地社區(qū)的爆料貼也似乎揭開了一些內(nèi)幕。爆料稱,經(jīng)過反復(fù)訓(xùn)練后,Llama 4 未能取得開源 SOTA,甚至與之相差甚遠。

而 Meta 公司內(nèi)部設(shè)置發(fā)布的 deadline(截止日期)則是 4 月底。

于是,公司領(lǐng)導(dǎo)層建議將各個 benchmark 的測試集混合在 post-training 過程中,目的是希望能夠在各項指標上交差。拿出一個「看起來可以」的結(jié)果。

這里說的將各個 benchmark 的測試集混合在 post-training 過程中,是指在模型的后訓(xùn)練(post-training)階段,通過混合不同基準測試的數(shù)據(jù)集,模型可以在多種任務(wù)和場景中學(xué)習(xí),從而提升其泛化能力。


打個簡單的比方,這就像考試時作弊。試題本該從保密題庫(benchmark 測試集)中隨機抽取,考前無人知曉。可如果有人提前偷看了題目并反復(fù)練習(xí)(相當于將測試集混入訓(xùn)練),那考試的時候肯定能考得很好。

帖主進一步解釋說,Llama 4 發(fā)布之后,實測結(jié)果遭到 X 和 Reddit 網(wǎng)友的吐槽。作為一名目前也在學(xué)術(shù)界的人他宣稱實在無法接受 Meta 的做法,已提交離職申請,并明確要求在 Llama 4 的 Technical Report 中剔除自己的名字。

他還表示,Meta 的 VP of AI 也是因為這個原因辭職的。而早在幾天前,就有報道稱 Meta AI 研究負責人喬爾·皮諾(Joelle Pineau)宣布將于 5 月 30 日離職。


不過,對于這樁疑似「刷榜作弊」的指控,真相究竟如何,或許還需更多證據(jù)。一位名為 LichengYu 的 Meta 員工也疑似在評論區(qū)實名回應(yīng)稱:

「這兩天虛心聆聽各方 feedback(比如 coding,creativewriting 等缺陷必須改進),希望能在下一版有提升。但為了刷點而 overfit 測試集,我們從來沒有做過,實名 Licheng Yu,兩個 oss model 的 post training 有經(jīng)手我這邊。請告知哪條 prompt 是測試集選出來放進訓(xùn)練集的,我給你磕一個+道歉!」


公開資料顯示,Licheng Yu(虞立成)曾本科畢業(yè)于上海交通大學(xué),2014 年獲佐治亞理工學(xué)院和上海交通大學(xué)雙碩士學(xué)位,在 2019 年 5 月獲北卡羅來納大學(xué)教堂山分校計算機科學(xué)博士學(xué)位,。

他的研究領(lǐng)域?qū)W⒂谟嬎銠C視覺和自然語言處理,多篇論文被 CVPR、ICLR、ECCV、KDD 等頂級會議接收。

Licheng Yu 曾在微軟、Adobe 等大廠有過工作經(jīng)歷,目前(2023.06 至今)擔任 Meta 的研究科學(xué)家經(jīng)理,曾參與 Llama3.2 多模態(tài)模型(11B+90B)的發(fā)布,以及領(lǐng)導(dǎo) Llama 4 項目中 17Bx128 和 17Bx16 的 文本+圖像強化學(xué)習(xí)階段。

真假難辨,或許還可以讓子彈再飛一會。

開源大模型的「王座」,不能靠蠻力奪取

在去年這個時候,Meta 還被譽為 AI 行業(yè)的天選之子。

當然,脫下簡單的灰色T恤、牛仔褲和連帽衫,扎克伯格也開始頻繁地穿著大 LOGO 的名牌服裝,頸間掛上粗獷的大金鏈子,甚至在公開場合自信展示自己的健身成果。

醉翁之意不在酒的扎克伯格試圖通過展現(xiàn)更「真實」、更「接地氣」的一面,拉近與公眾的距離。這不僅讓 Meta 顯得更加親民,也使其順勢成為對抗 OpenAI 閉源模型的開源旗手,聲勢一時無兩。


與此同時,Meta 的雄厚實力為轉(zhuǎn)型提供了堅實后盾。據(jù)悉,Meta 計劃在 2025 年投入高達 650 億美元用于擴展其 AI 基礎(chǔ)設(shè)施,這一數(shù)字在業(yè)內(nèi)堪稱大手筆,到 2025 年底,Meta 計劃擁有超過 130 萬塊 GPU。

其次,Meta 坐擁豐富的社交平臺數(shù)據(jù),這為其 AI 研發(fā)提供了得天獨厚的優(yōu)勢。

作為 Facebook、Instagram 和 WhatsApp 等全球知名社交平臺的母公司,Meta 掌握著數(shù)十億用戶的日常交互數(shù)據(jù)。據(jù)統(tǒng)計,其平臺的全球日活躍用戶數(shù)(DAU)在 2024 年已超過 30 億,這一龐大的數(shù)據(jù)體量為 AI 模型的訓(xùn)練提供了海量的原材料。

再者,Meta 在人才儲備上同樣不遑多讓。其 AI 部門的領(lǐng)軍人物是業(yè)界享有盛譽的圖靈獎得主 Yann LeCun。在他的帶領(lǐng)下,Meta 堅持開源策略,推出了 Llama 系列模型。

因此,Meta 也野心十足——它不僅要鞏固自身在社交領(lǐng)域的地位,更希望在 AI 領(lǐng)域?qū)崿F(xiàn)彎道超車,目標是在 2025 年底前超越 OpenAI 等強勁對手。


但眼見他起朱樓,眼見他宴賓客,眼見他樓塌了。

若一畝三分地的爆料屬實,Llama 4 的研發(fā)過程中可能存在為追求基準測試分數(shù)而「作弊」的行為——通過將測試集混入訓(xùn)練數(shù)據(jù),也更像是「AI 流量焦慮」下的操作變形。

年初就曾有消息稱 DeepSeek 讓 Meta AI 團隊陷入恐慌:

「當生成式 AI 組織中的每個高管薪資都比訓(xùn)練整個 DeepSeek-V3 的成本還要高,而我們有好幾十個這樣的高管,他們要如何面對高層?」

2023 年,Meta 憑借 Llama 系列在開源大模型領(lǐng)域幾乎建立了壟斷地位,成為開源 AI 的代名詞和標桿。

然而,AI 一日,人間一年,在 Llama 4 遭遇「滑鐵盧」的評論區(qū)中,其他開源模型的好評隨處可見。其中,Google Gemma 以輕量高效和多模態(tài)能力贏得廣泛認可,阿里的 Qwen 系列基座模型嶄露頭角,而 DeepSeek 更以低成本高性能的黑馬姿態(tài)震撼了整個行業(yè)。


Meta 能否調(diào)整策略重回開源 AI 的模型領(lǐng)跑位置尚未可知,但無論如何,開源 AI 的百花齊放已經(jīng)不可逆轉(zhuǎn)地到來了。

秉持著哪個 AI 好用,用哪個的原則,Meta 也不能全然怪用戶「墻頭草」。更何況,在開源透明度方面,相較于上述幾家公司的開源模型,Llama 4 的自縛手腳,也頗有些自斷一臂的意味。

而 Meta 目前的掙扎或許也表明,即便手握全球所有的 GPU 算力和海量數(shù)據(jù),資源優(yōu)勢已不再是決定性因素,開源大模型的「王座」,不能靠蠻力奪取。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
野外已難覓蹤跡,5年一見開花!2022年廣西有人挖46株賣

野外已難覓蹤跡,5年一見開花!2022年廣西有人挖46株賣

萬象硬核本尊
2025-04-07 22:27:27
4-1大勝而歸,62歲穆帥發(fā)威:率隊14輪不敗,一夜追到僅差榜首3分

4-1大勝而歸,62歲穆帥發(fā)威:率隊14輪不敗,一夜追到僅差榜首3分

側(cè)身凌空斬
2025-04-07 02:03:30
在性生活中,男人怎么做才能更持久?你要相信科學(xué)的答案

在性生活中,男人怎么做才能更持久?你要相信科學(xué)的答案

左與右心理
2025-03-27 13:44:31
最讓身體舒服的十個簡單養(yǎng)生小動作

最讓身體舒服的十個簡單養(yǎng)生小動作

太極本草
2025-01-18 13:44:14
醫(yī)生提醒:這10種疾病,多喝水就能預(yù)防!

醫(yī)生提醒:這10種疾病,多喝水就能預(yù)防!

華人星光
2024-12-09 15:21:10
2024年全球賣得最好的10款車

2024年全球賣得最好的10款車

放毒
2025-03-04 16:47:49
4-0橫掃卻換不來尊重?中國小將奪冠,韓國人連頒獎都玩區(qū)別對待

4-0橫掃卻換不來尊重?中國小將奪冠,韓國人連頒獎都玩區(qū)別對待

生活新鮮市
2025-04-07 11:55:20
985碩士陳濤:38歲失業(yè)投千份簡歷無人要,無奈送外賣,如今怎樣

985碩士陳濤:38歲失業(yè)投千份簡歷無人要,無奈送外賣,如今怎樣

奇思妙想草葉君
2025-04-07 22:08:49
有一個事,不知道大家發(fā)現(xiàn)沒有
?就是戚薇和李承鉉太不正常了

有一個事,不知道大家發(fā)現(xiàn)沒有 ?就是戚薇和李承鉉太不正常了

小光侃娛樂
2025-04-06 12:55:05
【2025.4.7】扒醬料不停:那些你不知道的八卦一二三

【2025.4.7】扒醬料不停:那些你不知道的八卦一二三

娛樂真爆姐
2025-04-07 23:20:13
上海富豪一家被滅門,保姆裝死幸存,20年后才敢道出當晚實情

上海富豪一家被滅門,保姆裝死幸存,20年后才敢道出當晚實情

罪案洞察者
2025-03-25 14:15:37
已不幸離世,年僅25歲:她的悲劇,比大S更令人警醒

已不幸離世,年僅25歲:她的悲劇,比大S更令人警醒

美芽
2025-04-06 12:06:36
江西一姐姐溺愛弟弟,答應(yīng)其無理要求,弟妹撞見后釀成悲劇

江西一姐姐溺愛弟弟,答應(yīng)其無理要求,弟妹撞見后釀成悲劇

懸案解密檔案
2025-03-28 10:32:45
打響美國本土“反關(guān)稅”第一槍,加州州長急了 | 京釀館

打響美國本土“反關(guān)稅”第一槍,加州州長急了 | 京釀館

新京報
2025-04-07 13:56:15
羅晉:我這輩子最正確的決定,就是錯過苗圃后,娶了比我火的唐嫣

羅晉:我這輩子最正確的決定,就是錯過苗圃后,娶了比我火的唐嫣

宇哥看世界ii
2025-04-06 17:18:22
200萬粉大咖曝光小米su7隱患!行駛中頻繁彈窗,看看理想怎么做的

200萬粉大咖曝光小米su7隱患!行駛中頻繁彈窗,看看理想怎么做的

牛斯克
2025-04-06 17:59:42
朱立倫昨日講話引發(fā)熱議,國民黨能否大膽認祖歸宗?

朱立倫昨日講話引發(fā)熱議,國民黨能否大膽認祖歸宗?

梁察天下
2025-04-07 06:10:06
A股:歷史或?qū)⒃俅沃匮荩饺抗蓶|都套牢了為什么還會跌?

A股:歷史或?qū)⒃俅沃匮荩饺抗蓶|都套牢了為什么還會跌?

股經(jīng)縱橫談
2024-11-28 22:05:25
安徽美女道士胡小慧被捕:精通“胡媚術(shù)”,九名男徒弟揭露其罪行

安徽美女道士胡小慧被捕:精通“胡媚術(shù)”,九名男徒弟揭露其罪行

素衣讀史
2025-04-07 14:56:22
新關(guān)稅將使蘋果公司每年增加85億美元成本!為應(yīng)對關(guān)稅,蘋果要求供應(yīng)商降價,若成本轉(zhuǎn)嫁給消費者蘋果手機將漲價

新關(guān)稅將使蘋果公司每年增加85億美元成本!為應(yīng)對關(guān)稅,蘋果要求供應(yīng)商降價,若成本轉(zhuǎn)嫁給消費者蘋果手機將漲價

和訊網(wǎng)
2025-04-07 11:10:57
2025-04-08 01:55:00
愛范兒 incentive-icons
愛范兒
消費科技第一媒體
37103文章數(shù) 2597888關(guān)注度
往期回顧 全部

科技要聞

Llama 4發(fā)布36小時差評如潮!匿名員工爆料

頭條要聞

外媒稱中方實際未對美方征收67%的關(guān)稅 外交部回應(yīng)

頭條要聞

外媒稱中方實際未對美方征收67%的關(guān)稅 外交部回應(yīng)

體育要聞

刷屏中文互聯(lián)網(wǎng),甲亢哥是怎么火的?

娛樂要聞

汪小菲身旁的朋友,對馬筱梅的評價

財經(jīng)要聞

美股巨震!特朗普關(guān)稅,又有新變化?

汽車要聞

途昂Pro的五套組合拳打完 看清油車的自我救贖

態(tài)度原創(chuàng)

教育
旅游
家居
健康
軍事航空

教育要聞

今天老師講的這道題,縱然他是數(shù)學(xué)課代表,也有點摸不著頭腦

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

通透開放 富有人文關(guān)懷

在中國,到底哪些人在吃“偉哥”?

軍事要聞

特朗普關(guān)稅名單上沒俄羅斯 白宮:為了不影響俄烏和談

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 措美县| 星座| 高青县| 阿拉善盟| 吉木乃县| 和林格尔县| 汾阳市| 红河县| 崇州市| 沭阳县| 翁牛特旗| 临沂市| 东山县| 绥滨县| 齐齐哈尔市| 汾西县| 长春市| 靖安县| 外汇| 南部县| 淮南市| 盱眙县| 乐安县| 财经| 苍南县| 梅河口市| 乐平市| 波密县| 白山市| 明光市| 鄂尔多斯市| 隆回县| 尚义县| 安乡县| 雅安市| 萨迦县| 宝鸡市| 格尔木市| 龙井市| 乾安县| 鄂温|