99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI 圈今年最大丑聞曝光!Llama 4 被揭訓(xùn)練作弊,實測慘遭滑鐵盧,核心骨干憤然離職

0
分享至

紙面參數(shù)很高大上,號稱原生多模態(tài) MOE 模型,擊敗 DeepSeek V3,還有 2 萬億參數(shù)巨獸,連 Meta CEO 扎克伯格也發(fā)視頻,搖旗高呼迎接「Llama 4 日」。

歡呼是短暫的, 當(dāng)網(wǎng)友開始實測后,卻幾乎是一邊倒的負(fù)面評價,堪稱今年 AI 界最大的「翻車」事件。


在專門討論本地部署大語言模型的社區(qū) r/LocalLLaMA(可理解為 Llama「貼吧」)中,一篇標(biāo)題為「我對 Llama 4 感到 incredibly disappointed(極度失望)」的帖子迅速獲得了大量關(guān)注和共鳴。

更有 Llama 忠實粉絲原地破防,直言是時候該將「LocalLLaMA」改名為「LocalGemma」了,調(diào)侃 Llama 4 的發(fā)布更像是遲到的愚人節(jié)玩笑。

實測表現(xiàn)貨不對板,曝 Llama 4 發(fā)布前瘋狂「灌題」

在 Reddit 的這篇原帖中,網(wǎng)友 karminski 強烈建議不要使用 Llama 4 執(zhí)行編碼任務(wù)。

他表示 Llama-4-Maverick——總參數(shù)達 402B 的型號——在編碼能力上僅能與 Qwen-QwQ-32B 勉強匹敵。而 Llama-4-Scout(總參數(shù) 109B 的型號)表現(xiàn)則大致與 Grok-2 或 Ernie 4.5 相仿。

值得一提的是,根據(jù)最新的 aider polyglot 編碼基準(zhǔn)測試結(jié)果,Llama 4 Maverick 的得分僅為 16%。

這一基準(zhǔn)測試旨在評估大型語言模型(LLM)在多語言編程任務(wù)中的表現(xiàn),覆蓋了 C++、Go、Java、JavaScript、Python 和 Rust 六種主流編程語言。


而這個分?jǐn)?shù), 在眾多模型中也是屬于妥妥的墊底水平。

博主 @deedydas 同樣表達了對 Llama 4 的失望,直呼其為「一個糟糕透頂?shù)木幊棠P汀埂?/p>

他指出,Scout (109B) 和 Maverick (402B) 在針對編程任務(wù)的 Kscores 基準(zhǔn)測試中,表現(xiàn)遠不及 4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7。


另一位網(wǎng)友 Flavio Adamo 分別讓 Llama 4 Maverick 和 GPT-4o 生成一個小球在旋轉(zhuǎn)多邊形彈跳的動畫,并且,小球跳動的過程中要遵循重力和摩擦力的影響。

結(jié)果顯示,Llama 4 Maverick 生成的多邊形形狀缺乏開口,小球的運動也違背物理規(guī)律,相比之下,新版 GPT-4o 的表現(xiàn)明顯更勝一籌,而 Gemini 2.5 Pro 的表現(xiàn)則堪稱王者。


回望今年 1 月,扎克伯格還宣稱,AI 將達中級軟件工程師編程水平,就目前 Llama 4 糟糕的表現(xiàn),屬實是打臉來的有些快。

另外,Llama 4 Scout 的上下文長度達到了 1000 萬 tokens。這一超長上下文長度使得 Llama 4 Scout 能夠處理和分析極長的文本內(nèi)容,例如整本書籍、大型代碼庫或多媒體檔案。

Meta 官方甚至還展示了「大海撈針」的測試結(jié)果以證明其能力。


然而,根據(jù) Fiction.LiveBench 最新給出的結(jié)果,Llama 4 模型的效果也是中看不中用,整體效果不及 Gemini 2.0 Flash,而 Gemini 2.5 Pro 依舊是當(dāng)之無愧的長文本王者。

Google 上大分+1。


網(wǎng)友 karminski 進一步指出,Llama 4 在 1K 上下文召回率(近似理解為問題回答的正確率)時就已跌至 60% 以下,甚至 Llama-4-Scout 在超過 16K 時僅剩 22%。

他還給出了一個形象的例子,《哈利·波特與魔法石》的文本長度恰好約為 16K。 這意味著,如果你把整本書輸入模型,然后問「哈利小時候是住在臥室還是樓梯下的儲物間」,Llama-4-Scout 只有 22% 的概率能答對(近似理解,實際召回機制更復(fù)雜)。 而這個成績自然也遠低于頭部模型的平均水平。

不僅模型本身稍顯拉胯,Llama 4 作為「開源扛把子」的光環(huán)也在逐漸褪色。

Meta 開放了 Llama 4 的權(quán)重,但即使使用量化(quant),也無法在消費級 GPU 上運行。號稱單卡運行,但實際指的卻是 H100。門檻之高,對開發(fā)者可謂是相當(dāng)不友好。

更何況,Llama 4 的新許可證還有幾個限制條款, 其中備受詬病的則是擁有超過 7 億月活躍用戶的公司必須向 Meta 申請?zhí)貏e許可證,Meta 可以自行決定是否批準(zhǔn)或拒絕。


等等,昨天 Meta 公布的紙面參數(shù)可不是這么說的,怎么過了一天,風(fēng)向就全變了。

在大模型競技場(Arena)排名中,Llama 4 Maverick 名列總榜第二,成為第四個突破 1400 分的模型,在開源模型中更是高居榜首,更是超越了 DeepSeek V3。

面對實測性能的「貨不對板」,細心的網(wǎng)友很快嗅到一絲蹊蹺。在 LM Arena 上取得高分的 Maverick 其實用到了一個「實驗性聊天版本」。


這還沒完,今天一畝三分地社區(qū)的爆料貼也似乎揭開了一些內(nèi)幕。爆料稱,經(jīng)過反復(fù)訓(xùn)練后,Llama 4 未能取得開源 SOTA,甚至與之相差甚遠。

而 Meta 公司內(nèi)部設(shè)置發(fā)布的 deadline(截止日期)則是 4 月底。

于是,公司領(lǐng)導(dǎo)層建議將 各個 benchmark 的測試集混合在 post-training 過程中,目的是希望能夠在各項指標(biāo)上交差。拿出一個「看起來可以」的結(jié)果。

這里說的將各個 benchmark 的測試集混合在 post-training 過程中,是指在模型的后訓(xùn)練(post-training)階段,通過混合不同基準(zhǔn)測試的數(shù)據(jù)集,模型可以在多種任務(wù)和場景中學(xué)習(xí),從而提升其泛化能力。


打個簡單的比方,這就像考試作弊。試題本該從保密題庫(benchmark 測試集)中隨機抽取,考前無人知曉??扇绻腥颂崆巴悼戳祟}目并反復(fù)練習(xí)(相當(dāng)于將測試集混入訓(xùn)練),那考試成績自不必多說。

帖主進一步解釋說,Llama 4 發(fā)布之后,實測結(jié)果遭到 X 和 Reddit 網(wǎng)友的吐槽。作為一名目前也在學(xué)術(shù)界的人他宣稱實在無法接受 Meta 的做法,已提交離職申請,并明確要求在 Llama 4 的 Technical Report 中剔除自己的名字。

他還表示,Meta 的 VP of AI 也是因為這個原因辭職的。而早在幾天前,就有報道稱 Meta AI 研究負(fù)責(zé)人喬爾·皮諾(Joelle Pineau)宣布將于 5 月 30 日離職。


不過,對于這樁疑似「刷榜作弊」的指控,真相究竟如何,或許還需更多證據(jù)。一位名為 LichengYu 的 Meta 員工也疑似在評論區(qū)實名回應(yīng)稱:

「這兩天虛心聆聽各方 feedback(比如 coding,creativewriting 等缺陷必須改進),希望能在下一版有提升。但為了刷點而 overfit 測試集,我們從來沒有做過,實名 Licheng Yu,兩個 oss model 的 post training 有經(jīng)手我這邊。請告知哪條 prompt 是測試集選出來放進訓(xùn)練集的,我給你磕一個+道歉!」


公開資料顯示,Licheng Yu(虞立成)曾本科畢業(yè)于上海交通大學(xué),2014 年獲佐治亞理工學(xué)院和上海交通大學(xué)雙碩士學(xué)位,在 2019 年 5 月獲北卡羅來納大學(xué)教堂山分校計算機科學(xué)博士學(xué)位,。

他的研究領(lǐng)域?qū)W⒂谟嬎銠C視覺和自然語言處理,多篇論文被 CVPR、ICLR、ECCV、KDD 等頂級會議接收。

Licheng Yu 曾在微軟、Adobe 等大廠有過工作經(jīng)歷,目前(2023.06 至今)擔(dān)任 Meta 的研究科學(xué)家經(jīng)理。 在 Meta 期間,他曾參與 Llama3.2 多模態(tài)模型(11B+90B)的發(fā)布,以及領(lǐng)導(dǎo) Llama 4 項目中 17Bx128 和 17Bx16 的文本+圖像強化學(xué)習(xí)階段。

真假難辨,或許還可以讓子彈再飛一會。

開源大模型的王座,不能只靠「蠻力」奪取

在去年這個時候,Meta 還被譽為 AI 行業(yè)的天選之子。

當(dāng)時,脫下簡單的灰色T恤、牛仔褲和連帽衫,扎克伯格也開始頻繁地穿著大 LOGO 的名牌服裝,頸間掛上粗獷的大金鏈子,甚至在公開場合自信展示自己的健身成果。

醉翁之意不在酒的扎克伯格試圖通過展現(xiàn)更「真實」、更「接地氣」的一面,拉近與公眾的距離。這不僅讓 Meta 顯得更加親民,也使其順勢成為對抗 OpenAI 閉源模型的開源旗手,聲勢一時無兩。


與此同時,Meta 的雄厚實力為轉(zhuǎn)型提供了堅實后盾。據(jù)悉,Meta 計劃在 2025 年投入高達 650 億美元用于擴展其 AI 基礎(chǔ)設(shè)施,這一數(shù)字在業(yè)內(nèi)堪稱大手筆,到 2025 年底,Meta 計劃擁有超過 130 萬塊 GPU。

其次,Meta 坐擁豐富的社交平臺數(shù)據(jù),這為其 AI 研發(fā)提供了得天獨厚的優(yōu)勢。

作為 Facebook、Instagram 和 WhatsApp 等全球知名社交平臺的母公司,Meta 掌握著數(shù)十億用戶的日常交互數(shù)據(jù)。據(jù)統(tǒng)計,其平臺的全球日活躍用戶數(shù)(DAU)在 2024 年已超過 30 億,這一龐大的數(shù)據(jù)體量為 AI 模型的訓(xùn)練提供了海量的原材料。

再者,Meta 在人才儲備上同樣不遑多讓。其 AI 部門的領(lǐng)軍人物是業(yè)界享有盛譽的圖靈獎得主 Yann LeCun。在他的帶領(lǐng)下,Meta 堅持開源策略,推出了 Llama 系列模型。

因此,Meta 也野心十足——它不僅要鞏固自身在社交領(lǐng)域的地位, 更希望在 AI 領(lǐng)域?qū)崿F(xiàn)彎道超車,目標(biāo)是在 2025 年底前超越 OpenAI 等強 勁對手。


但眼見他起朱樓,眼見他宴賓客,眼見他樓塌了。

若一畝三分地的爆料屬實,Llama 4 的研發(fā)過程中可能存在為追求基準(zhǔn)測試分?jǐn)?shù)而「作弊」的行為——通過將測試集混入訓(xùn)練數(shù)據(jù),也更像是「AI 流量焦慮」下的操作變形。

年初就曾有消息稱 DeepSeek 讓 Meta AI 團隊陷入恐慌:

「當(dāng)生成式 AI 組織中的每個高管薪資都比訓(xùn)練整個 DeepSeek-V3 的成本還要高,而我們有好幾十個這樣的高管,他們要如何面對高層?」

2023 年,Meta 憑借 Llama 系列在開源大模型領(lǐng)域幾乎建立了壟斷地位,成為開源 AI 的代名詞和標(biāo)桿。

然而,AI 一日,人間一年,在 Llama 4 遭遇「滑鐵盧」的評論區(qū)中,其他開源模型的好評隨處可見。


其中,Google Gemma 以輕量高效和多模態(tài)能力贏得廣泛認(rèn)可,阿里的 Qwen 系列基座模型嶄露頭角,而 DeepSeek 更以低成本高性能的黑馬姿態(tài)震撼了整個行業(yè)。


Meta 能否調(diào)整策略重回開源 AI 的模型領(lǐng)跑位置尚未可知, 但無論如何,開源 AI 的百花齊放已經(jīng)不可逆轉(zhuǎn)地到來了。

秉持著哪個 AI 好用,用哪個的原則,Meta 也不能全然怪用戶「墻頭草」。更何況,在開源透明度方面,相較于上述幾家公司的開源模型,Llama 4 的種種限制,也頗有些自斷一臂的意味。

而 Meta 目前的掙扎或許也表明,即便手握全球所有的 GPU 算力和海量數(shù)據(jù),資源優(yōu)勢已不再是決定性因素。 開源大模型的王座 ,也 不能只靠「蠻力」奪取。

我們正在招募伙伴

簡歷投遞郵箱 hr@ifanr.com

?? 郵件標(biāo)題 「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特朗普這次徹底急眼了:我治不了中國,我還治不了你?

特朗普這次徹底急眼了:我治不了中國,我還治不了你?

翻開歷史和現(xiàn)實
2025-04-16 09:31:48
遼寧鐵人日本外援邦本宜裕:對歸化加入中國男足持開放態(tài)度

遼寧鐵人日本外援邦本宜裕:對歸化加入中國男足持開放態(tài)度

懂球帝
2025-04-16 12:29:15
如果僅僅以女方口供就可以定男人強奸,男人就是待宰的羔羊!

如果僅僅以女方口供就可以定男人強奸,男人就是待宰的羔羊!

逍遙論經(jīng)
2025-03-27 16:27:32
特朗普體檢出了結(jié)果,78歲的美國總統(tǒng),還有余力“折騰全世界”

特朗普體檢出了結(jié)果,78歲的美國總統(tǒng),還有余力“折騰全世界”

老高風(fēng)云
2025-04-15 16:41:10
外媒:美國計劃關(guān)閉近30個駐外使領(lǐng)館

外媒:美國計劃關(guān)閉近30個駐外使領(lǐng)館

參考消息
2025-04-16 16:25:13
145%關(guān)稅重壓,美國訂單為何逆勢暴漲?中國工廠老板說出扎心真相

145%關(guān)稅重壓,美國訂單為何逆勢暴漲?中國工廠老板說出扎心真相

歸史
2025-04-15 18:19:40
巴普蒂斯塔:梅西C羅互相成就,C羅的路更難一些&應(yīng)該因此稱GOAT

巴普蒂斯塔:梅西C羅互相成就,C羅的路更難一些&應(yīng)該因此稱GOAT

直播吧
2025-04-16 14:27:08
今天是4月16日下午,剛剛曝出一個驚天大消息,要來大動作嗎?

今天是4月16日下午,剛剛曝出一個驚天大消息,要來大動作嗎?

股市皆大事
2025-04-16 12:50:52
特朗普考慮一項新豁免,中國的頂級陽謀起作用了,多國應(yīng)感謝中國

特朗普考慮一項新豁免,中國的頂級陽謀起作用了,多國應(yīng)感謝中國

千里持劍
2025-04-15 16:34:52
皇馬發(fā)布對陣阿森納海報:維尼修斯C位,貝林厄姆、庫爾圖瓦出鏡

皇馬發(fā)布對陣阿森納海報:維尼修斯C位,貝林厄姆、庫爾圖瓦出鏡

直播吧
2025-04-16 15:32:13
萬萬沒想到,69歲不沾煙酒很少參加飯局的陳道明如今竟變成了這樣

萬萬沒想到,69歲不沾煙酒很少參加飯局的陳道明如今竟變成了這樣

小彭聊社會
2025-03-29 07:36:02
明晚4月17日油價大跌,今年最大下跌,油價跌回“6元時代”創(chuàng)新低

明晚4月17日油價大跌,今年最大下跌,油價跌回“6元時代”創(chuàng)新低

油價早知道
2025-04-16 09:26:23
山西省籃協(xié)副主席:國際裁判抵達太原 參與今晚山西廣東的二番戰(zhàn)

山西省籃協(xié)副主席:國際裁判抵達太原 參與今晚山西廣東的二番戰(zhàn)

直播吧
2025-04-16 11:38:15
退休金二次核算啟動!補發(fā)金額到賬時間表已出,速查你的賬戶變化

退休金二次核算啟動!補發(fā)金額到賬時間表已出,速查你的賬戶變化

二月侃事
2025-04-15 16:54:12
合同到期,祝銘震官宣,加盟新球隊,不是同曦,已抵達廣東

合同到期,祝銘震官宣,加盟新球隊,不是同曦,已抵達廣東

樂聊球
2025-04-16 09:50:45
湖人開啟驚天4換1!48+12巨星將空降洛城,成為東詹身邊最強護法

湖人開啟驚天4換1!48+12巨星將空降洛城,成為東詹身邊最強護法

埃文凱爾
2025-04-16 12:27:06
汪峰好眼力!34歲森林北游桂林曬美照,一雙大長腿太搶鏡了!

汪峰好眼力!34歲森林北游桂林曬美照,一雙大長腿太搶鏡了!

西瓜愛娛娛
2025-04-16 11:38:32
離譜!英國網(wǎng)球美女要求裁判:對手太臭 讓她去噴除臭劑 輸球+道歉

離譜!英國網(wǎng)球美女要求裁判:對手太臭 讓她去噴除臭劑 輸球+道歉

畫夕
2025-04-16 08:57:57
山西“訂婚強奸案”二審維持原判!網(wǎng)友:這是公平正義的勝利…

山西“訂婚強奸案”二審維持原判!網(wǎng)友:這是公平正義的勝利…

火山詩話
2025-04-16 10:17:53
取消1.9萬億出口退稅,利大于弊

取消1.9萬億出口退稅,利大于弊

克萊恩財經(jīng)
2025-04-14 23:08:28
2025-04-16 17:51:00
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
5270文章數(shù) 26565關(guān)注度
往期回顧 全部

科技要聞

華為問界M8售價公布:36.98萬元起

頭條要聞

訂婚強奸案細節(jié):男方不認(rèn)罪 其母公布女方隱私遭訓(xùn)誡

頭條要聞

訂婚強奸案細節(jié):男方不認(rèn)罪 其母公布女方隱私遭訓(xùn)誡

體育要聞

諾坎普奇跡的兩位當(dāng)事人,差點靈魂互換

娛樂要聞

娛樂圈的“現(xiàn)實”在岳云鵬身上應(yīng)驗了

財經(jīng)要聞

一季度GDP同比增長5.4%!

汽車要聞

又帥又快超實用 極氪007GT獵裝車才是完美的車?

態(tài)度原創(chuàng)

手機
親子
健康
教育
時尚

手機要聞

Samsung Auto正在中國率先推出 成Android Auto和CarPlay的新競爭對手

親子要聞

去朋友家吃燒烤,小八升級孩子王,像極了幼兒園老師

在中國,到底哪些人在吃“偉哥”?

教育要聞

教師被要求禁止考公考編,該給教師留一條退路嗎?官方通報來了

女人過了50歲,試試這么穿!色彩搭配不死板,穿衣減齡有活力

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 海安县| 宁安市| 正镶白旗| 定安县| 安达市| 重庆市| 乌拉特前旗| 西华县| 类乌齐县| 香港| 东阳市| 利津县| 吉安县| 六枝特区| 遂川县| 阳泉市| 南开区| 布尔津县| 奎屯市| 郎溪县| 徐汇区| 五寨县| 奈曼旗| 芷江| 凤庆县| 平乐县| 清丰县| 平阳县| 娄烦县| 富源县| 西和县| 蕲春县| 合江县| 龙泉市| 中西区| 南城县| 阜宁县| 周至县| 阳信县| 东城区| 深圳市|