夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI
Meta最新基礎(chǔ)模型Llama 4發(fā)布36小時后,評論區(qū)居然是這個畫風(fēng):
- 失望,非常失望
不知道他們后訓(xùn)練怎么搞的,總之不太行
在[各種測試]2中失敗
還被做成表情包調(diào)侃,總結(jié)起來就是一個“差評如潮”。
具體來看,大家的抱怨主要集中在代碼能力。
最直觀的要數(shù)經(jīng)典“氛圍編程”小球反彈測試,小球直接穿過墻壁掉下去了。
反映在榜單上,成績也相當(dāng)割裂。
發(fā)布時的官方測評(LiveCodeBench)分?jǐn)?shù)和在大模型競技場表現(xiàn)明明都很不錯。
但到了各種第三方基準(zhǔn)測試中,情況大多直接逆轉(zhuǎn),排名末尾。
讓人不由得懷疑,這個競技場排名到底是數(shù)據(jù)過擬合,還是刷票了。
就在Llama 4即將發(fā)布前幾天,Meta AI研究主管Joelle Pineau在工作8年之后突然宣布離職,總之就是不太妙。
Llama 4怎么了?
大模型關(guān)注者們火熱實測吐槽之際,一則有關(guān)Llama 4的匿名爆料,突然引起軒然大波:
有網(wǎng)友稱自己已向Meta GenAI部門提交提交辭職,并要求不要署名在Llama 4的技術(shù)報告上。
原貼發(fā)布在海外留學(xué)求職交流平臺一畝三分地,在國內(nèi)也引起很多討論。
此爆料尚未得到證實,但有人搬出Meta GenAI負(fù)責(zé)人Ahmad Al-Dahle的帖子,至少能看出在Llama 4大模型競技場里運行的是特殊版本模型。
還有Meta前員工借此話題貼出2024年11月的一項研究,指出從Llama 1開始數(shù)據(jù)泄露的問題就存在了。
也不只是編程能力一個方面有問題,在EQBench測評基準(zhǔn)的的長文章寫作榜中,Llama 4系列也直接墊底。
榜單維護(hù)者_(dá)sqrkl說明了具體情況。
測試非常簡單,模型需要先完成一個短篇小說的頭腦風(fēng)暴、反思并修改寫作計劃,最終每輪寫1000字,重復(fù)8輪以上。
由Claude-Sonnet 3.7來當(dāng)裁判,先對每個章節(jié)單獨打分,再對整個作品打分。
Llama 4的低分表現(xiàn)在寫到后面開始大段的內(nèi)容重復(fù),以及寫作非常公式化。
對此結(jié)果,有一個猜想是之前的版權(quán)訴訟讓Meta刪除了網(wǎng)絡(luò)和書籍?dāng)?shù)據(jù),使用了更多的合成數(shù)據(jù)。
在這場訴訟中,許多作家發(fā)現(xiàn)自己的作品可能被用于AI訓(xùn)練,還到倫敦的Meta辦公室附近發(fā)起抗議。
Llama 4發(fā)布后的種種,讓人聯(lián)想到年初的匿名員工爆,有網(wǎng)友表示當(dāng)初只是隨便看看,現(xiàn)在卻開始相信了:
在這條爆料中,Deepseek v3出來之后,訓(xùn)練中的Llama4就顯得落后了,中層管理的薪水都比DeepSeek V3的訓(xùn)練成本都高,Meta內(nèi)部陷入恐慌模式。
讓人不由得感嘆,DeepSeel-R1橫空出世僅僅兩個月時間,卻像過了幾輩子。
[1]https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/
[2]https://www.1point3acres.com/bbs/thread-1122600-1-1.html
[3]https://x.com/suchenzang/status/1909070231517143509
https://x.com/TheAhmadOsman/status/1908833792111906894
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.