99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Meta Llama 4被疑考試「作弊」:在競技場刷高分,但實戰(zhàn)中頻翻車

0
分享至




機器之心報道

機器之心編輯部

Meta 翻車來得猝不及防。

上周六,Meta 發(fā)布了最新 AI 模型系列 ——Llama 4,并一口氣出了三個款,分別是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。

據(jù)官方介紹,在大模型競技場中,它們的排名相當不賴。

就拿 Llama 4 Maverick 來說,總排名第二,成為第四個突破 1400 分的大模型。其中開放模型排名第一,超越了 DeepSeek;在困難提示詞、編程、數(shù)學、創(chuàng)意寫作等任務中排名均為第一。



然而,不少網(wǎng)友體驗后反饋,Llama 4 似乎是一個糟糕的編碼模型。

@deedydas 發(fā)帖稱,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基準測試中表現(xiàn)不佳,不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基準測試專注于編程任務,例如代碼生成和代碼補全。



比如小球在旋轉(zhuǎn)六邊形中跳躍的測試中,Llama 4 的表現(xiàn)并不理想。



底下評論區(qū)的網(wǎng)友也紛紛表示,無論是 Scout 還是 Maverick,在實際編程中好像都不好用,即使有詳細的提示也不行。



還有網(wǎng)友在 Novita AI 平臺上測試了該模型,給出的結(jié)論是在復雜問題上有點吃力,但響應速度很快。



「它很好,但我不認為它在打敗 DeepSeek R1 和 V3...也許 Llama 4 Behemoth 會更強大。」



Google Deepmind 工程師 Susan Zhang 也在 X 上質(zhì)疑, Llama4 在 lmsys 上怎么得分這么高?





「是不是為 lmsys 定制了一個模型?」



為什么官方提供的排名結(jié)果和用戶的體驗大相徑庭呢?

據(jù)科技媒體 TechCrunch 報道,Meta 新 AI 模型基準測試存在誤導性。

盡管 Maverick 在 LM Arena 測試中排名第二,但不少研究人員發(fā)現(xiàn),公開可下載的 Maverick 與托管在 LM Arena 上的模型在行為上存在顯著差異。LM Arena 上的版本似乎使用了大量表情符號,并給出了極為冗長的回答。





https://x.com/techdevnotes/status/1908851730386657431

Nathan Lambert 也分享了一張圖片,里面是兩個 AI 模型(Llama 4 和另一個模型)回答同一個問題的對比。問題是:「Nathan Lambert 是誰?」

圖片里 Llama 4 的回答非常長,啰啰嗦嗦講了一大堆,而且充滿了表情符號和感嘆號。



https://x.com/natolambert/status/1908893136518098958

Meta 在公告中提到,LM Arena 上的 Maverick 是「實驗性聊天版本」,與此同時官方 Llama 網(wǎng)站上的圖表也透露,該測試使用了「針對對話優(yōu)化的Llama 4 Maverick」。



LM Arena 作為衡量 AI 模型性能的指標一直存在爭議。盡管如此,AI 公司通常不會為提高 LM Arena 分數(shù)而定制模型,至少沒有公開承認過。

將模型針對基準測試進行優(yōu)化、保留優(yōu)化版本,然后發(fā)布一個「普通」版本的問題在于,這使得開發(fā)者難以準確預測模型在特定場景下的表現(xiàn),存在誤導性。理想情況下,盡管基準測試存在不足,但它們至少可以提供一個模型在多種任務上的優(yōu)缺點的概況。

https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/

https://x.com/deedydas/status/1908749257084944847

https://x.com/techdevnotes/status/1908851730386657431

https://x.com/ai_for_success/status/1908915996707913989

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
季后賽八進四對陣:廣東VS山西 北京德比 廣廈VS青島 遼疆大戰(zhàn)

季后賽八進四對陣:廣東VS山西 北京德比 廣廈VS青島 遼疆大戰(zhàn)

顏小白的籃球夢
2025-04-11 21:56:14
4月10日俄烏:新型無人機襲擊莫斯科,德新政府將全面支持烏克蘭

4月10日俄烏:新型無人機襲擊莫斯科,德新政府將全面支持烏克蘭

山河路口
2025-04-10 19:43:33
二級演員程紅,被撤職!赴歐演出期間違規(guī)改變行程,費用均由單位支付

二級演員程紅,被撤職!赴歐演出期間違規(guī)改變行程,費用均由單位支付

上觀新聞
2025-04-11 20:22:04
下周A股將讓所有人目瞪口呆!急跌一定會來,讓我們一起見證!

下周A股將讓所有人目瞪口呆!急跌一定會來,讓我們一起見證!

悠然安晴
2025-04-12 00:12:55
對華關稅145%!永輝、盒馬、世紀聯(lián)華、華潤萬家、天福、銀座、武商等助力外貿(mào)轉(zhuǎn)內(nèi)銷

對華關稅145%!永輝、盒馬、世紀聯(lián)華、華潤萬家、天福、銀座、武商等助力外貿(mào)轉(zhuǎn)內(nèi)銷

品智PLSC
2025-04-11 20:37:06
北京市強風持續(xù) 最大陣風風速達14級

北京市強風持續(xù) 最大陣風風速達14級

財聯(lián)社
2025-04-12 02:07:05
剛剛,特斯拉中國停售Model S、Model X

剛剛,特斯拉中國停售Model S、Model X

大象新聞
2025-04-11 12:54:04
中方出"王炸",對所有美國商品征125%關稅!對普通人生活有何影響

中方出"王炸",對所有美國商品征125%關稅!對普通人生活有何影響

二向箔
2025-04-11 20:14:18
上海"金牌射手"事件反轉(zhuǎn)?曝男女主角"為刺激"約好的,官方發(fā)聲!

上海"金牌射手"事件反轉(zhuǎn)?曝男女主角"為刺激"約好的,官方發(fā)聲!

派大星紀錄片
2025-04-11 12:38:41
“現(xiàn)在輪到我們了!”中國零售巨頭集體出手

“現(xiàn)在輪到我們了!”中國零售巨頭集體出手

看看新聞Knews
2025-04-11 23:35:01
向鵬事件發(fā)酵,國際乒聯(lián)緊急出手,我們終于能對"黃牌裁判"說不了

向鵬事件發(fā)酵,國際乒聯(lián)緊急出手,我們終于能對"黃牌裁判"說不了

小彭聊社會
2025-04-12 01:01:46
上海地鐵噴射男事件后續(xù),男子正面照被爆,網(wǎng)友覺得女子也有不妥

上海地鐵噴射男事件后續(xù),男子正面照被爆,網(wǎng)友覺得女子也有不妥

振華觀史
2025-04-11 11:45:18
特朗普稱非常希望與中國達成協(xié)議,以結(jié)束不斷升級的貿(mào)易戰(zhàn)!港股漲幅進一步擴大,恒指漲2%,恒生科技指數(shù)漲3.55%

特朗普稱非常希望與中國達成協(xié)議,以結(jié)束不斷升級的貿(mào)易戰(zhàn)!港股漲幅進一步擴大,恒指漲2%,恒生科技指數(shù)漲3.55%

和訊網(wǎng)
2025-04-11 14:29:52
中美“關稅戰(zhàn)”第8天,特朗普終于認錯了,一架西方專機連夜抵京

中美“關稅戰(zhàn)”第8天,特朗普終于認錯了,一架西方專機連夜抵京

文雅筆墨
2025-04-11 20:23:03
上海地鐵猥褻事件三天后,涉事男子公司稱其被開除,職位疑為大堂前臺接待

上海地鐵猥褻事件三天后,涉事男子公司稱其被開除,職位疑為大堂前臺接待

瀟湘晨報
2025-04-11 20:51:46
已立案!人均3888元的上海餐廳,用大象糞便做甜品,還有腐臭味糊糊……

已立案!人均3888元的上海餐廳,用大象糞便做甜品,還有腐臭味糊糊……

環(huán)球網(wǎng)資訊
2025-04-11 14:51:20
網(wǎng)友:現(xiàn)在外貿(mào)公司都炸了!老公說這次比較嚴重,美國訂單都暫停

網(wǎng)友:現(xiàn)在外貿(mào)公司都炸了!老公說這次比較嚴重,美國訂單都暫停

新語愛八卦
2025-04-11 14:54:17
這條“無恥”新聞,讓人看到對勞動者極度的惡!

這條“無恥”新聞,讓人看到對勞動者極度的惡!

胖胖說他不胖
2025-04-11 16:28:13
不出意外的話,5月以后,全國50%家庭,或?qū)⒚媾R“3大好事”

不出意外的話,5月以后,全國50%家庭,或?qū)⒚媾R“3大好事”

巢客HOME
2025-04-11 23:43:48
關稅戰(zhàn)之下所有人應該達成一個共識:當下單靠內(nèi)循環(huán)是行不通的!

關稅戰(zhàn)之下所有人應該達成一個共識:當下單靠內(nèi)循環(huán)是行不通的!

翻開歷史和現(xiàn)實
2025-04-11 12:37:16
2025-04-12 05:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10345文章數(shù) 142293關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

專家:不用太擔心關稅 現(xiàn)在要看的是中美雙方誰扛不住

體育要聞

球迷天天罵,但我們要進歐冠了

娛樂要聞

汪小菲馬筱梅婚禮又有了耐人尋味的新聞

財經(jīng)要聞

造假累計數(shù)百億 揭秘東旭集團造假手法

汽車要聞

25款風云A8/T9/T10齊上市 多款車型發(fā)布一口價

態(tài)度原創(chuàng)

本地
數(shù)碼
旅游
藝術
公開課

本地新聞

華北將迎“歷史罕見”大風

數(shù)碼要聞

蘋果員工越來越有信心推遲推出的個性化Siri體驗將于“今年秋季”發(fā)布

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 曲水县| 施甸县| 遂川县| 冕宁县| 天水市| 紫阳县| 南投县| 淮阳县| 亳州市| 华坪县| 峨边| 石狮市| 武定县| 太仆寺旗| 永胜县| 玉林市| 柯坪县| 苍南县| 汝南县| 惠水县| 维西| 四子王旗| 吕梁市| 台安县| 阜南县| 舞阳县| 普宁市| 剑川县| 团风县| 合山市| 通城县| 榆树市| 阜新市| 视频| 邯郸县| 宣化县| 康马县| 龙岩市| 五家渠市| 柞水县| 桐城市|