99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Llama 4遭競技場背刺!實錘用特供版刷榜,2000+對戰記錄公開

0
分享至

  • 克雷西 西風 發自 凹非寺
  • 量子位 | 公眾號 QbitAI

Llama 4真要被錘爆了,這次是大模型競技場(Chatbot Arena)官方親自下場開懟:

競技場上,Meta提供給他們的是特供版!

以下是競技場背后lmarena.ai團隊的原話:



我們注意到社區對Llama-4最新版本在Arena平臺的發布存在疑問。為確保完全透明,現公開2000余組模型對戰數據供公眾審閱,包含用戶提示詞、模型回復及用戶偏好數據(鏈接詳見下一條推文)。

初步分析表明,模型回復風格與語氣是重要影響因素(詳見風格控制排名),我們正在進行更深入的分析!(比如表情符號控制?)

此外,我們即將在Arena平臺上線Llama-4-Maverick的HuggingFace版本,排行榜結果將稍后公布。

Meta對我們平臺政策的理解與我們對模型提供商的期待存在偏差——Meta本應明確標注"Llama-4-Maverick-03-26-Experimental"是經過人類偏好優化的定制模型。

為此,我們正在更新排行榜政策,以強化對公平性、可復現性評估的承諾,避免未來再出現此類混淆。

總結一下就是:

公開對戰數據,正分析排名受影響因素

譴責Meta未明確標注模型版本導致評測混淆

后續:上線Llama-4-Maverick的HuggingFace版、更新排行榜政策

官方下場表態后,Llama 4和Meta的路人緣進一步下降。



2000+輪對戰記錄完整公開

來看看lmarena.ai公開的模型對戰記錄詳情。



首先來看網友實測時對Llama 4抱怨較大的代碼生成任務。

競技場中Llama-4-Maverick-03-26-Experimental版本生成代碼的表現的確是OK的。

prompt:

create me fun web based game that i can just run the code and works(幫我創建一個有趣的網頁游戲,我只需運行代碼就能玩)



Llama-4-Maverick-03-26-Experimental對戰加拿大AI初創公司Cohere的command-a-03-2025。

上文lmarena.ai調查表示“模型回復風格與語氣是重要影響因素”,從對戰數據中的確可以看出Llama-4-Maverick-03-26-Experimental的回復中會增加如"A very nice and very direct request!" "That’s it! ""Happy gaming!"等展示友好的語句以及表情包。



運行兩個模型生成的代碼。

command-a-03-2025生成的小游戲是移動鼠標控制綠色籃子接住橙色小球,看效果顯然有bug,小球直接穿過籃子,分數也沒有變動:



Llama-4-Maverick-03-26-Experimental生成的小游戲玩法是移動鼠標控制紅色方塊,點擊四處移動的藍色圓點+10分,點擊黑色炸彈-10分,每局游戲30秒。

可以正常運行,計分也比較準確:



這局command-a-03-2025輸的不冤。

另外,之所以展示Llama-4-Maverick-03-26-Experimental和command-a-03-2025的對比,是因為有網友發現Llama 4聲稱的關鍵創新“interleaved no-RoPE attention”和command-a的如出一轍:



再看一個起標題的任務,prompt:

I will give a congress talk “On Naevi” — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation(我將在一個學術會議上作關于“痣”的演講——痣是黑素細胞良性病變,可作為黑色素瘤的標志物,有時甚至是其前驅病變。您能否為我的演講推薦一個簡潔有力的標題?)

Llama-4-Maverick-03-26-Experimental對戰的是claude-3-5-sonnet-20241022。

對比來看,claude-3-5-sonnet-20241022的回復言簡意賅,直接給出5個標題:



Llama-4-Maverick-03-26-Experimental的回復更為詳細。

不僅會提供情緒價值,如A very timely and relevant topic! Congrats on getting the slot at congress, by the way!(選題非常應景且切合實際!恭喜拿下大會報告機會),而且從不同角度分別提供了幾個標題:



這還沒完,Llama-4-Maverick-03-26-Experimental還會貼心地指出選擇標題時需要考慮的因素以及它自己選擇的top 3標題。



最后再來隨機看一道中文題目:

prompt:

解析一下這部微小說 題目 自駕游 當年我自駕游 不小心壓死了一頭羊 羊的主人好熱情 宰了羊給我們吃 還送我們到火車站 在回來的路上 看著火車外的風景 真的好感人



對戰o3-mini,Llama-4-Maverick-03-26-Experimental再次展現出超長輸出的特點,故事分析完了還拆解了作者為啥要這樣設計,作者本人可能都沒想這么多(doge):



對戰數據看下來,Llama-4-Maverick-03-26-Experimental的排名會這么高,也不奇怪。

此前網友質疑Llama-4-Maverick-03-26-Experimental刷票的可能性降低。



Llama 4深陷“造假”丑聞

如開頭所述,Llama 4被lmarena.ai站出來抨擊的原因,是因為測試排名和實際表現不符。

在大模型競技場中,Llama 4得分1417,不僅大大超越了此前Meta自家的Llama-3-405B(提升了149分),還成為史上第4個突破1400分的模型。

而且跑分超越了DeepSeek-V3,直接成為榜單上排名第一的開源模型。



但沒過多久,人們就發現Llama 4的實際表現相當拉胯,一時間差評如潮,甚至還被做成了表情包。



比如經典“氛圍編程”小球反彈測試,小球直接穿過墻壁掉了下去。



其它跑分方面,到了各種第三方基準測試中,情況也大多直接逆轉,排名掉到了末尾。



并且從Meta GenAI負責人Ahmad Al-Dahle的推文當中也能看懂,競技場中的Llama 4,確實是一個特殊版本。



而在最新的推文中,Ahmad表示Llama 4絕對沒有使用測試集進行訓練,表現存在差異的原因是還需要穩定的部署。



對于這一解釋,有人并不買賬,直言這種現象在其他模型當中從未見過。



Meta的支持者則表示,希望表現不佳真的是供應商的問題所致。



大模型競技場,還能信嗎?

被卷入這次旋渦的不僅是Llama 4和背后的Meta,涉及到的大模型競技場也引起了人們的廣泛討論。

畢竟Llama 4的“造假”風波就是發生在競技場上,所以也自然有人質疑起了榜單的權威性。

有人指出,競技場的偏差不只體現在Llama 4被高估上,還有Claude 3.7的表現被低估了。



當然,官方快速回應并公開了測試中的細節,這個做法獲得了網友的肯定,說明至少在態度和透明度上是說得過去的。



但也有人認為,無論官方態度端不端正,Llama 4事件說明這種“人類評價AI”的方法,本身已經不適用了。

人們日常生活中的問題,幾乎所有領先模型都能完美解答,誰還會去認真投票,這個基準已經過時了。



有人補充說,“人類偏好”不是評價高級大模型能力的可靠標準,產生較大偏差是正常的。



還有人表示,從官方發布的消息來看,lmarena.ai自己都不清楚自己的基準。

這名網友解釋,特調版Llama 4獲得用戶投票的原因并非lmarena.ai所說的“表情符號”,而是因為更具親和力。



當然也有人提了些建設性的意見,比如更改ELO評分的算法,或者啟用強制風格轉換。



但總之,無論是迭代改進還是另辟蹊徑,都是時候更新對大模型的評價方式了。

參考鏈接:[1]https://x.com/lmarena_ai/status/1909397817434816562[2]https://x.com/Ahmad_Al_Dahle/status/1909302532306092107[3]https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
央媽降息關鍵時點將至?4月17日,今日凌晨三大重要消息持續發酵

央媽降息關鍵時點將至?4月17日,今日凌晨三大重要消息持續發酵

風口招財豬
2025-04-17 01:38:38
02年南京軍區司令震怒:動我的人,那就掀了這金陵的天!

02年南京軍區司令震怒:動我的人,那就掀了這金陵的天!

知而不為
2025-04-13 23:44:41
夫妻生活在婚姻中很重要嗎?網友:當晚質量決定第二天的待遇!

夫妻生活在婚姻中很重要嗎?網友:當晚質量決定第二天的待遇!

美好客棧大掌柜
2025-02-23 00:10:05
季后賽湖人對陣森林狼前夕,雷迪克在訓練中讓布朗尼扮演愛德華茲

季后賽湖人對陣森林狼前夕,雷迪克在訓練中讓布朗尼扮演愛德華茲

仰臥撐FTUer
2025-04-17 06:28:01
特謝拉再現世界波,申花提心吊膽贏下“副班長”,可惜了那么多進球機會

特謝拉再現世界波,申花提心吊膽贏下“副班長”,可惜了那么多進球機會

上觀新聞
2025-04-17 06:23:06
為什么很多人不愿做腸鏡?院士:做一次腸鏡,或能保你5年沒問題

為什么很多人不愿做腸鏡?院士:做一次腸鏡,或能保你5年沒問題

小熊侃史
2025-01-14 07:55:09
101-116!廣東男籃再輸山西,杜鋒回應,潘江表態,央視直播

101-116!廣東男籃再輸山西,杜鋒回應,潘江表態,央視直播

漫川舟船
2025-04-17 06:41:20
中金公司:若貿易摩擦下全球經濟增長進一步承壓,或為油價帶來約5美元/桶的額外下跌空間

中金公司:若貿易摩擦下全球經濟增長進一步承壓,或為油價帶來約5美元/桶的額外下跌空間

澎湃新聞
2025-04-16 08:34:04
央媽頻提擇時降準何時到來!4月17日, 昨夜的三大消息正式傳來!

央媽頻提擇時降準何時到來!4月17日, 昨夜的三大消息正式傳來!

風口招財豬
2025-04-17 01:57:12
1-2負阿森納,馬卡報給皇馬球員評分:姆巴佩和貝林厄姆僅4.5分

1-2負阿森納,馬卡報給皇馬球員評分:姆巴佩和貝林厄姆僅4.5分

仰臥撐FTUer
2025-04-17 06:28:02
林更新新歡實錘曝光!趙麗穎被罵上熱搜,CP粉集體破防

林更新新歡實錘曝光!趙麗穎被罵上熱搜,CP粉集體破防

阿矗論古今
2025-04-16 15:53:51
網紅燕兒爺自曝出軌公公,多次開房染HPV,公公:誰睡不是睡

網紅燕兒爺自曝出軌公公,多次開房染HPV,公公:誰睡不是睡

社會醬
2025-04-09 17:18:03
里斯蒂奇:祝賀魏祥鑫打進中超首球,他是梅州客家培養出來的

里斯蒂奇:祝賀魏祥鑫打進中超首球,他是梅州客家培養出來的

懂球帝
2025-04-17 07:08:07
光刻機制造商阿斯麥:運往美國的整機系統可能被征收關稅

光刻機制造商阿斯麥:運往美國的整機系統可能被征收關稅

環球網資訊
2025-04-16 17:40:06
格林:我已確認“季后賽吉米”已正式到來,他現在對著隊友吼

格林:我已確認“季后賽吉米”已正式到來,他現在對著隊友吼

懂球帝
2025-04-16 16:25:18
皇馬1:5,拜仁3:4!歐冠四強對決:巴薩戰國米,巴黎拼阿森納!

皇馬1:5,拜仁3:4!歐冠四強對決:巴薩戰國米,巴黎拼阿森納!

碧咸仍在
2025-04-17 05:57:00
“大同訂婚案”40個旁聽人:席某某全程低頭,房本加女方名確實有

“大同訂婚案”40個旁聽人:席某某全程低頭,房本加女方名確實有

漢史趣聞
2025-04-16 18:24:56
醒醒吧!就算中國同時拉出5支艦隊30艘大艦,也遠未達美7成實力

醒醒吧!就算中國同時拉出5支艦隊30艘大艦,也遠未達美7成實力

時時有聊
2025-04-09 16:16:26
密林深處的冤魂,1998年永吉縣“2·27”深山無名男尸案偵破始末

密林深處的冤魂,1998年永吉縣“2·27”深山無名男尸案偵破始末

路之意
2025-04-16 04:33:39
打瘋了!林詩棟轟11-1、11-2,世界亞軍爆冷出局,日本新星出線

打瘋了!林詩棟轟11-1、11-2,世界亞軍爆冷出局,日本新星出線

知軒體育
2025-04-16 15:57:51
2025-04-17 07:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10325文章數 176105關注度
往期回顧 全部

科技要聞

華為問界M8售價公布:36.98萬元起

頭條要聞

鄭永年:特朗普逼中國簽下新版"廣場協議"幾無可能

頭條要聞

鄭永年:特朗普逼中國簽下新版"廣場協議"幾無可能

體育要聞

對著木板踢球的小鎮姑娘 成了皇馬第一人

娛樂要聞

娛樂圈的“現實”在岳云鵬身上應驗了

財經要聞

增長5.4% 一季度GDP增速為何超預期?

汽車要聞

又帥又快超實用 極氪007GT獵裝車才是完美的車?

態度原創

健康
游戲
時尚
數碼
本地

在中國,到底哪些人在吃“偉哥”?

夢幻西游4月仙族門派調整:魔天宮首回合秒6 凌波被削清寵能力

《我的后半生》,70歲正是純愛的好年紀!

數碼要聞

OPPO移動智能產品首銷創紀錄:近七成手表用戶來自蘋果華為

本地新聞

云游湖北 | 七仙女都愛的山水,雙峰米酒一口上頭

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 孝昌县| 伊吾县| 繁昌县| 广安市| 安化县| 大关县| 威远县| 万山特区| 张家口市| 拜泉县| 玛沁县| 六安市| 密云县| 镇坪县| 忻州市| 中宁县| 潞城市| 枣庄市| 泰州市| 泽库县| 个旧市| 修武县| 肇庆市| 景德镇市| 卢湾区| 尤溪县| 泾川县| 尚志市| 都江堰市| 信阳市| 建德市| 贵港市| 博乐市| 辽中县| 南安市| 如皋市| 乌拉特中旗| 鄂伦春自治旗| 内乡县| 天峻县| 阿拉善左旗|