æ©Ÿå™¨ä¹‹å¿ƒå ±é“
機器之心編輯部
Meta 翻車來得çŒä¸åŠé˜²ã€‚
上周å…,Meta 發(fÄ)布了最新 AI 模型系列 ——Llama 4,并一å£æ°£å‡ºäº†ä¸‰å€‹æ¬¾ï¼Œåˆ†åˆ¥æ˜¯ Llama 4 Scoutã€Llama 4 Maverick å’Œ Llama 4 Behemoth。
æ“š(jù)å®˜æ–¹ä»‹ç´¹ï¼Œåœ¨å¤§æ¨¡åž‹ç«¶æŠ€å ´ä¸ï¼Œå®ƒå€‘的排å相當ä¸è³´ã€‚
就拿 Llama 4 Maverick 來說,總排å第二,æˆç‚ºç¬¬å››å€‹çªç ´ 1400 分的大模型。其ä¸é–‹æ”¾æ¨¡åž‹æŽ’å第一,超越了 DeepSeek;在困難æ示詞ã€ç·¨ç¨‹ã€æ•¸(shù)å¸ã€å‰µ(chuà ng)æ„寫作ç‰ä»»å‹™ä¸æŽ’åå‡ç‚ºç¬¬ä¸€ã€‚
然而,ä¸å°‘網(wÇŽng)å‹é«”é©—åŽå饋,Llama 4 似乎是一個糟糕的編碼模型。
@deedydas 發(fÄ)帖稱,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基準測試ä¸è¡¨ç¾(xià n)ä¸ä½³ï¼Œä¸å¦‚ GPT-4oã€Gemini Flashã€Grok 3ã€DeepSeek V3 ä»¥åŠ Sonnet 3.5/7 ç‰æ¨¡åž‹ã€‚而 Kscores 基準測試專注于編程任務,例如代碼生æˆå’Œä»£ç¢¼è£œå…¨ã€‚
比如å°çƒåœ¨æ—‹è½‰(zhuÇŽn)å…é‚Šå½¢ä¸è·³èºçš„測試ä¸ï¼ŒLlama 4 的表ç¾(xià n)并ä¸ç†æƒ³ã€‚
底下評論å€(qÅ«)的網(wÇŽng)å‹ä¹Ÿç´›ç´›è¡¨ç¤ºï¼Œç„¡è«–是 Scout 還是 Maverick,在實際編程ä¸å¥½åƒéƒ½ä¸å¥½ç”¨ï¼Œå³ä½¿æœ‰è©³ç´°çš„æ示也ä¸è¡Œã€‚
還有網(wÇŽng)å‹åœ¨ Novita AI 平臺上測試了該模型,給出的çµ(jié)論是在復雜å•é¡Œä¸Šæœ‰é»žåƒåŠ›ï¼Œä½†éŸ¿æ‡‰é€Ÿåº¦å¾ˆå¿«ã€‚
「它很好,但我ä¸èªç‚ºå®ƒåœ¨æ‰“æ•— DeepSeek R1 å’Œ V3...也許 Llama 4 Behemoth 會更強大。ã€
Google Deepmind 工程師 Susan Zhang 也在 X 上質(zhì)疑, Llama4 在 lmsys 上怎么得分這么高?
「是ä¸æ˜¯ç‚º lmsys 定制了一個模型?ã€
為什么官方æ供的排åçµ(jié)果和用戶的體驗大相徑åºå‘¢ï¼Ÿ
æ“š(jù)科技媒體 TechCrunch å ±é“,Meta æ–° AI 模型基準測試å˜åœ¨èª¤å°Žæ€§ã€‚
盡管 Maverick 在 LM Arena 測試ä¸æŽ’å第二,但ä¸å°‘ç ”ç©¶äººå“¡ç™¼(fÄ)ç¾(xià n),公開å¯ä¸‹è¼‰çš„ Maverick 與托管在 LM Arena 上的模型在行為上å˜åœ¨é¡¯è‘—差異。LM Arena 上的版本似乎使用了大é‡è¡¨æƒ…符號,并給出了極為冗長的回ç”。
https://x.com/techdevnotes/status/1908851730386657431
Nathan Lambert 也分享了一張圖片,里é¢æ˜¯å…©å€‹ AI 模型(Llama 4 å’Œå¦ä¸€å€‹æ¨¡åž‹ï¼‰å›žç”åŒä¸€å€‹å•é¡Œçš„å°æ¯”。å•é¡Œæ˜¯ï¼šã€ŒNathan Lambert 是誰?ã€
圖片里 Llama 4 的回ç”éžå¸¸é•·ï¼Œå•°å•°å—¦å—¦è¬›äº†ä¸€å¤§å †ï¼Œè€Œä¸”充滿了表情符號和感嘆號。
https://x.com/natolambert/status/1908893136518098958
Meta 在公告ä¸æ到,LM Arena 上的 Maverick 是「實驗性èŠå¤©ç‰ˆæœ¬ã€ï¼Œèˆ‡æ¤åŒæ™‚官方 Llama 網(wÇŽng)站上的圖表也é€éœ²ï¼Œè©²æ¸¬è©¦ä½¿ç”¨äº†ã€Œé‡å°å°è©±å„ª(yÅu)化的Llama 4 Maverickã€ã€‚
LM Arena ä½œç‚ºè¡¡é‡ AI 模型性能的指標一直å˜åœ¨çˆè°ã€‚盡管如æ¤ï¼ŒAI å…¬å¸é€šå¸¸ä¸æœƒç‚ºæ高 LM Arena 分數(shù)而定制模型,至少沒有公開承èªéŽã€‚
將模型é‡å°åŸºæº–測試進行優(yÅu)化ã€ä¿ç•™å„ª(yÅu)化版本,然åŽç™¼(fÄ)布一個「普通ã€ç‰ˆæœ¬çš„å•é¡Œåœ¨äºŽï¼Œé€™ä½¿å¾—開發(fÄ)者難以準確é æ¸¬æ¨¡åž‹åœ¨ç‰¹å®šå ´æ™¯ä¸‹çš„è¡¨ç¾(xià n),å˜åœ¨èª¤å°Žæ€§ã€‚ç†æƒ³æƒ…æ³ä¸‹ï¼Œç›¡ç®¡åŸºæº–測試å˜åœ¨ä¸è¶³ï¼Œä½†å®ƒå€‘至少å¯ä»¥æ供一個模型在多種任務上的優(yÅu)缺點的概æ³ã€‚
https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/
https://x.com/deedydas/status/1908749257084944847
https://x.com/techdevnotes/status/1908851730386657431
https://x.com/ai_for_success/status/1908915996707913989
特別è²æ˜Žï¼šä»¥ä¸Šå…§(nèi)容(å¦‚æœ‰åœ–ç‰‡æˆ–è¦–é »äº¦åŒ…æ‹¬åœ¨å…§(nèi))為自媒體平臺“網(wÇŽng)易號â€ç”¨æˆ¶ä¸Šå‚³å¹¶ç™¼(fÄ)布,本平臺僅æ供信æ¯å˜å„²æœå‹™ã€‚
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.