Meta å°(duì) DeepSeek 的回應(yÄ«ng)來了:Llama 4 發(fÄ)布,包括具備長(zhÇŽng)上下文處ç†èƒ½åŠ›çš„ Scout å’Œ Maverick æ¨¡åž‹ï¼Œä¸”æ“æœ‰ 2 è¬å„„åƒæ•¸(shù)çš„é¾ç„¶å¤§ç‰© Behemoth 也å³å°‡æŽ¨å‡ºã€‚
(來æºï¼šhttps://ai.meta.com)
2025 å¹´ 1 月,隨著 DeepSeek R1 åœ¨ç ”ç©¶äººå“¡å’Œä¼æ¥(yè)ä¸è¿…速普åŠï¼Œæ“š(jù)å ±(bà o)é“ Meta 在得知這個(gè)æ–°çš„ R1 模型的訓(xùn)ç·´æˆæœ¬åªæ˜¯è¨±å¤šå…¶ä»–é ˜(lÇng)先模型的一å°éƒ¨åˆ†ï¼Œå»åƒ…花費(fèi)幾百è¬ç¾Žå…ƒï¼ˆç›¸ç•¶(dÄng)于 Meta 給其一些 AI 團(tuán)隊(duì)è² (fù)責(zé)人的薪酬)就超越了這些模型時(shÃ)ï¼Œé™·å…¥äº†ææ…Œç‹€æ…‹(tà i)。
在那之å‰ï¼ŒMeta 的整個(gè)生æˆå¼ AI 戰(zhà n)略一直基于以其“Llamaâ€å“牌發(fÄ)布一æµçš„é–‹æºæ¨¡åž‹ï¼Œä¾›ç ”究人員和公å¸è‡ªç”±ä½¿ç”¨å¹¶åœ¨æ¤åŸºç¤Ž(chÇ”)上進(jìn)行開發(fÄ)。至少,å°(duì)于那些月用戶數(shù)少于 7 億的用戶來說是這樣,若月用戶數(shù)è¶…éŽé€™å€‹(gè)數(shù)å—,則需è¦è¯(lián)ç³» Meta ç²å–特殊的付費(fèi)è¨±å¯æ¢æ¬¾ã€‚
然而,DeepSeek R1 在é (yù)算少得多的情æ³ä¸‹å»å±•ç¾(xià n)出驚人的出色性能,據(jù)稱這震動(dòng)了 Meta çš„é ˜(lÇng)å°Ž(dÇŽo)層,并促使其進(jìn)行æŸç¨®åæ€ã€‚就在 2024 å¹´ 12 月,也就是一個(gè)月å‰ï¼ŒMeta 剛剛發(fÄ)布了上一版本的 Llama 3.3,但在當(dÄng)時(shÃ)å®ƒé¡¯å¾—æœ‰äº›éŽæ™‚(shÃ)。
ç¾(xià n)在我們知é“äº†é‚£æ¬¡åæ€çš„æˆæžœï¼šç•¶(dÄng)?shù)è²¢r(shÃ)é–“ 4 月 5 日,Meta 創(chuà ng)始人兼 CEO æ‰Žå…‹ä¼¯æ ¼åœ¨ä»–çš„ Instagram 賬號(hà o)上宣布推出新的 Llama 4 系列模型,其ä¸å…©æ¬¾â€”â€”æ“æœ‰ 4000 å„„åƒæ•¸(shù)çš„ Llama 4 Maverick å’Œæ“æœ‰ 1090 å„„åƒæ•¸(shù)çš„ Llama 4 Scout——ç¾(xià n)å·²å¯ä¾›é–‹ç™¼(fÄ)者在 llama.com å’Œ AI 代碼共享社å€(qÅ«) Hugging Face 上下載ã€ä½¿ç”¨æˆ–進(jìn)行微調(dià o)。
åŒæ¨£åœ¨ 4 月 5 æ—¥ï¼Œæ“æœ‰ 2 è¬å„„åƒæ•¸(shù)的大型模型 Llama 4 Behemoth 也發(fÄ)布了é (yù)覽版,ä¸éŽ Meta çš„åšå®¢æ–‡ç« 稱該模型ä»åœ¨è¨“(xùn)ç·´ä¸ï¼Œå¹¶æœªé€éœ²å…¶å¯èƒ½çš„發(fÄ)布時(shÃ)é–“ã€‚éœ€è¦æ³¨æ„çš„æ˜¯ï¼Œåƒæ•¸(shù)指的是控制模型行為的è¨(shè)ç½®ï¼Œä¸€èˆ¬ä¾†èªªåƒæ•¸(shù)越多æ„å‘³è‘—æ¨¡åž‹åœ¨å„æ–¹é¢æ›´å¼·(qiáng)å¤§ã€æ›´å¾©(fù)雜。
這些模型的一個(gè)主è¦ç‰¹é»ž(diÇŽn)是它們都是多模態(tà i)的,經(jÄ«ng)éŽé‡å°(duì)文本ã€è¦–é »å’Œåœ–åƒçš„訓(xùn)ç·´ï¼Œå› æ¤èƒ½å¤ 接收和生æˆé€™äº›å…§(nèi)容。
å¦ä¸€å€‹(gè)特點(diÇŽn)æ˜¯å®ƒå€‘æ“æœ‰è¼ƒé•·(zhÇŽng)的上下文窗å£â€”—Llama 4 Maverick 為 100 è¬å€‹(gè) tokens,Llama 4 Scout 為 1000 è¬å€‹(gè) tokens——分別相當(dÄng)于大約 1500 é å’Œ 15000 é 的文本內(nèi)容,并且模型在一次輸入/輸出交互ä¸å°±èƒ½è™•ç†é€™äº›å…§(nèi)容。這æ„味著ç†è«–上用戶å¯ä»¥ä¸Šå‚³æˆ–粘貼多é”(dá) 7500 é 的文本內(nèi)容,并從 Llama 4 Scout ç²å¾—åŒæ¨£å¤šçš„回復(fù),這å°(duì)于醫(yÄ«)å¸(xué)ã€ç§‘å¸(xué)ã€å·¥ç¨‹ã€æ•¸(shù)å¸(xué)ã€æ–‡å¸(xué)ç‰ä¿¡æ¯å¯†é›†åž‹é ˜(lÇng)域來說éžå¸¸å¯¦(shÃ)用。
據(jù)了解,這三個(gè)模型都采用了“專家混åˆï¼ˆMoEï¼‰â€æž¶æ§‹(gòu)方法,這種方法在 OpenAI å’Œ Mistral 早期發(fÄ)布的模型ä¸å¾—到了推廣,本質(zhì)上是將多個(gè)專門處ç†ä¸åŒä»»å‹™(wù)ã€ä¸»é¡Œå’Œåª’é«”æ ¼å¼çš„è¼ƒå°æ¨¡åž‹ï¼ˆå³â€œå°ˆå®¶â€æ¨¡åž‹ï¼‰çµ„åˆæˆä¸€å€‹(gè)更大的統(tÇ’ng)一模型。據(jù)說æ¯å€‹(gè) Llama 4 模型都是 128 個(gè)ä¸åŒå°ˆå®¶æ¨¡åž‹çš„æ··åˆé«”,并且é‹(yùn)è¡Œæ•ˆçŽ‡æ›´é«˜ï¼Œå› ?yà n)æ¨µè°”å¹šç »ç¸½â‚¬(gè) tokens 時(shÃ),åªéœ€ç‰¹å®šä»»å‹™(wù)æ‰€éœ€çš„å°ˆå®¶æ¨¡åž‹åŠ ä¸Šä¸€å€‹(gè)“共享â€å°ˆå®¶æ¨¡åž‹ï¼Œè€Œç„¡éœ€è®“整個(gè)模型å°(duì)æ¯å€‹(gè) tokens 都進(jìn)行處ç†ã€‚
é›–ç„¶æ‰€æœ‰åƒæ•¸(shù)都å˜å„²(chÇ”)在內(nèi)å˜ä¸ï¼Œä½†åœ¨é‹(yùn)行這些模型時(shÃ)ï¼Œåªæœ‰ç¸½åƒæ•¸(shù)的一個(gè)å集被激活。這通éŽé™ä½Žæ¨¡åž‹é‹(yùn)è¡Œæˆæœ¬å’Œå»¶é²æé«˜äº†æŽ¨ç†æ•ˆçŽ‡â€”â€”Llama 4 Maverick å¯ä»¥åœ¨å–®å€‹(gè)英å‰é”(dá) H100 DGX 主機(jÄ«)上é‹(yùn)行,ä¸åƒ…便于部署,也å¯ä»¥é€šéŽåˆ†å¸ƒå¼æŽ¨ç†å¯¦(shÃ)ç¾(xià n)最高效率。
Llama 4 Scout å’Œ Llama 4 Maverick ç¾(xià n)å·²å‘公眾開放,å¯ä¾›è‡ªè¡Œéƒ¨ç½²ï¼Œä¸éŽ Meta 尚未公布其官方基礎(chÇ”)è¨(shè)施的托管 API 或定價(jià )ç‰ç´š(jÃ)。相å,Meta 專注于通éŽé–‹æ”¾ä¸‹è¼‰ä»¥åŠèˆ‡ WhatsAppã€Messengerã€Instagram 和網(wÇŽng)é 版的元 AI 進(jìn)行集æˆä¾†é€²(jìn)行分發(fÄ)。
Meta 估計(jì),Llama 4 Maverick çš„æŽ¨ç†æˆæœ¬ç‚ºæ¯ 100 è¬å€‹(gè) tokens 0.19 美元至 0.49 美元(輸入和輸出比例為 3:1ï¼‰ã€‚æ ¹æ“š(jù)社å€(qÅ«)基準(zhÇ”n)測(cè)è©¦ï¼Œé€™ä½¿å¾—å®ƒæ¯”åƒ GPT-4o 這樣的專有模型便宜得多,據(jù)估計(jì) GPT-4o çš„æˆæœ¬ç‚ºæ¯ 100 è¬å€‹(gè) tokens 4.38 美元。
Llama 4 的三個(gè)模型尤其是 Maverick å’Œ Behemoth,都被è¨(shè)計(jì)用于推ç†ã€ç·¨ç¢¼å’Œé€æ¥è§£æ±ºå•題,ä¸éŽå®ƒå€‘似乎沒有表ç¾(xià n)å‡ºåƒ OpenAI 的“oâ€ç³»åˆ—或 DeepSeek R1 ç‰å°ˆé–€æŽ¨ç†æ¨¡åž‹é‚£æ¨£çš„æ€ç¶éˆã€‚
相å,它們似乎旨在更直接地與“經(jÄ«ng)å…¸â€çš„éžæŽ¨ç†å¤§èªžè¨€æ¨¡åž‹å’Œå¤šæ¨¡æ…‹(tà i)模型競(jìng)çˆ(zhÄ“ng),比如 OpenAI çš„ GPT-4o å’Œ DeepSeek çš„ V3。但是,Llama 4 Behemoth 除外,它似乎確實(shÃ)å°(duì) DeepSeek R1 æ§‹(gòu)æˆäº†å¨è„…。
æ¤å¤–,å°(duì)于 Llama 4,Meta æ§‹(gòu)建了專注于增強(qiáng)推ç†èƒ½åŠ›çš„å®šåˆ¶è¨“(xùn)ç·´åŽæµç¨‹ï¼Œä¾‹å¦‚:
- 在有監(jiÄn)ç£çš„微調(dià o)éŽç¨‹ä¸ï¼ŒåŽ»é™¤è¶…éŽ 50% 的“簡(jiÇŽn)å–®â€æç¤ºã€‚
- é‡‡ç”¨ä¸æ–·å¢žåŠ é›£åº¦æç¤ºçš„æŒçºŒ(xù)å¼·(qiáng)化å¸(xué)ç¿’(xÃ)循環(huán)。
- 使用“k 次嘗試通éŽâ€è©•(pÃng)ä¼°å’Œèª²ç¨‹é‡‡æ¨£ä¾†åŠ å¼·(qiáng)在數(shù)å¸(xué)ã€é‚輯和編碼方é¢çš„æ€§èƒ½ã€‚
- 采用一種å為 MetaP 的新技術(shù),讓工程師å¯ä»¥åœ¨æ¨¡åž‹ä¸Šèª¿(dià o)æ•´è¶…åƒæ•¸(shù)(如æ¯å±¤çš„å¸(xué)ç¿’(xÃ)率),并將其應(yÄ«ng)用于其他ä¸åŒè¦(guÄ«)模和 tokens é¡žåž‹çš„æ¨¡åž‹ï¼ŒåŒæ™‚(shÃ)ä¿æŒæ¨¡åž‹é (yù)期的行為。
MetaP å¯è¢«ç”¨äºŽåœ¨ä¸€å€‹(gè)模型上è¨(shè)ç½®è¶…åƒæ•¸(shù)ï¼Œç„¶åŽæ‡‰(yÄ«ng)用于許多其他類型的模型,從而æé«˜è¨“(xùn)練效率。這樣å¯ä»¥ç¯€(jié)çœå¤§é‡çš„æ™‚(shÃ)間和金錢,從而å¯ä»¥åœ¨è¼ƒå°çš„æ¨¡åž‹ä¸Šé€²(jìn)行實(shÃ)é©—(yà n)。
在訓(xùn)ç·´åƒ Behemoth 這樣的大型模型時(shÃ),這一點(diÇŽn)尤其關(guÄn)éµï¼ŒBehemoth 使用 32000 個(gè) GPU å’Œ FP8 ç²¾åº¦ï¼Œåœ¨è¶…éŽ 30 è¬å„„個(gè) tokens 上實(shÃ)ç¾(xià n)了æ¯å€‹(gè) GPU 390 TFLOPs çš„é‹(yùn)算能力,其訓(xùn)練數(shù)據(jù)是 Llama 3 的兩å€å¤šã€‚æ›å¥è©±èªªï¼šç ”究人員å¯ä»¥å¤§è‡´å‘Šè¨´æ¨¡åž‹ä»–們希望它如何é‹(yùn)行,并將這種è¨(shè)置應(yÄ«ng)用于ä¸åŒè¦(guÄ«)模的模型,以åŠä¸åŒå½¢å¼çš„媒體上。
在 Instagram 上的發(fÄ)å¸ƒè¦–é »ä¸ï¼Œæ‰Žå…‹ä¼¯æ ¼è¡¨ç¤º Meta 的“目標(biÄo)æ˜¯æ‰“é€ ä¸–ç•Œé ˜(lÇng)先的 AI,將其開æºï¼Œå¹¶è®“所有人都能使用,從而使全世界的人都å—益…… 我早就說éŽï¼Œæˆ‘èª(rèn)ç‚ºé–‹æº AI å°‡æˆç‚ºé ˜(lÇng)先的模型,而隨著 Llama 4 的推出,這æ£åœ¨æˆç‚ºç¾(xià n)實(shÃ)。â€
Meta çš„åšå®¢æ–‡ç« 稱 Llama 4 Scout“是åŒé¡žä¸ä¸–界上最好的多模態(tà i)模型,比所有上一代 Llama 模型都更強(qiáng)大â€ã€‚這些的確都是éžå¸¸å¼·(qiáng)大的模型,與åŒåƒæ•¸(shù)è¦(guÄ«)æ¨¡çš„å…¶ä»–æ¨¡åž‹ç›¸æ¯”ï¼Œå®ƒå€‘è™•äºŽé ˜(lÇng)先地ä½ï¼Œä½†ä¸ä¸€å®šå‰µ(chuà ng)é€ äº†æ–°çš„æ€§èƒ½ç´€(jì)錄。盡管如æ¤ï¼ŒMeta 還是熱衷于宣æš(yáng) Llama 4 系列模型的“超越性â€ã€‚
ä½¿ç”¨åƒæ•¸(shù)最高的基準(zhÇ”n)測(cè)試模型 Llama 4 Behemoth,并將其與 DeepSeek R1 最åˆç™¼(fÄ)布的 R1-32B æ¨¡åž‹åœ–è¡¨ä»¥åŠ OpenAI o1 模型進(jìn)行比較之åŽç™¼(fÄ)ç¾(xià n),雖然 DeepSeek R1 å’Œ OpenAI o1 在幾個(gè)指標(biÄo)ä¸Šé ˜(lÇng)先于 Behemoth,但 Llama 4 Behemoth ä»ç„¶å…·æœ‰å¾ˆå¼·(qiáng)的競(jìng)çˆ(zhÄ“ng)力,在其åŒé¡žæŽ¨ç†æŽ’è¡Œæ¦œä¸Šè™•äºŽé ˜(lÇng)å…ˆæˆ–æŽ¥è¿‘é ˜(lÇng)先的ä½ç½®ã€‚
Meta 還通éŽå¼•å…¥ Llama Guardã€Prompt Guard å’Œ CyberSecEval ç‰å·¥å…·ä¾†å¼·(qiáng)調(dià o)模型的一致性和安全性,以幫助開發(fÄ)者檢測(cè)ä¸å®‰å…¨çš„輸入/輸出或?qÅ«)îž‹å‰è•´å´¾è†îƒî•±?shÃ)施生æˆå¼æ”»æ“Šæ€§ä»£ç†æ¸¬(cè)試(GOAT)來進(jìn)行自動(dòng)化的紅隊(duì)測(cè)試。
該公å¸é‚„è²ç¨± Llama 4 在“政治åè¦‹â€æ–¹é¢æœ‰é¡¯è‘—æ”¹å–„ï¼Œå¹¶è¡¨ç¤ºâ€œï¼ˆé ˜(lÇng)先的大語言模型)在有çˆ(zhÄ“ng)è°çš„æ”¿æ²»å’Œç¤¾æœƒ(huì)話題上æ·ä¾†å‚¾å‘于左派觀點(diÇŽn)â€ï¼Œè€Œ Llama 4 在迎åˆå³æ´¾è§€é»ž(diÇŽn)æ–¹é¢è¡¨ç¾(xià n)得更好……â€é€™èˆ‡æ‰Žå…‹ä¼¯æ ¼åœ¨ 2024 å¹´é¸èˆ‰åŽå°(duì)美國(guó)總統(tÇ’ng)特朗普åŠå…¶æ”¿é»¨çš„æ”¯æŒç›¸ä¸€è‡´ã€‚
æ¤å¤–,Meta çš„ Llama 4 模型在多模態(tà i)和推ç†ä»»å‹™(wù)ä¸èžåˆäº†æ•ˆçއã€é–‹æ”¾æ€§å’Œé«˜ç«¯æ€§èƒ½ã€‚
隨著 Scout å’Œ Maverick ç¾(xià n)å·²å‘å…¬çœ¾é–‹æ”¾ï¼Œä»¥åŠ Behemoth 作為最先進(jìn)的教師模型進(jìn)行了é (yù)覽,Llama 生態(tà i)系統(tÇ’ng)有望æˆç‚º OpenAIã€Anthropicã€DeepSeek 和谷æŒç‰å…¬å¸é ‚ç´š(jÃ)å°ˆæœ‰æ¨¡åž‹çš„æœ‰åŠ›é–‹æºæ›¿ä»£å“。
åƒè€ƒè³‡æ–™ï¼š
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/
https://www.theverge.com/news/644171/llama-4-released-ai-model-whatsapp-messenger-instagram-direct
ç‰¹åˆ¥è²æ˜Žï¼šä»¥ä¸Šå…§(nèi)容(å¦‚æœ‰åœ–ç‰‡æˆ–è¦–é »äº¦åŒ…æ‹¬åœ¨å…§(nèi))為自媒體平臺(tái)“網(wÇŽng)易號(hà o)â€ç”¨æˆ¶ä¸Šå‚³å¹¶ç™¼(fÄ)布,本平臺(tái)僅æä¾›ä¿¡æ¯å˜å„²(chÇ”)æœå‹™(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.