99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Meta深夜開源Llama 4!首次采用MoE,驚人千萬token上下文,競技場超越DeepSeek

0
分享至


內容來自:機器之心

萬萬沒想到。Meta 選擇在周六日,發布了最新 AI 模型系列 ——Llama 4,這是其 Llama 家族的最新成員。


該系列包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。所有這些模型都經過了大量未標注的文本、圖像和視頻數據的訓練,以使它們具備廣泛的視覺理解能力。

Meta GenAI 負責人 Ahmad Al-Dahle 表示,Llama 4 展示了 Meta 對開源 AI、整個開源 AI 社區的長期承諾以及堅定不移的信念 —— 開放系統將產出最好的小型、中型和即將出現的前沿大模型。


谷歌 CEO 劈查伊不禁感嘆,人工智能世界永遠不無聊,恭喜 Llama 4 團隊,繼續前進!


在大模型競技場(Arena),Llama 4 Maverick 的總排名第二,成為第四個突破 1400 分的大模型。其中開放模型排名第一,超越了 DeepSeek;在困難提示詞、編程、數學、創意寫作等任務中排名均為第一;大幅超越了自家 Llama 3 405B,得分從 1268 提升到了 1417;風格控制排名第五。



那么 Llama 4 模型系列有何特點呢?具體而言:

Llama 4 Scout 是一個擁有 170 億激活參數和 16 個專家的模型,是同類中全球最佳的多模態模型,比前幾代 Llama 模型更強大,且能適配單個 NVIDIA H100 GPU。此外,Llama 4 Scout 提供了業界領先的 10M 上下文窗口,在廣泛報道的基準測試中表現優于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。

Llama 4 Maverick 是一個擁有 128 位專家、 170 億個激活參數模型,是同類中最好的多模態模型,在廣泛報道的基準測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash,同時在推理和編程方面取得了與新 DeepSeek v3 相當的結果 —— 激活參數不到一半。Llama 4 Maverick 提供了一流的性價比,其實驗性聊天版本在 LMArena 上的 ELO 得分為 1417。

以上這兩個模型是 Meta 迄今為止最好的模型,主要得益于它們是從擁有 2880 億激活參數和 16 個專家的 Llama 4 Behemoth 模型進行知識蒸餾而來。

Llama 4 Behemoth 是 Meta 目前最強大的模型之一,也是世界上最智能的大型語言模型之一。在多項科學、技術、工程和數學(STEM)基準測試中,Llama 4 Behemoth 的表現優于 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Pro。

不過,Llama 4 Behemoth 仍在訓練中,后續 Meta 會放出更多內容。

好消息是,用戶現在就可以在 llama.com 和 Hugging 上下載 Llama 4 Scout 和 Llama 4 Maverick 最新模型。


所有 Llama 4 模型均采用原生多模態設計,比如上傳一張圖像,你可以問關于這張圖像的任何問題


Llama 4 Scout 支持長達 1000 萬 token 的上下文,這是目前行業內最長的上下文長度,解鎖了圍繞記憶、個性化和多模態應用的新用例。


Llama 4 在圖像 grounding 方面也是一流的,能夠將用戶提示與相關的視覺概念對齊,并將模型響應錨定到圖像中的區域。


Llama 4 還經過預訓練和微調,能夠理解 12 種語言的無與倫比的文本,支持全球開發和部署。


預訓練

Meta 在構建下一代 Llama 模型時,在預訓練階段嘗試了多種新方法。

首先,這是 Meta 首次采用混合專家(Mixture of Experts, MoE)架構。在 MoE 模型中,單個 token 僅激活總參數的一部分。Meta 表示,MoE 架構在訓練和推理時計算效率更高,在固定訓練 FLOPs 預算下,相比密集模型提供更高的質量。


以 Llama 4 Maverick 模型為例,該模型擁有 170 億激活參數和 4000 億總參數。Meta 采用交替的密集層和混合專家(MoE)層來提高推理效率。在 MoE 層中,他們使用了 128 個路由專家和一個共享專家。每個 token 都會被發送到共享專家以及 128 個路由專家中的一個。

因此,盡管所有參數都存儲在內存中,但在服務這些模型時,只有總參數的一部分被激活。這通過降低模型服務成本和延遲來提高推理效率 ——Llama 4 Maverick 可以在單個 NVIDIA H100 DGX 主機上運行,便于部署,也可以通過分布式推理實現最高效率。

Llama 4 系列模型采用原生多模態設計,通過早期融合將文本和視覺 token 無縫整合到統一的模型骨干中。早期融合是一個重大進步,因為這樣能夠使用大量未標記的文本、圖像和視頻數據對模型進行聯合預訓練。此外,Meta 還改進了 Llama 4 中的視覺編碼器,該編碼器基于 MetaCLIP,以更好地使編碼器適應 LLM。

另外,Meta 還開發了一種新的訓練技術,稱為 MetaP,其能夠可靠地設置模型超參數,例如每層的學習率和初始化規模。Meta 發現,選定的超參數在不同批量大小、模型寬度、深度和訓練 token 值之間具有良好的遷移性。

Llama 4 通過在 200 種語言上進行預訓練,支持開源微調工作,其中包括超過 100 種語言,每種語言都超過 10 億 token,總體上比 Llama 3 多 10 倍的多語言 token。

此外,Meta 采用 FP8 精度進行訓練,兼具質量并確保高 FLOPs 利用率。在使用 FP8 和 32K GPU 預訓練 Llama 4 Behemoth 模型時,Meta 實現了每 GPU 390 TFLOPs。訓練所用的數據混合總量超過 30 萬億 token,是 Llama 3 預訓練數據混合量的兩倍多,涵蓋了多樣化的文本、圖像和視頻數據集。

最后,Meta 還通過所謂的中期訓練(mid-training)繼續訓練模型,提升模型核心能力,包括利用專門的數據集擴展長上下文。這使 Meta 在提升模型質量的同時,為 Llama 4 Scout 解鎖了業界領先的 1000 萬輸入上下文長度。

后訓練

Llama 4 Maverick 在圖像和文本理解方面提供了無與倫比、行業領先的性能,能夠創建跨越語言障礙的復雜人工智能應用。作為通用助手和聊天用例的產品主力模型,Llama 4 Maverick 在精確圖像理解和創意寫作方面表現出色。

在對 Llama 4 Maverick 模型進行后訓練時,最大的挑戰是平衡多種輸入模態、推理能力和對話能力。為了混合模態,Meta 設計了一種精心策劃的課程策略,與單一模態專家模型相比,這種策略不會降低性能。

在 Llama 4 中,Meta 通過采用不同的方法對后訓練流程進行了全面改進:輕量級監督微調(SFT)> 在線強化學習(RL)> 輕量級直接偏好優化(DPO)。Meta 發現,SFT 和 DPO 可能會過度約束模型,限制在線 RL 階段的探索能力,從而導致推理、編程和數學領域的精度下降。

為了解決這一問題,Meta 使用 Llama 模型作為評判,移除了超過 50% 的標記為簡單(easy)的數據,并在剩余較難的數據集上進行了輕量級監督微調(SFT)。在隨后的多模態在線強化學習(RL)階段,通過精心選擇較難的提示,實現了性能的顯著提升。

此外,Meta 還實施了持續在線 RL 策略,交替訓練模型并使用它持續過濾并保留中等至高難度的提示。這種策略在計算和準確性權衡方面非常有益。

最后,Meta 還進行了輕量級直接偏好優化(DPO),以處理與模型響應質量相關的邊緣情況,有效實現了模型智能與對話能力的良好平衡。這些改進促成了一個業界領先的通用聊天模型,具備最先進的智能和圖像理解能力。

性能

Llama 4 Maverick 包含 170 億激活參數、128 個專家和 4000 億總參數,相比 Llama 3.3 70B,以更低的價格提供了更高的質量。由下表可知,Llama 4 Maverick 是同類中最佳的多模態模型,在編碼、推理、多語言、長上下文和圖像基準測試中,其性能超過了類似模型如 GPT-4o 和 Gemini 2.0,并且在編碼和推理方面與規模更大的 DeepSeek v3.1 具有競爭力。


較小模型 Llama 4 Scout 是一款通用型模型,擁有 170 億激活參數、16 個專家和 1090 億總參數,能夠在其所屬類別中提供最先進的性能。Llama 4 Scout 將支持的上下文長度從 Llama 3 的 128K 大幅提升至業界領先的 1000 萬 token。這為多文檔摘要、解析廣泛用戶活動以實現個性化任務以及推理龐大代碼庫等應用提供了更多可能性。

Llama 4 Scout 在預訓練和后訓練中均使用 256K 上下文長度,使基礎模型具備強大的長上下文泛化能力。在大海撈針檢索等任務中,該模型均展示了令人信服的結果。

Llama 4 架構的關鍵創新之一是使用無位置嵌入的交錯注意力層(interleaved attention layers),并通過推理時的溫度縮放來增強長上下文泛化能力。這種架構被稱為 iRoPE 架構,其中 i 代表交錯(interleaved)注意力層,強調其支持無限上下文長度的長期目標;RoPE 指大多數層中使用的旋轉位置嵌入。



Meta 對兩款模型進行了廣泛的圖像和視頻幀靜止圖像訓練,以賦予它們廣泛的視覺理解能力,包括對時序活動及相關圖像的理解。這使得模型能夠在多圖像輸入和文本提示下輕松進行視覺推理和理解任務。這些模型在預訓練時最多支持 48 張圖像,并且在后訓練中可以支持 8 張圖像,結果良好。

Llama 4 Scout 在圖像定位方面表現卓越,能夠將用戶提示與相關視覺概念對齊,并將模型響應錨定到圖像中的特定區域。這使得大型語言模型能夠更精確地進行視覺問答,更好地理解用戶意圖并定位感興趣的對象。

此外,Llama 4 Scout 在編碼、推理、長上下文和圖像基準測試中超越了類似模型,并且比所有之前的 Llama 模型表現更強。


將 Llama 推向新的尺度:2T Behemoth

Llama 4 Behemoth 預覽版是一個教師模型, 也是一個多模態混合專家模型,擁有 2880 億激活參數、16 個專家和近 2 萬億總參數。

在數學、多語言和圖像基準測試中,它提供了非推理模型的最先進性能,是教授較小 Llama 4 模型的完美選擇。


對一個擁有兩萬億參數的模型進行后訓練是一個巨大的挑戰,這要求研究者從數據規模開始,徹底重新設計和改進訓練方案。為了最大化性能,Meta 不得不對監督微調(SFT)數據進行 95% 的剪枝,而較小模型的剪枝比例為 50%。這一舉措是為了在質量和效率上取得必要的平衡。Meta 還發現,先進行輕量級監督微調(SFT),再進行大規模強化學習(RL),能夠顯著提升模型的推理和編碼能力。

Meta 的強化學習(RL)方案專注于通過策略模型進行 pass@k 分析,采樣難度較高的提示,并構建難度逐漸增加的訓練課程。此外,在訓練過程中動態過濾掉零優勢的提示,并構建包含多種能力的混合提示訓練批次,這些措施在數學、推理和編碼方面為模型帶來了顯著的性能提升。最后,從多種系統指令中采樣對于確保模型在推理和編碼任務中保持指令遵循能力至關重要,這使得模型能夠在多種任務中表現出色。

為兩萬億參數的模型擴展強化學習(RL)也是一項巨大的挑戰,這迫使 Meta 不得不重新設計并改進底層的強化學習基礎設施,以應對前所未有的規模。

Meta 對混合專家(MoE)并行化的設計進行了優化,以提升速度,從而加快迭代過程。此外,他們還開發了一個完全異步的在線強化學習訓練框架,增強了靈活性。與現有的分布式訓練框架相比,后者為了將所有模型加載到內存中而犧牲了計算內存,Meta 的新基礎設施能夠靈活地將不同模型分配到不同的 GPU 上,并根據計算速度在多個模型之間平衡資源。這一創新使得訓練效率相比上一代提升了約 10 倍。

Llama 4 Scout 和 Llama 4 Maverick 現已開放下載,地址:

  • llama.com:https://www.llama.com/llama-downloads/

  • Hugging Face 地址:https://huggingface.co/meta-llama


參考鏈接:https://ai.meta.com/blog/llama-4-multimodal-intelligence/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
久違了!多支歐洲隊看中17歲魏祥鑫:無需試訓,可直接簽約!

久違了!多支歐洲隊看中17歲魏祥鑫:無需試訓,可直接簽約!

邱澤云
2025-04-26 22:24:29
震驚!外籍留學生打人已被拘,身份曝光,受害者慘狀令人心痛!

震驚!外籍留學生打人已被拘,身份曝光,受害者慘狀令人心痛!

小毅說事
2025-04-26 19:40:49
笑噴!廣西人工降雨結果打到廣東,廣東網友: 表,別打了都快淹了

笑噴!廣西人工降雨結果打到廣東,廣東網友: 表,別打了都快淹了

有趣的火烈鳥
2025-04-26 17:26:07
蘋果加速移走生產線遭中國阻撓,銷美iPhone將全「印度制造」

蘋果加速移走生產線遭中國阻撓,銷美iPhone將全「印度制造」

阿鳧愛吐槽
2025-04-26 11:38:08
上海一藍貓四肢被砍,肚里還有小貓,搶救無效去世,警方介入調查

上海一藍貓四肢被砍,肚里還有小貓,搶救無效去世,警方介入調查

老鵜愛說事
2025-04-26 16:23:51
中國人的神邏輯!只有符合中國利益的觀點才是正確的邏輯嗎?

中國人的神邏輯!只有符合中國利益的觀點才是正確的邏輯嗎?

大風文字
2025-01-06 11:37:41
陳誠:認為蘇俄是戡亂中國之源,在臺灣清黨保住國民黨東南一隅

陳誠:認為蘇俄是戡亂中國之源,在臺灣清黨保住國民黨東南一隅

南極狼人
2025-04-25 22:32:38
謝霆鋒兒子現身演唱會,兩兄弟都沒有長殘,五官硬朗,兄弟倆暴帥

謝霆鋒兒子現身演唱會,兩兄弟都沒有長殘,五官硬朗,兄弟倆暴帥

同知
2025-04-27 00:45:44
震撼!女生竟都排隊預約打G潮針?一針解決松弛干澀,打完能上天

震撼!女生竟都排隊預約打G潮針?一針解決松弛干澀,打完能上天

烏娛子醬
2025-04-26 11:48:03
人民幣,放大招了!

人民幣,放大招了!

魏家東
2025-04-26 19:33:33
沒人結婚,成都崇州最豪華的喜宴中心倒閉了,才開業一年多

沒人結婚,成都崇州最豪華的喜宴中心倒閉了,才開業一年多

小人物看盡人間百態
2025-04-26 20:42:11
浙江1-0遼寧!胡金秋15+5孫銘徽崴腳 趙繼偉僅2分 被批打不了硬仗

浙江1-0遼寧!胡金秋15+5孫銘徽崴腳 趙繼偉僅2分 被批打不了硬仗

老王大話體育
2025-04-26 21:54:20
王菲現身謝霆鋒演唱會!安靜地坐在角落聽歌,55歲的年紀看起來像30

王菲現身謝霆鋒演唱會!安靜地坐在角落聽歌,55歲的年紀看起來像30

二月侃事
2025-04-26 08:38:27
世錦賽拒爆冷!金左手三連鞭險勝瓦菲進八強,伊朗一哥遭遇三連敗

世錦賽拒爆冷!金左手三連鞭險勝瓦菲進八強,伊朗一哥遭遇三連敗

世界體壇觀察家
2025-04-27 01:09:53
誰輸誰難受!肖國棟vs希金斯第20局鏖戰超1小時 肖國棟最終取勝!

誰輸誰難受!肖國棟vs希金斯第20局鏖戰超1小時 肖國棟最終取勝!

直播吧
2025-04-26 19:48:20
大軍集結之后,印度空軍突然發現:自己已經對付不了梟龍3!

大軍集結之后,印度空軍突然發現:自己已經對付不了梟龍3!

嘆知
2025-04-26 20:43:39
外媒:中方已實控蘇巖礁,中韓海警激烈沖突,強占25年被收回

外媒:中方已實控蘇巖礁,中韓海警激烈沖突,強占25年被收回

華山穹劍
2025-04-26 18:30:16
我63歲,用抱團旅游兩年的經歷勸大家:退休后不要跟熟人結伴旅游

我63歲,用抱團旅游兩年的經歷勸大家:退休后不要跟熟人結伴旅游

明月讀書吧
2025-04-26 18:40:03
定了!全部返還!稅務局剛剛通知!至2025年12月31日!

定了!全部返還!稅務局剛剛通知!至2025年12月31日!

祥順財稅俱樂部
2025-04-26 09:12:24
一家五口送外賣的主人公,宣布正式加入京東,大贊劉強東:深得人心

一家五口送外賣的主人公,宣布正式加入京東,大贊劉強東:深得人心

可達鴨面面觀
2025-04-26 16:46:23
2025-04-27 02:48:49
學術頭條
學術頭條
致力于學術傳播和科學普及,重點關注人工智能、生命科學等前沿科學進展。
1247文章數 5069關注度
往期回顧 全部

科技要聞

百度心響實測:“能用版Manus”開了個好頭

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

體育要聞

廣廈19分勝遼寧獲開門紅 孫銘徽13分3助崴腳

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

本地
教育
藝術
時尚
公開課

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

教育要聞

我不會做,等你姐姐放學回來再教你吧

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

她美得好邪乎,讓人又怕又愛

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 皮山县| 九寨沟县| 凤山市| 东乌珠穆沁旗| 博白县| 布拖县| 黄梅县| 玛多县| 屯昌县| 沁源县| 新宁县| 广西| 平遥县| 衡阳市| 舟曲县| 安泽县| 南澳县| 平安县| 尖扎县| 罗平县| 迁安市| 崇文区| 万载县| 琼海市| 元谋县| 仁怀市| 府谷县| 凉城县| 乌海市| 黄骅市| 肇东市| 朝阳市| 巍山| 秦安县| 新田县| 洮南市| 江阴市| 青神县| 商南县| 安宁市| 弋阳县|