99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

LIama 4發布重奪開源第一!DeepSeek同等代碼能力但參數減一半

0
分享至

白交 衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI

AI不過周末,硅谷也是如此。

大周日的,Llama家族上新,一群LIama 4就這么突然發布了。

這是Meta首個基于MoE架構模型系列,目前共有三個款:

Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。

最后一個尚未推出,只是預告,但Meta已經毫不避諱地稱前兩者是“我們迄今為止最先進的型號,也是同類產品中最好的多模態型號”

詳細來看一些關鍵詞——

Llama 4 Scout,16位專家的170億激活參數的多模態模型,單個H100 GPU可運行, 同類SOTA,并擁有10M上下文窗口

Llama 4 Maverick,128位專家的170億激活參數多模態模型,擊敗GPT-4o和Gemini 2.0 Flash,與DeepSeek-V3同等代碼能力參數只要一半,主打與DeepSeek一樣的性價比,單個H100主機即可運行

Llama 4 Behemoth:2萬億參數的超大超強模型,以上二者都由這個模型蒸餾而來;目前還在訓練中;多個基準測試超過GPT-4.5、Claude Sonnet 3.7和 Gemini 2.0 Pro。



Meta官推激情表示,這些Llama 4模型標志著Llama生態系統新時代——原生多模態AI創新的開始。



與此同時,大模型競技場排名迎來一輪更新。

此次發布的Llama 4 Maverick,在困難提示、編碼、數學、創意寫作方面并列第一;得分1417,不僅大大超越了此前Meta自家的Llama-3-405B(提升了149分),還成為史上第4個突破1400分的模型;。

而且跑分明確——超越DeepSeek-V3,實現亮相即登頂,直接成為排名第一的開源模型



谷歌CEO劈柴哥第一時間發來賀電:

  • AI世界,從不平淡!
    恭喜呀!前進吧,Llama 4團隊!



中杯、大杯首批亮相

了解了Llama 4家族全體成員后,我們先來見識一下首批發布的2個模型:

  • 中杯
  • :Llama 4 Scout(偵查兵Llama 4)。
  • 大杯
  • :Llama 4 Maverick(特立獨行的Llama 4)。

兩者均已能在Llama官網和抱抱臉上下載。



我們抓取并提煉出這倆模型的一些特點:

Meta首批MoE架構模型

這是Llama系列,第一批使用MoE(混合專家模型)構建的模型。

中杯Llama 4 Scout有17B激活參數,擁有16個專家模型。

大杯Llama 4 Maverick擁有17B激活參數,擁有128個專家模型。

至于還沒和大家正式見面的超大杯Llama 4 Maverick,擁有288B激活參數,擁有16個專家模型。

非常長————的上下文

Llama 4系列,均具有很長的上下文窗口。

這一點主要體現在Meta公布的中杯Llama 4 Scout的詳細數據里:

  • Llama 4 Scout提供了行業領先的100萬上下文窗口
    經過預訓練和后訓練,Llama 4 Scout長度為256K,這使基本模型具有高級長度泛化能力。

這個配置,讓它在廣泛的測評集上,比Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1的結果更優秀。



它在「大海撈針」測試上的表現如下:



結果如下:



那么之前的Llama系列模型的上下文窗口情況呢?

  • Llama 1,上下文窗口為2k;
  • Llama 2,上下文窗口默認為4k,但可以通過微調等可以拓展到32k;
  • Llama 3,上下文窗口是8k,后來Llama 3.1的長文本能力拓展到了128k。

Meta官方博客中是這么寫的:

  • (Llama 4的長上下文)開辟了一個充滿可能性的世界,包括多文檔摘要、解析廣泛的用戶活動以執行個性化任務以及對龐大的代碼庫進行推理。

原生多模態設計

Llama 4系列,開啟了Llama的原生多模態時代。

而已經公開對外的中杯和大杯,被官方稱為“輕量級原生多模態模型”。

給用戶的體驗就是,上傳一張圖片,可以直接在對話框中提問關于這張圖片的各種問題。

不是我說,Llama終于長眼睛了!!!



上面這張動圖展示的僅僅是最基礎的,“為難”程都升級也不怕。

比如喂它一張鋪滿工具的圖片,問它哪些適合來干某個活。

它會很快地把適用的工具圈出來:



要認顏色+認小鳥,也沒在怕的:



中杯和大杯都在官方介紹中被打上了“世界上同類產品中最好的多模態模型”的tag。

來看和Llama系列前作、Gemma 3、Mistral 3.1、Gemini 2.0 Flash-Lite的對比結果——

可以看到,在各個測評集上的表現,Llama 4 Scout樣樣都是新SOTA



語言天賦Max

經過了預訓練和微調的Llama 4,掌握全球12種語言,以此“方便全球開發者的部署”。



比DeepSeek更狠的“AI模型拼多多”

一定要跟大家分享的一個細節,Meta這次在模型API價格方面,下狠手了!

先說結果:

系列超大杯Llama 4 Maverick,不僅超越了同類型號其它模型,價格還非常之美麗。



更直觀地來看這張表格,真的狠過DeepSeek——從性能到價格各個緯度。



要知道,超大杯Llama 4 Behemoth屬于是Llama 4系列的教師模型。

如果說中杯和大杯是輕量級選手,這位就是絕對的重磅玩家。

288B激活參數,16個專家模型。

最重要的是,它的總參數量高達2000B!

在數學、多語言和圖像基準測試中,它提供了非推理模型的最先進性能。



當“最牛”和“最便宜”擺在一起的時候,試問哪位開發者會不心動?(doge)

訓練細節

用他們自己的話來說,Llama系列是進行了徹底的重新設計。目前第一組LIama 4系列模型,他們也公布了具體的訓練細節。

預訓練

他們首次使用混合專家MoE架構,在MoE架構中,單個token僅激活總參數的一小部分。MoE架構在訓練和推理方面具有更高的計算效率,固定訓練FLOP成本情況下質量更高。



比如,Llama 4Maverick模型有17B個激活參數和400B個總參數。他們使用交替的密集層和混合專家(MoE)層來提高推理效率。

MoE層使用128位路由(Routed)專家和一位共享專家。每個令牌都會發送給共享專家以及128位路由(Routed)專家之一。

因此,雖然所有參數都存儲在內存中,但在為這些模型提供服務時,只有總參數的子集被激活。

這通過降低模型服務成本和延遲來提高推理效率——Llama 4 Maverick 可以在單個H100 DGX主機上運行,以便于部署,也可以通過分布式推理實現最高效率。

他們早期融合,將文本和視覺token無縫集成到統一模型中。

他們開發了一種新的訓練技術:MetaP,可以設置關鍵模型超參數,比如每層的學習率和初始化尺度。

結果發現,所選的超參數能在批量大小、模型寬度、深度和訓練token的不同值之間很好地擴展和泛化——

Llama 4通過在200種語言(包括100多種語言,每種語言有超過10億個詞庫)上進行預訓練,實現了開源微調工作,多語言詞庫總量是Llama 3的10倍。

此外,他們使用FP8精度進行高效模型訓練,同時不犧牲質量并確保模型 FLOPs的高利用率—在使用FP8和32K GPU 預訓練 Llama 4 Behemoth模型時,結果他們實現了390TFLOPs/GPU。

用于訓練的整體混合數據包括30多萬億個token,是Llama 3預訓練混合物的兩倍多,其中包括各種文本、圖像和視頻數據集。

在所謂的“中期訓練”中繼續訓練模型,通過新的訓練方法(包括使用專業數據集進行長上下文擴展)來提高模型的核心功能。

后訓練

后訓練階段,他們提出一個課程策略,與單個模式專家模型相比,該策略不會犧牲性能。

在Llama 4中,采用了一種不同的方法來改造我們的后期訓練管道:

輕量級監督微調(SFT)>在線強化學習(RL)>輕量級直接偏好優化 (DPO)。

一個關鍵的教訓是,SFT和DPO可能會過度約束模型,限制在線強化學習階段的探索,并導致精度降低,尤其是在推理、編碼和數學領域。

為了解決這個問題,他們使用Llama模型作為評判標準,刪除了50%以上被標記為簡單的數據,并對剩余的較難數據集進行了輕量級SFT處理。

在隨后的在線強化學習階段,通過仔細選擇較難的提示,我們實現了性能上的飛躍。

此外,他們還實施了一種連續的在線強化學習策略,即交替訓練模型,然后利用模型不斷過濾并只保留中等難度到較高難度的提示。事實證明,這種策略在計算量和準確性的權衡方面非常有利。

然后,他們采用輕量級DPO來處理與模型響應質量相關的拐角情況,從而有效地在模型的智能性和對話能力之間實現了良好的平衡。流水線架構和帶有自適應數據過濾功能的連續在線RL策略,最后造就了現在的LIama 4。

總結來看,Llama 4架構的一項關鍵創新是使用交錯注意力層,而無需位置嵌入。此外,他們還采用了注意力推理時間溫度縮放來增強長度泛化。

這些他們稱之為iRoPE架構,其中“i”代表 “交錯 ”注意力層,突出了支持 “無限”上下文長度的長期目標,而 “RoPE ”指的是大多數層中采用的旋轉位置嵌入。

Llama 4 Behemoth

最后,他們還透露了超大模型Llama 4 Behemoth一些蒸餾和訓練細節。

我們開發了一種新穎的蒸餾損失函數,可通過訓練動態加權軟目標和硬目標。

預訓練階段,Llama 4 Behemoth的代碼蒸餾功能可以攤銷學生訓練中使用的大部分訓練數據計算蒸餾目標所需的資源密集型前向傳遞的計算成本。對于納入學生訓練的其他新數據,他們在Behemoth模型上運行前向傳遞,以創建蒸餾目標。

后訓練階段,為了最大限度地提高性能,他們刪減了95%的SFT數據,而小型模型只需刪減50%的數據,以實現對質量和效率的必要關注。

他們在進行輕量級SFT后,再進行大規模強化學習(RL),模型的推理和編碼能力會有更顯著的提高

強化學習方法側重于通過對策略模型進行pass@k分析來抽取高難度提示,并根據提示難度的增加精心設計訓練課程。

此外還發現,在訓練過程中動態過濾掉優勢為零的提示語,并構建包含多種能力的混合提示語的訓練批次,有助于提高數學、推理和編碼的性能。最后,從各種系統指令中取樣對于確保模型在推理和編碼方面保持指令跟隨能力并在各種任務中表現出色至關重要。

由于其規模空前,要為兩萬億個參數模型擴展RL,還需要改造底層RL基礎設施。

他們優化了MoE并行化的設計,從而加快了迭代速度;并開發了一個完全異步的在線RL訓練框架,提高了靈活性。

現有的分布式訓練框架會犧牲計算內存以將所有模型堆疊在內存中,相比之下,他們新基礎架構能夠將不同模型靈活分配到不同GPU上,并根據計算速度在多個模型之間平衡資源。

與前幾代產品相比,這一創新使訓練效率提高了約10倍

One More Thing

要知道,由于昨天DeepSeek發了新論文,搞得奧特曼都坐不住了,趕緊出來發聲:

  • 計劃改變:我們可能在幾周之后先發布o3和o4-mini。
    GPT-5就在幾個月后啊~

但,誰知道半路又殺出個Llama 4?!

前有猛虎,后有豺狼,OpenAI你真的得加油了……

網友調侃道,當奧特曼一睜眼,看到Llama 4來了,而且Llama 4的成本比GPT-4.5降低了3個數量級后——

他的狀態一定是醬嬸兒的:



以及相比Llama,現在可能神秘低調的DeepSeek,可能不知道什么時候突然就會推出DeepSeek R2和V4…同在杭州的通義千問也干勁十足,Llama也好GPT也好,基本成為平行參考了。

太平洋這頭,已經開始落地應用和智能體了。

參考鏈接:
[1]https://www.llama.com/
[2]https://ai.meta.com/blog/llama-4-multimodal-intelligence/
[3]https://x.com/AIatMeta/status/1908598456144531660
[4]https://x.com/lmarena_ai/status/1908601011989782976
[5]https://x.com/IOHK_Charles/status/1908635624036590070

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
55歲老夫妻每天要過性生活,一個月沒做,丈夫懷疑妻子找8個男人

55歲老夫妻每天要過性生活,一個月沒做,丈夫懷疑妻子找8個男人

胖胖侃咖
2025-04-10 08:00:07
王室又放大招:哈里被禁參加餅干叔葬禮,連最后一面都不讓見?

王室又放大招:哈里被禁參加餅干叔葬禮,連最后一面都不讓見?

全球奇趣娛樂八卦
2025-04-09 21:49:05
哥哥弄丟6歲妹妹,20年后參加同學婚禮,新娘的話令他當場痛哭

哥哥弄丟6歲妹妹,20年后參加同學婚禮,新娘的話令他當場痛哭

清茶淺談
2025-04-08 23:27:58
永輝超市與開市客、山姆等的供應商進入洽淡

永輝超市與開市客、山姆等的供應商進入洽淡

和訊網
2025-04-10 18:04:57
央視怒批!目不識丁、丟人現眼,難怪兩會上馮遠征建議演員多學習

央視怒批!目不識丁、丟人現眼,難怪兩會上馮遠征建議演員多學習

峰哥娛樂動漫
2025-03-10 08:22:49
一定要扳倒中國,關稅打不贏就打仗,美軍已行動,我們必須準備好

一定要扳倒中國,關稅打不贏就打仗,美軍已行動,我們必須準備好

說天說地說實事
2025-04-10 21:29:31
直降2500元,華為PuraX支持15%國補,花粉們沸騰了!

直降2500元,華為PuraX支持15%國補,花粉們沸騰了!

3C毒物
2025-04-09 08:44:04
曹德旺:其實大部分人都不適合發財,因為錢的反噬力非常大

曹德旺:其實大部分人都不適合發財,因為錢的反噬力非常大

清風拂心
2024-11-14 14:32:56
瀧野由美子:39歲“核能甜心”,靠凍齡魔法和反差萌暴擊全日本!

瀧野由美子:39歲“核能甜心”,靠凍齡魔法和反差萌暴擊全日本!

TVB的四小花
2025-04-11 03:41:50
閑魚變“黃魚”,表面賣女生自用自行車,實則做著見不得人的交易

閑魚變“黃魚”,表面賣女生自用自行車,實則做著見不得人的交易

西齋青簡
2024-05-07 11:55:02
拒絕退役!確定回歸賽場!霍華德加盟尼克楊執教球隊

拒絕退役!確定回歸賽場!霍華德加盟尼克楊執教球隊

鬼魅突破上籃
2025-04-11 05:29:37
高圓圓優雅老去,真實之美更動人

高圓圓優雅老去,真實之美更動人

松林侃世界
2025-04-10 08:57:35
歐冠賽后采訪卡什的是他姐姐:給我一個擁抱,我為你感到驕傲

歐冠賽后采訪卡什的是他姐姐:給我一個擁抱,我為你感到驕傲

直播吧
2025-04-11 06:32:20
其實美貌在金錢面前,一文不值

其實美貌在金錢面前,一文不值

加油丁小文
2025-04-10 10:30:05
納指漲幅擴大至10% 特朗普稱已授權對不采取報復行動的國家實施90天的關稅暫停

納指漲幅擴大至10% 特朗普稱已授權對不采取報復行動的國家實施90天的關稅暫停

財聯社
2025-04-10 02:03:06
比菲律賓危險100倍!亞洲一強國突然倒戈,中方要做好最壞打算

比菲律賓危險100倍!亞洲一強國突然倒戈,中方要做好最壞打算

藍涇看一看
2025-04-07 09:49:42
關稅大棒砸向C919!漲價近1億?東大反手一招讓波音傻眼!

關稅大棒砸向C919!漲價近1億?東大反手一招讓波音傻眼!

科學傭人
2025-04-11 05:42:18
巨大爆炸劃破西北戈壁上空,白宮和五角大樓都安靜了:中方不按常理出牌!

巨大爆炸劃破西北戈壁上空,白宮和五角大樓都安靜了:中方不按常理出牌!

星辰故事屋
2025-04-08 21:01:48
再見國際米蘭,絕殺拜仁功臣,恐被4000萬甩賣,2意大利國腳加入

再見國際米蘭,絕殺拜仁功臣,恐被4000萬甩賣,2意大利國腳加入

體育全天候
2025-04-10 23:48:15
58歲了!她聲稱自己“從來沒有過性生活”……

58歲了!她聲稱自己“從來沒有過性生活”……

印象逍遙子
2025-04-09 12:49:02
2025-04-11 07:16:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10297文章數 176091關注度
往期回顧 全部

科技要聞

律師熱議!谷歌一專利成中美大模型命門?

頭條要聞

媒體:特朗普急剎車 到底想單挑中國還是單談值得玩味

頭條要聞

媒體:特朗普急剎車 到底想單挑中國還是單談值得玩味

體育要聞

趙勇任中國女排主教練 楊昊加盟教練組

娛樂要聞

葉童給《浪姐》女星們狠狠上了一課!

財經要聞

專家提議重啟樓市應對美國關稅戰

汽車要聞

11萬即搭載激光雷達 零跑B10上市售9.98萬起

態度原創

時尚
教育
旅游
房產
數碼

該換新包啦!這3款平價春日包包,好看還不易撞款!

教育要聞

家長都束手無策,表示這題看似簡單,實則很考驗學生的思維能力

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

官宣6月!地鐵12號線沖刺開通,白云金沙洲終于等來破局

數碼要聞

消息稱 Valve 下一代 VR 頭顯將在美國制造

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 濉溪县| 铜鼓县| 交城县| 吴川市| 微博| 双城市| 凌海市| 南丹县| 镇坪县| 金堂县| 前郭尔| 陵水| 姚安县| 郴州市| 富顺县| 泰安市| 永新县| 中卫市| 蒙阴县| 江津市| 交口县| 潞城市| 东明县| 香格里拉县| 黄大仙区| 佛学| 东乌珠穆沁旗| 乾安县| 贡觉县| 监利县| 潼南县| 西盟| 延安市| 崇明县| 白城市| 淮滨县| 宁国市| 玉田县| 崇义县| 红原县| 天镇县|