99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

炸裂!Meta深夜推出Llama 4系列 :單卡H100能跑,千萬上下文,還有2萬億“巨獸”

0
分享至

  

  小扎終于想起發布 Llama 4 了,本來早就應該發布的的節奏全被DeepSeek R1打亂了,哈哈!

  

  Meta 剛剛放出了 Llama 4 系列的首批模型,按照官推的說法這次發布是對 Llama 系列的一次徹底重新設計

  先劃重點:

  核心變化:Llama 4 全系采用混合專家(MoE)架構,并且是原生多模態訓練,不再是 Llama 3 那樣的純文本模型了。這次發布了Llama 4 ScoutLlama 4 Maverick,同時還有最強大的Llama 4 Behemoth預覽

  

  下面給大家第一時間做個梳理,

  Llama 4 Scout:

  定位:性能最強的小尺寸模型

  參數:17B 激活參數,16 個專家,總參數量 109B

  亮點:速度極快,原生支持多模態,擁有業界領先的 1000 萬+ Token 多模態上下文窗口(相當于處理 20 多個小時的視頻?。⑶?strong>能在單張 H100 GPU 上運行(Int4 量化后)

  Llama 4 Maverick:

  定位:同級別中最佳的多模態模型

  性能:在多個主流基準測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash,推理和編碼能力與新發布的 DeepSeek v3 相當,但激活參數量不到后者一半

  參數:17B 激活參數,128 個專家,總參數量 400B,上下文窗口 100 萬+

  性價比:提供了同類最佳的性能成本比。其實驗性聊天版本在 LMArena 上 ELO 評分達到 1417,排名第二

  部署:可以在單個主機上運行

  Llama 4 Behemoth (預覽,訓練中):

  定位:Meta 迄今最強模型,全球頂級 LLM 之一

  性能:在多個 STEM 基準上優于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro

  參數:288B 激活參數,16 個專家,總參數量高達2萬億 (2T

  訓練細節:使用 FP8 精度,在32000 塊 GPU上訓練了30 萬億多模態 Token

  角色:作為 Maverick 模型進行代碼蒸餾時的教師模型

  

  

  

  技術亮點解讀

  原生多模態:所有模型都采用早期融合(early fusion)策略,將文本、圖像、視頻 Token 無縫整合到統一的模型骨干中

  訓練流程優化:采用了 輕量級 SFT → 在線 RL → 輕量級 DPO 的后訓練流程。開發者強調,過度使用 SFT/DPO 會過度約束模型,限制在線 RL 階段的探索能力,所以要保持“輕量”

  超長上下文的秘密 (10M+):實現這一突破的關鍵是iRoPE 架構("i" 代表 interleaved layers, infinite)

  核心思想:通過追求無限上下文的目標來指導架構設計,特別是利用長度外推能力——在短序列上訓練,泛化到極長序列。最大訓練長度是 256K

  具體做法

  ? 本地注意力層(Local Attention)使用 RoPE 處理短上下文(如 8K),可并行化

  ? 全局注意力層(Global Attention)才負責處理長上下文(>8K),且不使用位置編碼(NoPE 思想),這有助于提升外推能力

  ? 為了解決上下文變長時注意力權重趨于平坦、影響推理的問題,在推理時對全局層應用溫度縮放,增強長距離推理,同時保持短上下文性能。公式大致為:xq *= 1 + log(floor(i / α) + 1) * β(i 是位置索引)

  大佬評價:

  一個遺憾 (前kaggle總裁,fast AI 創始人Jeremy Howard):雖然感謝開源,但 Jeremy Howard 也表達了失望。Llama 4 Scout 和 Maverick 都是大型 MoE 模型,即使量化后也無法在消費級 GPU 上運行,這對開源社區的可及性來說是個不小的損失

  

  Jim Fan(英偉達高級研究經理)

  

  部署便利性優先:Jim Fan 認為,對于開源模型,特別是 MoE 架構,易于部署正變得比單純追求模型尺寸更重要。Meta 強調 Llama 4 Scout 能在單張 H100 上運行,這與 Llama-3 401B(雖然強大但采用率較低)形成對比,說明 MoE 是一個更符合當前開源策略的方向

  智能調參 MetaP:MetaP這個用于智能調整訓練超參數的新技術。雖然細節不多,但他猜測這可能類似于 Meta 開源的Ax 框架中的貝葉斯優化,能在有限的試驗預算內進行自適應實驗(如 A/B 測試)

  后訓練策略:重 RL 輕 SFT/DPO: Llama 4 的后訓練策略是降低 SFT/DPO 的權重,提升在線 RL 的權重。原因是過多的 SFT/DPO 會過度約束模型,限制其在 RL 階段的探索能力

  自我批判式數據篩選:一個有趣的技術點是,訓練過程中模型較早的檢查點(checkpoint)可以作為“批評家”來評估后續模型,幫助過濾掉過于簡單的訓練樣本/提示,讓模型在不斷篩選和學習中變得更強

  Behemoth 的訓練細節與數據挑戰: Llama 4 Behemoth 的龐大規模(FP8 精度、32K GPU、30T tokens 訓練)。由于模型能力太強,普通的 SFT 數據對它來說太“簡單”了,因此需要裁剪掉高達 95% 的 SFT 數據,而小模型只需要裁剪約 50%

  實現千萬級上下文窗口的技術手段看起來“相當簡單”:

  1.去除部分位置編碼:在某些注意力層(特別是全局層)不使用位置編碼,借鑒了NoPE (No Positional Embedding)論文的思想

  2.調整 Softmax 注意力:根據上下文的長度來調整 Softmax 注意力計算

  這次Llama 4的推理模型還不見蹤影,這多少有點說不過去,大家覺得呢?畢竟Meta也是妥妥的大廠??!不過Meta 表示這只是開始,后續還有更多模型,團隊正在全力開發中,特別提到了Llama 4 Reasoning模型

  另外相比于DeepSeekMIT開源方式,Llama 4 的新許可證有幾個限制:

  - 每月活躍用戶超過 7 億的公司必須向 Meta 申請特殊許可,Meta 可自行決定授予或拒絕該許可。

  - 必須在網站、界面、文檔等處突出顯示“使用 Llama 構建”。

  - 使用 Llama Materials 創建的任何 AI 模型的名稱開頭都必須包含“Llama”

  - 必須在任何分發的“通知”文本文件中包含具體的歸屬通知 - 使用必須遵守 Meta 單獨的可接受使用政策(參考 http://llama.com/llama4/use-policy...) - 僅出于符合品牌要求的有限許可使用“Llama”名稱

  參考:

  https://ai.meta.com/blog/llama-4-multimodal-intelligence/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美債10年收益率日內漲幅達到1.04%

美債10年收益率日內漲幅達到1.04%

每日經濟新聞
2025-04-28 21:04:11
近萬元一針的“高潮針”是“擦邊球”還是“智商稅”?

近萬元一針的“高潮針”是“擦邊球”還是“智商稅”?

界面新聞
2025-04-27 17:28:38
72歲泰王的90后新寵:水嫩白皙一張初戀臉,穿淺金色泰服身材曼妙

72歲泰王的90后新寵:水嫩白皙一張初戀臉,穿淺金色泰服身材曼妙

一娛三分地
2025-04-13 22:57:15
15萬股民等到哭!兆易創新,翻身了??!

15萬股民等到哭!兆易創新,翻身了啊!

看財經show
2025-04-28 21:23:04
靴子落地!吳奇修被查

靴子落地!吳奇修被查

魯中晨報
2025-04-28 19:36:03
謝霆鋒“初戀情人”低調捧場!可惜只能和海報合照!感性發文:25年沒見真的成熟了

謝霆鋒“初戀情人”低調捧場!可惜只能和海報合照!感性發文:25年沒見真的成熟了

我愛追港劇
2025-04-29 00:00:18
人情薄如紙!原中央政治局常委吳官正:難忘那夜的秋雨!

人情薄如紙!原中央政治局常委吳官正:難忘那夜的秋雨!

霹靂炮
2025-03-03 14:09:01
《潛伏》為什么戴笠一聽“青浦特訓班”,看余則成的眼神就變了?

《潛伏》為什么戴笠一聽“青浦特訓班”,看余則成的眼神就變了?

掠影后有感
2025-04-28 09:51:21
CCTV5直播,世界杯總決賽大改制,全紅嬋3天沖2冠,陳芋汐爭3冠

CCTV5直播,世界杯總決賽大改制,全紅嬋3天沖2冠,陳芋汐爭3冠

二哥聊球
2025-04-28 16:34:14
醫生出軌門驚天反轉!三姐是哥大高才生,男主說我劈腿但我醫術牛

醫生出軌門驚天反轉!三姐是哥大高才生,男主說我劈腿但我醫術牛

草莓解說體育
2025-04-29 00:24:47
湖人活該輸掉G4,老詹與對手又是有說有笑,末節得分吞零惹爭議

湖人活該輸掉G4,老詹與對手又是有說有笑,末節得分吞零惹爭議

阿雄侃籃球
2025-04-28 23:28:42
“肝癌大戶”被揪出,是煙酒的10倍,醫生:再不忌口,肝或硬如石

“肝癌大戶”被揪出,是煙酒的10倍,醫生:再不忌口,肝或硬如石

藥師方健
2023-06-20 16:45:54
弟弟生活困難哥嫂給了他5萬,5年后他裝窮回村,哥嫂的做法太感人

弟弟生活困難哥嫂給了他5萬,5年后他裝窮回村,哥嫂的做法太感人

白云故事
2025-04-17 05:20:03
你無意間摸到過什么不該摸的東西!網友看過全部笑岔氣了

你無意間摸到過什么不該摸的東西!網友看過全部笑岔氣了

解讀熱點事件
2025-01-13 01:34:06
短短48小時,巴鐵就迎來第二個外援,大批運輸機運送武器抵達前線

短短48小時,巴鐵就迎來第二個外援,大批運輸機運送武器抵達前線

南宗歷史
2025-04-28 17:35:25
李現被女網紅點名挑釁,直接帶大名開撕!

李現被女網紅點名挑釁,直接帶大名開撕!

毒舌八卦
2025-04-28 16:36:32
霍福德你太強了,38歲還是大腿,創造21世紀獨一無二的紀錄

霍福德你太強了,38歲還是大腿,創造21世紀獨一無二的紀錄

大西體育
2025-04-28 15:32:54
川普因“違反著裝規定”提前“被離開”

川普因“違反著裝規定”提前“被離開”

風華講史
2025-04-28 09:32:01
泡泡瑪特大漲12% 市值2591億港元 王寧身價超千億

泡泡瑪特大漲12% 市值2591億港元 王寧身價超千億

雷遞
2025-04-28 17:04:49
“明知道寒酸,還怪女兒虛榮”,母親準備的春游午餐,讓網友破防

“明知道寒酸,還怪女兒虛榮”,母親準備的春游午餐,讓網友破防

振華觀史
2025-04-27 09:38:07
2025-04-29 02:08:49
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
651文章數 259關注度
往期回顧 全部

數碼要聞

蘋果平價版頭顯或命名Vision Air 預計最早今年末上市

頭條要聞

媒體:新央企中國雅江集團正籌備

頭條要聞

媒體:新央企中國雅江集團正籌備

體育要聞

“我們欠球迷一個冠軍慶典,現在可以狂歡了”

娛樂要聞

黃渤青島做東請客 桌上全人情世故

財經要聞

外賣平臺陷入內卷,傷害的是誰?

科技要聞

傳騰訊阿里從字節搶購算力資源 字節否認

汽車要聞

東風日產,重新起跑

態度原創

本地
手機
房產
健康
公開課

本地新聞

與重慶超合拍|取景框對準來福士,開機你的電影感之旅

手機要聞

1999 iQOO Z10 Turbo Pro開箱體驗 | 預定爆品?

房產要聞

灣區最美戶外教育社區!這座世界莊園自然能量場,為孩子解鎖人生新高度

唇皰疹和口腔潰瘍是"同伙"嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 昌平区| 万源市| 大足县| 财经| 景泰县| 通河县| 河间市| 昭平县| 策勒县| 沧源| 东平县| 高密市| 利川市| 靖安县| 安龙县| 桂平市| 汉阴县| 蓬安县| 新丰县| 西平县| 蛟河市| 天祝| 芦溪县| 遂昌县| 山西省| 卓资县| 马公市| 松潘县| 将乐县| 彩票| 华宁县| 耒阳市| 翼城县| 石林| 上思县| 七台河市| 高尔夫| 颍上县| 米脂县| 顺昌县| 安岳县|