99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Meta發布Llama 4系列模型,參數高達2萬億

0
分享至

Meta 對 DeepSeek 的回應來了:Llama 4 發布,包括具備長上下文處理能力的 Scout 和 Maverick 模型,且擁有 2 萬億參數的龐然大物 Behemoth 也即將推出。


(來源:https://ai.meta.com)

2025 年 1 月,隨著 DeepSeek R1 在研究人員和企業中迅速普及,據報道 Meta 在得知這個新的 R1 模型的訓練成本只是許多其他領先模型的一小部分,卻僅花費幾百萬美元(相當于 Meta 給其一些 AI 團隊負責人的薪酬)就超越了這些模型時,陷入了恐慌狀態。

在那之前,Meta 的整個生成式 AI 戰略一直基于以其“Llama”品牌發布一流的開源模型,供研究人員和公司自由使用并在此基礎上進行開發。至少,對于那些月用戶數少于 7 億的用戶來說是這樣,若月用戶數超過這個數字,則需要聯系 Meta 獲取特殊的付費許可條款。

然而,DeepSeek R1 在預算少得多的情況下卻展現出驚人的出色性能,據稱這震動了 Meta 的領導層,并促使其進行某種反思。就在 2024 年 12 月,也就是一個月前,Meta 剛剛發布了上一版本的 Llama 3.3,但在當時它顯得有些過時。

現在我們知道了那次反思的成果:當地時間 4 月 5 日,Meta 創始人兼 CEO 扎克伯格在他的 Instagram 賬號上宣布推出新的 Llama 4 系列模型,其中兩款——擁有 4000 億參數的 Llama 4 Maverick 和擁有 1090 億參數的 Llama 4 Scout——現已可供開發者在 llama.com 和 AI 代碼共享社區 Hugging Face 上下載、使用或進行微調。

同樣在 4 月 5 日,擁有 2 萬億參數的大型模型 Llama 4 Behemoth 也發布了預覽版,不過 Meta 的博客文章稱該模型仍在訓練中,并未透露其可能的發布時間。需要注意的是,參數指的是控制模型行為的設置,一般來說參數越多意味著模型在各方面更強大、更復雜。

這些模型的一個主要特點是它們都是多模態的,經過針對文本、視頻和圖像的訓練,因此能夠接收和生成這些內容。

另一個特點是它們擁有較長的上下文窗口——Llama 4 Maverick 為 100 萬個 tokens,Llama 4 Scout 為 1000 萬個 tokens——分別相當于大約 1500 頁和 15000 頁的文本內容,并且模型在一次輸入/輸出交互中就能處理這些內容。這意味著理論上用戶可以上傳或粘貼多達 7500 頁的文本內容,并從 Llama 4 Scout 獲得同樣多的回復,這對于醫學、科學、工程、數學、文學等信息密集型領域來說非常實用。

據了解,這三個模型都采用了“專家混合(MoE)”架構方法,這種方法在 OpenAI 和 Mistral 早期發布的模型中得到了推廣,本質上是將多個專門處理不同任務、主題和媒體格式的較小模型(即“專家”模型)組合成一個更大的統一模型。據說每個 Llama 4 模型都是 128 個不同專家模型的混合體,并且運行效率更高,因為在處理每個 tokens 時,只需特定任務所需的專家模型加上一個“共享”專家模型,而無需讓整個模型對每個 tokens 都進行處理。

雖然所有參數都存儲在內存中,但在運行這些模型時,只有總參數的一個子集被激活。這通過降低模型運行成本和延遲提高了推理效率——Llama 4 Maverick 可以在單個英偉達 H100 DGX 主機上運行,不僅便于部署,也可以通過分布式推理實現最高效率。

Llama 4 Scout 和 Llama 4 Maverick 現已向公眾開放,可供自行部署,不過 Meta 尚未公布其官方基礎設施的托管 API 或定價等級。相反,Meta 專注于通過開放下載以及與 WhatsApp、Messenger、Instagram 和網頁版的元 AI 進行集成來進行分發。

Meta 估計,Llama 4 Maverick 的推理成本為每 100 萬個 tokens 0.19 美元至 0.49 美元(輸入和輸出比例為 3:1)。根據社區基準測試,這使得它比像 GPT-4o 這樣的專有模型便宜得多,據估計 GPT-4o 的成本為每 100 萬個 tokens 4.38 美元。

Llama 4 的三個模型尤其是 Maverick 和 Behemoth,都被設計用于推理、編碼和逐步解決問題,不過它們似乎沒有表現出像 OpenAI 的“o”系列或 DeepSeek R1 等專門推理模型那樣的思維鏈。

相反,它們似乎旨在更直接地與“經典”的非推理大語言模型和多模態模型競爭,比如 OpenAI 的 GPT-4o 和 DeepSeek 的 V3。但是,Llama 4 Behemoth 除外,它似乎確實對 DeepSeek R1 構成了威脅。

此外,對于 Llama 4,Meta 構建了專注于增強推理能力的定制訓練后流程,例如:

- 在有監督的微調過程中,去除超過 50% 的“簡單”提示。

- 采用不斷增加難度提示的持續強化學習循環。

- 使用“k 次嘗試通過”評估和課程采樣來加強在數學、邏輯和編碼方面的性能。

- 采用一種名為 MetaP 的新技術,讓工程師可以在模型上調整超參數(如每層的學習率),并將其應用于其他不同規模和 tokens 類型的模型,同時保持模型預期的行為。

MetaP 可被用于在一個模型上設置超參數,然后應用于許多其他類型的模型,從而提高訓練效率。這樣可以節省大量的時間和金錢,從而可以在較小的模型上進行實驗。

在訓練像 Behemoth 這樣的大型模型時,這一點尤其關鍵,Behemoth 使用 32000 個 GPU 和 FP8 精度,在超過 30 萬億個 tokens 上實現了每個 GPU 390 TFLOPs 的運算能力,其訓練數據是 Llama 3 的兩倍多。換句話說:研究人員可以大致告訴模型他們希望它如何運行,并將這種設置應用于不同規模的模型,以及不同形式的媒體上。

在 Instagram 上的發布視頻中,扎克伯格表示 Meta 的“目標是打造世界領先的 AI,將其開源,并讓所有人都能使用,從而使全世界的人都受益…… 我早就說過,我認為開源 AI 將成為領先的模型,而隨著 Llama 4 的推出,這正在成為現實。”

Meta 的博客文章稱 Llama 4 Scout“是同類中世界上最好的多模態模型,比所有上一代 Llama 模型都更強大”。這些的確都是非常強大的模型,與同參數規模的其他模型相比,它們處于領先地位,但不一定創造了新的性能紀錄。盡管如此,Meta 還是熱衷于宣揚 Llama 4 系列模型的“超越性”。

使用參數最高的基準測試模型 Llama 4 Behemoth,并將其與 DeepSeek R1 最初發布的 R1-32B 模型圖表以及 OpenAI o1 模型進行比較之后發現,雖然 DeepSeek R1 和 OpenAI o1 在幾個指標上領先于 Behemoth,但 Llama 4 Behemoth 仍然具有很強的競爭力,在其同類推理排行榜上處于領先或接近領先的位置。

Meta 還通過引入 Llama Guard、Prompt Guard 和 CyberSecEval 等工具來強調模型的一致性和安全性,以幫助開發者檢測不安全的輸入/輸出或對抗性提示,并實施生成式攻擊性代理測試(GOAT)來進行自動化的紅隊測試。

該公司還聲稱 Llama 4 在“政治偏見”方面有顯著改善,并表示“(領先的大語言模型)在有爭議的政治和社會話題上歷來傾向于左派觀點”,而 Llama 4 在迎合右派觀點方面表現得更好……”這與扎克伯格在 2024 年選舉后對美國總統特朗普及其政黨的支持相一致。

此外,Meta 的 Llama 4 模型在多模態和推理任務中融合了效率、開放性和高端性能。

隨著 Scout 和 Maverick 現已向公眾開放,以及 Behemoth 作為最先進的教師模型進行了預覽,Llama 生態系統有望成為 OpenAI、Anthropic、DeepSeek 和谷歌等公司頂級專有模型的有力開源替代品。

參考資料:

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/

https://www.theverge.com/news/644171/llama-4-released-ai-model-whatsapp-messenger-instagram-direct

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
初代網紅獸獸近照曝光,38歲嫁加拿大身材好顏值下滑,兒子很像媽

初代網紅獸獸近照曝光,38歲嫁加拿大身材好顏值下滑,兒子很像媽

老鵜愛說事
2025-04-05 22:42:24
湖人東契奇與勒布朗示范課!如何將雷霆防線打得支離破碎

湖人東契奇與勒布朗示范課!如何將雷霆防線打得支離破碎

小鞄搞笑解說
2025-04-08 00:55:05
梁朝偉號召力不如劉德華,片酬高達5000萬,新片票房卻瘋狂打臉

梁朝偉號召力不如劉德華,片酬高達5000萬,新片票房卻瘋狂打臉

影視高原說
2025-04-07 16:08:47
阿特金森:看到米切爾崴腳我人都懵了 這絕對是我們最不想看到的

阿特金森:看到米切爾崴腳我人都懵了 這絕對是我們最不想看到的

直播吧
2025-04-07 22:16:08
中國隊出局僅1天!馬德興爆出2大“實情”,崔康熙的話得到印證

中國隊出局僅1天!馬德興爆出2大“實情”,崔康熙的話得到印證

何老師呀
2025-04-07 23:34:10
生存法則:混社會三條紅線,不要動上層人的利益,不要動中層人的體面,不要動下層人的生計

生存法則:混社會三條紅線,不要動上層人的利益,不要動中層人的體面,不要動下層人的生計

先覺者Pro
2025-04-05 08:08:49
我是川藏線貨車司機,經常遇窮游女舉著牌子:可做臨時女友

我是川藏線貨車司機,經常遇窮游女舉著牌子:可做臨時女友

小奶牛牛
2023-08-23 15:11:12
全程僅2分鐘!事發深圳南山,情況緊急!

全程僅2分鐘!事發深圳南山,情況緊急!

深圳晚報
2025-04-07 15:20:27
富士康"賭輸"了,郭臺銘也沒想到,反轉竟來得如此之快

富士康"賭輸"了,郭臺銘也沒想到,反轉竟來得如此之快

小笛科技
2025-03-10 13:56:24
又一“網紅家電巨頭”跌落神壇!被爆以假亂真,暴跌85%成智商稅

又一“網紅家電巨頭”跌落神壇!被爆以假亂真,暴跌85%成智商稅

夢史
2025-04-07 12:58:44
涉嫌嚴重違紀違法!六盤水市供銷商貿集團有限責任公司黨委委員、紀委書記王彝軍被查

涉嫌嚴重違紀違法!六盤水市供銷商貿集團有限責任公司黨委委員、紀委書記王彝軍被查

魯中晨報
2025-04-07 15:07:03
白宮對“90天關稅暫停”一無所知,美股迅速反彈后再度暴跌!

白宮對“90天關稅暫停”一無所知,美股迅速反彈后再度暴跌!

國際情爆猿
2025-04-07 22:47:27
法日聯合投資15億!全球最大稀土工廠落地,外媒:擺脫依賴

法日聯合投資15億!全球最大稀土工廠落地,外媒:擺脫依賴

小蘑菇壹號
2025-04-07 14:46:56
中方一下砍掉7成訂單!特朗普沒想到:中方下手這么狠

中方一下砍掉7成訂單!特朗普沒想到:中方下手這么狠

針砭天下事
2025-04-07 11:37:20
關稅剛落地,第一個投降的國家就出現了,特朗普真實目的暴露

關稅剛落地,第一個投降的國家就出現了,特朗普真實目的暴露

北向財經
2025-04-07 12:02:00
張忠謀始料未及!麒麟9000S被公開后,一個奇怪的現象出現了

張忠謀始料未及!麒麟9000S被公開后,一個奇怪的現象出現了

林子說事
2025-04-08 00:39:24
35歲哥倫比亞門將遇搶劫后持槍反擊&身中4槍,好友則不幸離世

35歲哥倫比亞門將遇搶劫后持槍反擊&身中4槍,好友則不幸離世

直播吧
2025-04-07 18:45:21
深圳極氪009著火事故致3人受傷,家屬發微博維權

深圳極氪009著火事故致3人受傷,家屬發微博維權

DoNews
2025-04-07 11:16:08
M8小定破10萬,余承東發文感謝!網友點評:發布會還沒開就賣出去10萬輛了,友商壓力山大

M8小定破10萬,余承東發文感謝!網友點評:發布會還沒開就賣出去10萬輛了,友商壓力山大

大白聊IT
2025-04-07 12:35:57
1-3降級!英超下課第7人誕生:49歲名帥遭解雇,創最差紀錄

1-3降級!英超下課第7人誕生:49歲名帥遭解雇,創最差紀錄

葉青足球世界
2025-04-07 19:44:07
2025-04-08 02:51:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15033文章數 513522關注度
往期回顧 全部

科技要聞

Llama 4發布36小時差評如潮!匿名員工爆料

頭條要聞

三大央企增持中國股票資產 央媒:政策工具箱還很充足

頭條要聞

三大央企增持中國股票資產 央媒:政策工具箱還很充足

體育要聞

刷屏中文互聯網,甲亢哥是怎么火的?

娛樂要聞

汪小菲身旁的朋友,對馬筱梅的評價

財經要聞

美股巨震!特朗普關稅,又有新變化?

汽車要聞

途昂Pro的五套組合拳打完 看清油車的自我救贖

態度原創

本地
親子
健康
房產
公開課

本地新聞

我在新昌當女主|大佛寺氛圍感拉滿 古偶頂流機位GET

親子要聞

人類幼崽都是怎么做到不內耗的?網友:新腦子就是好使

在中國,到底哪些人在吃“偉哥”?

房產要聞

生猛!三亞開始巨量拆遷!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 固始县| 辽源市| 满洲里市| 津市市| 宁强县| 河北省| 大姚县| 玉田县| 松阳县| 罗甸县| 泾源县| 上思县| 巴南区| 定日县| 札达县| 英德市| 永丰县| 华蓥市| 右玉县| 鄂温| 灌阳县| 鸡西市| 门头沟区| 安西县| 仙桃市| 洛浦县| 沾化县| 新沂市| 洮南市| 鸡泽县| 山东省| 科技| 武安市| 通城县| 元氏县| 安塞县| 吉木萨尔县| 大城县| 汉源县| 青州市| 广东省|