新智元報道
編輯:定慧 桃子
【新智元導讀】Llama 4家族周末突襲,實屬意外。這場AI領域的「閃電戰」不僅帶來了兩款全新架構的開源模型,更揭示了一個驚人事實:蘋果Mac設備或將成為部署大型AI模型的「性價比之王」。
誰也沒料到,
一共三款模型,首次采用MoE架構,開啟了原生多模態的Llama時代!
Llama 4 Scout,激活17B,16個專家,109B參數;
Llama 4 Maverick,激活17B,128個專家,402B參數;
Llama 4 Behemoth,激活288B,16個專家,2T參數。
Llama 4發布后排名瞬間躍升,甚至超過了DeepSeek-V3,Meta再一次回到牌桌。
業界首個1000萬上下文,RAG已死?
Meta宣稱Llama-4-Scout-17B-16E測試中好于Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1。甚至,小扎劇透了推理模型也不遠了。
但也有網友調侃Llama 4這次是「趕鴨子上架」,所以Llama 4性能到底如何,請看下面網友的實測。
稀疏MoE模型,和蘋果芯堪稱天作之合
當前,第一批測試結果已經出來了!
蘋果ML工程師Awni Hannun實測,Llama 4 Maverick在單臺M3 Ultra-512GB上使用MLX推理框架時速度極快,達到了50 token/秒!
與DeepSeek V3/R1類似,Llama 4系都是巨大的稀疏MoE模型。
這些模型擁有極其龐大的參數量,但每次只有少量參數(專家)被激活。由于事先無法預測哪些參數會被激活,因此必須把所有參數同時存放在高速的GPU顯存中。
為何對于開源模型,社區大佬都傾向于使用蘋果芯片去測試?
一方面,是因為買不到英偉達H100啊。
Awni Hannun表示,更重要的是Apple芯片適合稀疏模型。
GPU顯存速度快,但成本昂貴。然而Apple Silicon通過統一內存(Unified Memory)和UltraFusion 技術融合多個芯片,使其能夠以更低的成本提供更大容量、中等速度的內存。
一個月前發布的M3 Ultra Mac Studio的統一內存容量高達512GB!
然而,當內存容量增大到這個程度時,內存帶寬就不足了。對于512GB版本來說,內存刷新率(每秒GPU可完整遍歷所有內存的次數,即內存帶寬與容量之比)只有1.56次/秒。與其他硬件對比如下:
NVIDIA H100(80GB):37.5次/秒
AMD MI300X(192GB):27.6次/秒
Apple M2 Ultra(192GB):4.16次/秒(比H100慢9倍)
Apple M3 Ultra(512GB):1.56次/秒(比H100慢24倍)
理想情況下,工作負載特性應與硬件特性相匹配。否則,硬件會存在浪費(性能過剩)或瓶頸(性能不足)。對工作負載(此處為批大小=1的推理任務)而言,關鍵特性是模型稀疏度。
模型的稀疏度定義為 1-(激活參數數/總參數數)。
稠密模型稀疏度為0%(因為激活參數 = 總參數)。各模型稀疏度如下:
Llama 3.3 405B:總參數=405B,激活參數=405B,稀疏度=0%
DeepSeek V3/R1:總參數=671B,激活參數=37B,稀疏度=94.4%
Llama 4 Scout:總參數=109B,激活參數=17B,稀疏度=84.4%
Llama 4 Maverick:總參數=400B,激活參數=17B,稀疏度=95.75%(非常高!)
Llama 4 Behemoth:總參數=2T,激活參數=288B,稀疏度=85.6%
一般來說,稀疏度越高,越適合內存刷新率較低的Apple Silicon。因此,Llama 4 Maverick顯然是最適合 Apple Silicon的模型。
另外更重要的原因就是Apple Silicon是運行大模型最具成本效益的方案,因為統一內存每GB的成本遠低于GPU顯存:
NVIDIA H100:80GB,3TB/s,售價$25,000,每GB成本$312.50
AMD MI300X:192GB,5.3TB/s,售價$20,000,每GB成本$104.17
Apple M3 Ultra:512GB,800GB/s,售價$9,500,每GB成本$18.55
以2萬億參數巨獸Llama 4 Behemoth為例。
考慮到若用H100來完整容納Behemoth模型(fp16精度),則需要50塊H100,總成本為125萬美元;
MI300X的總成本則為42萬美元;
但若使用M3 Ultra,總成本僅為7.6萬美元!
以下是網友@alexocheema對不同版本Mac運行新Llama 4版本的情況進行了全面分析。
Llama 4這次發布的模型最大一個優點之一就是稀疏模型,這給了本地部署很多想象力,也是開源模型的使命。
以精度4-bit為例,使用MLX推理框架可以在具有足夠RAM的Mac上部署這些模型。
網友@awnihannun總結了部署Llama 4最新三個模型所需要的最小配置,幾乎都可以完成本地部署:
Llama 4 Scout 109B參數:64GB的M4 Max;
Llama 4 Maverick 400B參數:256GB的M3 Ultra;
Llama 4 Behemoth 2T參數:3臺512GB的M3 Ultra;
Llama 4很強,就是寫代碼有點菜
說完了硬件,再來看看Llama 4的實測效果。 網友@gnukeith測試了Llama 4的多模態能力,讓模型識別圖片中的人物來自于哪個動漫,Llama成功識別!
網友@attentionmech制作了一個模型視覺化網頁(簡單說就是看模型有多少層,有多深),Llama 4視覺上看起來確實令人驚嘆。
網友@philip_kiely使用Llama 4(Maverick)輕松擊敗了Brick Breaker氛圍測試。
當然,也有翻車的,比如網友@fighto測試了「喜聞樂見」的讓模型數r的問題,Llama 4 Maverick回答錯誤。
網友@tariquesha1測試了Llama 4的圖像生成能力。
再來看看Llama 4寫代碼的實戰案例。
網友AlexBefest宣布Llama 4 Maverick——Python六邊形測試失敗。Python六邊形測試可以說是每個新發布大模型的「試金石」了。
下面展示了其他模型在Python六邊形測試彈跳小球上的結果,來自Github的KCORES團隊。
KCORES團隊成員karminski-牙醫發布了Llama 4 Scout和Llama 4 Maverick的測試結果。
用他的話說,Llama 4 Scout小參數模型開心就好;足足有402B參數的Maverick模型的表現并不是很滿意:
Scout小參數模型大概接近Grok2的水平(咋還倒退了);
而Mavericks還不如使用DeepSeek-V3-0324;
總之不建議Llama 4寫代碼
按照KCORES LLM Arena的評測結果,目前最好的模型GPT-4.5-Preview。
當然,目前的測試只針對寫代碼,其他長文本和多模態領域還需要更多的測試案例。
Llama 4的另一個突破就是支持10M的上下文窗口長度,相當于20個小時的視頻。
全網部署Llama 4
不管怎么說Llama 4的發布依然是開源模型的又一劑強心針。 各家巨頭和平臺同時宣布支持最新的Llama 4。 微軟CEO Satya Nadella宣布馬上將Scout和Maverick發布在Azure AI Foundry平臺。
Cerebras宣布將在下周完成Llama 4最新模型的部署。
Together AI上也同步推出Llama 4模型,作為Meta的發布合作伙伴,還支持Together API的方式來訪問Llama 4 Maverick 和Llama 4 Scout。
T3 Chat也宣布Llama 4 Scout和Maverick均已啟動,Scout由Groq托管,而Maverick由OpenRouter托管,并且聲明了小參數模型Scout非常便宜,決定免費發布。
Databricks數據智能平臺宣布使用Llama模型來為AI應用程序、智能體和工作流程提供支持。
接下來還會有更多的平臺跟進Llama 4最新模型,就像幾個月前各家平臺也是「瘋狂」上線DeepSeek一樣。
還有一個問題,為啥小扎選在他們的休息日發布Llama 4,馬上就周一了啊?
Defined和Liftoff的聯合創始人Nathan Lambert說頂尖Lab的領導們都會知道其他Labs的發布計劃。
難道說小扎知道下周會有什么「瘋狂」的模型發布可能會蓋過Llama 4的風頭,所以「趕鴨子上架」嗎。
首先在Llama 4的Github Model_Card的更新日志中,發現一個改動:
模型發布的日期從美國時間的4月7號改到了4月5號(也就是我們4月6號的凌晨)!
所以,周一Meta還會發布什么新模型嗎?
在llama.com的官網上,我們看到了llama4-resoning-is-coming的后綴,似乎預示著llama-4推理模型也要馬上發布了!
而奧特曼繼續放出他的煙霧彈,在社交媒體不停的預熱:OpenAI接下來也要放大招了!
而不論是此前奧特曼宣布GPT5、o3和o4-mini的消息,還是Llama 4的發布,還是DeepSeek和清華共同發布的論文,似乎預示著一件事:
所有人都在等待并期待著DeepSeek-R2!
請大家做好準備,也許下周即將是「瘋狂」的一周。
參考資料:
https://x.com/karminski3/status/1908673924596195838
https://x.com/awnihannun/status/1908676110717771994
https://x.com/alexocheema/status/1908651942777397737
https://docs.google.com/spreadsheets/d/1mcRayUPtVJG_hOMruWWEf6T8TKbfTQIvH3WUkj_kx6E/edit?gid=0#gid=0
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.