當地時間3月18日周二,英偉達CEO黃仁勛在加州圣何塞舉行的英偉達AI盛會GTC 2025上發表主題演講。
以下是黃仁勛在GTC 2025主題演講的核心觀點總結及重點分析(AI總結):
### **一、硬件架構革命**
1. **Blackwell Ultra芯片全面投產**
? 單卡FP4算力達15 PetaFLOPS,HBM3e顯存容量288GB,推理速度較前代Hopper提升11倍。
? 推出機架級解決方案GB300 NVL72(72顆GPU+36顆Grace CPU),支持液冷技術,推理性能達每秒1000 tokens(H100的10倍),獲AWS、Azure等云廠商360萬片訂單。
? 2026年將推出Vera Rubin架構,采用NVLink 144互聯技術,HBM4內存帶寬提升2倍;2028年Feynman架構目標實現算力成本指數級下降。
2. **網絡與存儲技術突破**
? 發布硅光子共封裝光學(CPO)技術,減少數據中心光模塊功耗90%,支持百萬GPU級互聯。
? 推出Spectrum-X和Quantum-X交換機,液冷設計下網絡速度翻倍,能效提升3.5倍。
### **二、軟件生態與推理優化**
1. **Dynamo推理操作系統**
? 開源動態調度系統,優化GPU資源分配,使Llama模型吞吐量提升30倍,單GPU生成token數量提升30倍以上。
? 被比作“AI工廠的VMware”,支持自動編排推理流程,實現“買越多、省越多”的成本效益擴散效應。
2. **CUDA-X工具擴展**
? 新增Newton物理引擎(與DeepMind、迪士尼合作),機器人訓練效率提升10倍;cuOpt數學規劃工具加速千倍。
? 全球開發者突破600萬,加速庫增至900個,覆蓋量子計算、生物醫學等領域。
### **三、AI發展階段論**
1. **三階段演進路徑**
? **生成式AI**(文本/圖像創建)→ **代理式AI**(自主執行任務)→ **物理AI**(人形機器人/現實交互),最終實現機器與物理世界的深度協同。
? 物理AI的開源模型Isaac GR00T N1支持雙系統認知(快思考+慢規劃),可遷移至工業場景。
2. **全球誤判 擴展定律驅動**
他宣稱,在人工智能規模擴展速度正在放緩這一觀點上,幾乎 “整個世界都判斷失誤” 了,并且他還表示,事實上,得益于新出現的規模擴展方法和技術,人工智能的發展速度正比以往任何時候都要快。
當然,需要注意的是,人工智能規模擴展方面的成功對于英偉達向人工智能模型開發者和服務器提供商大量銷售圖形處理器(GPU)的業務而言,是極為關鍵的核心要素。
? 預訓練、后訓練、推理時擴展協同作用,模型能力指數級提升。2025年推理成本較去年下降35倍,推動需求激增。
### **四、行業應用與合作**
1. **自動駕駛與汽車安全**
? 與通用汽車合作開發全棧自動駕駛系統,推出車載安全架構HALOS,覆蓋代碼安全驗證。
? 預測2028年全球數據中心資本支出將超1萬億美元,AI推理市場將超越訓練市場。
2. **量子計算布局**
? 設立波士頓量子研究中心,與IonQ、D-Wave合作開發混合量子-經典加速器,推出QODA算法加速庫(化學模擬效率提升1000倍)。
### **五、戰略展望與挑戰**
1. **地緣政治與供應鏈**
? 重申中國為最大增長市場,計劃建立本地化AI芯片研發中心,推出符合出口管制的“特供版”芯片。
? Blackwell量產初期毛利率約70%,預計下半年提升至75%,面臨供應鏈風險及AMD競爭壓力。
2. **AI倫理與治理**
? 推出AI道德框架SDK,自動檢測模型偏見(準確率92%),成立全球AI治理聯盟。
### **核心結論**
黃仁勛以“AI工廠”為核心,通過**硬件性能躍遷+軟件生態壟斷+行業場景深耕**三重引擎,推動AI從“生成內容”向“物理交互”跨越。其演講凸顯兩大矛盾:**技術普惠與地緣限制的博弈**、**開放生態與商業壟斷的平衡**,這既是英偉達未來發展的關鍵,也是全球AI產業格局重構的縮影。
深度解讀黃仁勛GTC演講:全方位“為推理優化”,“買越多、省越多”,英偉達才是最便宜!
美國知名半導體咨詢機構Semianalysis深度解讀黃仁勛GTC演講,詳細闡述英偉達在推動AI推理性能提升方面的最新進展。
市場擔心的是,DeepSeek式的軟件優化以及英偉達主導的硬件進步帶來的巨大成本節省,可能導致對AI硬件的需求下降。然而,價格會影響需求,當AI成本降低時,AI能力的邊界不斷被突破,而需求隨之增加。
隨著英偉達在硬件和軟件方面的推理效率提升,使得模型推理和智能代理的部署成本大幅降低,從而實現成本效益的擴散效應,實際的消費量反而會增加,正如英偉達的口號所說的那樣:“買越多、省越多”。
以下為文章的核心觀點:
推理Token擴展:預訓練、后訓練與推理時擴展定律協同作用,使得AI模型能力不斷提升。
黃仁勛數學規則:包括FLOPs稀疏率、雙向帶寬計量,以及以封裝中GPU芯片數量計算GPU數量的新規則。
GPU與系統路線圖:介紹了Blackwell Ultra B300、Rubin及Rubin Ultra的關鍵規格與性能改進,強調了新一代產品在性能、內存和網絡互連上的突破。
推出的推理堆棧與Dynamo技術:通過智能路由器、GPU規劃器、改進的NCCL、NIXL和NVMe KVCache卸載管理器等新功能,極大提升了推理吞吐量和效率。
共封裝光學(CPO)技術:詳述了CPO在降低功耗、提高交換機基數和網絡扁平化方面的優勢,以及其在未來規模化網絡部署中的潛力。
文章指出,這些創新將顯著降低AI總擁有成本,使得高效推理系統的部署成本大幅下降,并鞏固了英偉達在全球AI生態系統中的領先地位。
以下為Semianalysis深度解讀,全文為AI翻譯:
推理 Token 爆炸
人工智能模型的進步加速迅猛,在過去六個月里,模型的提升超過了此前六個月的進展。這一趨勢將持續下去,因為三條擴展定律——預訓練擴展、后訓練擴展和推理時擴展——正協同作用,共同推動這一進程。
今年的GTC(GPU技術大會)將聚焦于應對新的擴展范式。
來源:英偉達
Claude 3.7在軟件工程領域展現了驚人的性能。Deepseek v3顯示出上一代模型的成本正在急劇下降,這將進一步推動其應用普及。OpenAI的o1和o3模型證明,延長推理時間和搜索功能意味著答案質量大幅提升。正如預訓練定律早期所展示的那樣,后訓練階段增加計算資源沒有上限。今年,Nvidia正致力于大幅提升推理成本效率,目標是實現35倍的推理成本改善,從而支持模型的訓練和部署。
去年市場的口號是“買得越多,省得越多”,但今年的口號變成了“省得越多,買得越多”。Nvidia在硬件和軟件方面的推理效率提升,使得模型推理和智能代理的部署成本大幅降低,從而實現成本效益的擴散效應,這正是杰文斯悖論的經典體現。
市場擔心的是,DeepSeek式的軟件優化以及Nvidia主導的硬件進步帶來的巨大成本節省,可能導致對AI硬件的需求下降,市場可能出現Token供過于求的情況。價格會影響需求,當AI成本降低時,AI能力的邊界不斷被突破,而需求隨之增加。如今,AI的能力受限于推理成本,隨著成本下降,實際的消費量反而會增加。
對Token通縮的擔憂類似于討論光纖互聯網每個數據包連接成本下降時,卻忽略了網站和互聯網應用對我們生活、社會和經濟的最終影響。關鍵區別在于,帶寬存在上限,而隨著能力的顯著提升和成本的下降,對AI的需求則可以無限增長。
Nvidia提供的數據支持了杰文斯悖論的觀點。現有模型的Token數超過100萬億,而一個推理模型的Token量是其20倍,計算量則高出150倍。
來源:英偉達
測試時的計算需要數十萬Token/查詢,每月有數億次查詢。后訓練擴展階段,即模型“上學”,每個模型需要處理數萬億Token,同時需要數十萬后訓練模型。此外,具備代理能力的AI意味著多個模型將協同工作,解決越來越復雜的問題。
黃仁勛數學每年都在變化
每年,黃仁勛都會推出新的數學規則。今年的情況更為復雜,我們觀察到第三條新的黃仁勛數學規則。
第一條規則是,Nvidia公布的FLOPs數據以2:4稀疏度(實際上無人使用)計,而真實性能指標是密集FLOPs——也就是說,H100在FP16下被報為989.4 TFLOPs,實際密集性能約為1979.81 TFLOPs。
第二條規則是,帶寬應以雙向帶寬來計量。NVLink5的帶寬被報為1.8TB/s,因為它的發送帶寬為900GB/s,加上接收帶寬900GB/s。盡管這些數據在規格書中相加,但在網絡領域,標準是以單向帶寬計量。
現在,第三條黃仁勛數學規則出現了:GPU數量將按照封裝中GPU芯片的數量計,而非封裝數量。從Rubin系列開始,這一命名方式將被采用。第一代Vera Rubin機架將被稱為NVL144,即使其系統架構與GB200 NVL72類似,只不過采用了相同的Oberon機架和72個GPU封裝。這種新的計數方式雖然讓人費解,但我們只能在黃仁勛的世界中接受這一變化。
現在,讓我們來回顧一下路線圖。
GPU和系統路線圖
來源:英偉達
Blackwell Ultra B300
來源:英偉達
Blackwell Ultra 300已預覽過,細節與去年圣誕節時我們分享的基本一致。主要規格如下:GB300不會以單板形式出售,而是作為B300 GPU出現在一個便攜式SXM模塊上,同時搭載Grace CPU,也以便攜式BGA形式出現。在性能上,B300相對于B200在FP4 FLOPs密度上提升超過50%。內存容量升級到每個封裝288GB(8個12-Hi HBM3E堆疊),但帶寬維持在8 TB/s不變。實現這一目標的關鍵在于減少了許多(但不是全部)FP64運算單元,并將其替換為FP4和FP6運算單元。雙精度工作負載主要用于HPC和超級計算,而非AI。雖然這讓HPC群體感到失望,但Nvidia正轉向強調更重要的AI市場。
B300 HGX版本現在稱為B300 NVL16。這將采用之前稱為“B300A”的單GPU版本,現在簡稱“B300”。由于單個B300沒有高速D2D接口連接兩個GPU芯片,可能存在更多通信間接費用。
B300 NVL16將取代B200 HGX形態,采用16個封裝和GPU芯片在一塊基板上。為實現這一點,每個SXM模塊上放置2個單芯片封裝,共8個SXM模塊。尚不清楚Nvidia為何不繼續采用8×雙芯B300,而選擇這種方式,我們懷疑這是為了從更小的CoWoS模塊和封裝基板中提高產量。值得注意的是,該封裝技術將采用CoWoS-L而非CoWoS-S,這一決策意義重大。CoWoS-S的成熟度和產能是單芯B300A的原因,而這一轉變表明CoWoS-L已迅速成熟,其產率相比起初的低迷已有所穩定。
這16個GPU將通過NVLink協議通信,與B200 HGX類似,兩塊NVSwitch 5.0 ASIC將位于SXM模塊的兩個陣列之間。
新細節是,與以往的HGX不同,B300 NVL16將不再采用Astera Labs的重定時器。不過,一些超大規模云服務提供商可能會選擇加入PCIe交換機。我們曾在今年早些時候向Core Research訂閱者透露過這一消息。
另一個重要細節是,B300將引入CX-8 NIC,該網卡提供4個200G的通道,總吞吐量達到800G,為InfiniBand提供新一代網絡速度,這比現有的CX-7 NIC提升一倍。
Rubin技術規格
來源:英偉達
來源:Semianalysis
Rubin將采用臺積電3nm工藝,擁有兩個reticle-size計算芯片,左右各配備兩個I/O Tile,內置所有NVLink、PCIe以及NVLink C2C IP,以釋放主芯片上更多用于計算的空間。
Rubin提供令人難以置信的50 PFLOPs密集FP4計算性能,比B300的代際性能增長超過三倍。Nvidia如何實現這一點?他們通過以下幾個關鍵向量進行擴展:
1、如上所述,I/O芯片釋放的面積可能增加20%-30%,可用于更多的流處理器和張量核。
2、Rubin將采用3nm工藝,可能使用定制的Nvidia 3NP或標準N3P。從3NP到4NP的轉變大幅提升了邏輯密度,但SRAM幾乎沒有縮減。
3、Rubin將具有更高的TDP——我們估計約為1800W,這甚至可能推動更高的時鐘頻率。
4、結構上,Nvidia逐代擴大的張量核systolic array將進一步擴大:從Hopper的32×32到Blackwell的64×64,Rubin可能擴展至128×128。更大的systolic array提供了更好的數據復用和較低的控制復雜度,同時在面積和功耗上更高效。盡管編程難度增加,但Nvidia憑借內置冗余和修復機制實現了極高的參數良率,這使得即使個別計算單元失效,整體性能仍能得到保障。這與TPU不同,后者的超大張量核沒有相同的容錯能力。
來源:Semianalysis
Rubin將繼續使用Oberon機架架構,如同GB200/300 NVL72,并配備Vera CPU——Grace的3nm繼任者。需要注意的是,Vera CPU將采用Nvidia全定制核心,而Grace則嚴重依賴Arm的Neoverse CSS核心。Nvidia還開發了一套定制互連系統,使得單個CPU核心能訪問更多內存帶寬,這一點是AMD和Intel難以匹敵的。
這就是新命名方式的由來。新機架將命名為VR200 NVL144,盡管系統架構與之前的GB200 NVL72類似,但由于每個封裝含有2個計算芯片,總計144個計算芯片(72個封裝×2個計算芯片/封裝),Nvidia正在改變我們統計GPU數量的方式!
至于AMD,其市場營銷團隊需要注意,AMD在宣稱MI300X家族可以擴展到64個GPU的規模上存在遺漏(每系統8個封裝×每封裝8個XCD芯片組),這是一個關鍵的市場機遇。
HBM與互連
Nvidia的HBM容量將一代比一代保持在288GB,但升級為HBM4:8個堆疊,每個12-Hi,層密度保持24GB/層。HBM4的應用使得總帶寬得以提升,13TB/s的總帶寬主要得益于總線寬度翻倍至2048位,針腳速度為6.5Gbps,符合JEDEC標準。
來源:Semianalysis
NVLink第六代的速度翻倍至3.6TB/s(雙向),這來自于通道數量翻倍,Nvidia仍采用224G SerDes。
回到Oberon機架,背板依然采用銅背板,但我們認為其電纜數量也相應增加,以適應每個GPU通道數量的翻倍。
NVSwitch方面,新一代NVSwitch ASIC也將通過通道數量翻倍來實現總帶寬的翻倍,這將進一步提高交換機的性能。
Rubin Ultra規格
來源:英偉達
Rubin Ultra是性能大幅提升的階段。Nvidia將直接在一個封裝中使用16個HBM堆疊,從8個增加至16個。整個機架將由4個掩模尺寸GPU組成,中間配有2個I/O芯片。計算區域翻倍,計算性能也翻倍至100 PFLOPs密集FP4性能。HBM容量增加到1024GB,超過普通Rubin的3.5倍。采用雙堆疊設計,同時密度和層數也提高。為達到1TB內存,封裝中將有16個HBM4E堆疊,每個堆疊有16層32Gb DRAM核心芯片。
我們認為,這種封裝將拆分為兩個互連器放置在基板上,以避免使用一個超大互連器(幾乎8倍于掩模大小)。中間的2個GPU芯片將通過薄型I/O芯片進行互聯,通信通過基板實現。這需要一個超大ABF基板,其尺寸超出當前JEDEC封裝尺寸限制(寬度和高度均為120mm)。
該系統擁有總計365TB的高速存儲,每個Vera CPU擁有1.2TB LPDDR,共計86TB(72個CPU),這為每個GPU封裝留下約2TB的LPDDR,作為額外的二級內存。這是對定制HBM基芯功能的實現。LPDDR內存控制器集成在基芯上,為額外的二級內存服務,該內存位于板上LPCAMM模塊上,與Vera CPU所帶的二級內存協同工作。
來源:Semianalysis
這也是我們將看到Kyber機架架構推出的時候。
Kyber機架架構
Kyber機架架構的關鍵新特性在于,Nvidia通過將機架旋轉90度來提高密度。對于NVL576(144個GPU封裝)的配置,這是大規模擴展網絡規模的又一重大提升。
來源:英偉達
讓我們來看一下Oberon機架與Kyber機架的關鍵區別:
來源:Semianalysis
·計算托盤旋轉90度,形成類似于卡盒的形態,從而實現更高的機架密度。
·每個機架由4個筒倉組成,每個筒倉包括兩層18個計算卡。
對于NVL576,每個計算卡中包含一個R300 GPU和一個Vera CPU。
每個筒倉總共有36個R300 GPU和36個Vera CPU。
這使得NVLink的世界規模達到144個GPU(576個芯片)。
·PCB背板取代了銅線背板,作為GPU與NVSwitch之間擴展鏈接的關鍵部件。
這一轉變主要是由于在較小的占地面積內難以布置電纜。
來源:英偉達
有跡象表明,供應鏈中出現了VR300 NVL1,152(288個GPU封裝)的Kyber機架變體。如果按照GTC主題演講中提到的晶圓數計算,您將看到紅色標注的288個GPU封裝。我們認為這可能是未來的一款SKU,其機架密度和NVLink世界規模將從展示的NVL576(144個封裝)翻倍至NVL1,152(288個封裝)。
此外,還有一款全新NVSwitch第七代,這一點值得注意。這是第一次引入中平臺的NVSwitch,使得交換機總帶寬和基數都有所提升,可擴展到單一域內576個GPU芯片(144個封裝),不過拓撲結構可能不再是全互聯的單級多平面結構,而可能轉為具有過度訂閱的兩級多平面網絡拓撲,或甚至采用非Clos拓撲。
Blackwell Ultra改進的指數級硬件單元
各種注意力機制(如flash-attention、MLA、MQA和GQA)都需要矩陣乘法(GEMM)和softmax函數(行歸約和元素級指數運算)。
在GPU中,GEMM運算主要由張量核執行。雖然每代張量核性能不斷提升,但負責softmax計算的多功能單元(MUFU)提升幅度較小。
在bf16(bfloat16)Hopper中,計算注意力層的softmax需要占用GEMM周期的50%。這要求內核工程師通過重疊計算來“隱藏”softmax的延遲,這使得編寫內核變得異常困難。
來源: Tri Dao @ CUDA Mode Hackathon 2024
在FP8(浮點數8位)的Hopper中,注意力層的softmax計算所需周期與GEMM相同。如果沒有任何重疊,注意力層的計算時間將翻倍,大約需要1536個周期來計算矩陣乘法,再加1536個周期來計算softmax。這就是重疊技術提高吞吐量的關鍵所在。由于softmax和GEMM所需周期相同,工程師需要設計出完美重疊的內核,但現實中很難達到這一理想狀態,根據阿姆達爾定律,完美重疊難以實現,硬件性能因此受損。
在Hopper GPU世界中,這一挑戰尤為明顯,第一代Blackwell也面臨類似問題。Nvidia通過Blackwell Ultra解決了這一問題,在重新設計SM(流多處理器)并增加新的指令后,使MUFU計算softmax部分的速度提升了2.5倍。這將減輕對完美重疊計算的依賴,使得CUDA開發者在編寫注意力內核時有更大的容錯空間。
來源: Tri Dao @ CUDA Mode Hackathon 2024
這正是Nvidia新的推理堆棧和Dynamo技術大顯身手的地方。
推理堆棧與Dynamo
在去年的GTC上,Nvidia討論了GB200 NVL72的大規模GPU擴展如何使推理吞吐量較H200在FP8下提升15倍。
來源:英偉達
Nvidia并未放緩步伐,而是在硬件和軟件領域同時加速推理吞吐量的提升。
Blackwell Ultra GB300 NVL72較GB200 NVL72在FP4密集性能上提升50%,同時HBM容量也提升50%,這兩項均將提高推理吞吐量。路線圖中還包括Rubin系列中網絡速度的多項升級,這也將顯著提升推理性能。
下一步硬件在推理吞吐量方面的躍升將來自Rubin Ultra中擴展的網絡規模,其規模將從Rubin中的144個GPU芯片(或封裝)擴展到576個GPU芯片,這只是硬件改進的一部分。
在軟件方面,Nvidia推出了Nvidia Dynamo——一個開放的AI引擎堆棧,旨在簡化推理部署和擴展。Dynamo有潛力顛覆現有的VLLM和SGLang,提供更多功能且性能更高。結合硬件創新,Dynamo將使推理吞吐量和交互性之間的曲線進一步右移,尤其是為需要更高交互性的應用場景提供改進。
來源:英偉達
Dynamo引入了多個關鍵新功能:
·Smart Router:智能路由器能在多GPU推理部署中合理分配每個Token,確保在預加載和解碼階段均衡負載,避免瓶頸。
·GPU Planner:GPU規劃器可以自動調整預加載和解碼節點,依據日內需求波動動態增加或重新分配GPU資源,進一步實現負載均衡。
·改進的NCCL Collective for Inference:Nvidia Collective Communications Library(NCCL)的新算法使得小消息傳輸延遲降低4倍,從而顯著提高推理吞吐量。
·NIXL(NVIDIA Inference Transfer Engine):NIXL利用InfiniBand GPU-Async Initialized(IBGDA)技術,將控制流和數據流均直接從GPU傳輸到NIC,無需通過CPU,極大降低延遲。
·NVMe KV-Cache Offload Manager:該模塊允許將KV Cache離線存儲到NVMe設備,避免在多輪對話中重復計算,從而加速響應并釋放預加載節點容量。
智能路由器
智能路由器能在多GPU推理部署中智能地將每個token同時路由到預加載(prefill)和解碼(decode)GPU上。在預加載階段,確保傳入的tokens均勻分配到各個負責預加載的GPU上,從而避免某個expet參數模塊因流量過載而形成瓶頸。
同樣,在解碼階段,確保序列長度和請求在負責解碼的各GPU之間得到合理分配和平衡也十分關鍵。對于那些處理量較大的expet參數模塊,GPU規劃器(GPU Planner)還可將其復制,以進一步維持負載平衡。
此外,智能路由器還能在所有模型副本之間實現負載均衡,這一點是vLLM等許多推理引擎所不具備的優勢。
來源:英偉達
GPU規劃器
GPU規劃器是預加載和解碼節點的自動擴展器,可根據一天內需求的自然波動啟動額外節點。它能夠在基于專家模型(MoE)的多個expet參數模塊之間實施一定程度的負載均衡,無論是在預加載還是在解碼階段。GPU規劃器會啟動額外的GPU,為高負載expet參數模塊提供更多計算能力,并可根據需要在預加載和解碼節點之間動態重新分配資源,從而最大化資源利用率。
此外,它還支持調整用于解碼和預加載的GPU比例——這對像Deep Research這樣的應用尤為重要,因為這類應用需要預加載大量上下文信息,而實際生成的內容卻相對較少。
來源:英偉達
改進的NCCL集體通信
Nvidia Collective Communications Library (NCCL)中新增的一組低延遲通信算法,可以將小消息傳輸的延遲降低4倍,從而大幅提升整體推理吞吐量。
在今年的GTC上,Sylvain在演講中詳細介紹了這些改進,重點闡述了單次和雙次全歸約(all-reduce)算法如何實現這一效果。
由于AMD的RCCL庫實際上是Nvidia NCCL的復制版本,Sylvain對NCCL的重構將持續擴大CUDA的護城河,同時迫使AMD在同步Nvidia重大重構成果上耗費大量工程資源,而Nvidia則可以利用這些時間繼續推進集體通信軟件堆棧和算法的前沿發展。
來源:英偉達
NIXL —— Nvidia推理傳輸引擎
為了在預加載節點和解碼節點之間實現數據傳輸,需要低延遲、高帶寬的通信傳輸庫。NIXL采用InfiniBand GPU-Async Initialized (IBGDA)技術。
目前在NCCL中,控制流經過CPU代理線程,而數據流則直接傳輸到網卡,無需經過CPU緩沖。而使用IBGDA后,控制流與數據流均可直接從GPU傳輸到網卡,無需CPU中轉,從而大幅降低延遲。
此外,NIXL還能將在CXL、本地NVMe、遠程NVMe、CPU內存、遠程GPU內存及GPU之間傳輸數據的復雜性進行抽象,簡化數據移動流程。
來源:英偉達
NVMe KVCache卸載管理器
KVCache卸載管理器通過將之前用戶對話中生成的KV緩存存儲到NVMe設備中,而非直接丟棄,來提高預加載階段整體效率。
來源:英偉達
在用戶與大型語言模型(LLM)進行多輪對話時,模型需要將前期問答作為輸入token納入考量。傳統上,推理系統會丟棄用于生成這些問答的KV緩存,導致必須重新計算,從而重復同樣的計算過程。
而采用NVMe KVCache卸載后,當用戶暫時離開時,KV緩存會被卸載到NVMe存儲中;當用戶重新提問時,系統可以迅速從NVMe中檢索KV緩存,免去了重新計算的開銷。
這不僅釋放了預加載節點的計算能力,使其能夠處理更多的輸入流量,同時還改善了用戶體驗,顯著縮短了從開始對話到接收到第一個token的時間。
來源:英偉達
根據DeepSeek在開源周第6天的GitHub說明,研究人員披露其磁盤KV緩存命中率為56.3%,表明在多輪對話中典型的KV緩存命中率可達到50%-60%,這對預加載部署效率提升起到了顯著作用。雖然在對話較短時,重新計算可能比加載更便宜,但總體來看,采用NVMe存儲方案所帶來的節約成本是巨大的。
追蹤DeepSeek開源周的朋友對上述技術應該并不陌生。這些技術堪稱快速了解Nvidia Dynamo創新成果的絕佳途徑,而Nvidia也將推出更多關于Dynamo的文檔。
所有這些新特性共同實現了推理性能的大幅加速。Nvidia甚至討論過,當Dynamo部署在現有的H100節點上時,性能如何進一步提升。基本上,Dynamo使得DeepSeek的創新成果普惠整個社區,不僅限于那些擁有頂尖推理部署工程能力的AI實驗室,所有用戶都能部署高效的推理系統。
最后,由于Dynamo能夠廣泛處理分散推理和專家并行性,它特別有利于單個復制和更高交互性部署。當然,要充分發揮Dynamo的能力,必須有大量節點作為前提,從而實現顯著的性能改進。
來源:英偉達
這些技術共同帶來了推理性能的巨大提升。Nvidia提到,當Dynamo部署在現有的H100節點上時,也能實現顯著的性能改進。換句話說,Dynamo使得整個開源推理技術的最佳成果惠及所有用戶,不僅僅是那些擁有深厚工程背景的頂級AI實驗室。這讓更多的企業能夠部署高效的推理系統,降低整體成本,提高應用的交互性和擴展性。
AI總擁有成本下降
在討論完Blackwell之后,黃仁勛強調,這些創新已使他成為“首席收入破壞者”。他指出,Blackwell相比Hopper的性能提升達68倍,使得成本下降了87%。而Rubin預計將實現比Hopper高900倍的性能提升,成本降低99.97%。
顯然,Nvidia正以不懈的步伐推動技術進步——正如黃仁勛所言:“當Blackwell開始大規模出貨時,你甚至不可能把Hopper免費送出。”
來源:英偉達
我們早在去年10月的《AI Neocloud行動指南》中就強調,產品周期早期部署計算能力的重要性,而這正是驅動H100租賃價格從2024年中期開始加速下跌的原因。我們一直呼吁整個生態系統優先部署下一代系統,如B200和GB200 NVL72,而不是繼續采購H100或H200。
我們的AI云總擁有成本(TCO)模型已經向客戶展示了各代芯片生產率的躍升,以及這種躍升如何推動AI Neocloud租賃價格的變化,進而影響芯片所有者的凈現值。截至目前,我們在2024年初發布的H100租賃價格預測模型準確率達到98%。
來源: AI TCO Model
CPO(共封裝光學)技術
來源:英偉達
在主題演講中,Nvidia宣布了首個共封裝光學(CPO)解決方案,將其部署于擴展交換機中。通過CPO,收發器被外部激光源(ELS)取代,與直接放置在芯片硅片旁邊的光學引擎(OE)協同工作,實現數據通信。現在,光纖直接插入交換機上的端口,將信號路由至光學引擎,而不再依賴傳統收發器端口。
來源:英偉達
CPO的主要優勢在于顯著降低功耗。由于交換機上不再需要數字信號處理器(DSP),而且可以使用功耗更低的激光光源,因此實現了顯著的功耗節省。使用線性可插光模塊(LPO)也能取得類似效果,但CPO還允許更高的交換機基數,從而將網絡結構扁平化——使得整個集群能夠通過使用CPO實現兩層網絡,而非傳統三層網絡。這樣不僅降低了成本,也節約了功耗,這種節能效果幾乎和降低收發器功耗一樣顯著。
我們的分析顯示,對于一個400k* GB200 NVL72部署而言,從基于DSP收發器的三層網絡轉向基于CPO的兩層網絡,總集群功耗節省最高可達12%,使得收發器功耗從占計算資源的10%降至僅1%。
來源:Semianalysis
Nvidia今天推出了多款基于CPO的交換機,包括Quantum X-800 3400的CPO版本,該交換機去年在GTC 2024上首發,具有144個800G端口,總吞吐量達到115T,并將配備144個MPO端口和18個ELS。該交換機將于2025年下半年推出。另一款Spectrum-X交換機提供512個800G端口,同樣適用于高速、扁平化的網絡拓撲,該以太網CPO交換機計劃于2026年下半年推出。
來源:英偉達
盡管今天的發布已經具有突破性意義,我們仍認為Nvidia在CPO領域僅僅是熱身。長遠來看,CPO在規模化網絡中的最大貢獻在于,它能夠大幅提升GPU擴展網絡的基數和聚合帶寬,從而實現更快、更扁平的網絡拓撲,開啟遠超576 GPU的規模化世界。我們將很快發布一篇更詳細的文章,深入探討Nvidia的CPO解決方案。
Nvidia依舊稱王,瞄準你的計算成本
今天,《Information》發布了一篇文章,稱亞馬遜Trainium芯片的定價僅為H100價格的25%。與此同時,黃仁勛宣稱:“當Blackwell開始大規模出貨時,你甚至無法將H100免費送出。”我們認為這一說法極具分量。
技術進步正在推動總體擁有成本的下降,而除了TPU之外,我們在各處都能看到Nvidia路線圖的復制品。而黃仁勛正推動技術邊界的不斷突破。新的架構、機架設計、算法改進以及CPO技術都使Nvidia與競爭對手形成鮮明對比。
Nvidia在幾乎所有領域都處于領先地位,而當競爭對手追趕上來時,他們會在另一個方向繼續突破。隨著Nvidia保持一年一度的升級節奏,我們預計這一勢頭將繼續。
有人談論ASIC將是計算的未來,但我們已經看到,像CPU時代那樣的平臺優勢很難被超越。Nvidia正在通過GPU重新構建這種平臺,我們預期他們將繼續走在前沿。
正如黃仁勛所說,“祝你好運,跟上這位首席收入破壞者的步伐。”
來源:華爾街見聞
為偉大思想而生!
AI+時代,互聯網思想(wanging0123),
第一必讀自媒體
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.