網易首頁 > 網易號 > 正文申請入駐

剛剛，黃仁勛甩出三代核彈 AI 芯片！個人超算每秒運算 1000 萬億次，DeepSeek 成最大贏家

2025-03-19 07:07:57　來源: 愛范兒

廣東舉報

分享至

英偉達 GTC 大會已經成了 AI 界超級碗，沒有劇本也沒有提詞器，中途黃仁勛被線纜卡住，反而是這場高濃度 AI 發布會里最有人味的片段，在當今提前基本提前彩排或錄播的科技發布會里已經很稀缺了。

剛剛，黃仁勛再次發布了全新一代核彈級 AI 芯片，不過這場發布會的還有個隱藏主角——DeepSeek。

由于智能體 AI（Agentic AI）和推理能力的提升，現在所需的計算量至少是去年此時預估的 100 倍。

推理成本效率給 AI 行業帶來影響，而不是簡單地堆積計算能力，成為貫穿這場發布會的主線。英偉達要變成 AI 工廠，讓 AI 以超越人類的速度學習和推理。

推理本質上是一座工廠在生產 token，而工廠的價值取決于能否創造收入和利潤。因此，這座工廠必須以極致的效率打造。

黃仁勛掏出的英偉達新「核彈」也在告訴我們，未來的人工智能競爭不在于誰的模型更大，而在于誰的模型具有最低的推理成本和更高推理的效率。

除了全新 Blackwell 芯片，還有兩款「真·AI PC」

全新的 Blackwell 芯片代號為「Ultra」，也就是 GB300 AI 芯片，接棒去年的「全球最強 AI 芯片」B200，再一次實現性能上的突破.

Blackwell Ultra 將包括英偉達 GB300 NVL72 機架級解決方案，以及英偉達 HGX B300 NVL16 系統。

Blackwell Ultra GB300 NVL72 將于今年下半年發布，參數細節如下：

1.1 EF FP4 Inference：在進行 FP4 精度的推理任務時，能夠達到 1.1 ExaFLOPS（每秒百億億次浮點運算）。
0.36 EF FP8 Training：在進行 FP8 精度的訓練任務時，性能為 1.2 ExaFLOPS。
1.5X GB300 NVL72：與 GB200 NVL72 相比，性能為 1.5 倍。
20 TB HBM3：配備了 20TB HBM 內存，是前代的 1.5 倍
40 TB Fast Memory：擁有 40TB 的快速內存，是前代的 1.5 倍。
14.4 TB/s CX8：支持 CX8，帶寬為 14.4 TB/s，是前代的 2 倍。

單個 Blackwell Ultra 芯片將和前代一樣提供相同的 20 petaflops（每秒千萬億次浮點運算） AI 性能，但配備更多的 288GB 的 HBM3e 內存。

如果說 H100 更適合大規模模型訓練，B200 在推理任務中表現出色，那么 B300 則是一個多功能平臺，預訓練、后訓練和 AI 推理都不在話下。

英偉達還特別指出，Blackwell Ultra 也適用于 AI 智能體，以及用于訓練機器人和汽車自動駕駛的「物理 AI」。

為了進一步增強系統性能，Blackwell Ultra 還將與英偉達的 Spectrum-X 以太網和英偉達 Quantum-X800 InfiniBand 平臺集成，為系統中的每個 GPU 提供 800Gb/s 的數量吞吐量，幫助 AI 工廠和云數據中心能夠更快處理 AI 推理模型。

除了 NVL72 機架，英偉達還推出了包含單個 GB300 Blackwell Ultra 芯片的臺式電腦 DGX Station。Blackwell Ultra 之外，這個主機還將配備 784GB 的同一系統內存，內置 800Gbps 英偉達 ConnectX-8 SuperNIC 網絡，能夠支持 20 petaflops 的 AI 性能。

而之前在 CES 2025 展示的「迷你主機」Project DIGITS 也正式被命名為 DGX Spark，搭載專為桌面優化的 GB10 Grace Blackwell 超級芯片，每秒可提供高達 1000 萬億次 AI 計算操作，用于最新 AI 推理模型的微調和推理，包括 NVIDIA Cosmos Reason 世界基礎模型和 NVIDIA GR00T N1 機器人基礎模型。

黃仁勛表示，借助 DGX Station 和 DGX Spark，用戶可以在本地運行大模型，或者將其部署在 NVIDIA DGX Cloud 等其他加速云或者數據中心基礎設施上。

這是 AI 時代的計算機。

DGX Spark 系統現已開放預訂，而 DGX Station 預計將由華碩、戴爾、惠普等合作伙伴于今年晚些時候推出。

下一代 AI 芯片 Rubin 官宣，2026 年下半年推出

英偉達一直以科學家的名字為其架構命名，這種命名方式已成為英偉達文化的一部分。這一次，英偉達延續了這一慣例，將下一代 AI 芯片平臺命名為「Vera Rubin」，以紀念美國著名天文學家薇拉·魯賓（Vera Rubin）。

黃仁勛表示，Rubin 的性能將達到 Hopper 的 900 倍，而 Blackwell 相較 Hopper 已實現了 68 倍的提升。

其中，Vera Rubin NVL144 預計將在 2026 年下半年發布。參數信息省流不看版：

3.6 EF FP4 Inference：在進行 FP4 精度的推理任務時，能夠達到 3.6 ExaFLOPS（每秒百億億次浮點運算）。
1.2 EF FP8 Training：在進行 FP8 精度的訓練任務時，性能為 1.2 ExaFLOPS。
3.3X GB300 NVL72：與 GB300 NVL72 相比，性能提升了 3.3 倍。
13 TB/s HBM4：配備了 HBM4，帶寬為 13TB/s。
75 TB Fast Memory：擁有 75 TB 的快速內存，是前代的 1.6 倍。
260 TB/s NVLink6：支持 NVLink 6，帶寬為 260 TB/s，是前代的 2 倍。
28.8 TB/s CX9：支持 CX9，帶寬為 28.8 TB/s，是前代的 2 倍。

標準版 Rubin 將配備 HBM4，性能比當前的 Hopper H100 芯片大幅提升。

Rubin 引入名為 Grace CPU 的繼任者——Veru，包含 88 個定制的 Arm 核心，每個核心支持 176 個線程，并通過 NVLink-C2C 實現 1.8 TB/s 的高帶寬連接。

英偉達表示，定制的 Vera 設計將比去年 Grace Blackwell 芯片中使用的 CPU 速度提升一倍。

與 Vera CPU 搭配時，Rubin 在推理任務中的算力可達 50 petaflops，是 Blackwell 20 petaflops 的兩倍以上。此外，Rubin 還支持高達 288GB 的 HBM4 內存，這也是 AI 開發者關注的核心規格之一。

實際上，Rubin 由兩個 GPU 組成，而這一設計理念與當前市場上的 Blackwell GPU 類似——后者也是通過將兩個獨立芯片組裝為一個整體運行。

從 Rubin 開始，英偉達將不再像對待 Blackwell 那樣把多 GPU 組件稱為單一 GPU，而是更準確地按照實際的 GPU芯片裸片數量來計數。

互聯技術也升級了，Rubin 配備第六代 NVLink，以及支持 1600 Gb/s 的 CX9 網卡，能夠加速數據傳輸并提升連接性。

除了標準版 Rubin，英偉達還計劃推出 Rubin Ultra 版本。

Rubin Ultra NVL576 則將于 2027 年下半年推出。參數細節如下：

15 EF FP4 Inference：在 FP4 精度下進行推理任務時，性能達到 15 ExaFLOPS。
5 EF FP8 Training：在 FP8 精度下進行訓練任務時，性能為 5 ExaFLOPS。
14X GB300 NVL72：相比 GB300 NVL72，性能提升 14 倍。
4.6 PB/s HBM4e：配備 HBM4e 內存，帶寬為 4.6 PB/s。
365 TB Fast Memory：系統擁有 365 TB 的快速內存，是前代的 8 倍。
1.5 PB/s NVLink7：支持 NVLink 7，帶寬為 1.5 PB/s，是前代的 12 倍。
115.2 TB/s CX9：支持 CX9，帶寬為 115.2 TB/s，是前代的 8 倍。

在硬件配置上，Rubin Ultra 的 Veras 系統延續了 88 個定制 Arm 核心的設計，每個核心支持 176 個線程，并通過 NVLink-C2C 提供 1.8 TB/s 的帶寬。

而 GPU 方面，Rubin Ultra 集成了 4 個 Reticle-Sized GPU，每顆 GPU 提供 100 petaflops 的 FP4 計算能力，并配備 1TB 的 HBM4e 內存，在性能和內存容量上都達到了新的高度。

為了在瞬息萬變的市場競爭中站穩腳跟，英偉達的產品發布節奏已經縮短至一年一更。發布會上，老黃也正式揭曉下一代 AI 芯片的命名——物理學家費曼(Feynman)。

隨著 AI 工廠的規模不斷擴大，網絡基礎設施的重要性愈發凸顯。

為此，英偉達推出了 Spectrum-X? 和 Quantum-X 硅光網絡交換機，旨在幫助 AI 工廠實現跨站點連接數百萬 GPU，同時顯著降低能耗和運營成本。

Spectrum-X Photonics 交換機具有多種配置，包括：

128 端口 800Gb/s或 512 端口 200Gb/s 配置，總帶寬達 100Tb/s
512 端口 800Gb/s或 2048 端口200Gb/s配置，總吞吐量達 400Tb/s

與之配套的 Quantum-X Photonics 交換機則基于 200Gb/s SerDes 技術，提供 144 端口 800Gb/s 的 InfiniBand 連接，并采用液冷設計高效冷卻板載硅光子組件

與上一代產品相比，Quantum-X Photonics 交換機為 AI 計算架構提供 2 倍速度和 5 倍可擴展性。

Quantum-X Photonics InfiniBand 交換機預計于今年晚些時候上市，而 Spectrum-X Photonics 以太網交換機預計將于 2026 年推出。

隨著 AI 的快速發展，對數據中心的帶寬、低延遲和高能效需求也急劇增加。

英偉達 Spectrum-X Photonics 交換機采用了一種名為 CPO 的光電子集成技術。其核心是將光引擎（就是能處理光信號的芯片）和普通的電子芯片（比如交換芯片或 ASIC 芯片）放在同一個封裝里。

這種技術的好處很多：

傳輸效率更高：因為距離縮短，信號傳輸更快。
功耗更低：距離短了，傳輸信號需要的能量也少了。
體積更小：把光和電的部件集成在一起，整體體積也變小了，空間利用率更高。

AI 工廠的「操作系統」Dynamo

未來將沒有數據中心，只有 AI 工廠。

黃仁勛表示，未來，每個行業、每家公司擁有工廠時，都將有兩個工廠：一個是他們實際生產的工廠，另一個是 AI 工廠，而 Dynamo 則是專門為「AI 工廠」打造的操作系統。

Dynamo 是一款分布式推理服務庫，為需要 token 但又無法獲得足夠 token 的問題提供開源解決方案。

簡單來說，Dynamo 有四個方面的優勢：

GPU 規劃引擎，動態調度 GPU 資源以適應用戶需求
智能路由器，減少 GPU 對重復和重疊請求的重新計算，釋放更多算力應對新的傳入請求
低延遲通信庫，加速數據傳輸
內存管理器，智能在低成本內存和存儲設備中的推理數據

人形機器人的露臉環節，永遠不會缺席

人形機器人再一次成為了 GTC 大會的壓軸節目，這次英偉達帶來了 Isaac GR00T N1，全球首款開源人形機器人功能模型。

黃仁勛表示，通用機器人技術的時代已經到來，借助 Isaac GR00T N1 核心的數據生成以及機器人學習框架，全球各地的機器人開發人員將進入 AI 時代的下一個前沿領域。

這個模型采用「雙系統」架構，模仿人類的認知原理：

系統 1：快速思考的動作模型，模仿人類的反應或直覺
系統 2：慢思考的模型，用于深思熟慮的決策。

在視覺語言模型的支持下，系統 2 對環境和指令進行推理，然后規劃動作，系統 1 將這些規劃轉化為機器人的的動作。

GR00T N1 的基礎模型采用廣義類人推理和技能進行了預訓練，而開發人員可以通過真實或合成數據進行后訓練，滿足特定的需求：既可以完成工廠的特定任務，也可以在家里自主完成家務。

黃仁勛還宣布了與 Google DeepMind 和 Disney Research 合作開發的開源物理引擎 Newton。

一臺搭載 Newton 平臺的機器人也登上了舞臺，黃仁勛稱之為「Blue」，外觀神似《星球大戰》中的 BDX 機器人，能夠用聲音和動作和黃仁勛互動。

8 塊 GPU，DeepSeek-R1 推理速度創全球之最

英偉達實現了全球最快的 DeepSeek-R1 推理。

官網顯示，一臺搭載 8 個 Blackwell GPU 的 DGX 系統，在運行 6710 億參數的 DeepSeek-R1 模型時，可實現每用戶每秒超過 250 個 token 的速度，或達到最高吞吐量每秒超過 30000 個 token。

通過硬件和軟件的結合，自今年 1 月以來，英偉達在 DeepSeek-R1 671B 模型上的吞吐量提升了約 36 倍，每 token 的成本效率提高了約 32 倍。

為了實現這一成就，英偉達完整的推理生態系統已針對 Blackwell 架構進行了深度優化，不僅整合 TensorRT-LLM、TensorRT Model Optimizer 等先進工具，還無縫支持 PyTorch、JAX 和 TensorFlow 等主流框架。

在 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型上，采用 FP4 精度的 DGX B200 平臺相較于 DGX H200 平臺，推理吞吐量提升超過 3 倍。

值得注意的是，此次發布會的主題演講并未提及量子計算，但英偉達特意在這屆 GTC 大會設置了量子日，邀請了多家當紅量子計算公司的 CEO 出席。

要知道黃仁勛年初一句「量子計算還需 20 年才實用」的論斷猶在耳畔。

一改口風的背后，離不開微軟耗時 17年研發的拓撲量子芯片 Majorana 1 實現 8 個拓撲量子比特集成，離不開 Google Willow 芯片宣稱用 5 分鐘完成經典計算機需 10^25 年處理的任務，推動了量子計算的熱潮。

芯片無疑是重頭戲，但一些軟件的亮相同樣值得關注。

硅谷著名投資人馬克·安德森曾提出軟件正在吞噬世界（Software is eating the world）的論斷，其核心邏輯在于軟件通過虛擬化、抽象化和標準化，正在成為控制物理世界的基礎設施。

不滿足于做「賣鏟人」，英偉達的野心是打造 AI 時代的「生產力操作系統」。從汽車智能駕駛，到制造業的數字孿生工廠，這些貫穿整場發布會的案例都是將 GPU 算力轉化為行業生產力的具象化表達。

實際上，無論是發布會上亮相的最新核彈芯片，還是押注戰未來的量子計算，黃仁勛在這場發布會上對 AI 未來發展的洞察和布局，都比當下的技術參數與性能指標更具看點。

在介紹 Blackwell 與 Hopper 架構的對比時，黃仁勛還不忘幽默一把。

他以一個 100MW 工廠的對比數據為例，指出采用 Hopper 架構需要 45,000 顆芯片和 400 個機架，而 Blackwell 架構憑借更高的效率顯著減少了硬件需求。

于是，黃仁勛那句經典的總結再次拋出，「the more you buy, the more you save」（買得越多，省得越多）。」隨后話鋒一轉，他又補充說，「the more you buy, the more you make」（買得越多，賺得越多）。

隨著 AI 領域的重心從訓練轉向推理，英偉達更需要證明其軟硬件生態在推理場景的不可替代性。

一方面，Meta、Google 等巨頭自研 AI 芯片，可能分流 GPU 市場需求。

另一方面，英偉達最新 AI 芯片的適時亮相，回應如 DeepSeek 的開源模型對 GPU 需求的沖擊，并展示推理領域技術優勢，也是為了對沖市場對訓練需求見頂的擔憂。

最近估值跌至 10 年低位的英偉達，比以往任何時候都需要一場酣暢淋漓的勝利。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.