網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

滿血版3萬(wàn)Tokens每秒，英偉達(dá)捅破DeepSeek推理性能天花板！

2025-03-21 17:47:00　來(lái)源: AI全球總部

北京舉報(bào)

分享至

30000個(gè)tokens每秒，太炸裂了！

剛剛，英偉達(dá)在2025GTC大會(huì)上宣布了創(chuàng)世界紀(jì)錄的滿血 DeepSeek-R1 推理性能。

DGX系統(tǒng)搭載八顆NVIDIA Blackwell GPU，在DeepSeek-R1模型（6710億參數(shù)）推理任務(wù)中創(chuàng)下了世界紀(jì)錄↓

單用戶推理速度超過(guò)每秒250個(gè)token，峰值吞吐量超過(guò)每秒30000個(gè)token。

這一突破性的性能提升，得益于針對(duì)NVIDIA Blackwell架構(gòu)深度優(yōu)化的NVIDIA開放生態(tài)推理開發(fā)工具鏈。

但這還是只是牛刀小試↓

隨著NVIDIA平臺(tái)持續(xù)探索Blackwell Ultra GPU和Blackwell GPU架構(gòu)的極限潛力，這些推理性能的天花板會(huì)不斷被捅破。

圖1. 在NVL8配置下運(yùn)行TensorRT-LLM軟件的NVIDIA B200 GPU，在滿血DeepSeek-R1 671B模型上實(shí)現(xiàn)了每秒每位用戶最高的已發(fā)布token生成速度。

單臺(tái)DGX B200（8顆GPU）系統(tǒng)與單臺(tái)DGX H200（8顆GPU）系統(tǒng)的性能對(duì)比：

B200和H200的測(cè)試數(shù)據(jù)分別來(lái)自3月和2月，使用內(nèi)部版本的TensorRT-LLM工具。

測(cè)試條件：3月，輸入長(zhǎng)度為1,024個(gè)token，輸出長(zhǎng)度為2,048個(gè)token；1月和2月份，輸入和輸出均為1,024個(gè)token。

并發(fā)度設(shè)為1，B200系統(tǒng)使用FP4精度，H100和H200系統(tǒng)使用FP8精度。

圖2. 通過(guò)硬件和軟件的結(jié)合，NVIDIA自2025年1月以來(lái)將DeepSeek-R1 671B模型的吞吐量提高了約36倍，相當(dāng)于每個(gè)token的成本降低了約32倍。

最大吞吐量（標(biāo)準(zhǔn)化為8顆GPU系統(tǒng)）對(duì)比：

包括單臺(tái)DGX B200（8顆GPU）系統(tǒng)、單臺(tái)DGX H200（8顆GPU）系統(tǒng)，以及兩臺(tái)DGX H100（各8顆GPU，共16顆GPU）系統(tǒng)。測(cè)試數(shù)據(jù)來(lái)自內(nèi)部版本的TensorRT-LLM工具。

3月測(cè)試：輸入1,024個(gè)token，輸出2,048個(gè)token。

1月和2月測(cè)試：輸入和輸出均為1,024個(gè)token。

并發(fā)度設(shè)為最大值（MAX），B200使用FP4精度，H200和H100使用FP8精度。

NVIDIA 擁有全球規(guī)模最大的推理生態(tài)系統(tǒng)，幫助開發(fā)者靈活地打造針對(duì)自身部署需求的AI解決方案，無(wú)論目標(biāo)是追求最佳用戶體驗(yàn)還是最大效率，都可以輕松實(shí)現(xiàn)。

該生態(tài)系統(tǒng)不僅包括NVIDIA官方提供的開源工具，也涵蓋了來(lái)自社區(qū)的豐富貢獻(xiàn)，共同發(fā)揮最新一代Blackwell架構(gòu)和軟件技術(shù)的全部潛力。

Blackwell架構(gòu)在性能上實(shí)現(xiàn)了大幅度提升，包括：

? 第五代Tensor Core搭載FP4精度加速，AI算力最高提升至前代的5倍；

? 第五代NVLink和NVLink Switch技術(shù)，相較前代NVLink帶寬提高2倍；

? 支持規(guī)模更大的NVLink網(wǎng)絡(luò)域擴(kuò)展能力。

無(wú)論從單芯片性能還是數(shù)據(jù)中心整體規(guī)模來(lái)看，這些創(chuàng)新都是推動(dòng)前沿大模型（如DeepSeek-R1）實(shí)現(xiàn)高吞吐量和低延遲推理的關(guān)鍵。

然而，僅憑強(qiáng)大的硬件基礎(chǔ)設(shè)施不足以滿足加速計(jì)算的需求，更重要的是配套一整套持續(xù)優(yōu)化且快速更新的軟件堆棧，以確保當(dāng)前的高強(qiáng)度任務(wù)高效運(yùn)行，同時(shí)為未來(lái)更具挑戰(zhàn)性的任務(wù)做好準(zhǔn)備。

為此，NVIDIA始終致力于優(yōu)化技術(shù)棧的每一層，包括芯片、系統(tǒng)、庫(kù)和算法，以實(shí)現(xiàn)卓越的工作負(fù)載性能。

以下將全面介紹NVIDIA推理生態(tài)系統(tǒng)的多項(xiàng)更新，涉及的重要軟件組件包括：

? NVIDIA TensorRT-LLM

? NVIDIA TensorRT

? TensorRT Model Optimizer

? CUTLASS

? NVIDIA cuDNN

? 主流AI框架（PyTorch、JAX、TensorFlow等）

此外，英偉達(dá)還分享了最新的性能與精度數(shù)據(jù)，這些數(shù)據(jù)是在搭載8顆Blackwell GPU并使用兩個(gè)NVLink Switch芯片互聯(lián)的NVIDIA DGX B200系統(tǒng)上實(shí)測(cè)獲得的。

太長(zhǎng)不看的分界線

TensorRT生態(tài)系統(tǒng)：專為NVIDIA Blackwell優(yōu)化的全家桶

NVIDIA TensorRT生態(tài)系統(tǒng)旨在幫助開發(fā)者充分優(yōu)化在NVIDIA GPU上的生產(chǎn)環(huán)境推理部署。

該生態(tài)包含一系列庫(kù)工具，支持AI模型從預(yù)處理、加速優(yōu)化，到最終的生產(chǎn)環(huán)境部署，全流程均已針對(duì)最新的NVIDIA Blackwell架構(gòu)實(shí)現(xiàn)深度優(yōu)化。

與上一代Hopper架構(gòu)相比，Blackwell架構(gòu)在推理性能上持續(xù)展現(xiàn)出巨大的提升。

模型優(yōu)化的第一步：TensorRT Model Optimizer

TensorRT Model Optimizer是實(shí)現(xiàn)推理速度優(yōu)化的重要第一步。它提供了一系列先進(jìn)的模型優(yōu)化技術(shù)，包括：

? 量化（Quantization）

? 蒸餾（Distillation）

? 剪枝（Pruning）

? 稀疏化（Sparsity）

? 推測(cè)解碼（Speculation Decoding）

這些技術(shù)能夠大幅提升模型在推理階段的運(yùn)行效率。

最新發(fā)布的TensorRT Model Optimizer 0.25版本現(xiàn)已支持Blackwell架構(gòu)上的FP4精度，適用于訓(xùn)練后量化（PTQ）與量化感知訓(xùn)練（QAT），進(jìn)一步提升了推理計(jì)算吞吐量，并降低了下游推理框架的內(nèi)存消耗。

專為大模型推理優(yōu)化的TensorRT-LLM

模型優(yōu)化完成后，高性能推理框架對(duì)于高效運(yùn)行至關(guān)重要。TensorRT-LLM為開發(fā)者提供了豐富的工具箱，支持實(shí)現(xiàn)實(shí)時(shí)、高性價(jià)比、高能效的大模型（LLM）推理。

最新發(fā)布的TensorRT-LLM 0.17版本新增了對(duì)Blackwell架構(gòu)的支持，并針對(duì)Blackwell的指令集、內(nèi)存層次結(jié)構(gòu)及FP4精度做了定制化優(yōu)化。

基于PyTorch架構(gòu)的TensorRT-LLM，通過(guò)為常見大模型推理操作提供高性能且靈活的內(nèi)核（Kernels），以及先進(jìn)的運(yùn)行時(shí)特性。

包括動(dòng)態(tài)批處理（in-flight batching）、KV緩存管理和推測(cè)式解碼（speculative decoding），實(shí)現(xiàn)了卓越的性能表現(xiàn)。

主流深度學(xué)習(xí)框架及其他LLM推理框架的全面支持

目前，廣泛使用的深度學(xué)習(xí)框架如PyTorch、JAX和TensorFlow均已升級(jí)，全面支持Blackwell架構(gòu)下的訓(xùn)練與推理。

此外，社區(qū)熱門的LLM服務(wù)框架如vLLM與Ollama也已適配Blackwell GPU，其他框架的支持也將在近期陸續(xù)跟進(jìn)。

Blackwell配合TensorRT的軟件堆棧帶來(lái)顯著推理性能提升

得益于Blackwell架構(gòu)與TensorRT軟件的協(xié)同優(yōu)化，相較上一代Hopper架構(gòu)，推理性能獲得大幅提升。

這種性能增長(zhǎng)的核心來(lái)自顯著提高的計(jì)算能力、更大的內(nèi)存帶寬，以及高度優(yōu)化的軟件棧，共同確保了卓越的實(shí)際運(yùn)行性能。

以社區(qū)廣泛使用的大模型為例，包括DeepSeek-R1、Llama 3.1（405B參數(shù)）和Llama 3.3（70B參數(shù)），DGX B200平臺(tái)在使用TensorRT推理軟件與FP4精度的情況下，推理吞吐量已超過(guò)DGX H200平臺(tái)的3倍以上，性能優(yōu)勢(shì)極為突出。

圖3. 使用搭載NVIDIA Blackwell GPU的NVIDIA HGX B200以及FP4，與上一代運(yùn)行FP8的GPU相比，Llama 3.1 70B、Llama 3.1 405B和DeepSeek-R1的推理吞吐量（tokens/sec）提升情況。

以下為初步規(guī)格，可能會(huì)有所更改。

TensorRT 模型優(yōu)化器 v0.23.0。TensorRT-LLM v0.17.0。最大批量大小為 2048，實(shí)際批量大小通過(guò) TensorRT-LLM Inflight Batching 動(dòng)態(tài)調(diào)整。H200 FP16/BF16 GEMM + FP8 KV 緩存。B200 FP4 GEMM + FP8 KV 緩存。吞吐量提升。

Llama 3.3 70B: ISL 2048, OSL 128

Llama 3.1 405B: ISL 2048, OSL 128

DeepSeek-R1: ISL 1024, OSL 1024

在對(duì)模型進(jìn)行量化以利用低精度計(jì)算的優(yōu)勢(shì)時(shí)，確保最小的精度損失對(duì)于生產(chǎn)部署至關(guān)重要。

對(duì)于 DeepSeek-R1，TensorRT 模型優(yōu)化器的 FP4 訓(xùn)練后量化（PTQ）在各種數(shù)據(jù)集上相較于 FP8 基線表現(xiàn)出極小的精度損失，如表 1 所示。

表1. DeepSeek-R1模型在FP8/FP4精度下的MMLU/GSM8K/AIME24/GPQA/MATH-500準(zhǔn)確率（PTQ量化后）

表2提供了基于BF16基準(zhǔn)精度以及在流行的Llama 3.1 405B和Llama 3.3 70B模型上使用FP4量化后的準(zhǔn)確性結(jié)果。

表2. Llama模型在BF16/FP4精度下的MMLU和GSM8K準(zhǔn)確率（PTQ量化后）

在以低精度（例如FP4）部署時(shí)，如果可以獲取微調(diào)數(shù)據(jù)集，則可以應(yīng)用量化感知訓(xùn)練（QAT）來(lái)恢復(fù)精度。

為了展示QAT的價(jià)值，使用TensorRT模型優(yōu)化器通過(guò)QAT將NVIDIA Nemotron 4 15B和Nemotron 4 340B模型量化為FP4，與BF16基準(zhǔn)相比實(shí)現(xiàn)了無(wú)損的FP4量化（表3）。

表3. FP4 PTQ和QAT相對(duì)于BF16基準(zhǔn)的vMMLU 5-shot準(zhǔn)確率。模型優(yōu)化器QAT實(shí)現(xiàn)了Nemotron 4 15B和Nemotron 4 340B的無(wú)損量化。

使用TensorRT與TensorRT Model Optimizer的FP4精度提升Blackwell平臺(tái)圖像生成效率

此前，NVIDIA的TensorRT和TensorRT Model Optimizer已通過(guò)INT8和FP8等8比特量化技術(shù)，大幅提升了擴(kuò)散模型（Diffusion Models）在圖像生成任務(wù)中的性能。

現(xiàn)在，隨著NVIDIA Blackwell架構(gòu)與FP4精度的出現(xiàn)，AI圖像生成的效率再度實(shí)現(xiàn)了飛躍。

這一性能優(yōu)勢(shì)不僅適用于數(shù)據(jù)中心和專業(yè)平臺(tái)，也同樣惠及搭載NVIDIA GeForce RTX 50系列GPU的個(gè)人AI電腦（AI PC），使用戶能在本地快速生成高質(zhì)量圖像。

由Black Forest Labs推出的Flux.1模型系列屬于業(yè)內(nèi)領(lǐng)先的文本到圖像（Text-to-Image）生成模型，具有卓越的文本提示遵循能力，能夠生成豐富復(fù)雜的場(chǎng)景。

開發(fā)者現(xiàn)已可從Black Forest Labs在Hugging Face上提供的模型庫(kù)中下載FP4量化的Flux模型，并直接使用TensorRT進(jìn)行部署。

這些FP4量化模型由Black Forest Labs團(tuán)隊(duì)利用TensorRT Model Optimizer提供的FP4工作流和配方（recipes）生成。

為突出展示FP4精度對(duì)Blackwell平臺(tái)圖像生成性能的提升，F(xiàn)lux.1-dev模型在FP4精度下與FP16相比：

? 圖像生成吞吐量（每秒生成圖像數(shù)）提升最高達(dá)3倍；

? 顯存（VRAM）占用量壓縮最高達(dá)5.2倍；

? 在性能顯著提升的同時(shí)，生成圖像的質(zhì)量仍然保持不變（詳見表4）。

圖4. GeForce RTX 5090在FP4精度下，F(xiàn)lux.1-dev的圖像吞吐量與其他精度在30步長(zhǎng)下的對(duì)比。

在Flux.1-dev模型中，僅Transformer主干部分采用了FP4精度進(jìn)行量化，而模型中的其他部分則依然保持BF16精度。

此外，TensorRT的DemoDiffusion工具提供了一種低顯存（low-VRAM）模式。

在該模式下，T5、CLIP、VAE以及Flux.1-dev所用的FLUX Transformer模型會(huì)按需加載，任務(wù)完成后隨即卸載。

這種策略使得FLUX模型的峰值顯存占用不會(huì)超過(guò)上述四個(gè)子模型中單個(gè)模型的最大顯存需求。

但相應(yīng)地，這種加載和卸載模型的方式也會(huì)增加一定的推理延遲。

表4. Blackwell FP4顯存使用量及與不同精度格式的節(jié)省情況對(duì)比

圖5展示了使用FP4精度量化的Flux模型生成的示例圖像，從中可明顯看出，與使用BF16精度的基準(zhǔn)模型相比，在給定提示詞下生成圖像的質(zhì)量和內(nèi)容保持了一致。

表5通過(guò)對(duì)1000張生成圖像的定量評(píng)估，進(jìn)一步驗(yàn)證了FP4模型在圖像質(zhì)量、相關(guān)性以及視覺(jué)吸引力方面的表現(xiàn)。

圖5示例圖像對(duì)應(yīng)的提示詞如下↓

上圖提示詞：

“兩顆巨大的恒星在浩瀚宇宙中彼此環(huán)繞共舞，強(qiáng)大的引力使它們逐漸靠近。當(dāng)其中一顆恒星坍縮為黑洞時(shí)，爆發(fā)出耀眼的能量，形成一道璀璨奪目的光輝，在宇宙的黑暗背景中熠熠生輝。四周旋轉(zhuǎn)著的氣體與塵埃云團(tuán)環(huán)繞著這一壯觀景象，展現(xiàn)著宇宙深處難以想象的巨大能量。Two colossal stars dance in the vastness of space, their intense gravitational forces pulling them closer together. As one star collapses into a black hole, it releases a brilliant burst of energy, creating a dazzling display of shimmering light against the cosmic backdrop. Swirling clouds of gas and dust encircle the spectacle, hinting at the unimaginable power contained within.”

下圖提示詞：

“畫面的中央放置著一個(gè)真實(shí)感十足的球體，其表面覆蓋著柔軟蓬松的動(dòng)物毛發(fā)。毛發(fā)細(xì)致逼真，呈現(xiàn)出自然、柔和的起伏動(dòng)態(tài)。毛發(fā)所投射的陰影增強(qiáng)了畫面的視覺(jué)效果，整體渲染效果細(xì)膩逼真，具有高質(zhì)量的Octane渲染質(zhì)感。A realistic sphere textured with the soft, fluffy fur of an animal sits in the center of the image on a plain colored background. The fur ripples with gentle, lifelike motion, and the shadows cast by the fur create an engaging visual effect. The render has a high-quality, octane appearance.”

圖5. 在RTX 5090上，Blackwell FP4以一半的顯存實(shí)現(xiàn)了Flux.1-dev模型3倍的推理性能，同時(shí)保持了相當(dāng)?shù)馁|(zhì)量。

表5. 使用Image Reward、CLIP-IQA和CLIPScore對(duì)FP4圖像質(zhì)量的定量評(píng)估（數(shù)值越高越好）。

Flux.1-dev模型性能測(cè)試說(shuō)明

?測(cè)試設(shè)置：Flux.1-dev模型，推理步數(shù)30步，共生成1,000張圖像，采用TensorRT Model Optimizer v0.23.0 FP4配方進(jìn)行量化。

?模擬環(huán)境：2025年1月24日，基于NVIDIA H100 GPU進(jìn)行模擬測(cè)試。在TensorRT內(nèi)核層面，此模擬與RTX 5090上的表現(xiàn)數(shù)學(xué)上完全一致，但實(shí)際運(yùn)行于RTX 5090 GPU時(shí)可能會(huì)存在細(xì)微的分?jǐn)?shù)差異。

TensorRT 10.8更新帶來(lái)的性能提升

TensorRT 10.8版本現(xiàn)已支持Flux.1-Dev與Flux.1-Schnell模型在高端GeForce RTX 50系列GPU上的峰值FP4性能表現(xiàn)。

此外，借助新增的--low-vram（低顯存）模式，即使是在顯存容量受限的GeForce RTX 5070等GPU上，也能順暢運(yùn)行上述模型。

同時(shí)，TensorRT現(xiàn)在還支持運(yùn)行由Black Forest Labs提供的Depth和Canny Flux ControlNet模型。開發(fā)者可立即使用TensorRT提供的demo/Diffusion工具體驗(yàn)相關(guān)功能。

cuDNN的深度學(xué)習(xí)原語(yǔ)已針對(duì)Blackwell架構(gòu)優(yōu)化

自2014年推出以來(lái)，NVIDIA cuDNN庫(kù)一直是GPU上深度學(xué)習(xí)加速的核心組件。

它通過(guò)高度優(yōu)化的深度學(xué)習(xí)基礎(chǔ)原語(yǔ)實(shí)現(xiàn)，幫助PyTorch、TensorFlow和JAX等主流框架達(dá)到業(yè)內(nèi)領(lǐng)先的性能表現(xiàn)。

憑借與框架的無(wú)縫集成及在多代GPU架構(gòu)上的優(yōu)化支持，cuDNN已經(jīng)成為貫穿訓(xùn)練到推理全流程深度學(xué)習(xí)工作負(fù)載的性能引擎。

隨著cuDNN 9.7版本的發(fā)布，NVIDIA正式將cuDNN對(duì)Blackwell架構(gòu)的支持?jǐn)U展到了數(shù)據(jù)中心和GeForce系列產(chǎn)品線。

當(dāng)開發(fā)者將現(xiàn)有的cuDNN算子遷移到Blackwell架構(gòu)的新一代Tensor Core上時(shí)，將顯著提升性能表現(xiàn)。

新版庫(kù)提供了高度優(yōu)化的通用矩陣乘法（GEMM）API，充分發(fā)揮Blackwell架構(gòu)在FP8和FP4區(qū)塊縮放（Block-scaling）操作上的優(yōu)勢(shì)，屏蔽底層復(fù)雜性，使開發(fā)者更專注于上層的創(chuàng)新工作。

針對(duì)FP8精度的Flash Attention操作，cuDNN在Blackwell架構(gòu)下取得了明顯的性能提升：

? 前向傳播（Forward Propagation）性能提升高達(dá)50%；

? 反向傳播（Backward Propagation）性能提升更高達(dá)84%。

不僅如此，cuDNN還為Blackwell架構(gòu)提供了高度優(yōu)化且具有高級(jí)算子融合能力的GEMM操作。未來(lái)，cuDNN將進(jìn)一步拓展算子融合支持，以持續(xù)推動(dòng)深度學(xué)習(xí)工作負(fù)載性能的提升。

圖6. NVIDIA Blackwell B200與NVIDIA Hopper H100之間的FP8 Flash Attention加速對(duì)比

借助CUTLASS打造高性能的Blackwell架構(gòu)CUDA內(nèi)核

自2017年首次推出以來(lái)，CUTLASS一直是研究人員和開發(fā)者在NVIDIA GPU上實(shí)現(xiàn)高性能CUDA內(nèi)核的重要工具。

CUTLASS通過(guò)提供豐富的工具集，幫助開發(fā)者高效設(shè)計(jì)針對(duì)NVIDIA Tensor Core的自定義計(jì)算操作，例如通用矩陣乘法（GEMM）和卷積（Convolution）等，使硬件感知算法（Hardware-aware Algorithms）的開發(fā)變得更加高效。

這推動(dòng)了FlashAttention等創(chuàng)新算法的出現(xiàn)，也確立了CUTLASS在GPU加速計(jì)算領(lǐng)域的重要地位。

此次CUTLASS 3.8版本的發(fā)布，全面增加了對(duì)NVIDIA最新Blackwell架構(gòu)的支持，幫助開發(fā)者充分利用新一代Tensor Core所支持的所有新數(shù)據(jù)類型，包括最新的窄精度MX數(shù)據(jù)格式以及NVIDIA自研的FP4精度。

這一更新將使開發(fā)者能更有效地為自定義算法和生產(chǎn)工作負(fù)載進(jìn)行性能優(yōu)化，充分釋放加速計(jì)算的最新潛力。

如圖7所示，借助CUTLASS，我們?cè)赥ensor Core計(jì)算操作上的性能表現(xiàn)已經(jīng)達(dá)到相對(duì)峰值性能的98%。

圖7. 在不同NVIDIA Blackwell Tensor Core上可實(shí)現(xiàn)的相對(duì)峰值性能

測(cè)試在B200系統(tǒng)上進(jìn)行，其中M=K=16384，N=17290。

CUTLASS為Blackwell架構(gòu)引入Grouped GEMM和混合輸入GEMM等熱門功能

最新版本的CUTLASS還在Blackwell架構(gòu)上引入了廣受歡迎的功能，例如Grouped GEMM（分組GEMM）和Mixed Input GEMM（混合輸入GEMM）計(jì)算：

? Grouped GEMM 能更高效地同時(shí)執(zhí)行多個(gè)“專家”（Expert）計(jì)算，從而顯著加速混合專家（MoE）模型的推理過(guò)程。

? Mixed Input GEMM 則可支持量化內(nèi)核（Quantized Kernels），降低大型語(yǔ)言模型（LLM）權(quán)重在GPU上的顯存占用，進(jìn)一步提高GPU資源的使用效率。

Blackwell架構(gòu)已獲得OpenAI Triton編譯器加持

此外，OpenAI Triton編譯器現(xiàn)已新增了對(duì)NVIDIA Blackwell架構(gòu)的支持。這一更新使開發(fā)者和研究人員能夠借助基于Python的Triton編譯器輕松調(diào)用Blackwell的最新架構(gòu)特性。

OpenAI Triton現(xiàn)已充分利用Blackwell架構(gòu)的創(chuàng)新優(yōu)勢(shì)，在多個(gè)關(guān)鍵應(yīng)用場(chǎng)景下實(shí)現(xiàn)了接近最優(yōu)的性能表現(xiàn)。

總結(jié)一下，NVIDIA Blackwell架構(gòu)集成了眾多突破性技術(shù)，大幅加速了生成式AI的推理性能，其中包括：

? 第二代Transformer Engine與FP4 Tensor Core；

? 第五代NVLink與NVLink Switch技術(shù)。

牛刀小試的成績(jī)，NVIDIA宣布創(chuàng)下了滿血版DeepSeek-R1模型推理性能的世界紀(jì)錄：一套配備8顆Blackwell GPU的NVIDIA DGX系統(tǒng)，能實(shí)現(xiàn)單用戶每秒超過(guò)250個(gè)token的推理速度，最大吞吐量更超過(guò)每秒30,000個(gè)token。

本文編譯自英偉達(dá)官方博客

原文鏈接：https://developer.nvidia.com/blog/nvidia-bla

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.