99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

滿血版3萬(wàn)Tokens每秒,英偉達(dá)捅破DeepSeek推理性能天花板!

0
分享至

30000個(gè)tokens每秒,太炸裂了!

剛剛,英偉達(dá)在2025GTC大會(huì)上宣布了創(chuàng)世界紀(jì)錄的滿血 DeepSeek-R1 推理性能。



DGX系統(tǒng)搭載八顆NVIDIA Blackwell GPU,在DeepSeek-R1模型(6710億參數(shù))推理任務(wù)中創(chuàng)下了世界紀(jì)錄↓

單用戶推理速度超過(guò)每秒250個(gè)token,峰值吞吐量超過(guò)每秒30000個(gè)token。

這一突破性的性能提升,得益于針對(duì)NVIDIA Blackwell架構(gòu)深度優(yōu)化的NVIDIA開放生態(tài)推理開發(fā)工具鏈。

但這還是只是牛刀小試↓

隨著NVIDIA平臺(tái)持續(xù)探索Blackwell Ultra GPU和Blackwell GPU架構(gòu)的極限潛力,這些推理性能的天花板會(huì)不斷被捅破。



圖1. 在NVL8配置下運(yùn)行TensorRT-LLM軟件的NVIDIA B200 GPU,在滿血DeepSeek-R1 671B模型上實(shí)現(xiàn)了每秒每位用戶最高的已發(fā)布token生成速度。

單臺(tái)DGX B200(8顆GPU)系統(tǒng)與單臺(tái)DGX H200(8顆GPU)系統(tǒng)的性能對(duì)比:

B200和H200的測(cè)試數(shù)據(jù)分別來(lái)自3月和2月,使用內(nèi)部版本的TensorRT-LLM工具。

測(cè)試條件:3月,輸入長(zhǎng)度為1,024個(gè)token,輸出長(zhǎng)度為2,048個(gè)token;1月和2月份,輸入和輸出均為1,024個(gè)token。

并發(fā)度設(shè)為1,B200系統(tǒng)使用FP4精度,H100和H200系統(tǒng)使用FP8精度。



圖2. 通過(guò)硬件和軟件的結(jié)合,NVIDIA自2025年1月以來(lái)將DeepSeek-R1 671B模型的吞吐量提高了約36倍,相當(dāng)于每個(gè)token的成本降低了約32倍。

最大吞吐量(標(biāo)準(zhǔn)化為8顆GPU系統(tǒng))對(duì)比:

包括單臺(tái)DGX B200(8顆GPU)系統(tǒng)、單臺(tái)DGX H200(8顆GPU)系統(tǒng),以及兩臺(tái)DGX H100(各8顆GPU,共16顆GPU)系統(tǒng)。測(cè)試數(shù)據(jù)來(lái)自內(nèi)部版本的TensorRT-LLM工具。

3月測(cè)試:輸入1,024個(gè)token,輸出2,048個(gè)token。

1月和2月測(cè)試:輸入和輸出均為1,024個(gè)token。

并發(fā)度設(shè)為最大值(MAX),B200使用FP4精度,H200和H100使用FP8精度。

NVIDIA 擁有全球規(guī)模最大的推理生態(tài)系統(tǒng),幫助開發(fā)者靈活地打造針對(duì)自身部署需求的AI解決方案,無(wú)論目標(biāo)是追求最佳用戶體驗(yàn)還是最大效率,都可以輕松實(shí)現(xiàn)。

該生態(tài)系統(tǒng)不僅包括NVIDIA官方提供的開源工具,也涵蓋了來(lái)自社區(qū)的豐富貢獻(xiàn),共同發(fā)揮最新一代Blackwell架構(gòu)和軟件技術(shù)的全部潛力。

Blackwell架構(gòu)在性能上實(shí)現(xiàn)了大幅度提升,包括:

? 第五代Tensor Core搭載FP4精度加速,AI算力最高提升至前代的5倍;

? 第五代NVLink和NVLink Switch技術(shù),相較前代NVLink帶寬提高2倍;

? 支持規(guī)模更大的NVLink網(wǎng)絡(luò)域擴(kuò)展能力。

無(wú)論從單芯片性能還是數(shù)據(jù)中心整體規(guī)模來(lái)看,這些創(chuàng)新都是推動(dòng)前沿大模型(如DeepSeek-R1)實(shí)現(xiàn)高吞吐量和低延遲推理的關(guān)鍵。

然而,僅憑強(qiáng)大的硬件基礎(chǔ)設(shè)施不足以滿足加速計(jì)算的需求,更重要的是配套一整套持續(xù)優(yōu)化且快速更新的軟件堆棧,以確保當(dāng)前的高強(qiáng)度任務(wù)高效運(yùn)行,同時(shí)為未來(lái)更具挑戰(zhàn)性的任務(wù)做好準(zhǔn)備。

為此,NVIDIA始終致力于優(yōu)化技術(shù)棧的每一層,包括芯片、系統(tǒng)、庫(kù)和算法,以實(shí)現(xiàn)卓越的工作負(fù)載性能。

以下將全面介紹NVIDIA推理生態(tài)系統(tǒng)的多項(xiàng)更新,涉及的重要軟件組件包括:

? NVIDIA TensorRT-LLM

? NVIDIA TensorRT

? TensorRT Model Optimizer

? CUTLASS

? NVIDIA cuDNN

? 主流AI框架(PyTorch、JAX、TensorFlow等)

此外,英偉達(dá)還分享了最新的性能與精度數(shù)據(jù),這些數(shù)據(jù)是在搭載8顆Blackwell GPU并使用兩個(gè)NVLink Switch芯片互聯(lián)的NVIDIA DGX B200系統(tǒng)上實(shí)測(cè)獲得的。

太長(zhǎng)不看的分界線

TensorRT生態(tài)系統(tǒng):專為NVIDIA Blackwell優(yōu)化的全家桶

NVIDIA TensorRT生態(tài)系統(tǒng)旨在幫助開發(fā)者充分優(yōu)化在NVIDIA GPU上的生產(chǎn)環(huán)境推理部署。

該生態(tài)包含一系列庫(kù)工具,支持AI模型從預(yù)處理、加速優(yōu)化,到最終的生產(chǎn)環(huán)境部署,全流程均已針對(duì)最新的NVIDIA Blackwell架構(gòu)實(shí)現(xiàn)深度優(yōu)化。

與上一代Hopper架構(gòu)相比,Blackwell架構(gòu)在推理性能上持續(xù)展現(xiàn)出巨大的提升。

模型優(yōu)化的第一步:TensorRT Model Optimizer

TensorRT Model Optimizer是實(shí)現(xiàn)推理速度優(yōu)化的重要第一步。它提供了一系列先進(jìn)的模型優(yōu)化技術(shù),包括:

? 量化(Quantization)

? 蒸餾(Distillation)

? 剪枝(Pruning)

? 稀疏化(Sparsity)

? 推測(cè)解碼(Speculation Decoding)

這些技術(shù)能夠大幅提升模型在推理階段的運(yùn)行效率。

最新發(fā)布的TensorRT Model Optimizer 0.25版本現(xiàn)已支持Blackwell架構(gòu)上的FP4精度,適用于訓(xùn)練后量化(PTQ)與量化感知訓(xùn)練(QAT),進(jìn)一步提升了推理計(jì)算吞吐量,并降低了下游推理框架的內(nèi)存消耗。

專為大模型推理優(yōu)化的TensorRT-LLM

模型優(yōu)化完成后,高性能推理框架對(duì)于高效運(yùn)行至關(guān)重要。TensorRT-LLM為開發(fā)者提供了豐富的工具箱,支持實(shí)現(xiàn)實(shí)時(shí)、高性價(jià)比、高能效的大模型(LLM)推理。

最新發(fā)布的TensorRT-LLM 0.17版本新增了對(duì)Blackwell架構(gòu)的支持,并針對(duì)Blackwell的指令集、內(nèi)存層次結(jié)構(gòu)及FP4精度做了定制化優(yōu)化。

基于PyTorch架構(gòu)的TensorRT-LLM,通過(guò)為常見大模型推理操作提供高性能且靈活的內(nèi)核(Kernels),以及先進(jìn)的運(yùn)行時(shí)特性。

包括動(dòng)態(tài)批處理(in-flight batching)、KV緩存管理和推測(cè)式解碼(speculative decoding),實(shí)現(xiàn)了卓越的性能表現(xiàn)。

主流深度學(xué)習(xí)框架及其他LLM推理框架的全面支持

目前,廣泛使用的深度學(xué)習(xí)框架如PyTorch、JAX和TensorFlow均已升級(jí),全面支持Blackwell架構(gòu)下的訓(xùn)練與推理。

此外,社區(qū)熱門的LLM服務(wù)框架如vLLM與Ollama也已適配Blackwell GPU,其他框架的支持也將在近期陸續(xù)跟進(jìn)。

Blackwell配合TensorRT的軟件堆棧帶來(lái)顯著推理性能提升

得益于Blackwell架構(gòu)與TensorRT軟件的協(xié)同優(yōu)化,相較上一代Hopper架構(gòu),推理性能獲得大幅提升。

這種性能增長(zhǎng)的核心來(lái)自顯著提高的計(jì)算能力、更大的內(nèi)存帶寬,以及高度優(yōu)化的軟件棧,共同確保了卓越的實(shí)際運(yùn)行性能。

以社區(qū)廣泛使用的大模型為例,包括DeepSeek-R1、Llama 3.1(405B參數(shù))和Llama 3.3(70B參數(shù)),DGX B200平臺(tái)在使用TensorRT推理軟件與FP4精度的情況下,推理吞吐量已超過(guò)DGX H200平臺(tái)的3倍以上,性能優(yōu)勢(shì)極為突出。



圖3. 使用搭載NVIDIA Blackwell GPU的NVIDIA HGX B200以及FP4,與上一代運(yùn)行FP8的GPU相比,Llama 3.1 70B、Llama 3.1 405B和DeepSeek-R1的推理吞吐量(tokens/sec)提升情況。

以下為初步規(guī)格,可能會(huì)有所更改。

TensorRT 模型優(yōu)化器 v0.23.0。TensorRT-LLM v0.17.0。最大批量大小為 2048,實(shí)際批量大小通過(guò) TensorRT-LLM Inflight Batching 動(dòng)態(tài)調(diào)整。H200 FP16/BF16 GEMM + FP8 KV 緩存。B200 FP4 GEMM + FP8 KV 緩存。吞吐量提升。

Llama 3.3 70B: ISL 2048, OSL 128

Llama 3.1 405B: ISL 2048, OSL 128

DeepSeek-R1: ISL 1024, OSL 1024

在對(duì)模型進(jìn)行量化以利用低精度計(jì)算的優(yōu)勢(shì)時(shí),確保最小的精度損失對(duì)于生產(chǎn)部署至關(guān)重要。

對(duì)于 DeepSeek-R1,TensorRT 模型優(yōu)化器的 FP4 訓(xùn)練后量化(PTQ)在各種數(shù)據(jù)集上相較于 FP8 基線表現(xiàn)出極小的精度損失,如表 1 所示。



表1. DeepSeek-R1模型在FP8/FP4精度下的MMLU/GSM8K/AIME24/GPQA/MATH-500準(zhǔn)確率(PTQ量化后)

表2提供了基于BF16基準(zhǔn)精度以及在流行的Llama 3.1 405B和Llama 3.3 70B模型上使用FP4量化后的準(zhǔn)確性結(jié)果。



表2. Llama模型在BF16/FP4精度下的MMLU和GSM8K準(zhǔn)確率(PTQ量化后)

在以低精度(例如FP4)部署時(shí),如果可以獲取微調(diào)數(shù)據(jù)集,則可以應(yīng)用量化感知訓(xùn)練(QAT)來(lái)恢復(fù)精度。

為了展示QAT的價(jià)值,使用TensorRT模型優(yōu)化器通過(guò)QAT將NVIDIA Nemotron 4 15B和Nemotron 4 340B模型量化為FP4,與BF16基準(zhǔn)相比實(shí)現(xiàn)了無(wú)損的FP4量化(表3)。



表3. FP4 PTQ和QAT相對(duì)于BF16基準(zhǔn)的vMMLU 5-shot準(zhǔn)確率。模型優(yōu)化器QAT實(shí)現(xiàn)了Nemotron 4 15B和Nemotron 4 340B的無(wú)損量化。

使用TensorRT與TensorRT Model Optimizer的FP4精度提升Blackwell平臺(tái)圖像生成效率

此前,NVIDIA的TensorRT和TensorRT Model Optimizer已通過(guò)INT8和FP8等8比特量化技術(shù),大幅提升了擴(kuò)散模型(Diffusion Models)在圖像生成任務(wù)中的性能。

現(xiàn)在,隨著NVIDIA Blackwell架構(gòu)與FP4精度的出現(xiàn),AI圖像生成的效率再度實(shí)現(xiàn)了飛躍。

這一性能優(yōu)勢(shì)不僅適用于數(shù)據(jù)中心和專業(yè)平臺(tái),也同樣惠及搭載NVIDIA GeForce RTX 50系列GPU的個(gè)人AI電腦(AI PC),使用戶能在本地快速生成高質(zhì)量圖像。

由Black Forest Labs推出的Flux.1模型系列屬于業(yè)內(nèi)領(lǐng)先的文本到圖像(Text-to-Image)生成模型,具有卓越的文本提示遵循能力,能夠生成豐富復(fù)雜的場(chǎng)景。

開發(fā)者現(xiàn)已可從Black Forest Labs在Hugging Face上提供的模型庫(kù)中下載FP4量化的Flux模型,并直接使用TensorRT進(jìn)行部署。

這些FP4量化模型由Black Forest Labs團(tuán)隊(duì)利用TensorRT Model Optimizer提供的FP4工作流和配方(recipes)生成。

為突出展示FP4精度對(duì)Blackwell平臺(tái)圖像生成性能的提升,F(xiàn)lux.1-dev模型在FP4精度下與FP16相比:

? 圖像生成吞吐量(每秒生成圖像數(shù))提升最高達(dá)3倍;

? 顯存(VRAM)占用量壓縮最高達(dá)5.2倍;

? 在性能顯著提升的同時(shí),生成圖像的質(zhì)量仍然保持不變(詳見表4)。



圖4. GeForce RTX 5090在FP4精度下,F(xiàn)lux.1-dev的圖像吞吐量與其他精度在30步長(zhǎng)下的對(duì)比。

在Flux.1-dev模型中,僅Transformer主干部分采用了FP4精度進(jìn)行量化,而模型中的其他部分則依然保持BF16精度。

此外,TensorRT的DemoDiffusion工具提供了一種低顯存(low-VRAM)模式。

在該模式下,T5、CLIP、VAE以及Flux.1-dev所用的FLUX Transformer模型會(huì)按需加載,任務(wù)完成后隨即卸載。

這種策略使得FLUX模型的峰值顯存占用不會(huì)超過(guò)上述四個(gè)子模型中單個(gè)模型的最大顯存需求。

但相應(yīng)地,這種加載和卸載模型的方式也會(huì)增加一定的推理延遲。



表4. Blackwell FP4顯存使用量及與不同精度格式的節(jié)省情況對(duì)比

圖5展示了使用FP4精度量化的Flux模型生成的示例圖像,從中可明顯看出,與使用BF16精度的基準(zhǔn)模型相比,在給定提示詞下生成圖像的質(zhì)量和內(nèi)容保持了一致。

表5通過(guò)對(duì)1000張生成圖像的定量評(píng)估,進(jìn)一步驗(yàn)證了FP4模型在圖像質(zhì)量、相關(guān)性以及視覺(jué)吸引力方面的表現(xiàn)。

圖5示例圖像對(duì)應(yīng)的提示詞如下↓

上圖提示詞:

“兩顆巨大的恒星在浩瀚宇宙中彼此環(huán)繞共舞,強(qiáng)大的引力使它們逐漸靠近。當(dāng)其中一顆恒星坍縮為黑洞時(shí),爆發(fā)出耀眼的能量,形成一道璀璨奪目的光輝,在宇宙的黑暗背景中熠熠生輝。四周旋轉(zhuǎn)著的氣體與塵埃云團(tuán)環(huán)繞著這一壯觀景象,展現(xiàn)著宇宙深處難以想象的巨大能量。Two colossal stars dance in the vastness of space, their intense gravitational forces pulling them closer together. As one star collapses into a black hole, it releases a brilliant burst of energy, creating a dazzling display of shimmering light against the cosmic backdrop. Swirling clouds of gas and dust encircle the spectacle, hinting at the unimaginable power contained within.”

下圖提示詞:

“畫面的中央放置著一個(gè)真實(shí)感十足的球體,其表面覆蓋著柔軟蓬松的動(dòng)物毛發(fā)。毛發(fā)細(xì)致逼真,呈現(xiàn)出自然、柔和的起伏動(dòng)態(tài)。毛發(fā)所投射的陰影增強(qiáng)了畫面的視覺(jué)效果,整體渲染效果細(xì)膩逼真,具有高質(zhì)量的Octane渲染質(zhì)感。A realistic sphere textured with the soft, fluffy fur of an animal sits in the center of the image on a plain colored background. The fur ripples with gentle, lifelike motion, and the shadows cast by the fur create an engaging visual effect. The render has a high-quality, octane appearance.”



圖5. 在RTX 5090上,Blackwell FP4以一半的顯存實(shí)現(xiàn)了Flux.1-dev模型3倍的推理性能,同時(shí)保持了相當(dāng)?shù)馁|(zhì)量。



表5. 使用Image Reward、CLIP-IQA和CLIPScore對(duì)FP4圖像質(zhì)量的定量評(píng)估(數(shù)值越高越好)。

Flux.1-dev模型性能測(cè)試說(shuō)明

?測(cè)試設(shè)置:Flux.1-dev模型,推理步數(shù)30步,共生成1,000張圖像,采用TensorRT Model Optimizer v0.23.0 FP4配方進(jìn)行量化。

?模擬環(huán)境:2025年1月24日,基于NVIDIA H100 GPU進(jìn)行模擬測(cè)試。在TensorRT內(nèi)核層面,此模擬與RTX 5090上的表現(xiàn)數(shù)學(xué)上完全一致,但實(shí)際運(yùn)行于RTX 5090 GPU時(shí)可能會(huì)存在細(xì)微的分?jǐn)?shù)差異。

TensorRT 10.8更新帶來(lái)的性能提升

TensorRT 10.8版本現(xiàn)已支持Flux.1-Dev與Flux.1-Schnell模型在高端GeForce RTX 50系列GPU上的峰值FP4性能表現(xiàn)。

此外,借助新增的--low-vram(低顯存)模式,即使是在顯存容量受限的GeForce RTX 5070等GPU上,也能順暢運(yùn)行上述模型。

同時(shí),TensorRT現(xiàn)在還支持運(yùn)行由Black Forest Labs提供的Depth和Canny Flux ControlNet模型。開發(fā)者可立即使用TensorRT提供的demo/Diffusion工具體驗(yàn)相關(guān)功能。

cuDNN的深度學(xué)習(xí)原語(yǔ)已針對(duì)Blackwell架構(gòu)優(yōu)化

自2014年推出以來(lái),NVIDIA cuDNN庫(kù)一直是GPU上深度學(xué)習(xí)加速的核心組件。

它通過(guò)高度優(yōu)化的深度學(xué)習(xí)基礎(chǔ)原語(yǔ)實(shí)現(xiàn),幫助PyTorch、TensorFlow和JAX等主流框架達(dá)到業(yè)內(nèi)領(lǐng)先的性能表現(xiàn)。

憑借與框架的無(wú)縫集成及在多代GPU架構(gòu)上的優(yōu)化支持,cuDNN已經(jīng)成為貫穿訓(xùn)練到推理全流程深度學(xué)習(xí)工作負(fù)載的性能引擎。

隨著cuDNN 9.7版本的發(fā)布,NVIDIA正式將cuDNN對(duì)Blackwell架構(gòu)的支持?jǐn)U展到了數(shù)據(jù)中心和GeForce系列產(chǎn)品線。

當(dāng)開發(fā)者將現(xiàn)有的cuDNN算子遷移到Blackwell架構(gòu)的新一代Tensor Core上時(shí),將顯著提升性能表現(xiàn)。

新版庫(kù)提供了高度優(yōu)化的通用矩陣乘法(GEMM)API,充分發(fā)揮Blackwell架構(gòu)在FP8和FP4區(qū)塊縮放(Block-scaling)操作上的優(yōu)勢(shì),屏蔽底層復(fù)雜性,使開發(fā)者更專注于上層的創(chuàng)新工作。

針對(duì)FP8精度的Flash Attention操作,cuDNN在Blackwell架構(gòu)下取得了明顯的性能提升:

? 前向傳播(Forward Propagation)性能提升高達(dá)50%;

? 反向傳播(Backward Propagation)性能提升更高達(dá)84%。

不僅如此,cuDNN還為Blackwell架構(gòu)提供了高度優(yōu)化且具有高級(jí)算子融合能力的GEMM操作。未來(lái),cuDNN將進(jìn)一步拓展算子融合支持,以持續(xù)推動(dòng)深度學(xué)習(xí)工作負(fù)載性能的提升。



圖6. NVIDIA Blackwell B200與NVIDIA Hopper H100之間的FP8 Flash Attention加速對(duì)比

借助CUTLASS打造高性能的Blackwell架構(gòu)CUDA內(nèi)核

自2017年首次推出以來(lái),CUTLASS一直是研究人員和開發(fā)者在NVIDIA GPU上實(shí)現(xiàn)高性能CUDA內(nèi)核的重要工具。

CUTLASS通過(guò)提供豐富的工具集,幫助開發(fā)者高效設(shè)計(jì)針對(duì)NVIDIA Tensor Core的自定義計(jì)算操作,例如通用矩陣乘法(GEMM)和卷積(Convolution)等,使硬件感知算法(Hardware-aware Algorithms)的開發(fā)變得更加高效。

這推動(dòng)了FlashAttention等創(chuàng)新算法的出現(xiàn),也確立了CUTLASS在GPU加速計(jì)算領(lǐng)域的重要地位。

此次CUTLASS 3.8版本的發(fā)布,全面增加了對(duì)NVIDIA最新Blackwell架構(gòu)的支持,幫助開發(fā)者充分利用新一代Tensor Core所支持的所有新數(shù)據(jù)類型,包括最新的窄精度MX數(shù)據(jù)格式以及NVIDIA自研的FP4精度。

這一更新將使開發(fā)者能更有效地為自定義算法和生產(chǎn)工作負(fù)載進(jìn)行性能優(yōu)化,充分釋放加速計(jì)算的最新潛力。

如圖7所示,借助CUTLASS,我們?cè)赥ensor Core計(jì)算操作上的性能表現(xiàn)已經(jīng)達(dá)到相對(duì)峰值性能的98%。



圖7. 在不同NVIDIA Blackwell Tensor Core上可實(shí)現(xiàn)的相對(duì)峰值性能

測(cè)試在B200系統(tǒng)上進(jìn)行,其中M=K=16384,N=17290。

CUTLASS為Blackwell架構(gòu)引入Grouped GEMM和混合輸入GEMM等熱門功能

最新版本的CUTLASS還在Blackwell架構(gòu)上引入了廣受歡迎的功能,例如Grouped GEMM(分組GEMM)和Mixed Input GEMM(混合輸入GEMM)計(jì)算:

? Grouped GEMM 能更高效地同時(shí)執(zhí)行多個(gè)“專家”(Expert)計(jì)算,從而顯著加速混合專家(MoE)模型的推理過(guò)程。

? Mixed Input GEMM 則可支持量化內(nèi)核(Quantized Kernels),降低大型語(yǔ)言模型(LLM)權(quán)重在GPU上的顯存占用,進(jìn)一步提高GPU資源的使用效率。

Blackwell架構(gòu)已獲得OpenAI Triton編譯器加持

此外,OpenAI Triton編譯器現(xiàn)已新增了對(duì)NVIDIA Blackwell架構(gòu)的支持。這一更新使開發(fā)者和研究人員能夠借助基于Python的Triton編譯器輕松調(diào)用Blackwell的最新架構(gòu)特性。

OpenAI Triton現(xiàn)已充分利用Blackwell架構(gòu)的創(chuàng)新優(yōu)勢(shì),在多個(gè)關(guān)鍵應(yīng)用場(chǎng)景下實(shí)現(xiàn)了接近最優(yōu)的性能表現(xiàn)。

總結(jié)一下,NVIDIA Blackwell架構(gòu)集成了眾多突破性技術(shù),大幅加速了生成式AI的推理性能,其中包括:

? 第二代Transformer Engine與FP4 Tensor Core;

? 第五代NVLink與NVLink Switch技術(shù)。

牛刀小試的成績(jī),NVIDIA宣布創(chuàng)下了滿血版DeepSeek-R1模型推理性能的世界紀(jì)錄:一套配備8顆Blackwell GPU的NVIDIA DGX系統(tǒng),能實(shí)現(xiàn)單用戶每秒超過(guò)250個(gè)token的推理速度,最大吞吐量更超過(guò)每秒30,000個(gè)token。

本文編譯自英偉達(dá)官方博客

原文鏈接:https://developer.nvidia.com/blog/nvidia-bla

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
黃一鳴曬女兒近況,孩子反頜嚴(yán)重不見干預(yù),跟王思聰討錢又失敗

黃一鳴曬女兒近況,孩子反頜嚴(yán)重不見干預(yù),跟王思聰討錢又失敗

萌神木木
2025-04-24 19:15:40
除了戴頭盔,5月1日起,電動(dòng)車上路“4必查”,最高罰1000,車主注意

除了戴頭盔,5月1日起,電動(dòng)車上路“4必查”,最高罰1000,車主注意

電動(dòng)車小辣椒
2025-04-24 07:09:08
正式復(fù)出,趙錦洋簽約,加盟新球隊(duì),已抵達(dá)廣東,杜鋒期待

正式復(fù)出,趙錦洋簽約,加盟新球隊(duì),已抵達(dá)廣東,杜鋒期待

東球弟
2025-04-25 10:33:38
“打”還是談?北京秘密會(huì)議召開,72歲老將上陣,特朗普親信抵京

“打”還是談?北京秘密會(huì)議召開,72歲老將上陣,特朗普親信抵京

藍(lán)涇看一看
2025-04-24 10:27:03
法國(guó)選手不滿WTT獎(jiǎng)金:報(bào)名費(fèi)要350美元,八強(qiáng)獎(jiǎng)金才370美元

法國(guó)選手不滿WTT獎(jiǎng)金:報(bào)名費(fèi)要350美元,八強(qiáng)獎(jiǎng)金才370美元

懂球帝
2025-04-24 16:02:27
安徽一市委原副書記多次在節(jié)日期間收受禮金、消費(fèi)卡和高檔酒水!

安徽一市委原副書記多次在節(jié)日期間收受禮金、消費(fèi)卡和高檔酒水!

瀟湘晨報(bào)
2025-04-25 09:45:24
中年女人“默許發(fā)生關(guān)系”,往往會(huì)用以下“行為”來(lái)表示,很準(zhǔn)

中年女人“默許發(fā)生關(guān)系”,往往會(huì)用以下“行為”來(lái)表示,很準(zhǔn)

情感創(chuàng)作者無(wú)筆
2025-02-16 14:10:08
現(xiàn)在高價(jià)賣掉房子的人,都將后悔?新定調(diào),2025年房產(chǎn)或開始洗牌

現(xiàn)在高價(jià)賣掉房子的人,都將后悔?新定調(diào),2025年房產(chǎn)或開始洗牌

巢客HOME
2025-04-24 08:40:02
德媒:德國(guó)球隊(duì)破產(chǎn)后仍拒絕解散,愿意免費(fèi)踢完本賽季

德媒:德國(guó)球隊(duì)破產(chǎn)后仍拒絕解散,愿意免費(fèi)踢完本賽季

雷速體育
2025-04-25 09:24:58
北京這夜,主動(dòng)彎腰握手的孫儷,讓所有人都見識(shí)了楊紫的江湖地位

北京這夜,主動(dòng)彎腰握手的孫儷,讓所有人都見識(shí)了楊紫的江湖地位

明月聊史
2025-04-24 23:44:46
深圳月亮灣花園32年房齡的老小區(qū),40棟樓里已有10棟已成危樓

深圳月亮灣花園32年房齡的老小區(qū),40棟樓里已有10棟已成危樓

阿離家居
2025-04-25 11:22:39
笑麻了,閑魚上最不敢賣的人出現(xiàn)了,并稱我一定會(huì)回來(lái)的

笑麻了,閑魚上最不敢賣的人出現(xiàn)了,并稱我一定會(huì)回來(lái)的

奇特短尾矮袋鼠
2025-04-25 11:05:05
玥兒生日這天,黃春梅小s沉默,沒(méi)祝福沒(méi)文案,也沒(méi)有愛(ài)屋及烏

玥兒生日這天,黃春梅小s沉默,沒(méi)祝福沒(méi)文案,也沒(méi)有愛(ài)屋及烏

阿鳧愛(ài)吐槽
2025-04-24 22:51:25
雷軍人設(shè)不保,讓員工工作12小時(shí)創(chuàng)造996制度,不以為恥反以為榮

雷軍人設(shè)不保,讓員工工作12小時(shí)創(chuàng)造996制度,不以為恥反以為榮

漢史趣聞
2025-04-25 09:05:54
哈登:在我效力76人期間我媽得了癌癥 無(wú)法陪伴左右是真難受

哈登:在我效力76人期間我媽得了癌癥 無(wú)法陪伴左右是真難受

直播吧
2025-04-25 14:44:14
馬琳當(dāng)年有多強(qiáng)?張繼科:打法很落后,卻是神一樣的存在!

馬琳當(dāng)年有多強(qiáng)?張繼科:打法很落后,卻是神一樣的存在!

十點(diǎn)街球體育
2025-04-25 00:10:03
黑龍江“蛇女”劉玉平:06年收留一條蛇,隔天拖家?guī)Э谝蛔?7年

黑龍江“蛇女”劉玉平:06年收留一條蛇,隔天拖家?guī)Э谝蛔?7年

我是斌哥哥
2024-04-25 17:04:39
特朗普再次首訪中東要收兩萬(wàn)多億美元,國(guó)王們?yōu)楹慰偨o美國(guó)出血?

特朗普再次首訪中東要收兩萬(wàn)多億美元,國(guó)王們?yōu)楹慰偨o美國(guó)出血?

邵旭峰域
2025-04-24 08:27:57
女子被同事關(guān)冷庫(kù)后續(xù)!報(bào)警后才道歉,男子身份被扒,果然不簡(jiǎn)單

女子被同事關(guān)冷庫(kù)后續(xù)!報(bào)警后才道歉,男子身份被扒,果然不簡(jiǎn)單

鋭娛之樂(lè)
2025-04-24 18:43:25
申花主力門將官宣轉(zhuǎn)會(huì)亞冠豪門!曾被寄予厚望,還多次進(jìn)國(guó)家隊(duì)

申花主力門將官宣轉(zhuǎn)會(huì)亞冠豪門!曾被寄予厚望,還多次進(jìn)國(guó)家隊(duì)

國(guó)香就愛(ài)說(shuō)足球
2025-04-25 10:41:03
2025-04-25 15:07:15
AI全球總部
AI全球總部
全球最新、最酷AI解決方案
996文章數(shù) 717關(guān)注度
往期回顧 全部

數(shù)碼要聞

系統(tǒng)換裝不迷路!華為筆記本 Linux 版體驗(yàn)如一

頭條要聞

"網(wǎng)紅"譚媛為救前男友去世 三年后父親用其賬號(hào)求助

頭條要聞

"網(wǎng)紅"譚媛為救前男友去世 三年后父親用其賬號(hào)求助

體育要聞

國(guó)乒的新掌門人,為什么是王勵(lì)勤?

娛樂(lè)要聞

被網(wǎng)紅丑化 楊坤不再沉默開始了反擊!

財(cái)經(jīng)要聞

中央政治局:適時(shí)降準(zhǔn)降息

科技要聞

這屆上海車展,沒(méi)人靠流量活著

汽車要聞

限時(shí)優(yōu)惠價(jià)29.98萬(wàn)元 BJ40增程赤兔版上海車展發(fā)布

態(tài)度原創(chuàng)

藝術(shù)
家居
游戲
公開課
軍事航空

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

清徐現(xiàn)代 有溫度有態(tài)度

原開發(fā)組長(zhǎng)評(píng)價(jià)《上古4:重制版》 足以稱呼2.0版

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:俄羅斯沒(méi)"接管"烏克蘭就是讓步

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 台南县| 巨鹿县| 揭西县| 福海县| 江口县| 东辽县| 玛沁县| 湖南省| 美姑县| 阿瓦提县| 金平| 宁晋县| 凌云县| 元朗区| 永年县| 金湖县| 横峰县| 全椒县| 渑池县| 凤冈县| 白玉县| 兴文县| 姚安县| 当雄县| 盐源县| 上栗县| 祁门县| 伊通| 北辰区| 塔河县| 宁武县| 罗田县| 汝南县| 舟山市| 集安市| 嘉黎县| 泰顺县| 洪洞县| 元阳县| 宁乡县| 新竹县|