30000個(gè)tokens每秒,太炸裂了!
剛剛,英偉達(dá)在2025GTC大會(huì)上宣布了創(chuàng)世界紀(jì)錄的滿血 DeepSeek-R1 推理性能。
DGX系統(tǒng)搭載八顆NVIDIA Blackwell GPU,在DeepSeek-R1模型(6710億參數(shù))推理任務(wù)中創(chuàng)下了世界紀(jì)錄↓
單用戶推理速度超過(guò)每秒250個(gè)token,峰值吞吐量超過(guò)每秒30000個(gè)token。
這一突破性的性能提升,得益于針對(duì)NVIDIA Blackwell架構(gòu)深度優(yōu)化的NVIDIA開放生態(tài)推理開發(fā)工具鏈。
但這還是只是牛刀小試↓
隨著NVIDIA平臺(tái)持續(xù)探索Blackwell Ultra GPU和Blackwell GPU架構(gòu)的極限潛力,這些推理性能的天花板會(huì)不斷被捅破。
圖1. 在NVL8配置下運(yùn)行TensorRT-LLM軟件的NVIDIA B200 GPU,在滿血DeepSeek-R1 671B模型上實(shí)現(xiàn)了每秒每位用戶最高的已發(fā)布token生成速度。
單臺(tái)DGX B200(8顆GPU)系統(tǒng)與單臺(tái)DGX H200(8顆GPU)系統(tǒng)的性能對(duì)比:
B200和H200的測(cè)試數(shù)據(jù)分別來(lái)自3月和2月,使用內(nèi)部版本的TensorRT-LLM工具。
測(cè)試條件:3月,輸入長(zhǎng)度為1,024個(gè)token,輸出長(zhǎng)度為2,048個(gè)token;1月和2月份,輸入和輸出均為1,024個(gè)token。
并發(fā)度設(shè)為1,B200系統(tǒng)使用FP4精度,H100和H200系統(tǒng)使用FP8精度。
圖2. 通過(guò)硬件和軟件的結(jié)合,NVIDIA自2025年1月以來(lái)將DeepSeek-R1 671B模型的吞吐量提高了約36倍,相當(dāng)于每個(gè)token的成本降低了約32倍。
最大吞吐量(標(biāo)準(zhǔn)化為8顆GPU系統(tǒng))對(duì)比:
包括單臺(tái)DGX B200(8顆GPU)系統(tǒng)、單臺(tái)DGX H200(8顆GPU)系統(tǒng),以及兩臺(tái)DGX H100(各8顆GPU,共16顆GPU)系統(tǒng)。測(cè)試數(shù)據(jù)來(lái)自內(nèi)部版本的TensorRT-LLM工具。
3月測(cè)試:輸入1,024個(gè)token,輸出2,048個(gè)token。
1月和2月測(cè)試:輸入和輸出均為1,024個(gè)token。
并發(fā)度設(shè)為最大值(MAX),B200使用FP4精度,H200和H100使用FP8精度。
NVIDIA 擁有全球規(guī)模最大的推理生態(tài)系統(tǒng),幫助開發(fā)者靈活地打造針對(duì)自身部署需求的AI解決方案,無(wú)論目標(biāo)是追求最佳用戶體驗(yàn)還是最大效率,都可以輕松實(shí)現(xiàn)。
該生態(tài)系統(tǒng)不僅包括NVIDIA官方提供的開源工具,也涵蓋了來(lái)自社區(qū)的豐富貢獻(xiàn),共同發(fā)揮最新一代Blackwell架構(gòu)和軟件技術(shù)的全部潛力。
Blackwell架構(gòu)在性能上實(shí)現(xiàn)了大幅度提升,包括:
? 第五代Tensor Core搭載FP4精度加速,AI算力最高提升至前代的5倍;
? 第五代NVLink和NVLink Switch技術(shù),相較前代NVLink帶寬提高2倍;
? 支持規(guī)模更大的NVLink網(wǎng)絡(luò)域擴(kuò)展能力。
無(wú)論從單芯片性能還是數(shù)據(jù)中心整體規(guī)模來(lái)看,這些創(chuàng)新都是推動(dòng)前沿大模型(如DeepSeek-R1)實(shí)現(xiàn)高吞吐量和低延遲推理的關(guān)鍵。
然而,僅憑強(qiáng)大的硬件基礎(chǔ)設(shè)施不足以滿足加速計(jì)算的需求,更重要的是配套一整套持續(xù)優(yōu)化且快速更新的軟件堆棧,以確保當(dāng)前的高強(qiáng)度任務(wù)高效運(yùn)行,同時(shí)為未來(lái)更具挑戰(zhàn)性的任務(wù)做好準(zhǔn)備。
為此,NVIDIA始終致力于優(yōu)化技術(shù)棧的每一層,包括芯片、系統(tǒng)、庫(kù)和算法,以實(shí)現(xiàn)卓越的工作負(fù)載性能。
以下將全面介紹NVIDIA推理生態(tài)系統(tǒng)的多項(xiàng)更新,涉及的重要軟件組件包括:
? NVIDIA TensorRT-LLM
? NVIDIA TensorRT
? TensorRT Model Optimizer
? CUTLASS
? NVIDIA cuDNN
? 主流AI框架(PyTorch、JAX、TensorFlow等)
此外,英偉達(dá)還分享了最新的性能與精度數(shù)據(jù),這些數(shù)據(jù)是在搭載8顆Blackwell GPU并使用兩個(gè)NVLink Switch芯片互聯(lián)的NVIDIA DGX B200系統(tǒng)上實(shí)測(cè)獲得的。
太長(zhǎng)不看的分界線
TensorRT生態(tài)系統(tǒng):專為NVIDIA Blackwell優(yōu)化的全家桶
NVIDIA TensorRT生態(tài)系統(tǒng)旨在幫助開發(fā)者充分優(yōu)化在NVIDIA GPU上的生產(chǎn)環(huán)境推理部署。
該生態(tài)包含一系列庫(kù)工具,支持AI模型從預(yù)處理、加速優(yōu)化,到最終的生產(chǎn)環(huán)境部署,全流程均已針對(duì)最新的NVIDIA Blackwell架構(gòu)實(shí)現(xiàn)深度優(yōu)化。
與上一代Hopper架構(gòu)相比,Blackwell架構(gòu)在推理性能上持續(xù)展現(xiàn)出巨大的提升。
模型優(yōu)化的第一步:TensorRT Model Optimizer
TensorRT Model Optimizer是實(shí)現(xiàn)推理速度優(yōu)化的重要第一步。它提供了一系列先進(jìn)的模型優(yōu)化技術(shù),包括:
? 量化(Quantization)
? 蒸餾(Distillation)
? 剪枝(Pruning)
? 稀疏化(Sparsity)
? 推測(cè)解碼(Speculation Decoding)
這些技術(shù)能夠大幅提升模型在推理階段的運(yùn)行效率。
最新發(fā)布的TensorRT Model Optimizer 0.25版本現(xiàn)已支持Blackwell架構(gòu)上的FP4精度,適用于訓(xùn)練后量化(PTQ)與量化感知訓(xùn)練(QAT),進(jìn)一步提升了推理計(jì)算吞吐量,并降低了下游推理框架的內(nèi)存消耗。
專為大模型推理優(yōu)化的TensorRT-LLM
模型優(yōu)化完成后,高性能推理框架對(duì)于高效運(yùn)行至關(guān)重要。TensorRT-LLM為開發(fā)者提供了豐富的工具箱,支持實(shí)現(xiàn)實(shí)時(shí)、高性價(jià)比、高能效的大模型(LLM)推理。
最新發(fā)布的TensorRT-LLM 0.17版本新增了對(duì)Blackwell架構(gòu)的支持,并針對(duì)Blackwell的指令集、內(nèi)存層次結(jié)構(gòu)及FP4精度做了定制化優(yōu)化。
基于PyTorch架構(gòu)的TensorRT-LLM,通過(guò)為常見大模型推理操作提供高性能且靈活的內(nèi)核(Kernels),以及先進(jìn)的運(yùn)行時(shí)特性。
包括動(dòng)態(tài)批處理(in-flight batching)、KV緩存管理和推測(cè)式解碼(speculative decoding),實(shí)現(xiàn)了卓越的性能表現(xiàn)。
主流深度學(xué)習(xí)框架及其他LLM推理框架的全面支持
目前,廣泛使用的深度學(xué)習(xí)框架如PyTorch、JAX和TensorFlow均已升級(jí),全面支持Blackwell架構(gòu)下的訓(xùn)練與推理。
此外,社區(qū)熱門的LLM服務(wù)框架如vLLM與Ollama也已適配Blackwell GPU,其他框架的支持也將在近期陸續(xù)跟進(jìn)。
Blackwell配合TensorRT的軟件堆棧帶來(lái)顯著推理性能提升
得益于Blackwell架構(gòu)與TensorRT軟件的協(xié)同優(yōu)化,相較上一代Hopper架構(gòu),推理性能獲得大幅提升。
這種性能增長(zhǎng)的核心來(lái)自顯著提高的計(jì)算能力、更大的內(nèi)存帶寬,以及高度優(yōu)化的軟件棧,共同確保了卓越的實(shí)際運(yùn)行性能。
以社區(qū)廣泛使用的大模型為例,包括DeepSeek-R1、Llama 3.1(405B參數(shù))和Llama 3.3(70B參數(shù)),DGX B200平臺(tái)在使用TensorRT推理軟件與FP4精度的情況下,推理吞吐量已超過(guò)DGX H200平臺(tái)的3倍以上,性能優(yōu)勢(shì)極為突出。
圖3. 使用搭載NVIDIA Blackwell GPU的NVIDIA HGX B200以及FP4,與上一代運(yùn)行FP8的GPU相比,Llama 3.1 70B、Llama 3.1 405B和DeepSeek-R1的推理吞吐量(tokens/sec)提升情況。
以下為初步規(guī)格,可能會(huì)有所更改。
TensorRT 模型優(yōu)化器 v0.23.0。TensorRT-LLM v0.17.0。最大批量大小為 2048,實(shí)際批量大小通過(guò) TensorRT-LLM Inflight Batching 動(dòng)態(tài)調(diào)整。H200 FP16/BF16 GEMM + FP8 KV 緩存。B200 FP4 GEMM + FP8 KV 緩存。吞吐量提升。
Llama 3.3 70B: ISL 2048, OSL 128
Llama 3.1 405B: ISL 2048, OSL 128
DeepSeek-R1: ISL 1024, OSL 1024
在對(duì)模型進(jìn)行量化以利用低精度計(jì)算的優(yōu)勢(shì)時(shí),確保最小的精度損失對(duì)于生產(chǎn)部署至關(guān)重要。
對(duì)于 DeepSeek-R1,TensorRT 模型優(yōu)化器的 FP4 訓(xùn)練后量化(PTQ)在各種數(shù)據(jù)集上相較于 FP8 基線表現(xiàn)出極小的精度損失,如表 1 所示。
表1. DeepSeek-R1模型在FP8/FP4精度下的MMLU/GSM8K/AIME24/GPQA/MATH-500準(zhǔn)確率(PTQ量化后)
表2提供了基于BF16基準(zhǔn)精度以及在流行的Llama 3.1 405B和Llama 3.3 70B模型上使用FP4量化后的準(zhǔn)確性結(jié)果。
表2. Llama模型在BF16/FP4精度下的MMLU和GSM8K準(zhǔn)確率(PTQ量化后)
在以低精度(例如FP4)部署時(shí),如果可以獲取微調(diào)數(shù)據(jù)集,則可以應(yīng)用量化感知訓(xùn)練(QAT)來(lái)恢復(fù)精度。
為了展示QAT的價(jià)值,使用TensorRT模型優(yōu)化器通過(guò)QAT將NVIDIA Nemotron 4 15B和Nemotron 4 340B模型量化為FP4,與BF16基準(zhǔn)相比實(shí)現(xiàn)了無(wú)損的FP4量化(表3)。
表3. FP4 PTQ和QAT相對(duì)于BF16基準(zhǔn)的vMMLU 5-shot準(zhǔn)確率。模型優(yōu)化器QAT實(shí)現(xiàn)了Nemotron 4 15B和Nemotron 4 340B的無(wú)損量化。
使用TensorRT與TensorRT Model Optimizer的FP4精度提升Blackwell平臺(tái)圖像生成效率
此前,NVIDIA的TensorRT和TensorRT Model Optimizer已通過(guò)INT8和FP8等8比特量化技術(shù),大幅提升了擴(kuò)散模型(Diffusion Models)在圖像生成任務(wù)中的性能。
現(xiàn)在,隨著NVIDIA Blackwell架構(gòu)與FP4精度的出現(xiàn),AI圖像生成的效率再度實(shí)現(xiàn)了飛躍。
這一性能優(yōu)勢(shì)不僅適用于數(shù)據(jù)中心和專業(yè)平臺(tái),也同樣惠及搭載NVIDIA GeForce RTX 50系列GPU的個(gè)人AI電腦(AI PC),使用戶能在本地快速生成高質(zhì)量圖像。
由Black Forest Labs推出的Flux.1模型系列屬于業(yè)內(nèi)領(lǐng)先的文本到圖像(Text-to-Image)生成模型,具有卓越的文本提示遵循能力,能夠生成豐富復(fù)雜的場(chǎng)景。
開發(fā)者現(xiàn)已可從Black Forest Labs在Hugging Face上提供的模型庫(kù)中下載FP4量化的Flux模型,并直接使用TensorRT進(jìn)行部署。
這些FP4量化模型由Black Forest Labs團(tuán)隊(duì)利用TensorRT Model Optimizer提供的FP4工作流和配方(recipes)生成。
為突出展示FP4精度對(duì)Blackwell平臺(tái)圖像生成性能的提升,F(xiàn)lux.1-dev模型在FP4精度下與FP16相比:
? 圖像生成吞吐量(每秒生成圖像數(shù))提升最高達(dá)3倍;
? 顯存(VRAM)占用量壓縮最高達(dá)5.2倍;
? 在性能顯著提升的同時(shí),生成圖像的質(zhì)量仍然保持不變(詳見表4)。
圖4. GeForce RTX 5090在FP4精度下,F(xiàn)lux.1-dev的圖像吞吐量與其他精度在30步長(zhǎng)下的對(duì)比。
在Flux.1-dev模型中,僅Transformer主干部分采用了FP4精度進(jìn)行量化,而模型中的其他部分則依然保持BF16精度。
此外,TensorRT的DemoDiffusion工具提供了一種低顯存(low-VRAM)模式。
在該模式下,T5、CLIP、VAE以及Flux.1-dev所用的FLUX Transformer模型會(huì)按需加載,任務(wù)完成后隨即卸載。
這種策略使得FLUX模型的峰值顯存占用不會(huì)超過(guò)上述四個(gè)子模型中單個(gè)模型的最大顯存需求。
但相應(yīng)地,這種加載和卸載模型的方式也會(huì)增加一定的推理延遲。
表4. Blackwell FP4顯存使用量及與不同精度格式的節(jié)省情況對(duì)比
圖5展示了使用FP4精度量化的Flux模型生成的示例圖像,從中可明顯看出,與使用BF16精度的基準(zhǔn)模型相比,在給定提示詞下生成圖像的質(zhì)量和內(nèi)容保持了一致。
表5通過(guò)對(duì)1000張生成圖像的定量評(píng)估,進(jìn)一步驗(yàn)證了FP4模型在圖像質(zhì)量、相關(guān)性以及視覺(jué)吸引力方面的表現(xiàn)。
圖5示例圖像對(duì)應(yīng)的提示詞如下↓
上圖提示詞:
“兩顆巨大的恒星在浩瀚宇宙中彼此環(huán)繞共舞,強(qiáng)大的引力使它們逐漸靠近。當(dāng)其中一顆恒星坍縮為黑洞時(shí),爆發(fā)出耀眼的能量,形成一道璀璨奪目的光輝,在宇宙的黑暗背景中熠熠生輝。四周旋轉(zhuǎn)著的氣體與塵埃云團(tuán)環(huán)繞著這一壯觀景象,展現(xiàn)著宇宙深處難以想象的巨大能量。Two colossal stars dance in the vastness of space, their intense gravitational forces pulling them closer together. As one star collapses into a black hole, it releases a brilliant burst of energy, creating a dazzling display of shimmering light against the cosmic backdrop. Swirling clouds of gas and dust encircle the spectacle, hinting at the unimaginable power contained within.”
下圖提示詞:
“畫面的中央放置著一個(gè)真實(shí)感十足的球體,其表面覆蓋著柔軟蓬松的動(dòng)物毛發(fā)。毛發(fā)細(xì)致逼真,呈現(xiàn)出自然、柔和的起伏動(dòng)態(tài)。毛發(fā)所投射的陰影增強(qiáng)了畫面的視覺(jué)效果,整體渲染效果細(xì)膩逼真,具有高質(zhì)量的Octane渲染質(zhì)感。A realistic sphere textured with the soft, fluffy fur of an animal sits in the center of the image on a plain colored background. The fur ripples with gentle, lifelike motion, and the shadows cast by the fur create an engaging visual effect. The render has a high-quality, octane appearance.”
圖5. 在RTX 5090上,Blackwell FP4以一半的顯存實(shí)現(xiàn)了Flux.1-dev模型3倍的推理性能,同時(shí)保持了相當(dāng)?shù)馁|(zhì)量。
表5. 使用Image Reward、CLIP-IQA和CLIPScore對(duì)FP4圖像質(zhì)量的定量評(píng)估(數(shù)值越高越好)。
Flux.1-dev模型性能測(cè)試說(shuō)明
?測(cè)試設(shè)置:Flux.1-dev模型,推理步數(shù)30步,共生成1,000張圖像,采用TensorRT Model Optimizer v0.23.0 FP4配方進(jìn)行量化。
?模擬環(huán)境:2025年1月24日,基于NVIDIA H100 GPU進(jìn)行模擬測(cè)試。在TensorRT內(nèi)核層面,此模擬與RTX 5090上的表現(xiàn)數(shù)學(xué)上完全一致,但實(shí)際運(yùn)行于RTX 5090 GPU時(shí)可能會(huì)存在細(xì)微的分?jǐn)?shù)差異。
TensorRT 10.8更新帶來(lái)的性能提升
TensorRT 10.8版本現(xiàn)已支持Flux.1-Dev與Flux.1-Schnell模型在高端GeForce RTX 50系列GPU上的峰值FP4性能表現(xiàn)。
此外,借助新增的--low-vram(低顯存)模式,即使是在顯存容量受限的GeForce RTX 5070等GPU上,也能順暢運(yùn)行上述模型。
同時(shí),TensorRT現(xiàn)在還支持運(yùn)行由Black Forest Labs提供的Depth和Canny Flux ControlNet模型。開發(fā)者可立即使用TensorRT提供的demo/Diffusion工具體驗(yàn)相關(guān)功能。
cuDNN的深度學(xué)習(xí)原語(yǔ)已針對(duì)Blackwell架構(gòu)優(yōu)化
自2014年推出以來(lái),NVIDIA cuDNN庫(kù)一直是GPU上深度學(xué)習(xí)加速的核心組件。
它通過(guò)高度優(yōu)化的深度學(xué)習(xí)基礎(chǔ)原語(yǔ)實(shí)現(xiàn),幫助PyTorch、TensorFlow和JAX等主流框架達(dá)到業(yè)內(nèi)領(lǐng)先的性能表現(xiàn)。
憑借與框架的無(wú)縫集成及在多代GPU架構(gòu)上的優(yōu)化支持,cuDNN已經(jīng)成為貫穿訓(xùn)練到推理全流程深度學(xué)習(xí)工作負(fù)載的性能引擎。
隨著cuDNN 9.7版本的發(fā)布,NVIDIA正式將cuDNN對(duì)Blackwell架構(gòu)的支持?jǐn)U展到了數(shù)據(jù)中心和GeForce系列產(chǎn)品線。
當(dāng)開發(fā)者將現(xiàn)有的cuDNN算子遷移到Blackwell架構(gòu)的新一代Tensor Core上時(shí),將顯著提升性能表現(xiàn)。
新版庫(kù)提供了高度優(yōu)化的通用矩陣乘法(GEMM)API,充分發(fā)揮Blackwell架構(gòu)在FP8和FP4區(qū)塊縮放(Block-scaling)操作上的優(yōu)勢(shì),屏蔽底層復(fù)雜性,使開發(fā)者更專注于上層的創(chuàng)新工作。
針對(duì)FP8精度的Flash Attention操作,cuDNN在Blackwell架構(gòu)下取得了明顯的性能提升:
? 前向傳播(Forward Propagation)性能提升高達(dá)50%;
? 反向傳播(Backward Propagation)性能提升更高達(dá)84%。
不僅如此,cuDNN還為Blackwell架構(gòu)提供了高度優(yōu)化且具有高級(jí)算子融合能力的GEMM操作。未來(lái),cuDNN將進(jìn)一步拓展算子融合支持,以持續(xù)推動(dòng)深度學(xué)習(xí)工作負(fù)載性能的提升。
圖6. NVIDIA Blackwell B200與NVIDIA Hopper H100之間的FP8 Flash Attention加速對(duì)比
借助CUTLASS打造高性能的Blackwell架構(gòu)CUDA內(nèi)核
自2017年首次推出以來(lái),CUTLASS一直是研究人員和開發(fā)者在NVIDIA GPU上實(shí)現(xiàn)高性能CUDA內(nèi)核的重要工具。
CUTLASS通過(guò)提供豐富的工具集,幫助開發(fā)者高效設(shè)計(jì)針對(duì)NVIDIA Tensor Core的自定義計(jì)算操作,例如通用矩陣乘法(GEMM)和卷積(Convolution)等,使硬件感知算法(Hardware-aware Algorithms)的開發(fā)變得更加高效。
這推動(dòng)了FlashAttention等創(chuàng)新算法的出現(xiàn),也確立了CUTLASS在GPU加速計(jì)算領(lǐng)域的重要地位。
此次CUTLASS 3.8版本的發(fā)布,全面增加了對(duì)NVIDIA最新Blackwell架構(gòu)的支持,幫助開發(fā)者充分利用新一代Tensor Core所支持的所有新數(shù)據(jù)類型,包括最新的窄精度MX數(shù)據(jù)格式以及NVIDIA自研的FP4精度。
這一更新將使開發(fā)者能更有效地為自定義算法和生產(chǎn)工作負(fù)載進(jìn)行性能優(yōu)化,充分釋放加速計(jì)算的最新潛力。
如圖7所示,借助CUTLASS,我們?cè)赥ensor Core計(jì)算操作上的性能表現(xiàn)已經(jīng)達(dá)到相對(duì)峰值性能的98%。
圖7. 在不同NVIDIA Blackwell Tensor Core上可實(shí)現(xiàn)的相對(duì)峰值性能
測(cè)試在B200系統(tǒng)上進(jìn)行,其中M=K=16384,N=17290。
CUTLASS為Blackwell架構(gòu)引入Grouped GEMM和混合輸入GEMM等熱門功能
最新版本的CUTLASS還在Blackwell架構(gòu)上引入了廣受歡迎的功能,例如Grouped GEMM(分組GEMM)和Mixed Input GEMM(混合輸入GEMM)計(jì)算:
? Grouped GEMM 能更高效地同時(shí)執(zhí)行多個(gè)“專家”(Expert)計(jì)算,從而顯著加速混合專家(MoE)模型的推理過(guò)程。
? Mixed Input GEMM 則可支持量化內(nèi)核(Quantized Kernels),降低大型語(yǔ)言模型(LLM)權(quán)重在GPU上的顯存占用,進(jìn)一步提高GPU資源的使用效率。
Blackwell架構(gòu)已獲得OpenAI Triton編譯器加持
此外,OpenAI Triton編譯器現(xiàn)已新增了對(duì)NVIDIA Blackwell架構(gòu)的支持。這一更新使開發(fā)者和研究人員能夠借助基于Python的Triton編譯器輕松調(diào)用Blackwell的最新架構(gòu)特性。
OpenAI Triton現(xiàn)已充分利用Blackwell架構(gòu)的創(chuàng)新優(yōu)勢(shì),在多個(gè)關(guān)鍵應(yīng)用場(chǎng)景下實(shí)現(xiàn)了接近最優(yōu)的性能表現(xiàn)。
總結(jié)一下,NVIDIA Blackwell架構(gòu)集成了眾多突破性技術(shù),大幅加速了生成式AI的推理性能,其中包括:
? 第二代Transformer Engine與FP4 Tensor Core;
? 第五代NVLink與NVLink Switch技術(shù)。
牛刀小試的成績(jī),NVIDIA宣布創(chuàng)下了滿血版DeepSeek-R1模型推理性能的世界紀(jì)錄:一套配備8顆Blackwell GPU的NVIDIA DGX系統(tǒng),能實(shí)現(xiàn)單用戶每秒超過(guò)250個(gè)token的推理速度,最大吞吐量更超過(guò)每秒30,000個(gè)token。
本文編譯自英偉達(dá)官方博客
原文鏈接:https://developer.nvidia.com/blog/nvidia-bla
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.