英å‰é” GTC 大會已經æˆäº† AI 界超級碗,沒有劇本也沒有æè©žå™¨ï¼Œä¸é€”黃ä»å‹›è¢«ç·šçºœå¡ä½ï¼Œåè€Œæ˜¯é€™å ´é«˜æ¿ƒåº¦ AI 發布會里最有人味的片段,在當今æå‰åŸºæœ¬æå‰å½©æŽ’或錄æ’的科技發布會里已經很稀缺了。
  
   剛剛,黃ä»å‹›å†æ¬¡ç™¼å¸ƒäº†å…¨æ–°ä¸€ä»£æ ¸å½ˆç´š AI 芯片,ä¸éŽé€™å ´ç™¼å¸ƒæœƒçš„還有個隱è—主角——DeepSeek。
   由于智能體 AI(Agentic AI)和推ç†èƒ½åŠ›çš„æå‡ï¼Œç¾åœ¨æ‰€éœ€çš„計算é‡è‡³å°‘æ˜¯åŽ»å¹´æ¤æ™‚é ä¼°çš„ 100 å€ã€‚
   æŽ¨ç†æˆæœ¬æ•ˆçŽ‡çµ¦ AI 行æ¥å¸¶ä¾†å½±éŸ¿ï¼Œè€Œä¸æ˜¯ç°¡å–®åœ°å †ç©è¨ˆç®—能力,æˆç‚ºè²«ç©¿é€™å ´ç™¼å¸ƒæœƒçš„主線。英å‰é”è¦è®Šæˆ AI å·¥å» ï¼Œè®“ AI 以超越人類的速度å¸ç¿’和推ç†ã€‚
   æŽ¨ç†æœ¬è³ªä¸Šæ˜¯ä¸€åº§å·¥å» 在生產 tokenï¼Œè€Œå·¥å» çš„åƒ¹å€¼å–æ±ºäºŽèƒ½å¦å‰µé€ æ”¶å…¥å’Œåˆ©æ½¤ã€‚å› æ¤ï¼Œé€™åº§å·¥å» å¿…é ˆä»¥æ¥µè‡´çš„æ•ˆçŽ‡æ‰“é€ ã€‚
   黃ä»å‹›æŽå‡ºçš„英å‰é”æ–°ã€Œæ ¸å½ˆã€ä¹Ÿåœ¨å‘Šè¨´æˆ‘們,未來的人工智能競çˆä¸åœ¨äºŽèª°çš„æ¨¡åž‹æ›´å¤§ï¼Œè€Œåœ¨äºŽèª°çš„æ¨¡åž‹å…·æœ‰æœ€ä½Žçš„æŽ¨ç†æˆæœ¬å’Œæ›´é«˜æŽ¨ç†çš„æ•ˆçŽ‡ã€‚
   除了全新 Blackwell 芯片,還有兩款「真·AI PCã€
   全新的 Blackwell 芯片代號為「Ultraã€ï¼Œä¹Ÿå°±æ˜¯ GB300 AI èŠ¯ç‰‡ï¼ŒæŽ¥æ£’åŽ»å¹´çš„ã€Œå…¨çƒæœ€å¼· AI 芯片ã€B200,å†ä¸€æ¬¡å¯¦ç¾æ€§èƒ½ä¸Šçš„çªç ´ã€‚
   Blackwell Ultra 將包括英å‰é” GB300 NVL72 機架級解決方案,以åŠè‹±å‰é” HGX B300 NVL16 系統。
  
   Blackwell Ultra GB300 NVL72 將于今年下åŠå¹´ç™¼å¸ƒï¼Œåƒæ•¸ç´°ç¯€å¦‚下:
   1.1 EF FP4 Inference:在進行 FP4 精度的推ç†ä»»å‹™æ™‚ï¼Œèƒ½å¤ é”到 1.1 ExaFLOPS(æ¯ç§’百億億次浮點é‹ç®—)。
   0.36 EF FP8 Training:在進行 FP8 精度的訓練任務時,性能為 1.2 ExaFLOPS。
   1.5X GB300 NVL72:與 GB200 NVL72 相比,性能為 1.5 å€ã€‚
   20 TB HBM3:é…備了 20TB HBM å…§å˜ï¼Œæ˜¯å‰ä»£çš„ 1.5 å€
   40 TB Fast Memoryï¼šæ“æœ‰ 40TB 的快速內å˜ï¼Œæ˜¯å‰ä»£çš„ 1.5 å€ã€‚
   14.4 TB/s CX8ï¼šæ”¯æŒ CX8,帶寬為 14.4 TB/s,是å‰ä»£çš„ 2 å€ã€‚
   單個 Blackwell Ultra 芯片將和å‰ä»£ä¸€æ¨£æä¾›ç›¸åŒçš„ 20 petaflops(æ¯ç§’åƒè¬å„„次浮點é‹ç®—) AI 性能,但é…備更多的 288GB çš„ HBM3e å…§å˜ã€‚
   如果說 H100 æ›´é©åˆå¤§è¦æ¨¡æ¨¡åž‹è¨“練,B200 在推ç†ä»»å‹™ä¸è¡¨ç¾å‡ºè‰²ï¼Œé‚£ä¹ˆ B300 則是一個多功能平臺,é 訓練ã€åŽè¨“ç·´å’Œ AI 推ç†éƒ½ä¸åœ¨è©±ä¸‹ã€‚
  
   英å‰é”還特別指出,Blackwell Ultra 也é©ç”¨äºŽ AI 智能體,以åŠç”¨äºŽè¨“ç·´æ©Ÿå™¨äººå’Œæ±½è»Šè‡ªå‹•é§•é§›çš„ã€Œç‰©ç† AIã€ã€‚
   為了進一æ¥å¢žå¼·ç³»çµ±æ€§èƒ½ï¼ŒBlackwell Ultra 還將與英å‰é”çš„ Spectrum-X 以太網和英å‰é” Quantum-X800 InfiniBand 平臺集æˆï¼Œç‚ºç³»çµ±ä¸çš„æ¯å€‹ GPU æä¾› 800Gb/s 的數é‡åžåé‡ï¼Œå¹«åŠ© AI å·¥å» å’Œäº‘æ•¸æ“šä¸å¿ƒèƒ½å¤ æ›´å¿«è™•ç† AI æŽ¨ç†æ¨¡åž‹ã€‚
   除了 NVL72 機架,英å‰é”還推出了包å«å–®å€‹ GB300 Blackwell Ultra 芯片的臺å¼é›»è…¦ DGX Station。Blackwell Ultra 之外,這個主機還將é…å‚™ 784GB çš„åŒä¸€ç³»çµ±å…§å˜ï¼Œå…§ç½® 800Gbps 英å‰é” ConnectX-8 SuperNIC ç¶²çµ¡ï¼Œèƒ½å¤ æ”¯æŒ 20 petaflops çš„ AI 性能。
  
   而之å‰åœ¨ CES 2025 å±•ç¤ºçš„ã€Œè¿·ä½ ä¸»æ©Ÿã€Project DIGITS 也æ£å¼è¢«å‘½å為 DGX Spark,æè¼‰å°ˆç‚ºæ¡Œé¢å„ªåŒ–çš„ GB10 Grace Blackwell 超級芯片,æ¯ç§’å¯æä¾›é«˜é” 1000 è¬å„„次 AI 計算æ“作,用于最新 AI æŽ¨ç†æ¨¡åž‹çš„微調和推ç†ï¼ŒåŒ…括 NVIDIA Cosmos Reason 世界基礎模型和 NVIDIA GR00T N1 機器人基礎模型。
  
   黃ä»å‹›è¡¨ç¤ºï¼Œå€ŸåŠ© DGX Station å’Œ DGX Spark,用戶å¯ä»¥åœ¨æœ¬åœ°é‹è¡Œå¤§æ¨¡åž‹ï¼Œæˆ–者將其部署在 NVIDIA DGX Cloud ç‰å…¶ä»–åŠ é€Ÿäº‘æˆ–è€…æ•¸æ“šä¸å¿ƒåŸºç¤Žè¨æ–½ä¸Šã€‚
   這是 AI 時代的計算機。
   DGX Spark 系統ç¾å·²é–‹æ”¾é 訂,而 DGX Station é 計將由è¯ç¢©ã€æˆ´çˆ¾ã€æƒ æ™®ç‰åˆä½œä¼™ä¼´äºŽä»Šå¹´æ™šäº›æ™‚候推出。
   下一代 AI 芯片 Rubin 官宣,2026 年下åŠå¹´æŽ¨å‡º
   英å‰é”一直以科å¸å®¶çš„åå—為其架構命åï¼Œé€™ç¨®å‘½åæ–¹å¼å·²æˆç‚ºè‹±å‰é”文化的一部分。這一次,英å‰é”延續了這一慣例,將下一代 AI 芯片平臺命å為「Vera Rubinã€ï¼Œä»¥ç´€å¿µç¾Žåœ‹è‘—å天文å¸å®¶è–‡æ‹‰Â·é¯è³“(Vera Rubin)。
   黃ä»å‹›è¡¨ç¤ºï¼ŒRubin 的性能將é”到 Hopper çš„ 900 å€ï¼Œè€Œ Blackwell 相較 Hopper 已實ç¾äº† 68 å€çš„æå‡ã€‚
   å…¶ä¸ï¼ŒVera Rubin NVL144 é 計將在 2026 年下åŠå¹´ç™¼å¸ƒã€‚åƒæ•¸ä¿¡æ¯çœæµä¸çœ‹ç‰ˆï¼š
   3.6 EF FP4 Inference:在進行 FP4 精度的推ç†ä»»å‹™æ™‚ï¼Œèƒ½å¤ é”到 3.6 ExaFLOPS(æ¯ç§’百億億次浮點é‹ç®—)。
   1.2 EF FP8 Training:在進行 FP8 精度的訓練任務時,性能為 1.2 ExaFLOPS。
   3.3X GB300 NVL72:與 GB300 NVL72 相比,性能æå‡äº† 3.3 å€ã€‚
   13 TB/s HBM4:é…備了 HBM4,帶寬為 13TB/s。
   75 TB Fast Memoryï¼šæ“æœ‰ 75 TB 的快速內å˜ï¼Œæ˜¯å‰ä»£çš„ 1.6 å€ã€‚
   260 TB/s NVLink6ï¼šæ”¯æŒ NVLink 6,帶寬為 260 TB/s,是å‰ä»£çš„ 2 å€ã€‚
   28.8 TB/s CX9ï¼šæ”¯æŒ CX9,帶寬為 28.8 TB/s,是å‰ä»£çš„ 2 å€ã€‚
  
   標準版 Rubin å°‡é…å‚™ HBM4,性能比當å‰çš„ Hopper H100 芯片大幅æå‡ã€‚
   Rubin 引入å為 Grace CPU 的繼任者——Veruï¼ŒåŒ…å« 88 個定制的 Arm æ ¸å¿ƒï¼Œæ¯å€‹æ ¸å¿ƒæ”¯æŒ 176 å€‹ç·šç¨‹ï¼Œå¹¶é€šéŽ NVLink-C2C å¯¦ç¾ 1.8 TB/s 的高帶寬連接。
   英å‰é”表示,定制的 Vera è¨è¨ˆå°‡æ¯”去年 Grace Blackwell 芯片ä¸ä½¿ç”¨çš„ CPU 速度æå‡ä¸€å€ã€‚
   與 Vera CPU æé…時,Rubin 在推ç†ä»»å‹™ä¸çš„算力å¯é” 50 petaflops,是 Blackwell 20 petaflops 的兩å€ä»¥ä¸Šã€‚æ¤å¤–,Rubin 還支æŒé«˜é” 288GB çš„ HBM4 å…§å˜ï¼Œé€™ä¹Ÿæ˜¯ AI é–‹ç™¼è€…é—œæ³¨çš„æ ¸å¿ƒè¦æ ¼ä¹‹ä¸€ã€‚
  
   實際上,Rubin 由兩個 GPU 組æˆï¼Œè€Œé€™ä¸€è¨è¨ˆç†å¿µèˆ‡ç•¶å‰å¸‚å ´ä¸Šçš„ Blackwell GPU 類似——åŽè€…也是通éŽå°‡å…©å€‹ç¨ç«‹èŠ¯ç‰‡çµ„è£ç‚ºä¸€å€‹æ•´é«”é‹è¡Œã€‚
   從 Rubin 開始,英å‰é”å°‡ä¸å†åƒå°å¾… Blackwell 那樣把多 GPU 組件稱為單一 GPU,而是更準確地按照實際的 GPU 芯片裸片數é‡ä¾†è¨ˆæ•¸ã€‚
   äº’è¯æŠ€è¡“ä¹Ÿå‡ç´šäº†ï¼ŒRubin é…備第å…代 NVLinkï¼Œä»¥åŠæ”¯æŒ 1600 Gb/s çš„ CX9 ç¶²å¡ï¼Œèƒ½å¤ åŠ é€Ÿæ•¸æ“šå‚³è¼¸å¹¶æå‡é€£æŽ¥æ€§ã€‚
   除了標準版 Rubin,英å‰é”還計劃推出 Rubin Ultra 版本。
  
   Rubin Ultra NVL576 則將于 2027 年下åŠå¹´æŽ¨å‡ºã€‚åƒæ•¸ç´°ç¯€å¦‚下:
   15 EF FP4 Inference:在 FP4 精度下進行推ç†ä»»å‹™æ™‚,性能é”到 15 ExaFLOPS。
   5 EF FP8 Training:在 FP8 精度下進行訓練任務時,性能為 5 ExaFLOPS。
   14X GB300 NVL72:相比 GB300 NVL72,性能æå‡ 14 å€ã€‚
   4.6 PB/s HBM4e:é…å‚™ HBM4e å…§å˜ï¼Œå¸¶å¯¬ç‚º 4.6 PB/s。
   365 TB Fast Memoryï¼šç³»çµ±æ“æœ‰ 365 TB 的快速內å˜ï¼Œæ˜¯å‰ä»£çš„ 8 å€ã€‚
   1.5 PB/s NVLink7ï¼šæ”¯æŒ NVLink 7,帶寬為 1.5 PB/s,是å‰ä»£çš„ 12 å€ã€‚
   115.2 TB/s CX9ï¼šæ”¯æŒ CX9,帶寬為 115.2 TB/s,是å‰ä»£çš„ 8 å€ã€‚
   在硬件é…置上,Rubin Ultra çš„ Veras 系統延續了 88 個定制 Arm æ ¸å¿ƒçš„è¨è¨ˆï¼Œæ¯å€‹æ ¸å¿ƒæ”¯æŒ 176 å€‹ç·šç¨‹ï¼Œå¹¶é€šéŽ NVLink-C2C æä¾› 1.8 TB/s 的帶寬。
   而 GPU æ–¹é¢ï¼ŒRubin Ultra 集æˆäº† 4 個 Reticle-Sized GPU,æ¯é¡† GPU æä¾› 100 petaflops çš„ FP4 計算能力,并é…å‚™ 1TB çš„ HBM4e å…§å˜ï¼Œåœ¨æ€§èƒ½å’Œå…§å˜å®¹é‡ä¸Šéƒ½é”到了新的高度。
   為了在瞬æ¯è¬è®Šçš„å¸‚å ´ç«¶çˆä¸ç«™ç©©è…³è·Ÿï¼Œè‹±å‰é”的產å“發布節å¥å·²ç¶“縮çŸè‡³ä¸€å¹´ä¸€æ›´ã€‚發布會上,è€é»ƒä¹Ÿæ£å¼ææ›‰ä¸‹ä¸€ä»£ AI 芯片的命å—— 物ç†å¸å®¶è²»æ›¼(Feynman)。
   隨著 AI å·¥å» çš„è¦æ¨¡ä¸æ–·æ“´å¤§ï¼Œç¶²çµ¡åŸºç¤Žè¨æ–½çš„é‡è¦æ€§æ„ˆç™¼å‡¸é¡¯ã€‚
   為æ¤ï¼Œè‹±å‰é”推出了 Spectrum-X? å’Œ Quantum-X ç¡…å…‰ç¶²çµ¡äº¤æ›æ©Ÿï¼Œæ—¨åœ¨å¹«åŠ© AI å·¥å» å¯¦ç¾è·¨ç«™é»žé€£æŽ¥æ•¸ç™¾è¬ GPUï¼ŒåŒæ™‚顯著é™ä½Žèƒ½è€—å’Œé‹ç‡Ÿæˆæœ¬ã€‚
  
   Spectrum-X Photonics äº¤æ›æ©Ÿå…·æœ‰å¤šç¨®é…置,包括:
   128 ç«¯å£ 800Gb/s或 512 ç«¯å£ 200Gb/s é…ç½®ï¼Œç¸½å¸¶å¯¬é” 100Tb/s
   512 ç«¯å£ 800Gb/s或 2048 端å£200Gb/sé…置,總åžåé‡é” 400Tb/s
   與之é…套的 Quantum-X Photonics äº¤æ›æ©Ÿå‰‡åŸºäºŽ 200Gb/s SerDes 技術,æä¾› 144 ç«¯å£ 800Gb/s çš„ InfiniBand 連接,并采用液冷è¨è¨ˆé«˜æ•ˆå†·å»æ¿è¼‰ç¡…å…‰å組件
   與上一代產å“相比,Quantum-X Photonics äº¤æ›æ©Ÿç‚º AI 計算架構æä¾› 2 å€é€Ÿåº¦å’Œ 5 å€å¯æ“´å±•性。
   Quantum-X Photonics InfiniBand äº¤æ›æ©Ÿé 計于今年晚些時候上市,而 Spectrum-X Photonics ä»¥å¤ªç¶²äº¤æ›æ©Ÿé 計將于 2026 年推出。
   隨著 AI çš„å¿«é€Ÿç™¼å±•ï¼Œå°æ•¸æ“šä¸å¿ƒçš„帶寬ã€ä½Žå»¶é²å’Œé«˜èƒ½æ•ˆéœ€æ±‚ä¹Ÿæ€¥åŠ‡å¢žåŠ ã€‚
   英å‰é” Spectrum-X Photonics äº¤æ›æ©Ÿé‡‡ç”¨äº†ä¸€ç¨®å為 CPO 的光電åé›†æˆæŠ€è¡“ã€‚å…¶æ ¸å¿ƒæ˜¯å°‡å…‰å¼•æ“Žï¼ˆå°±æ˜¯èƒ½è™•ç†å…‰ä¿¡è™Ÿçš„芯片)和普通的電å芯片(比如交æ›èŠ¯ç‰‡æˆ– ASIC 芯片)放在åŒä¸€å€‹å°è£é‡Œã€‚
   這種技術的好處很多:
   å‚³è¼¸æ•ˆçŽ‡æ›´é«˜ï¼šå› ç‚ºè·é›¢ç¸®çŸï¼Œä¿¡è™Ÿå‚³è¼¸æ›´å¿«ã€‚
   功耗更低:è·é›¢çŸäº†ï¼Œå‚³è¼¸ä¿¡è™Ÿéœ€è¦çš„能é‡ä¹Ÿå°‘了。
   é«”ç©æ›´å°ï¼šæŠŠå…‰å’Œé›»çš„部件集æˆåœ¨ä¸€èµ·ï¼Œæ•´é«”é«”ç©ä¹Ÿè®Šå°äº†ï¼Œç©ºé–“利用率更高。
   AI å·¥å» çš„ã€Œæ“作系統ã€Dynamo
   未來將沒有數據ä¸å¿ƒï¼Œåªæœ‰ AI å·¥å» ã€‚
   黃ä»å‹›è¡¨ç¤ºï¼Œæœªä¾†ï¼Œæ¯å€‹è¡Œæ¥ã€æ¯å®¶å…¬å¸æ“æœ‰å·¥å» æ™‚ï¼Œéƒ½å°‡æœ‰å…©å€‹å·¥å» ï¼šä¸€å€‹æ˜¯ä»–å€‘å¯¦éš›ç”Ÿç”¢çš„å·¥å» ï¼Œå¦ä¸€å€‹æ˜¯ AI å·¥å» ï¼Œè€Œ Dynamo 則是專門為「AI å·¥å» ã€æ‰“é€ çš„æ“作系統。
  
   Dynamo æ˜¯ä¸€æ¬¾åˆ†å¸ƒå¼æŽ¨ç†æœå‹™åº«ï¼Œç‚ºéœ€è¦ token 但åˆç„¡æ³•ç²å¾—è¶³å¤ token çš„å•題æä¾›é–‹æºè§£æ±ºæ–¹æ¡ˆã€‚
   簡單來說,Dynamo 有四個方é¢çš„優勢:
   GPU è¦åŠƒå¼•æ“Žï¼Œå‹•æ…‹èª¿åº¦ GPU 資æºä»¥é©æ‡‰ç”¨æˆ¶éœ€æ±‚
   智能路由器,減少 GPU å°é‡å¾©å’Œé‡ç–Šè«‹æ±‚çš„é‡æ–°è¨ˆç®—ï¼Œé‡‹æ”¾æ›´å¤šç®—åŠ›æ‡‰å°æ–°çš„傳入請求
   低延é²é€šä¿¡åº«ï¼ŒåŠ é€Ÿæ•¸æ“šå‚³è¼¸
   å…§å˜ç®¡ç†å™¨ï¼Œæ™ºèƒ½åœ¨ä½Žæˆæœ¬å…§å˜å’Œå˜å„²è¨å‚™ä¸çš„æŽ¨ç†æ•¸æ“š
   人形機器人的露臉環節,永é 䏿œƒç¼ºå¸
   人形機器人å†ä¸€æ¬¡æˆç‚ºäº† GTC 大會的壓軸節目,這次英å‰é”帶來了 Isaac GR00T N1,全çƒé¦–款開æºäººå½¢æ©Ÿå™¨äººåŠŸèƒ½æ¨¡åž‹ã€‚
  
   黃ä»å‹›è¡¨ç¤ºï¼Œé€šç”¨æ©Ÿå™¨äººæŠ€è¡“的時代已經到來,借助 Isaac GR00T N1 æ ¸å¿ƒçš„æ•¸æ“šç”Ÿæˆä»¥åŠæ©Ÿå™¨äººå¸ç¿’框架,全çƒå„地的機器人開發人員將進入 AI æ™‚ä»£çš„ä¸‹ä¸€å€‹å‰æ²¿é ˜åŸŸã€‚
   é€™å€‹æ¨¡åž‹é‡‡ç”¨ã€Œé›™ç³»çµ±ã€æž¶æ§‹ï¼Œæ¨¡ä»¿äººé¡žçš„èªçŸ¥åŽŸç†ï¼š
   系統 1:快速æ€è€ƒçš„å‹•ä½œæ¨¡åž‹ï¼Œæ¨¡ä»¿äººé¡žçš„åæ‡‰æˆ–直覺
   系統 2:慢æ€è€ƒçš„æ¨¡åž‹ï¼Œç”¨äºŽæ·±æ€ç†Ÿæ…®çš„æ±ºç–
   在視覺語言模型的支æŒä¸‹ï¼Œç³»çµ± 2 å°ç’°å¢ƒå’ŒæŒ‡ä»¤é€²è¡ŒæŽ¨ç†ï¼Œç„¶åŽè¦åŠƒå‹•ä½œï¼Œç³»çµ± 1 將這些è¦åŠƒè½‰åŒ–ç‚ºæ©Ÿå™¨äººçš„çš„å‹•ä½œã€‚
   GR00T N1 的基礎模型采用廣義類人推ç†å’ŒæŠ€èƒ½é€²è¡Œäº†é 訓練,而開發人員å¯ä»¥é€šéŽçœŸå¯¦æˆ–åˆæˆæ•¸æ“šé€²è¡ŒåŽè¨“練,滿足特定的需求:既å¯ä»¥å®Œæˆå·¥å» 的特定任務,也å¯ä»¥åœ¨å®¶é‡Œè‡ªä¸»å®Œæˆå®¶å‹™ã€‚
   黃ä»å‹›é‚„宣布了與 Google DeepMind å’Œ Disney Research åˆä½œé–‹ç™¼çš„é–‹æºç‰©ç†å¼•擎 Newton。
  
   一臺æè¼‰ Newton 平臺的機器人也登上了舞臺,黃ä»å‹›ç¨±ä¹‹ç‚ºã€ŒBlueã€ï¼Œå¤–觀神似《星çƒå¤§æˆ°ã€‹ä¸çš„ BDX æ©Ÿå™¨äººï¼Œèƒ½å¤ ç”¨è²éŸ³å’Œå‹•作和黃ä»å‹›äº’動。
   8 塊 GPU,DeepSeek-R1 推ç†é€Ÿåº¦å‰µå…¨çƒä¹‹æœ€
   英å‰é”實ç¾äº†å…¨çƒæœ€å¿«çš„ DeepSeek-R1 推ç†ã€‚
   官網顯示,一臺æè¼‰ 8 個 Blackwell GPU çš„ DGX 系統,在é‹è¡Œ 6710 å„„åƒæ•¸çš„ DeepSeek-R1 模型時,å¯å¯¦ç¾æ¯ç”¨æˆ¶æ¯ç§’è¶…éŽ 250 個 token 的速度,或é”到最高åžå釿¯ç§’è¶…éŽ 30000 個 token。
   通éŽç¡¬ä»¶å’Œè»Ÿä»¶çš„çµåˆï¼Œè‡ªä»Šå¹´ 1 月以來,英å‰é”在 DeepSeek-R1 671B 模型上的åžå釿å‡äº†ç´„ 36 å€ï¼Œæ¯ token çš„æˆæœ¬æ•ˆçއæé«˜äº†ç´„ 32 å€ã€‚
  
   為了實ç¾é€™ä¸€æˆå°±ï¼Œè‹±å‰é”完整的推ç†ç”Ÿæ…‹ç³»çµ±å·²é‡å° Blackwell 架構進行了深度優化,ä¸åƒ…æ•´åˆ TensorRT-LLMã€TensorRT Model Optimizer ç‰å…ˆé€²å·¥å…·ï¼Œé‚„ç„¡ç¸«æ”¯æŒ PyTorchã€JAX å’Œ TensorFlow ç‰ä¸»æµæ¡†æž¶ã€‚
   在 DeepSeek-R1ã€Llama 3.1 405B å’Œ Llama 3.3 70B ç‰æ¨¡åž‹ä¸Šï¼Œé‡‡ç”¨ FP4 精度的 DGX B200 平臺相較于 DGX H200 平臺,推ç†åžå釿å‡è¶…éŽ 3 å€ã€‚
   值得注æ„çš„æ˜¯ï¼Œæ¤æ¬¡ç™¼å¸ƒæœƒçš„主題演講并未æåŠé‡å計算,但英å‰é”特æ„在這屆 GTC 大會è¨ç½®äº†é‡å日,邀請了多家當紅é‡å計算公å¸çš„ CEO 出å¸ã€‚
   è¦çŸ¥é“黃ä»å‹›å¹´åˆä¸€å¥ã€Œé‡å計算還需 20 å¹´æ‰å¯¦ç”¨ã€çš„論斷猶在耳畔。
   一改å£é¢¨çš„背åŽï¼Œé›¢ä¸é–‹å¾®è»Ÿè€—時 17å¹´ç ”ç™¼çš„æ‹“æ’²é‡å芯片 Majorana 1 å¯¦ç¾ 8 個拓撲é‡å比特集æˆï¼Œé›¢ä¸é–‹ Google Willow 芯片宣稱用 5 分é˜å®Œæˆç¶“典計算機需 10^25 年處ç†çš„任務,推動了é‡å計算的熱潮。
  
   芯片無疑是é‡é æˆ²ï¼Œä½†ä¸€äº›è»Ÿä»¶çš„äº®ç›¸åŒæ¨£å€¼å¾—關注。
   ç¡…è°·è‘—åæŠ•資人馬克·安德森曾æå‡ºè»Ÿä»¶æ£åœ¨åžå™¬ä¸–界(Software is eating the worldï¼‰çš„è«–æ–·ï¼Œå…¶æ ¸å¿ƒé‚輯在于軟件通éŽè™›æ“¬åŒ–ã€æŠ½è±¡åŒ–å’Œæ¨™æº–åŒ–ï¼Œæ£åœ¨æˆç‚ºæŽ§åˆ¶ç‰©ç†ä¸–ç•Œçš„åŸºç¤Žè¨æ–½ã€‚
   䏿»¿è¶³äºŽåšã€Œè³£éŸäººã€ï¼Œè‹±å‰é”çš„é‡Žå¿ƒæ˜¯æ‰“é€ AI 時代的「生產力æ“作系統ã€ã€‚å¾žæ±½è»Šæ™ºèƒ½é§•é§›ï¼Œåˆ°åˆ¶é€ æ¥çš„æ•¸å—å¿ç”Ÿå·¥å» ï¼Œé€™äº›è²«ç©¿æ•´å ´ç™¼å¸ƒæœƒçš„æ¡ˆä¾‹éƒ½æ˜¯å°‡ GPU 算力轉化為行æ¥ç”Ÿç”¢åŠ›çš„å…·è±¡åŒ–è¡¨é”。
   å¯¦éš›ä¸Šï¼Œç„¡è«–æ˜¯ç™¼å¸ƒæœƒä¸Šäº®ç›¸çš„æœ€æ–°æ ¸å½ˆèŠ¯ç‰‡ï¼Œé‚„æ˜¯æŠ¼æ³¨æˆ°æœªä¾†çš„é‡å計算,黃ä»å‹›åœ¨é€™å ´ç™¼å¸ƒæœƒä¸Šå° AI æœªä¾†ç™¼å±•çš„æ´žå¯Ÿå’Œå¸ƒå±€ï¼Œéƒ½æ¯”ç•¶ä¸‹çš„æŠ€è¡“åƒæ•¸èˆ‡æ€§èƒ½æŒ‡æ¨™æ›´å…·çœ‹é»žã€‚
  
   在介紹 Blackwell 與 Hopper æž¶æ§‹çš„å°æ¯”時,黃ä»å‹›é‚„ä¸å¿˜å¹½é»˜ä¸€æŠŠã€‚
   他以一個 100MW å·¥å» çš„å°æ¯”數據為例,指出采用 Hopper æž¶æ§‹éœ€è¦ 45,000 顆芯片和 400 個機架,而 Blackwell 架構憑借更高的效率顯著減少了硬件需求。
   于是,黃ä»å‹›é‚£å¥ç¶“典的總çµå†æ¬¡æ‹‹å‡ºï¼Œã€Œthe more you buy, the more you saveã€ï¼ˆ 買得越多,çœå¾—越多)。隨åŽè©±é‹’一轉,他åˆè£œå……說,「the more you buy, the more you makeã€ï¼ˆè²·å¾—越多,賺得越多)。
   隨著 AI é ˜åŸŸçš„é‡å¿ƒå¾žè¨“ç·´è½‰å‘æŽ¨ç†ï¼Œè‹±å‰é”更需è¦è‰æ˜Žå…¶è»Ÿç¡¬ä»¶ç”Ÿæ…‹åœ¨æŽ¨ç†å ´æ™¯çš„ä¸å¯æ›¿ä»£æ€§ã€‚
   一方é¢ï¼ŒMetaã€Google ç‰å·¨é è‡ªç ” AI 芯片,å¯èƒ½åˆ†æµ GPU å¸‚å ´éœ€æ±‚ã€‚
   å¦ä¸€æ–¹é¢ï¼Œè‹±å‰é”最新 AI èŠ¯ç‰‡çš„é©æ™‚亮相,回應如 DeepSeek çš„é–‹æºæ¨¡åž‹å° GPU 需求的沖擊,并展示推ç†é ˜åŸŸæŠ€è¡“å„ªå‹¢ï¼Œä¹Ÿæ˜¯ç‚ºäº†å°æ²–å¸‚å ´å°è¨“ç·´éœ€æ±‚è¦‹é ‚çš„æ“”æ†‚ã€‚
   最近估值跌至 10 年低ä½çš„英å‰é”,比以往任何時候都需è¦ä¸€å ´é…£æš¢æ·‹æ¼“çš„å‹åˆ©ã€‚
ç‰¹åˆ¥è²æ˜Žï¼šä»¥ä¸Šå…§å®¹(å¦‚æœ‰åœ–ç‰‡æˆ–è¦–é »äº¦åŒ…æ‹¬åœ¨å…§)為自媒體平臺“網易號â€ç”¨æˆ¶ä¸Šå‚³å¹¶ç™¼å¸ƒï¼Œæœ¬å¹³è‡ºåƒ…æä¾›ä¿¡æ¯å˜å„²æœå‹™ã€‚
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.