文 | 硅谷101
英偉達(dá)2025年3月18日的GTC大會看似平淡,但魔鬼和驚喜都藏在細(xì)節(jié)中。
英偉達(dá)創(chuàng)始人兼CEO黃仁勛發(fā)布的各項更新,包括芯片路線圖,此前已經(jīng)被市場預(yù)期消化。在本次GTC之前,英偉達(dá)股價已經(jīng)承壓多時,華爾街對接下來AI芯片需求的可持續(xù)性存在懷疑。而在整場演講中,黃仁勛也試圖打消外界的疑慮,但在當(dāng)天,英偉達(dá)股價仍然下跌3.3%。
我們剛聽完黃仁勛的Keynote演講之后,第一反應(yīng)也覺得好像不如去年那么震撼和精彩,再加上演講中間PPT和流程還出現(xiàn)了各種小錯誤,讓整個演講不如去年那么完美。
但結(jié)束之后我們跟一些機(jī)構(gòu)投資人和芯片從業(yè)者深聊的時候發(fā)現(xiàn),很多人對英偉達(dá)的發(fā)展路線和布局還是非常看好,認(rèn)為英偉達(dá)正繼續(xù)和競爭對手們甩開差距,雖然在宏觀層面上股價確實在近期受到多方面因素承壓。
這篇文章我們就和嘉賓們一起來聊聊在此次GTC上的觀察,并試圖來回答以下幾個問題:
1.英偉達(dá)如何繼續(xù)擴(kuò)寬它的護(hù)城河?
2.在AI市場邁入“推理inferencing”階段,英偉達(dá)還能是市場上獨占鰲頭的贏家嗎?AMD、Groq、ASIC芯片還有谷歌的TPU等等玩家有機(jī)會翻盤嗎?
3.英偉達(dá)如何布局全市場生態(tài),讓所謂的“每個人都成為贏家”?
4.對于目前承壓的股價,英偉達(dá)的下一個故事是什么?是機(jī)器人、還是是量子計算呢?
01 橫向拓展與縱向拓展
黃仁勛在Keynote演講中數(shù)次強(qiáng)調(diào):英偉達(dá)不是單張GPU芯片的敘事,而是所謂“Scale Up and Scale Out”更宏大的敘事。
黃仁勛說的Scale Up指的是“縱向擴(kuò)展”,也就是通過NVLink通信互聯(lián)技術(shù)將單個系統(tǒng)的功能推到極致。
而Scale Out指的是“橫向擴(kuò)展”,也就是通過這次發(fā)布的硅光技術(shù)CPO(Co-packaged Optics,光電一體封裝交換機(jī))等革命性技術(shù)更新,來進(jìn)一步實現(xiàn)數(shù)據(jù)中心(data center)的巨大算力集群的快速擴(kuò)張和提效。
而在AI邁入“推理”時代而對算力愈加渴望之際,英偉達(dá)“縱向”和“橫向”的擴(kuò)展將打造新一代AI強(qiáng)大的算力生態(tài)和架構(gòu),這就是黃仁勛想講的新故事。
任揚(yáng) 濟(jì)容投資聯(lián)合創(chuàng)始人: 老黃幾年前其實也在反復(fù)強(qiáng)調(diào)這個概念:以后計算單元不是GPU,甚至不是服務(wù)器,而是整個數(shù)據(jù)中心是一個計算單元。這是黃仁勛一直在試圖去推動的方向吧。
Chapter 1.1 Scale Up
在講縱向擴(kuò)展前,我們先聊聊黃仁勛公布的之后幾代芯片的路線圖。
在Keynote中,黃仁勛給出了非常清晰的英偉達(dá)長期路線圖,包括從當(dāng)前的Blackwell到未來的Blackwell Ultra、Vera Rubin、Rubin Ultra,最終到2028年的Feynman架構(gòu)。
每一代更新的芯片架構(gòu)名字最后的數(shù)字,代表的是GPU的芯片數(shù)量,而每一個架構(gòu)代表的是一個機(jī)架的整個性能。這個新命名方式也印證了黃仁勛想強(qiáng)調(diào)的敘事,已經(jīng)從單個GPU變成了數(shù)據(jù)中心的算力集群系統(tǒng)。
2025年下半年出貨的Blackwell Ultra NVL72連接了72塊Blackwell Ultra GPU,它的性能提升是前代GB200的1.5倍(這里要注意一下,黃仁勛在Keynote中又重新定義了“黃氏算法”:從Rubin開始,GPU數(shù)量是根據(jù)“封裝中的GPU數(shù)量”,而不是“封裝數(shù)量”來計算的;所以按新的定義,Blackwell Ultra NVL72算是有144個GPU)。
以天文學(xué)家Vera Rubin命名的新一代GPU將于2026年下半年推出。Vera Rubin NVLink144的性能將是Blackwell Ultra(GB300) NVL72的3.3倍。
英偉達(dá)預(yù)計Vera Rubin之后,下一代Rubin Ultra NVL576將于2027年下半年推出,其性能將是Blackwell Ultra(GB300) NVL72的14倍。
Rubin之后的架構(gòu)代號為“Feynman”,以理論物理學(xué)家查德?費曼命名,這已經(jīng)是2028年之后的故事了。
芯片從業(yè)人士告訴我們,英偉達(dá)的路線圖和性能提升幅度并沒有出乎外界的預(yù)期范圍,但黃仁勛傳達(dá)出的信號仍然非常積極,這就是:英偉達(dá)正在以及在未來幾年都會穩(wěn)健地給客戶交付更好性能的產(chǎn)品。
David Xiao CASPA主席 資深芯片從業(yè)者 ZFLOW AI創(chuàng)始人兼CEO: 其實在我們芯片行業(yè),以英偉達(dá)這樣的節(jié)奏發(fā)布產(chǎn)品,已經(jīng)是執(zhí)行力非常強(qiáng)了。一般芯片公司從一款產(chǎn)品到下一款產(chǎn)品,芯片研發(fā)可能需要兩年時間,再加上軟件適配,可能就需要3到4年才能推出下一代芯片和系統(tǒng),所以英偉達(dá)的這個節(jié)奏已經(jīng)非常厲害。 但這也會讓公眾的期望更高。比如去年年底的時候,Blackwell出現(xiàn)了散熱和良率的問題,股市上的反應(yīng)是非常強(qiáng)烈的。但對我們業(yè)內(nèi)人士來說,這些問題是非常正常的。重新mask tap out(掩膜流片),再修正就可以了。
任揚(yáng) 濟(jì)容投資聯(lián)合創(chuàng)始人: 我覺得不管從產(chǎn)品的規(guī)劃、定義,到最后的落地執(zhí)行,英偉達(dá)都是非常穩(wěn)健、且領(lǐng)先對手的。但是如果和投資人的預(yù)期相比,確實沒有驚喜,也沒有意外。
以上就是黃仁勛所說的Scale Up(縱向拓展)的部分,也是嘉賓口中的與預(yù)期相同、沒有驚喜的部分。接下來我們聊聊讓大家驚喜的部分,也就是Scale Out(橫向擴(kuò)展)的布局。
Chapter 1.2 Scale Out
最能表現(xiàn)黃仁勛對“規(guī)模擴(kuò)展”野心的,是采用集成硅光技術(shù)的NVIDIA CPO(Co-packaged Optics,光電一體封裝交換機(jī))。
雖然老黃在演講中展示的時候這些黃色的線被纏在了一起,弄了好久才弄開,但也是挺有話題度的,讓大家對這幾根線更好奇了。
接下來我們聊聊,這幾根線是怎么運(yùn)作的?如何能讓英偉達(dá)的數(shù)據(jù)中心縱向擴(kuò)展呢?
David Xiao CASPA主席 資深芯片從業(yè)者 ZFLOW AI創(chuàng)始人兼CEO: 現(xiàn)在所有的Blackwell的機(jī)器,還是基于銅的互聯(lián)(Copper),之后會轉(zhuǎn)向光的互聯(lián)。
按照英偉達(dá)的說法,CPO交換機(jī)的創(chuàng)新技術(shù),是將插拔式的光模塊替換為與ASIC(專用集成電路)一體化封裝的硅光器件。
與傳統(tǒng)網(wǎng)絡(luò)相比,可將現(xiàn)有能效提高3.5倍,網(wǎng)絡(luò)可靠性提高10倍,部署時間縮短1.3倍。這能極大程度增強(qiáng)英偉達(dá)數(shù)據(jù)中心的互聯(lián)性能,對于實現(xiàn)未來百萬級GPU的AI工廠的大規(guī)模部署來說至關(guān)重要。
匿名對話 早期CPO光學(xué)科研人員: OpenAI去年訓(xùn)練4o的時候經(jīng)常會訓(xùn)練失敗,因為當(dāng)時的Frontier model(前沿模型)已經(jīng)基本窮盡了大部分的數(shù)據(jù),所以訓(xùn)練失敗的次數(shù)很多。訓(xùn)練GPT-5失敗的次數(shù)也非常多,因為失敗的次數(shù)更多了,所以做需要做更多實驗,而且每次實驗的時間要盡可能短,公司是不能忍受一個實驗做兩個禮拜沒消息的。如何能縮短時間?那就是提高通訊的速度。
除了速度快之外,CPO交換機(jī)也能在能耗和價格上帶來很多成本的節(jié)省。在GTC現(xiàn)場,英偉達(dá)的工作人員展示了CPO實物是如何運(yùn)作的。
Brian Sparks 英偉達(dá)工作人員: 這就是我們的新產(chǎn)品:Quantum-X光子交換機(jī)。 這款交換機(jī)采用了ASIC(專用集成電路),也是我們首次能夠?qū)崿F(xiàn)硅光子技術(shù)的CPO(光電混合封裝)。過去需要一個光纖收發(fā)器用于連接網(wǎng)卡。但現(xiàn)在,光信號可以直接進(jìn)入交換機(jī)的接口,不再需要光纖收發(fā)器。這樣做有兩個好處:首先降低了成本,因為光纖收發(fā)器價格相當(dāng)昂貴;其次減少了功耗,因為傳統(tǒng)光纖收發(fā)器大約消耗30到33瓦的功率,而我們現(xiàn)在能夠?qū)⒐慕档偷?瓦。
我們的對話嘉賓認(rèn)為,訓(xùn)練側(cè)客戶在意的是時間,推理側(cè)客戶在意的是成本。而CPO技術(shù)能在一定程度上同時這兩種需求,提高訓(xùn)練與推理的效率。
孫田浩 美國二級市場投資人 某新加坡聯(lián)合家辦資深分析師: 你如果只有一個芯片,把它打造得再厲害也是沒有用的。本質(zhì)原因是我們現(xiàn)在做推理、訓(xùn)練,都是用幾萬個卡在一起的集群,比如Grok可能就一下就用 20 萬個卡一起訓(xùn)練。重要的是怎么能讓幾萬個、十萬個 芯片高效地協(xié)同運(yùn)作。在這個互聯(lián)領(lǐng)域英偉達(dá)又再一次地領(lǐng)先了全球,因為它有CPO,它的機(jī)柜上有各種各樣的新花樣。所以我覺得從長線來看,英偉達(dá)在推理集群領(lǐng)域的優(yōu)勢也是更明顯的。
Brian Sparks 英偉達(dá)工作人員: 當(dāng)進(jìn)行推理時需要大量的計算資源,需要更多的計算能力,因此網(wǎng)絡(luò)需要具備盡可能高的帶寬,能夠在每個端口上提供更多的性能,同時保持極低的延遲。通過去掉光纖收發(fā)器,就能離這個目標(biāo)更進(jìn)一步,并能減少功耗。
Chapter 1.3 CPU發(fā)展史和早期八卦
關(guān)于CPO,我們在對話期間還挖出一點點小八卦:黃仁勛在Keynote期間說CPO是他們發(fā)明的,但光學(xué)工程師們可能會有一些不同的意見。
我們對話了非常早期的硅光技術(shù)CPO的研究者和業(yè)內(nèi)從業(yè)者,他們表示,CPO這個技術(shù)從2000年左右在業(yè)界就已經(jīng)開始研究了,而最開始主導(dǎo)這個技術(shù)的是英特爾。
匿名對話 早期CPO光學(xué)科研人員: 當(dāng)時我們提出來的這個技術(shù)叫做 Monolistic Integrated Phontonic IC(單片集成光子集成電路),那時候還不叫 Co-packaged Optics 。當(dāng)時做這個事情是因為英特爾對Big Data(大數(shù)據(jù))很感興趣。
這位資深的光學(xué)研究者告訴我們,大數(shù)據(jù)業(yè)務(wù)的驅(qū)動下,英特爾是20年前的硅光子學(xué)(Silicon Photonics)最大的研究支持機(jī)構(gòu)。而之后發(fā)展出的CPO(Co-packaged optics)技術(shù)最早開始研發(fā)是為了解決光電系統(tǒng)短距離通信,也是光纖通信研究發(fā)展的必然結(jié)果。
而在行業(yè)發(fā)展過程中,除了英特爾,其它小型企業(yè)也在嘗試研發(fā)這項技術(shù)。但硅光子學(xué)技術(shù)的研發(fā)非常耗錢耗力,需要先有市場需求,才能倒逼技術(shù)研發(fā)。
以上是Nathan評測的一部分節(jié)選,想看完整版的觀眾可以收看硅谷101視頻或Nathan的微信視頻號“硅谷AI領(lǐng)航”。
匿名對話 早期CPO光學(xué)科研人員: 最開始的時候,CPO應(yīng)用是大數(shù)據(jù),就是數(shù)據(jù)中心之間的通信。但數(shù)據(jù)中心之間的通信不需要那么高的碼率,100G之內(nèi)都不需要CPO。直到2012年,當(dāng)時Apache Spark(開源集群運(yùn)算框架)出現(xiàn)了,而且Snowflake開始快速發(fā)展,在這一年數(shù)據(jù)庫開始上云了。這就意味著大量數(shù)據(jù)存在一個地方,而讀取和使用在另外一個地方,你需要做query(查詢),數(shù)據(jù)的移動就變得非常得復(fù)雜,量也變得非常大。這時100G在數(shù)據(jù)中心之間的溝通已經(jīng)不夠用了,所以從2012年開始,Google提升到400G,到2020年疫情之前提到了800G。
如果現(xiàn)在同樣大的connector(連接器)要做 800G ,里面的集成度就要高很多。當(dāng)集成度高了后,光纖系統(tǒng)設(shè)計就非常復(fù)雜。需要解決功耗、一致性等等問題。但這兩個問題解決了以后,良率基本上是0。從100G到200G、 200G到400G、 400G到800G,每一代一出來良率都是0。而研發(fā)費用是非常貴的,基本是5個億以上。
以前沒有新的應(yīng)用就不會去研發(fā),現(xiàn)在有了新的應(yīng)用,數(shù)據(jù)倉庫出現(xiàn)了,所以開始研發(fā)。在400G發(fā)展到800G的時候,Meta和Google的報告中已經(jīng)開始廣泛地使用POP(package on package)和PIP(package in package)這兩個詞,其實跟今天Co-package的概念基本上很接近了。
為什么硅光子技術(shù)的良率會這么低,需要花費的研發(fā)費用又這么高呢?
Cathy 光學(xué)工程師: 我們?nèi)说念^發(fā)的尺寸大概是一個0.01平方毫米,已經(jīng)是一個非常小的尺寸了。但在現(xiàn)實使用的Silicon Photonics Engine(硅光子引擎)里面,Microring resonator(微環(huán)諧振器)的尺寸比人的頭發(fā)還要再小十倍。 在制作的時候,哪怕是用非常先進(jìn)的工藝,也很容易造成納米級別的誤差。而且即使是納米級別的誤差,都會使得通過的光的波長有所誤差。所以稍微一個不留神,就會導(dǎo)致本來該通過的光完全徹底通不過。 除此之外,我們需要精細(xì)到納米級別的加工精度的控制,降到一個納米基度的級別是非常困難的一件事情。
另外因為需要控制溫度,所以每一個Ring resonator(環(huán)形諧振器)都有自己的一個Heating Pad(加熱墊)。然后加熱墊連上一個精密的、有feedback(反饋)的溫度調(diào)控。而同時溫度調(diào)控又是一個時間的參數(shù),因為光的通過速度非常快,所以需要一個非常精確、非常智能的溫度控制系統(tǒng)。而且每一個小的Micro resonator(微型諧振器)都需要這樣去調(diào)控,可以想象在一整個package(套件)里面有這么多的激光器,就需要非常復(fù)雜的一個溫度調(diào)控的算法。最終這一切加起來導(dǎo)致的效果就是,硅基光子的良率非常的低。
一位多年的從業(yè)者M(jìn)ehdi Asghari和我提到過一句話:在電子制造之中,你不用提良率,因為良率都非常高,是99.999…(無數(shù)個9),只有良率高了大家才能賺錢。但在硅基光子的行業(yè)中也不用提良率,因為大家都知道良率非常低,稍微不小心就會導(dǎo)致良率崩盤。正是因為需要各種精確的控制,會讓良率非常低,這也導(dǎo)致了硅基光子的成本下不來。所以必須有個行業(yè),既需要快速、精確的控制,又能接受高成本,才能讓硅基光子學(xué)發(fā)展起來。
陳茜 硅谷101視頻主理人: 后來是怎么把良率給提上去的呢?
Cathy 光學(xué)工程師: 行業(yè)一點一點的磨合。英特爾在2000年就開始做了,在這方面像行業(yè)的先驅(qū)。雖然老黃在硅基光子學(xué)并不是最早的,但是老黃為大家找到了非常好的應(yīng)用,能讓這個技術(shù)應(yīng)用在數(shù)據(jù)中心、AI大模型里面,有了實在的用武之地。
根據(jù)嘉賓的說法,英偉達(dá)的光學(xué)通信系統(tǒng)技術(shù),來自2019年收購的以色列芯片廠商Mellanox,而Mellanox的技術(shù)又源自于2013年收購硅光子公司Kotura。
以上我們大概講了講CPO技術(shù)的發(fā)展史,和業(yè)內(nèi)從業(yè)者對老黃說“CPO是英偉達(dá)發(fā)明的”一點challenge(挑戰(zhàn))。 也歡迎如果有硅光子產(chǎn)業(yè)的從業(yè)人員給我們留言說說你們對這個技術(shù)發(fā)展的八卦和故事。
不過,正是因為黃仁勛看到了CPO在AI數(shù)據(jù)中心大規(guī)模的應(yīng)用,才又一次通過市場應(yīng)用來支持技術(shù)研發(fā),將這個技術(shù)帶到了大眾的面前。
匿名對話 早期CPO光學(xué)科研人員: 如果LLM(大語言模型)只是千億美元級的市場的話,老黃根本就不會干這個事,因為研發(fā)太貴了。但現(xiàn)在LLM到了萬億美元級的市場,老黃就認(rèn)為有市場了,就跟我之前說的800G數(shù)據(jù)倉庫是一樣的。既然LLM來了(市場來了),且這是一個不違反物理定律的事情,那只要錢堆得足夠多,不違反物理定律的事情都是能做成的。
雖然CPO技術(shù)不是英偉達(dá)獨家的,很多大公司都掌握了這個技術(shù)。但我們的嘉賓認(rèn)為,英偉達(dá)在內(nèi)部大力推進(jìn)CPO技術(shù)整合到生態(tài)中,將CPO做到競品roadmap(路線圖)的數(shù)倍,用快速的執(zhí)行和研發(fā)效率,進(jìn)一步加深了生態(tài)的護(hù)城河和壁壘。
David Xiao CASPA主席 資深芯片從業(yè)者 ZFLOW AI創(chuàng)始人兼CEO: 英偉達(dá)在光這塊其實投入也很大,招了很多人,也從各大公司都挖了不少人,會進(jìn)一步加深壁壘。 因為其實有很多做硅光的公司可以做CPO的Module(模塊),但是如果要跟AI芯片合在一起做,那一定要找這些AI芯片出貨量最大的廠去合作。因為這里面涉及到芯片跟硅光模塊codesign(共同設(shè)計) 的問題。而英偉達(dá)是in house(內(nèi)部研發(fā))的話,相比其他硅光公司跟AMD、Sarabas、Groq合作,會有很多的know-how(實際知識和性能)的優(yōu)勢。
02 第二個CUDA
我們再來說說英偉達(dá)在軟件生態(tài)上的另外一個重要更新:Dynamo。這被我們的嘉賓認(rèn)為是英偉達(dá)想在推理側(cè)造就的“第二個CUDA”。
黃仁勛 英偉達(dá)創(chuàng)始人兼CEO: Blackwell NVLink72搭配Dynamo,使AI工廠的性能相比Hopper提升40倍。在未來十年,隨著AI的橫向擴(kuò)展,推理將成為其最重要的工作內(nèi)容之一。
黃仁勛宣布在軟件方面,英偉達(dá)推出了Nvidia Dynamo。這是一款開源的AI推理服務(wù)軟件,被視為Nvidia Triton推理服務(wù)器的“接班人”,旨在簡化推理部署和擴(kuò)展。而它的設(shè)計目標(biāo)也很明確:以更高效和更低的成本來加速并擴(kuò)展AI模型的推理部署。
簡單來說,Dynamo就像AI工廠中的“大腦和中樞”,負(fù)責(zé)協(xié)調(diào)成百上千張GPU的協(xié)同工作,確保每一次AI模型的推理請求都能用最少的資源、最快的速度得到處理,從而讓部署這些模型的企業(yè)花更少的錢去辦更多的事。
一些美股分析師認(rèn)為:如果說CUDA是英偉達(dá)最強(qiáng)大的軟件生態(tài)護(hù)城河,那么Dynamo就是英偉達(dá)在推理側(cè)想搭建的第二道護(hù)城河。
孫田浩 美國二級市場投資人 某新加坡聯(lián)合家辦資深分析師: 英偉達(dá)60%以上的護(hù)城河都來自于軟件。這一次推出的Dynamo,相當(dāng)于是在大模型AI領(lǐng)域又再造了一個CUDA。因為Dynamo是能給推理降本的,而且還開源了。Dynamo早期在未來新方向的布局上和CUDA是一樣的;從長線來說,可能英偉達(dá)能再造一個CUDA,這對于它的在AI這個領(lǐng)域的護(hù)城河的幫助是非常強(qiáng)的。這是我比較看好的一個更新。
Dynamo帶來的最大亮點之一,就是大幅提升了推理性能和資源利用率,同時降低了單位推理任務(wù)的成本。
做一個類比,Dynamo就像一家餐廳的智能調(diào)度經(jīng)理,在忙時能迅速增派更多廚師(也就是GPU)上灶,在閑時又讓多余的廚師休息,不讓人力閑置,從而做到高效又節(jié)約。
根據(jù)英偉達(dá)官網(wǎng),Dynamo包含了四項關(guān)鍵創(chuàng)新,來降低推理服務(wù)成本并改善用戶體驗。
1.GPU 規(guī)劃器 (GPU Planner):這是一種規(guī)劃引擎,可動態(tài)地添加和移除GPU,以適應(yīng)不斷變化的用戶需求,從而避免GPU配置過度或不足。這就像我們剛才說的廚房遇到就餐高峰的時候,就加派廚師人手、加開新的廚房,而客人少的時候就關(guān)掉部分廚房,Dynamo希望確保GPU不閑著也不堵車,始終在最佳負(fù)載下運(yùn)行。這樣每一塊 GPU 都被充分利用,集群整體吞吐量隨之提高。
2.智能路由器 (Smart Router):這是一個具備大語言模型 (LLM) 感知能力的路由器,它可以在大型 GPU 集群中引導(dǎo)請求的流向,從而最大程度減少因重復(fù)或重疊請求,而導(dǎo)致的代價高昂的GPU重復(fù)計算,釋放出GPU資源以響應(yīng)新的請求。這有點像客服中心里把老客戶直接轉(zhuǎn)接給之前服務(wù)過他的座席員,因為那位座席員已經(jīng)有客戶的記錄(緩存),可以免去重復(fù)詢問,更快給出回答。而Dynamo正是利用這種機(jī)制,將過往推理中產(chǎn)生并存儲在顯存里的“知識” (KV緩存) 在潛在的數(shù)千塊 GPU 間建立索引映射,新請求來了就路由到握有相關(guān)緩存的 GPU 上。這樣一來,大量重復(fù)的中間計算被省略,讓GPU 算力主要服務(wù)新的獨立請求。
3.低延遲通信庫 (Low-Latency Communication Library):這個推理優(yōu)化庫支持先進(jìn)的GPU到GPU通信,并簡化異構(gòu)設(shè)備之間的復(fù)雜數(shù)據(jù)交換,從而加速數(shù)據(jù)傳輸。
4.顯存管理器 (Memory Manager):這是一種可在不影響用戶體驗的情況下,以智能的方式在低成本顯存和存儲設(shè)備上,卸載及重新加載推理數(shù)據(jù)的引擎。這類似于把不常用的工具先放入倉庫,需要時再拿出來,留出昂貴的工作臺空間(高性能顯存)給當(dāng)前最緊要的工作。這種分層存儲和快速調(diào)取的策略,讓GPU顯存的利用更高效,推理成本能隨之下降。
而有了以上的這些優(yōu)化路徑,黃仁勛想在AI逐漸轉(zhuǎn)向推理時代之際,讓英偉達(dá)依然保持AI芯片的霸主地位。
根據(jù)英偉達(dá)的官方數(shù)據(jù),在相同數(shù)量的 GPU 下,使用NVIDIA Hopper架構(gòu)的GPU跑的Llama大模型,在采用Dynamo后的整體推理性能和產(chǎn)生的結(jié)果數(shù)量直接翻倍,在由GB200 NVL72機(jī)架組成的大型集群上運(yùn)行DeepSeek-R1模型時,Dynamo讓每張 GPU每秒能生成的token數(shù)量提升了超過30倍。
孫田浩 美國二級市場投資人 某新加坡聯(lián)合家辦資深分析師: 英偉達(dá)在這條路上走得比其他人越來越遠(yuǎn)了,所以我覺得它傳遞的Key Message(重要信息) 就是all in推理。它把所有的精力都花在推理這條線上,然后讓其他人追不上它。
在今年的Keynote中,老黃的名句也變了:從“The more you buy, the more you save”(買得越多,省得越多),變成了“The more you buy, the more you make”(買得越多,賺得越多)。
這意味著英偉達(dá)的AI數(shù)據(jù)中心已經(jīng)準(zhǔn)備好服務(wù)推理側(cè)的客戶,幫助客戶省錢提效。也意味著,英偉達(dá)想在推理側(cè)繼續(xù)成為算力霸主。
03 數(shù)據(jù)中心基建
要配合這樣更大規(guī)模集群的建設(shè),相關(guān)的數(shù)據(jù)中心基建和上下游也需要隨之更新了。
上文我們提到過,芯片架構(gòu)的取名方式更新,代表著黃仁勛對“集群”生態(tài)的強(qiáng)調(diào),而非單芯片。而對應(yīng)的,數(shù)據(jù)中心中的機(jī)架架構(gòu)也將升級為“Kyber”,通過計算托盤旋轉(zhuǎn)90度,從而實現(xiàn)更高的機(jī)架密度。
Kyber 現(xiàn)場展示 這個是我們未來的Kyber Generation,是下一代產(chǎn)品。這就是一個72個GPU的GB200,總共有288個GPU(72*4) 。
除了機(jī)架的更新之外,整個數(shù)據(jù)中心的制冷、供電也都需要為新一代的芯片升級。
Mark Luxford Vertiv工作人員: 正如黃仁勛在主題演講中宣布的,我們將推出Vera Rubin和Vera Rubin Ultra(配套基建設(shè)施)。我們平時與英偉達(dá)的合作非常緊密,我個人每周與他們溝通四次,來共同制定了這代產(chǎn)品的參考設(shè)計。
每代產(chǎn)品都這意味著需要更高功率,會需要更強(qiáng)的冷卻能力,我們正在響應(yīng)這一需求,同時確保系統(tǒng)架構(gòu)和冷卻管道能夠正常運(yùn)行,CDU(冷卻分配單元)能夠擴(kuò)展以滿足新的需求。就比如我們已經(jīng)把CDU從1兆瓦升級到了2.3兆瓦,這將非常適合Vera Rubin Ultra,能毫無壓力地處理600千瓦功率的機(jī)架。
這只是系統(tǒng)的一部分,我們還需要重新設(shè)計風(fēng)冷系統(tǒng)。我們會在機(jī)架級別的服務(wù)器中提取熱量,并通過CDU與設(shè)施電路進(jìn)行熱量交換。然后通過冷凍機(jī)、冷卻塔、干式冷卻器甚至通過熱泵將熱量排放到空氣或大氣中,或者將其用于城市供暖等用途。
硅谷101真正密切關(guān)注著數(shù)據(jù)中心的基建、電力系統(tǒng)、上下游供應(yīng)鏈等方向,未來會更深度地聊聊。
04 推理時代:群雄逐鹿還是單一霸主?
在AI訓(xùn)練側(cè),英偉達(dá)是絕對的霸主地位,但在AI進(jìn)入推理側(cè)之際,AMD、Groq、谷歌TPU還有ASIC這些玩家有機(jī)會分掉英偉達(dá)的蛋糕嗎?
David Xiao CASPA主席 資深芯片從業(yè)者 ZFLOW AI創(chuàng)始人兼CEO: 在2023年的時候,我們請黃教主到華美半導(dǎo)體協(xié)會,我當(dāng)時還挑戰(zhàn)性地問了一個問題。因為我自己做AI芯片很多年,我就問他:GPU架構(gòu)在很多應(yīng)用場景下的效率其實不高,而我們在做各種定制的AI芯片,比如稀疏化的(Sparsity)、基于RISC-V的,或者像Cerebras這種基于wafer-scaling(晶圓微縮)的大芯片等,那我們是不是還有機(jī)會?老黃對于我這個問題的回答是:“大家都有機(jī)會,但是你們的機(jī)會不大。”
在我們對話的嘉賓中,無論是投資人、還是芯片領(lǐng)域的人,對于“大家都有機(jī)會,但機(jī)會不大”這個結(jié)論都基本贊同。
原因是英偉達(dá)目前的生態(tài)已經(jīng)太完整,護(hù)城河已經(jīng)太高了,不僅僅是單個GPU的性能,而是整個大集群的高效聯(lián)通,以及CUDA軟件層面的優(yōu)化和支持。并且如我們上文所說的,英偉達(dá)在領(lǐng)先對手的情況下,還在不停地加固新的護(hù)城河。
比如說大家非常關(guān)注的“千年老二”AMD,一直沒有能在AI GPU這方面取得突破性的市場份額,在過去一年,股價也下滑了超過40%。歸根結(jié)底,還是軟件方面追趕不上英偉達(dá)。
孫田浩 美國二級市場投資人 某新加坡聯(lián)合家辦資深分析師: AMD的MI300發(fā)的時候,對標(biāo)的是英偉達(dá)的H100、H200。H100的內(nèi)存是80G,但MI300直接是128G;MI350是192G,英偉達(dá)的B卡才190G。AMD不僅卡的內(nèi)存高,而且還比英偉達(dá)便宜40%。雖然它參數(shù)看起來都很厲害,但我去測試的時候發(fā)現(xiàn),AMD的實際的性能遠(yuǎn)低于它寫的參數(shù)。
原因有兩個:第一,真的去開發(fā)、測試ROCm(AMD的軟件,CUDA的對標(biāo)品)的時候,軟件全是bug(故障),根本就跑不通模型,推不出來。第二,AMD目前做得比較成熟的就是8張卡互聯(lián),我都沒見到過64個卡互聯(lián)。但英偉達(dá)在2027年都要576個卡互聯(lián)了,這之間的差距已經(jīng)沒辦法去彌補(bǔ)了。 更何況英偉達(dá)有NV Switch,AMD是沒有相應(yīng)的芯片的,沒有做出類似成型的東西。AMD雖然有替代NVLink的東西,但是它穩(wěn)定的效率是NVLink的二分之一。而沒有NV Switch它又做不了集群,只能8個卡互聯(lián),所以我覺得在互聯(lián)的差距更大,更趕不上。
但并不是說AMD在一些特定的市場沒有機(jī)會。二級市場投資人們認(rèn)為,客戶們不可能接受一家獨大,一定會給予AMD和其它芯片廠商一些機(jī)會。但在端模型起來之前,最大的份額可能依然會被英偉達(dá)所占據(jù)。
而至于ASIC這樣的專用集成電路,雖然也會有它們特定的市場,但可能也占據(jù)不了太多英偉達(dá)的份額。
David Xiao CASPA主席 資深芯片從業(yè)者 ZFLOW AI創(chuàng)始人兼CEO: AMD在大力推AI PC,包括也在推它的GPU。但是它推的方式,可能是去跟一些大模型的廠商直接合作,比如說某一個大模型在它這個場景下用得很好,而且這個應(yīng)用場景又非常廣,那在這種情況下也是有機(jī)會的。
孫田浩 美國二級市場投資人 某新加坡聯(lián)合家辦資深分析師: AMD的故事是在三到五年以后,當(dāng)端側(cè)的東西都起來了,C端的應(yīng)用大模型的成本已經(jīng)非常低的時候,比如一個電腦、一個GPU也可以去訓(xùn)練大模型、做AI的時候。可以這么理解,在GPU這個領(lǐng)域,除了英偉達(dá)以外,只有AMD配在這個市場上活著,所以它就能吃那些中長尾的份額。
陳茜 硅谷101視頻主理人: Groq呢?ASIC呢?他們不配活著嗎?
孫田浩 美國二級市場投資人 某新加坡聯(lián)合家辦資深分析師: ASIC落地的難度是非常高的,而且通用性很窄。第一是它量產(chǎn)很難,谷歌的TPU核心計算單元的transistor(晶體管),大小比英偉達(dá)要大2~4倍,背后的原因是它設(shè)計能力的不足,而芯片做大后,會導(dǎo)致良率下降,所以谷歌的TPU的良率90%都不到,英偉達(dá)的可能是99%,結(jié)果就是TPU量產(chǎn)很難,很多時候只能滿足大廠一兩個需求。 第二,ASIC的核心是根據(jù)客戶的業(yè)務(wù)來設(shè)計芯片,當(dāng)然中間很復(fù)雜,需要先了解客戶的業(yè)務(wù)、知道客戶的是代碼怎么寫的,再根據(jù)這些代碼去設(shè)計硬件的芯片。谷歌的芯片只能在谷歌的生產(chǎn)里用,亞馬遜的芯片只能在亞馬遜的生產(chǎn)里用。
所以我覺得未來的推演,ASIC和GPU是共存的。英偉達(dá)會拿絕大部分通用的計算需求,然后ASIC它可能會拿走一些大廠部分的業(yè)務(wù)場景。比如谷歌有那么多TPU,但是它也采購了大量的英偉達(dá)的卡,因為它那些英偉達(dá)的卡是要用到它自己的云上面給客戶用的,它的TPU只用在訓(xùn)練或者搜索上,應(yīng)用場景還是比較局限的。
所以看起來,就像老黃說的,無論在訓(xùn)練側(cè)還是在推理側(cè),“大家都有機(jī)會,但機(jī)會不大”。英偉達(dá)不可能吃掉整個算力蛋糕,特別是當(dāng)我們進(jìn)入推理時代,出現(xiàn)越來越多特定環(huán)境的應(yīng)用需求,越來越多端側(cè)的需求,這時候市場是足夠大的,能容忍多個玩家。
任揚(yáng) 濟(jì)容投資聯(lián)合創(chuàng)始人: 如果咱們只從這個算力的一個角度來說,我覺得Inference(推理)的競爭會比Training(訓(xùn)練) 更激烈。如果把這個視角放大一點的話,Nvidia其實不是在和AMD、Groq或者ASIC這些去競爭,它其實是在和云計算廠商去競爭,比如Amazon、Microsoft,而算力是這里面非常重要的一個子戰(zhàn)場。
David Xiao CASPA主席 資深芯片從業(yè)者 ZFLOW AI創(chuàng)始人兼CEO: 老黃有個策略是,可以用上一代的舊卡做推理,新一代卡做訓(xùn)練。因為舊卡有折扣了,跟其他AI芯片公司在推理場景中競爭時是有優(yōu)勢的。同時對很多人來說,如果訓(xùn)練跟推理的軟件框架是一致的,后面軟件部署的成本也會降低,這也是英偉達(dá)舊卡在推理市場的優(yōu)勢。 英偉達(dá)有很多的打法,它可以去定制推理卡。也可以在產(chǎn)能受限的情況下,只用舊卡來做推理,針對訓(xùn)練做這種又大、又能夠橫向拓展的新卡。老黃手里面的牌還是非常多的,完全可以選擇做或者不做ASIC。
業(yè)內(nèi)人士們依然對英偉達(dá)的護(hù)城河和市場優(yōu)勢抱有非常大的信心,但同時我們確實也感覺到,英偉達(dá)的股價在最近受到不少壓力。有美股機(jī)構(gòu)投資人對我們表示,除了宏觀大環(huán)境的壓力之外,GPT-5這樣的大模型性能表現(xiàn)依然是影響市場的重大因素。
劉沁東 濟(jì)容投資首席投資官: 因為投資人都是一幫簡單粗暴的人,我覺得能夠給投資人信心的,就是GPT-5出來后,讓大家看到:堆算力還是有效,而且把模型帶到了下一個境界。那英偉達(dá)的股價可能就又都沖回來了。如果沒有的話,我覺得要花相當(dāng)長一段時間,讓世界理解了英偉達(dá)在生態(tài)鏈中的重要性,英偉達(dá)的股價才會慢慢到它該有的位置。
05 全生態(tài)超級碗模式
我們此前的數(shù)期節(jié)目都提到,黃仁勛是一個眼光非常長遠(yuǎn)的CEO。而他這次傳遞出的一個重要信號,就是“全生態(tài)布局”:今后任何一個需要加速計算的領(lǐng)域,他都不會錯過。
讓我們記憶很深刻就是:在這一次的演講當(dāng)中,黃仁勛背后出現(xiàn)這一排像塔羅牌一樣的全生態(tài)布局,標(biāo)題是“為每一個產(chǎn)業(yè)服務(wù)的CUDA-X”。包括數(shù)值計算、計算光刻、5G/6G 信號處理、決策優(yōu)化、基因測序、醫(yī)學(xué)成像、天氣分析、量子計算、量子化學(xué)、深度學(xué)習(xí)、計算機(jī)輔助工程、數(shù)據(jù)科學(xué)和處理、物理學(xué)等等。
其中,量子計算、自動駕駛和機(jī)器人賽道中的仿真平臺和算法,也是英偉達(dá)目前著重布局的方向。總的結(jié)論是:黃仁勛不會放過任何一個需要算力的市場。
而黃仁勛也發(fā)出了很強(qiáng)勁的信號,他說2024年GTC大會就像一個Rock Concert,一個秀肌肉、炫酷的搖滾音樂會。而2025年的GTC大會是美國橄欖球Super Bowl(超級碗)。因為Super Bowl號稱“美國春晚”,里面的所有人,包括兩個參賽的隊伍、廣告商、轉(zhuǎn)播商、觀賽游客,每個人都是贏家。
黃仁勛講的“全生態(tài)超級碗模式”的故事是“Nvidia is gonna make everyone a winner.”也就是說,在英偉達(dá)生態(tài)中每個人都是贏家。
黃仁勛 英偉達(dá)創(chuàng)始人兼CEO: 我們制定了一套年度路線規(guī)劃圖供大家參考,以便大家更好地規(guī)劃建設(shè)AI基礎(chǔ)設(shè)施。同時,我們正在構(gòu)建三大AI基礎(chǔ)設(shè)施:云端AI基礎(chǔ)設(shè)施、企業(yè)級AI基礎(chǔ)設(shè)施以及機(jī)器人AI基礎(chǔ)設(shè)施。
黃仁勛預(yù)測2028年數(shù)據(jù)中心支出將會突破1萬億美元,而到那時,AI生態(tài)會如何發(fā)展?英偉達(dá)的霸主地位,是否如我們節(jié)目中嘉賓們預(yù)測的那樣將持續(xù)保持?而剩下的蛋糕中又會有什么新機(jī)會?硅谷101會持續(xù)為大家關(guān)注未來的動向。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.