(關注公眾號設為標,獲取AI深度洞察)
全文 18,000字 | 閱讀約70分鐘
歡迎來到 GTC。真是了不起的一年。
我們想在英偉達(NVIDIA)來做這件事,所以,通過人工智能的奇妙魔力,我們要把你帶到英偉達總部。我想我正在把你帶到英偉達總部。你覺得呢?這就是我們工作的地方。過去這一年太精彩了,我想讓你們知道,我現在站在這里是沒有演講稿,沒有提詞器,而且我得講很多內容。那就讓我們開始吧。
首先,我要感謝所有贊助商,感謝所有與會的杰出人士。幾乎每一個行業都有人參加:醫療保健行業在這里、交通行業、零售行業,當然還有計算機行業——每一家計算機行業相關的企業都在這里。所以非常非常高興見到你們所有人,也感謝你們對大會的贊助。
GTC 的起點是 GeForce
一切都從 GeForce 開始。今天我在這里拿著一塊 GeForce 5090。5090,難以置信,距離我們開始研發 GeForce 已經過去 25 年了。25 年以后,GeForce 在全球都賣斷貨。這就是 90,也就是 Blackwell 這一代產品。和4090相比,你看看它的體積縮小了 30%,散熱效率提升了 30%,性能也極其強大,幾乎無法相比。而這背后的原因就是人工智能。GeForce 把 CUDA 帶給了世界,CUDA 讓 AI 成為可能,而 AI 現在又回過頭來徹底變革了計算機圖形學。
你現在看到的是實時計算機圖形,100% 光線追蹤。每一個像素都經過了光線追蹤,然后人工智能推斷剩下的 15 個像素。想象一下:對于我們用數學方式真實渲染出的每一個像素,人工智能會推斷另外 15 個像素。它必須以極高的精度來完成這一過程,讓畫面看起來正確,而且還要在時間維度上保持準確,這意味著在向前或向后播放時——畢竟這是計算機圖形——畫面都必須在幀與幀之間保持時間上的穩定。真是不可思議。
人工智能取得了非凡的進展
僅僅過去 10 年而已。我們討論 AI 的時間稍長一些,但 AI 真正進入大眾視野大約是 10 年前的事情,最先從感知 AI 開始——計算機視覺和語音識別。然后是生成式(AI)。過去 5 年里,我們主要關注的是生成式 AI,教會 AI 如何在不同模態之間進行轉換,比如文本到圖像、圖像到文本、文本到視頻、氨基酸到蛋白質、物性到化學物質……我們可以用 AI 生成各種內容。
生成式 AI 從根本上改變了計算的方式——從“檢索式計算模型”變為了“生成式計算模型”。過去,我們幾乎所有工作都是預先創建內容、存儲多種版本,然后在需要時去獲取相應的版本。而現在,AI 能理解上下文,理解我們在問什么,以及我們請求的含義,然后生成它所“理解”和“知道”的內容。如果需要,它還會檢索信息來補充理解,最后生成答案;不再僅僅是檢索數據,而是直接生成答案。這從根本上改變了計算的方式。
在過去幾年里,計算的每一個層次都被徹底轉變。過去兩三年,出現了重大突破,也就是人工智能的根本性飛躍——我們稱之為 “agentic AI”(具備自主性的 AI)。agentic AI 的意思是,AI 擁有“主動性”(agency)。它能感知并理解當前環境的上下文,很重要的一點是它能進行推理,能思考如何回答或解決問題,還能制定并執行計劃。它可以使用工具,因為它現在理解多模態信息;它可以訪問網站,查看網站的文本和視頻格式,甚至可能播放視頻,然后從該網站學到內容,理解之后,再帶著這份新知識回來完成任務。
agentic AI 的基礎是推理,這在過去是非常新的能力。接下來的一波浪潮已經在發生,我們今天會重點討論——那就是機器人學。機器人由“物理 AI”推動,而“物理 AI”則是理解物理世界的 AI。它能理解摩擦力、慣性、因果關系、物體的“永久性”——當它看到一個物體拐到拐角處并消失于視線之外,并不代表那個物體就從世界上消失了,只是暫時看不到而已。對物理世界、三維世界的這種理解將開辟 AI 的新紀元,我們稱之為“物理 AI”,它將使機器人變得可行。
每一個階段、每一波浪潮都為我們所有人帶來新的市場機會,讓更多新的合作伙伴加入 GTC。因此,如今的 GTC 可以說是爆滿。想要容納更多人參與,恐怕我們得把圣何塞擴建了。我們正在努力,我們有足夠的土地來擴展圣何塞,好讓 GTC 越辦越大。
我現在站在這里,希望你們能看見我所看到的景象。我們現在處在一個體育場里。去年是我們首次回歸線下,當時的場面就像一場搖滾音樂會,那次 GTC 被稱為 AI 界的“伍德斯托克”盛會。而今年它被稱為 AI 界的“超級碗”。唯一的區別在于,在這場“超級碗”里,每個人都是贏家。每年都有更多人加入,因為 AI 能解決更多行業、更多企業的各種有趣問題。今年我們會著重探討 agentic AI 和物理 AI。
三大核心問題:數據、訓練和擴展
從本質上說,每一波、每個階段的 AI,都涉及三大根本問題。第一,如何解決數據問題。這之所以重要,是因為 AI 是一種數據驅動的數據科學方法,需要用數據來學習,需要數字化的經驗來學習、獲取知識。第二,如何在沒有人工參與的情況下進行訓練。因為人工干預是有極限的,而我們想要 AI 能以超越人類的速度來學習,幾乎是實時的,而且規模要大到人類無法企及。所以第二個問題是:如何訓練模型。第三,如何進行擴展(scale)。怎樣找到一個算法,使得你提供越多的資源(不管是什么資源),AI 就變得越聰明。這被稱為“scaling law”(擴展定律)。
過去這一年,幾乎整個世界在這方面都看走眼了。AI 的計算需求及其擴展定律其實更具韌性,甚至可以說是超加速。由于 agentic AI、由于推理的出現,如今我們所需的計算量比一年前的預期至少高出 100 倍。讓我們來解釋一下為什么。
首先,從 AI 能做什么開始,逆推回去:agentic AI 的核心是推理。我們現在已有能進行推理的 AI,它能把問題分解為若干步驟。也許它會同時嘗試幾種方式來解決問題,然后選擇最佳答案;也許它會用不同的方法去求解同一個問題,最后進行結果一致性檢查;或者,它在得出答案后,還會把結果重新帶回方程檢查一遍,比如帶回二次方程看看是否真的是正確答案,而不是像以前那樣一次性隨便給出一個答案。兩年前,當我們開始使用 ChatGPT 時,雖然它已經非常神奇,但很多復雜問題或簡單問題它也經常答錯,這可以理解——它只做了一次性輸出。它根據預訓練數據(它在預訓練數據中看到或學到的東西)進行一次性“輸出”,就像隨口說出來一樣。而現在我們有了能逐步推理的 AI,它利用“Chain of Thought”(思維鏈)、取多種解法里最優的和一致性檢查等多種技術,一步一步地分解問題,進行推理。
由此可以想見,AI 所生成的 token數量會急劇增多。AI 的底層技術本質仍是根據上一個 token 來預測下一個 token。不同的是,現在“下一個 token”對應的是推理的某個步驟。AI 先生成第一步的一連串 token,然后把這一步的輸出再次輸入給 AI,用來生成第二步、第三步、第四步的推理。這樣一來,AI 不再只是一字一句地往外“吐”token,而是生成一大段文字來表示推理的步驟。最終產生的 token 量會大大增加,我會在稍后展示這一點。很輕松就可能高出過去的 100 倍。
那么“100 倍”具體意味著什么?也許是生成了 100 倍的 token,如我剛才所說;或者,模型本身更復雜,只生成 10 倍的 token,但我們如果想讓模型具備交互性、實時性,不想等它“思考”太久讓人失去耐心,我們就要把計算速度再提高 10 倍。這樣,10 倍的 token、10 倍的速度,就相當于需要 100 倍的計算量。因此在接下來的演講中,你們會看到推理所需的計算量遠超以往。
接下來的問題:如何教 AI 像我剛才描述的那樣進行推理?如何讓 AI 執行“chain of thought”? 在訓練中,我們面臨兩個根本性難題:1)數據從哪里來?2)如何避免“人工參與”帶來的限制?因為人類能提供的示例數據是有限的。最近兩年最重大的突破就是“強化學習”和可驗證結果。也就是說,當 AI 一步一步地嘗試解決問題時,我們可以使用強化學習對它進行獎勵,讓它越做越好。
舉例來說,人類歷史上已經解決了許多問題,我們知道答案,比如二次方程的解法,畢達哥拉斯定理,還有很多數學、幾何、邏輯以及科學定理。另外我們還有一些益智類游戲,能提供約束條件,比如數獨 等等。我們有數以百計的這種問題領域,可以生成數以百萬計的不同例子,讓 AI 有數以百計的機會去逐步求解。通過強化學習,它會不斷獲得獎勵,從而表現越來越好。
因此,你把上百種不同的課題、幾百萬個不同的例子、再乘以上百次嘗試、而每一次嘗試都要生成數以萬計的 token,把這一切加起來就達到了數萬億的 token,用來訓練模型。現在有了強化學習,我們就能夠利用“合成數據生成”的方法,以類似“機器人”的方式來教 AI。這兩方面的結合給整個行業帶來了巨大的計算挑戰,而你能看到整個行業也正在全力應對。
Hopper 與 Blackwell:基礎設施的爆發式增長
我接下來要展示的是 Hopper 的出貨量——僅限于四大 CSP(云服務提供商):亞馬遜、Azure、GCP 和 OCI。這四大 CSP 擁有公共云業務。我說的還不包括任何 AI 公司、不包括初創企業、不包括企業級用戶,也不包括許多其他群體。僅僅這四家,能讓你對比 Hopper 的峰值出貨量和 Blackwell(譯者注:NVIDIA 新一代架構)在第一年出貨的對比數據。由此你可以看出,AI 的確正在經歷一個拐點:它變得更強大、更具推理能力,也因此被更多人使用。你可以從 ChatGPT 的使用體驗看出來,現在每次打開 ChatGPT,似乎等待時間都變長了,這反映了很多人在使用它,而且用得很有效。而訓練這些模型、在推理中使用這些模型所需的計算量也隨之飆升。僅僅在一年之內——而 Blackwell 剛開始出貨——你就能看到 AI 基礎設施的驚人增長。
這種增長也體現在整個計算領域。這張圖里,紫色的部分是分析師們給出的預測:從現在到 2030 年,全球數據中心(包括 CSP 與企業數據中心等)的資本支出會出現大幅增長。我以前就說過,我預計數據中心的建設最終會達到萬億美元規模,而我非常確信我們很快會達成這一目標。這里有兩個動力在同時發生:第一,絕大多數增長很可能都是加速計算,我們早就知道通用計算已經走到盡頭,需要新的計算方式。全球正在經歷一場從“手動編寫軟件跑在通用 CPU 上”到“機器學習軟件跑在加速器和 GPU 上”的平臺轉變。以這種方式來進行計算,目前已經過了拐點,我們正看到數據中心建設的全面爆發。第二,大家也越來越認識到,軟件的未來需要資本投入。這是一個非常重大的理念轉變。
過去我們的模式是:先編寫軟件,再把軟件放到計算機上運行。而未來,計算機本身會為軟件生成 token。因此,這臺計算機更像是一臺“生成 token 的機器”,而不是簡單的“檢索文件的機器”。也就是從“檢索式計算”向“生成式計算”的轉變,從過去傳統方式建造數據中心,變為新的基礎設施形態。我把它稱為“AI 工廠”,因為它只有一個功能,就是生成這些驚人的 token,然后我們再把這些 token 重構成音樂、文本、視頻、研究數據、化學配方或者蛋白質……各種不同形式的信息。全世界不僅會建造更多數據中心,還會改變數據中心的構建方式。
并非所有計算都只為 AI,但一切都將被加速
我想在這里說一點。你們看到的這張幻燈片對我來說意義重大,因為多年來,你們一直在 GTC 上聽我介紹這些庫,其實整場 GTC 講的也就是這些。這張幻燈片就是 GTC 的核心。事實上,大約 20 年前,我們只有一張類似的幻燈片,上面列出一個又一個庫。你沒法單單只加速軟件,就像我們需要 AI 框架才能創建 AI,然后對這些 AI 框架進行加速一樣;對于物理、生物、多物理場、量子物理等領域,我們也需要專門的庫和框架。我們稱之為 Cuda X 庫,這些是各個科學領域的加速框架。
首先介紹一下這個:Numpy 是全球下載量最多、使用最廣泛的 Python 庫,去年下載量達 4 億次。cuNumeric 可以在無需任何變動的情況下替換 Numpy,所以如果你正在使用 Numpy,可以試試 cuNumeric,你會喜歡它。klitho 是一個計算光刻庫。經過 4 年努力,我們把計算光刻整個流程都加速了。計算光刻是晶圓廠中的第二條生產線——第一條工廠制造晶圓,第二條則制造生產晶圓所需的信息。未來,每一家有工廠的企業都將擁有兩條工廠線:一條用來制造實體產品,另一條是用來制造數學和算法,也就是“AI 工廠”。造車的公司會有一條生產汽車的工廠,還有一條生產車載 AI 的工廠;造智能音箱的,會有工廠負責制造音箱本體,另一條則負責生產智能音箱所用的 AI。klitho 就是我們的計算光刻庫。臺積電、三星、ASML 以及相關合作伙伴,包括 Synopsys、Mentor,都在支持這個項目。我們認為在未來 5 年內,每一個光刻掩模都會用到 NVIDIA CUDA 來處理。
Ariel 是我們針對 5G 的庫,將 GPU 變成 5G 無線電。為什么不行呢?信號處理本就是我們的強項。有了這個之后,我們還能在上面疊加 AI,稱為 “AI RAN”。下一代無線電網絡會深度融入 AI。為什么我們要受限于信息論?頻譜資源就那么多,怎么突破?可以通過整合 AI。 cuOpt 是用于數學優化的庫,幾乎各行各業都需要它,用于安排航班座位和航線、管理庫存和客戶、工廠勞動力調度、司機和乘客配對等等,都有多種約束和變量,需要在時間、收益、服務質量、資源利用率等方面做優化。我們英偉達也用它來做供應鏈管理。cuOpt 非常強大,可以把過去需要數小時的工作降到幾秒鐘完成,這是很重要的,因為這樣我們就有足夠的時間去探索更龐大的空間。我們宣布要將 cuOpt 開源。幾乎所有人都在用 Gurobi、IBM CPLEX 或 FICO 等工具,我們和這些公司都有合作,業內對此非常興奮——我們即將為整個行業帶來大規模加速。
PairBricks 用于基因測序和基因分析;MONAI 是全球領先的醫學影像庫;Earth-2 是多物理場庫,用于在極高分辨率下預測局部天氣;cuQuantum 和 cudaQ 則是量子計算相關的庫。我們在這屆 GTC 首次設置了“Quantum Day”,與幾乎所有量子生態系統玩家都有合作,幫助他們研究量子架構、量子算法,或者構建“經典+量子”異構體系,非常令人興奮。cu Equivariance、Tensor 并行壓縮、量子化學……很多很多。這些就是在 Cuda 之上又構建了一層又一層的庫,整合進各種生態系統、軟件和基礎設施,最終實現 AI。
我這里還有一個新的要宣布:cuDSS,這是我們的稀疏求解器,對計算機輔助工程(CAE)相當重要。過去一年里發生了一件大事:我們和 Cadence、Synopsys、ANSYS,還有一些做系統的公司進行了合作,使幾乎所有重要的 EDA 和 CAE 庫都能被加速。非常了不起。想想看,直到最近,英偉達還一直用運行在通用 CPU 上的那些超級慢的軟件來設計我們自己的加速計算機,因為我們自己沒有針對 EDA 的高效加速軟件?,F在我們終于有了,所以整個行業在向加速計算邁進時,將被大幅提速。
cuDF 是一個面向結構化數據的 DataFrame 庫。我們現在已經實現了對 Spark 和 Pandas 的“零改動加速”。還有 Warp,這是一款針對物理模擬的 Python 庫,用于 Cuda 加速,稍后我會有個重要公告。 以上只是加速計算所需要的庫的一個縮影。加速計算不僅是 Cuda,我們為 Cuda 感到驕傲,但如果沒有 Cuda 以及它龐大的裝機基礎,這些庫對開發者就毫無意義。使用這些庫的開發者首先能獲得驚人的加速和可擴展性;其次,因為現在 Cuda 的安裝基礎非常廣泛,幾乎每家云服務商、每個數據中心、每家計算機公司都提供 Cuda,遍布全球。因此,你若使用這些庫,你的優秀軟件就能被所有人使用。 至此,我們可以說加速計算已經過了“引爆點”,是 Cuda 帶來了這種可能。而這一切,也離不開在座各位以及整個生態系統的貢獻,這就是 GTC 的意義所在。為此,我們做了一個簡短的視頻送給你們。
AI 的開始
AI 的確是從云開始的,這是有道理的,因為 AI 需要基礎設施——這是“機器學習”。如果科學叫“機器學習”,那就需要“機器”來做這門科學。而云數據中心正好擁有所需的基礎設施,也匯聚了頂尖的計算機科學和研究力量,是 AI 在云端迅速騰飛的完美環境。云服務提供商(CSP)自然而然成為早期的主要陣地。但 AI 不會只局限在云端,它會遍地開花。接下來我們會從多個角度探討 AI。
云服務商當然喜歡我們的尖端技術,他們也喜歡我們擁有完整的“全?!薄驗榧铀儆嬎闳缜八?,不是只有芯片,也不止有芯片和庫,還需要編程模型,以及在其之上各種復雜的軟件堆棧,每一層庫都像一個 SQL(IBM 在存儲計算領域革命性的東西)那樣重要。而在 AI 領域,這樣的庫更多,堆棧更加復雜。云服務商還喜歡這樣一點:NVIDIA CUDA 開發者也往往是云服務商的潛在客戶,因為他們最終要把軟件部署在云上面向世界,所以龐大的開發者生態對 CSP 至關重要。
現在我們要把 AI 帶到世界的其他角落,而全世界在系統配置、操作環境、領域專用庫、用例等方面都有巨大差異。當 AI 進入企業、制造業、機器人、自駕駛汽車等等領域時,需求又會不同。還有一些新興的 GPU 云公司,大約 20 家左右,都是在 NVIDIA 崛起期間成立的,他們就干一件事:托管 GPU,稱自己是“GPU 云”。我們的優秀合作伙伴之一 CoreWeave 正準備上市,我們也為他們感到自豪。這些 GPU 云各有各的需求。
我個人非常興奮的一個方向是邊緣端。今天我們宣布,思科、NVIDIA、T-Mobile(全球最大的電信公司之一)、Cerebras、ODC,將在美國構建一個面向無線電網絡的完整堆棧。這會成為我們宣布的第二條堆棧。這個全新的堆棧將 AI 帶到邊緣端。要知道,每年大約有上千億美元投資在無線網絡和相關數據中心中,而我堅信,這些網絡的未來毫無疑問是融合 AI 的加速計算。AI 可以更好地適應不斷變化的無線環境和流量狀態,毫無疑問我們會用強化學習去實現這一點。Massive MIMO(大規模多入多出)本質上就像一個巨大的無線機器人,有了 AI,自然能在信號調度上做得更好。
我們當然會提供相關功能,AI 肯定也會革新通信領域。你看 AI 是怎么改變視頻處理的,也看到了我之前講的對 3D 圖形的改變,同理可得我們也會這么做在邊緣端。我對今天宣布的這件事感到非常興奮:T-Mobile、Cisco、Nvidia、Cerebras、ODC 將合作構建一整套堆棧。
AI 將進入各行各業:自動駕駛為例
AI 會進入所有行業,早期比較典型的是自動駕駛。自從我見到 AlexNet(我們在計算機視覺領域已耕耘許久),那一刻讓我深受啟發、熱血沸騰,于是我們全力投入自駕車技術研發。到現在我們已經做了 10 多年。我們構建的技術幾乎被每一家自動駕駛公司采用——他們可能只用我們的數據中心產品(例如 Tesla 在數據中心里用很多 NVIDIA GPU),或者像 Waymo、Woven Planet既在數據中心也在車端使用 NVIDIA 的計算機;也有極少數只在車端使用,但非常罕見。也有人把我們整個軟件棧都用上了。
我們和汽車行業的合作方式是非常靈活的,看車企需求如何。我們提供三種計算機:訓練計算機、仿真計算機、自動駕駛計算機,以及它們之上的整套軟件棧、模型和算法。這和我們在前面其他行業所做的一樣。
“今天,我非常高興宣布,通用汽車(GM)已經選擇與英偉達 (NVIDIA) 合作,打造他們未來的自動駕駛車隊。自動駕駛車輛的時代已經到來。我們期待與 GM 一起在三個領域中運用 AI:第一,用于制造——他們可以革新生產方式;第二,用于企業級——他們可以徹底改變他們的工作模式、設計車輛和模擬車輛的方式;第三,用于車載——我們將為 GM 構建并部署 AI 基礎設施。對此我非常興奮。
關于汽車安全 (Automotive Safety)
我特別自豪的一點在于汽車安全領域,盡管它很少被關注。我們公司內部稱之為 “Halos”。 要實現安全,需要從芯片到系統,再到系統軟件、算法以及方法論都整合到位。從多樣性到確保多樣性監控,再到透明性與可解釋性,所有這些不同的理念都必須深度嵌入到系統及軟件開發的每一個環節。 我相信我們是世界上第一家讓每一行代碼都通過安全評估的公司——有 700 萬行代碼接受了安全評估。不僅是代碼,我們的芯片、系統、系統軟件以及算法都要進行第三方安全評估,對方會逐行審查代碼,確認系統是在保證多樣性、透明性和可解釋性的前提下設計的。 我們還在這個過程中提交了一千多份專利。在本屆 GTC 中,我也非常鼓勵你們去參加 “Halos Workshop”,親眼看看為了確保未來汽車既安全又能實現自動駕駛,需要整合多少不同的要素。我為此感到非常自豪,但它往往很少被討論,所以這一次我就多花些時間來介紹一下,這就是 NVIDIA Halos。
自動駕駛示例:解決數據、訓練、多樣性
你們都見過自動駕駛汽車,比如 Waymo 的 Robo-Taxi 非常了不起。我們做了一個視頻來展示我們所用的一些技術,如何解決數據、訓練、多樣性等問題,以便利用 AI 的神奇力量,去創造新的 AI。
NVIDIA 正通過 Omniverse 和 Cosmos 來加速自動駕駛系統的 AI 開發。 Cosmos 的預測與推理功能,支持 ‘AI-first’ 的自動駕駛系統,從端到端實現可訓練。它通過新的開發方法——模型蒸餾、閉環訓練以及合成數據生成來完成。
首先,模型蒸餾將 Cosmos 的駕駛知識,轉換為一個較小、更快的學生模型來在車內推理。教師 的策略模型會示范出最佳的行駛軌跡,而學生模型會通過多次迭代來學習,直到它的表現幾乎與教師模型一樣好。 蒸餾過程為策略模型提供了初步的 ‘引導’,但復雜場景仍需進一步優化。這就需要閉環訓練來微調策略模型。 日志數據會被轉換為 3D 場景,并使用 Omniverse 的物理級神經重建,讓模型在模擬環境中進行閉環駕駛。然后在這些場景的不同變體中測試模型的軌跡生成能力。 Cosmos 的行為評估器會對模型生成的駕駛行為進行打分,從而衡量其性能。新生成的場景及其評估結果,匯集成龐大的數據集,用于閉環訓練,幫助自動駕駛系統更穩健地應對復雜場景。 最后,3D 合成數據生成技術能讓自動駕駛系統適應多樣化環境。從日志數據中,Omniverse 通過融合地圖和圖像來構建高精度的四維駕駛環境,并生成真實世界的數字孿生,結合對每個像素的語義分割來輔助 Cosmos。 Cosmos 會生成準確而多樣化的場景,以擴大訓練數據規模,進一步縮小仿真與現實的差距。 Omniverse 和 Cosmos 讓自動駕駛系統得以學習、適應并實現智能駕駛,為更安全的出行奠定基礎。”
NVIDIA 是做這件事的完美人選,天吶,這幾乎就是我們的宿命:用 AI 來再創造 AI。你在視頻中看到的那些技術,和我們帶給你的數字孿生世界的技術很像,
我們來談談數據中心 (Data Centers)
讓我們談談數據中心吧。Blackwell 已經全面進入量產,這就是它的樣子。實在是不可思議。不少人看到它會覺得:對我們來說,這是一種美的盛景,對嗎?這怎么可能不美呢?
因為我們在計算機體系結構上實現了一個根本轉變。三年前,我給你們看過一個版本,叫做 “Grace Hopper”,那個系統叫 “Ranger”。Ranger 的體積大概是這個屏幕一半寬度——那是全球首個支持 NVLink 32 的系統。三年前我們展示 Ranger 時,它實在太大了,但方向完全正確。我們想解決的是 “scale up” 的問題。
分布式計算 (scale out) 是讓很多計算機協同工作來解決一個巨大的問題;但我們仍然需要 “scale up”,在擴展 (scale out) 之前先進行縱向擴展 (scale up)。二者都很重要,但你想先把單機/單系統的規模盡量擴大,然后再做分布式擴展。然而,“scale up” 十分艱難,沒有什么捷徑可走。你不可能像 Hadoop 那樣,把一堆普通服務器用網絡連起來,搞一個龐大的分布式存儲計算。Hadoop 在過去確實帶來了革命,讓超大規模數據中心能夠用通用硬件處理海量數據,但現在我們要解決的問題要復雜得多。如果繼續用那種方式,只會過度消耗電力和能耗,深度學習也就不會出現。
因此我們必須先 “scale up”。 我不會把它舉起來,因為它有 70 磅重。它是我們上一代的系統架構 “HGX”。 HGX 徹底革新了我們的計算方式,也革新了人工智能:它含有 8 塊 GPU,每一塊 GPU 就像手里這個(指向手中的 Blackwell GPU 模組)。這里面實際上是兩個 Blackwell GPU 封裝在一塊芯片上。所以,一臺 HGX 里有 8 塊這樣的東西。它們通過 “NVLink 8” 互聯。而這上面還會連接一個 CPU 機箱(CPU shelf),里面有雙路 CPU,用 PCIe 和 HGX 相連。然后再通過 InfiniBand 把很多這樣的節點連起來,就形成了一臺所謂的 “AI 超級計算機 (AI supercomputer)”。這就是過去我們的方法——通過這樣的方式先做 “scale up”,再做分布式擴展(scale out)。可我們還想把 “scale up” 做得更大。
我曾提到 Ranger:它把 HGX 再擴充了四倍,于是就有了 NVLink 32,只不過整機體積太大了。我們必須對 NVLink 及其拓撲進行重大革新,才能繼續擴大規模。
做法是:把 NVLink 交換機 (switch) 拆分出來 過去,NVLink 交換機嵌在主板里,但我們現在要把它拆出來,放到機架中央。 它是全球性能最強的交換機,使得所有 GPU 可以同時以全帶寬互聯。我們把這些交換機拆分出來,集中放在機架中央。有 18 個這樣的交換機,分布在 9 個交換機托盤中。 然后,計算節點就位于機架的四周相對于交換機而言,這樣我們就能把這一切都做成 “完全液冷”。 通過液冷,我們可以在一個機架里塞進所有這些計算節點。這就是整個行業的大轉變:從集成式 NVLink 轉向解耦式 NVLink,從風冷轉向液冷,從每臺計算機大約 6 萬個元件變為每個機架 60 萬個元件、功耗達 120 千瓦,全部采用液冷。結果就是——我們可以在一個機架里實現 1 exaFLOPS的計算能力。太不可思議了!
新的計算節點
這就是新的計算節點,相當于以前那臺 8-GPU 的 HGX,再加上 CPU 的合體?,F在它就能裝進一個機架里。 整機重量達 3000 磅,約有 5000 根線纜,長度差不多有兩英里,以及 60 萬個元件……大概相當于 20 輛汽車的零件數;這些都組合到一起成為一臺超級計算機。
我們的目標就是這樣:做徹底的 “scale up”,現在的形態大致長這樣。 我們理想中想造一塊芯片,上面集成約 130 萬億個晶體管,其中約有 20 萬億個專為計算所用。但從工藝上講,這是不可能一次性實現的。所以我們通過 “解耦” 的方式,將 Grace、Blackwell 和 NVLink-72 拆分到多個機架上。結果就是,我們達成了極致的 “scale up”。這是有史以來最極端的 “scale up” 方案。它帶來的運算量、內存帶寬都達到了驚人的水平—— 570 TB/s,所有指標都以 T 計量,一切都是萬億級別。這臺機器擁有 1 exaFLOPS(即 10^18 次浮點運算/秒)級別的運算能力。
推理 (Inference) 的極致挑戰
我們之所以要做到這樣極致的規模,是為了應對一項極端困難的任務。很多人原本以為這是一件很簡單的事,但實際上它是終極級別的計算難題,這就是——推理 (inference)。 原因很簡單,推理就意味著“生成 token”,而生成 token 的“工廠”(AI 工廠)能帶來收益和利潤,也可能帶來損失。所以這座“工廠”必須以極高的效率和極大的性能來運行。因為工廠的效率會直接影響服務質量 (QoS)、收入以及盈利能力。
坐標軸有兩個:
橫軸 (x-axis) 是 “tokens per second”。我們在使用 ChatGPT 時,輸入一個 prompt,然后輸出的是一個個 token(標記),最終被映射成文本單詞。一個英文單詞可能對應多個 token,也有的 token 只代表字母組合如 “th”,它可以在多種單詞中出現,比如 “the”、“them”、“theory”、“theatrics” 等。
縱軸 (y-axis) 是 “響應延遲”(latency)或者說“響應速度”。我們已經了解到,如果想讓 AI 更聰明,就需要生成更多 token——它可能需要進行推理 token、一致性檢查 token、思考多種方案以選擇最佳方案的 token,這些都屬于“思考”過程。它也可能自我質疑,像我們人一樣“一邊想一邊碎碎念”。生成的 token 越多,AI 表現就越聰明。但若 AI 回答問題太慢,用戶就會失去耐心,不會再用它。這就像網絡搜索一樣,有個用戶可接受的最大時延。
因此,這兩個指標是相互沖突的:一方面,你想讓 AI 為單個用戶生成更多 token——也就是 “tokens per second” 越大越好,以實現更智能的回答;另一方面,你還想在同樣的硬件里“服務更多的用戶”,提高整座“工廠”的吞吐量 (throughput),以獲得更高收益。這時就不得不做 “batching”,批量處理很多用戶的請求。但一旦批處理,就會增加等待時間,這影響單個用戶的響應速度。沒有任何系統能在這兩個維度上同時做到絕對完美,你理想地想要一個“曲線”盡可能在右上方覆蓋更大面積——因為橫縱乘積越大,代表你同時兼顧了響應速度和吞吐量。
要實現這樣的目標,你得具備海量的FLOPS、極高的帶寬和內存訪問能力,以及適當的編程模型來把這些資源用起來。這正是我們這臺機器所擅長的:更多 FLOPS、更大內存、更高帶寬、最優架構、最好的能效比,以及能協調所有資源的軟件棧。
舉一個思維模型的小例子
下面這個演示會讓你更直觀地感受我說的內容。 演示: “傳統大型語言模型 (LLM) 可以捕捉到基礎知識,而 ‘推理模型’則可以通過思考 Token 來解決更復雜的問題。
在這里,我們給了模型一個 prompt,要求根據一些條件來為婚宴安排座位,比如某些傳統習俗、如何拍照更好看,以及哪些家人之間存在矛盾需要分開坐等。
傳統的 LLM 只用不到 500 個 Token 就很快給出答案,但它在安排來賓座位時犯了錯誤。
而推理模型則使用了 8000 多個 Token 來思考,最終給出了正確答案。它甚至需要一個牧師來調解整個局面?!?/p>
就像大家都知道的,如果你要安排 300 人的婚宴座位,并讓所有人都滿意,這是只有 AI 或者“丈母娘”才能解決的問題(笑)。 可你看到的例子里,R1 模型(指更高級的推理模型)要進行反復思考。傳統 LLM 使用了 439 個 Token,一次性給出答案,確實很快,但錯誤百出,相當于是 439 個 Token 白費。而推理模型用了約 8600 個 Token,一步步推理、不斷驗證,最后才得出正確答案。它所需的計算量也大得多。
更深入的推理需要更復雜的并行與調度
在展示一些結果前,我還要解釋點別的。你看 Blackwell 這種規模龐大的系統,它依賴 “MVLink 72” 架構,把所有 GPU 通過 NVLink 串起來,形成一個統一整體。但模型本身動輒擁有幾千億、幾萬億參數,比如 R1 有 6800 億參數,更大的下一代模型甚至可能達到數萬億參數。
我們要把這些數萬億參數分割后分發到一大堆 GPU 上,可能使用張量并行:把模型中的某一層拆分成多個 GPU 協同運行;也可能使用流水線并行:把模型的各層按順序分配到不同 GPU;還可能采用專家并行:把不同的專家 分配到不同的 GPU。 這三種并行方式(張量并行、流水線并行、專家并行)可以組合出無數種方案,而具體選擇哪一種取決于模型、工作負載以及當時的環境。有時你要優化延遲(latency),有時要優化吞吐量,也可能在推理時使用各種批處理技巧??傊@套 AI 工廠的軟件操作系統極其復雜。
有一個關鍵觀察點:當所有 GPU 都通過 NVLink 72 構成統一整體后,我們就能在內部靈活調度 “推理” 的不同階段,而這些階段需求不同。 我們通常把推理分成兩個階段:
‘預填充’階段(思考階段):AI 不斷從上下文中攝入信息(包括用戶輸入、提示、可能還會查詢 PDF 或網站,甚至觀看視頻),把所有內容都整合進模型。這個過程計算量很大,但生成的 Token 并不多。
‘解碼’階段(解碼階段):AI 根據模型的所有參數和上下文來預測下一個 Token。由于語言模型每次只能預測一個 Token,要把整個模型(數萬億參數)從 HBM(高帶寬存儲器)讀入,再生成一個 Token,然后再放回去作為輸入,再來一次……持續很多次,才能輸出完整結果。這對帶寬以及 FLOPS)提出了極高要求。
舉例來說,如果模型規模是好幾萬億參數,意味著你每次解碼,都要讀取 TB 級的數據來輸出一個 Token。而在那個演示里,推理模型輸出了 8600 多個 Token,也就意味著對模型參數進行了 8600 多次的讀取-計算-輸出循環。這也解釋了為何我們要用 NVLink:它能把所有 GPU 連接成一個巨大的邏輯 GPU,讓我們在同一個地址空間里處理海量數據。
另外,當推理分為‘預填充’和‘解碼’兩大階段時,我們可以在 NVLink 的統一架構下進行靈活調度:如果接下來大部分工作是思考或檢索信息,就多分配 GPU 給 ‘預填充’;如果是成千上萬用戶一起聊天、需要大量輸出 Token,則把更多 GPU 用于 ‘解碼’。像我平時做研究時,會給 AI 一個超長的指令,讓它去 94 個網站搜集資料,讀完、總結,再給我寫一篇報告。這個過程很耗 ‘預填充’ 計算。而當幾百萬人在和 ChatGPT 聊天時,又是 ‘解碼’ 計算最繁重。
根據工作負載的不同,我們可能會決定在解碼階段分配更多的 GPU,或者在預填階段分配更多的 GPU。這種動態分配的過程非常復雜。我剛剛描述了管線并行、張量并行、專家并行、飛行批處理、解耦推理工作負載管理,以及所謂的鍵值緩存——我得把它路由到正確的 GPU,還要管理所有存儲層級。那部分軟件復雜得令人難以置信。
所以,今天我們宣布了 NVIDIA Dynamo。NVIDIA Dynamo 會處理以上所有事情,它本質上就是一座“AI 工廠”的操作系統。過去,我們在數據中心里運行的操作系統可能是 VMware 之類的,我們會用它來編排整個企業級 IT 負載,事實上現在我們仍在這樣做,我們是 VMware 的大用戶。但未來,應用本身不再只是企業級 IT,而是“智能體”(agents);操作系統也不再像 VMware,而會類似于 Dynamo。它并不是跑在傳統的數據中心上,而是跑在所謂的 “AI 工廠”之上。
我們之所以把它稱為 Dynamo,是有原因的。正如你們所知,“Dynamo(發電機)”是引爆上一次工業革命的第一臺儀器。那次工業革命是關于能源的:水進來,電出來,這太神奇了。你知道,水或者燃料進入后,變成蒸汽,再輸出一種無形卻極具價值的東西(電)。后來又花了大約 80 年才進化到交流電,但 Dynamo 正是這一切的開端。所以,我們決定把這套復雜到極致的軟件命名為 NVIDIA Dynamo。它是開源的 ,我們非常高興有許多合作伙伴與我們一起研究它。其中我最喜歡的合作伙伴之一就是 Perplexity,他們在這個領域做了非常具有革命性的工作,而且他們的創始人 Aran 人也很好。總之,這就是我們與 Perplexity 攜手開發的東西,真的非常棒。
好,現在要等我們大規模建好這些基礎設施,但與此同時,我們已經進行了大量深入的模擬。我們用超級計算機來模擬我們的超級計算機,這很合理。下面我要向你們展示我們所說的這一切帶來的好處。請記住之前那張“工廠”圖表:橫軸 (x-axis) 表示 “用戶體驗的 tokens per second”,縱軸 (y-axis) 表示 “整座工廠的 tokens per second 吞吐量”。你希望你的 AI 單體能夠產出更多 token(讓它更聰明),也希望整個工廠的產量也很高。下面我們來看一看 Hopper(架構)的情況。
這是 Hopper
Hopper 可以為每個用戶大約產生 100 tokens/s。這里指的是一臺包含 8 塊 GPU 的系統,通過 InfiniBand 連接。為了公平起見,我們把它歸一化到 “每兆瓦的 tokens per second”。也就是說,如果我們有一個 1 兆瓦的數據中心(其實在 AI 工廠里并不是很大的規模,但我們就取 1 兆瓦方便對比),它可以在單用戶模式下做到 100 tokens/s,然后在這個點上(黃仁勛指著圖),它能給你提供每秒 100,000 個 token;或者,如果你愿意等很久,讓系統做極限“批處理”,它可以達到 250 萬 tokens/s。大家理解嗎?好,如果在極端批處理場景下就是這樣。
大家點點頭,因為這部分可能有些燒腦。你們知道,每次 GTC 都有“入場門檻”——你們得接受一點數學的折磨。只有在 NVIDIA 大會上,你才會被數學折磨。
Hopper 可以產出 2.5 million tokens/s,這是在 1 兆瓦的功耗下實現的。那 250 萬 tokens/s 怎么轉化成經濟效益呢?假如說 ChatGPT 是 10 美元 / 百萬 token(只是舉例),那么在極端批處理的情況下,這臺“工廠”每秒就可能做到 250 萬 tokens/s 乘以 10 美元 / 百萬 tokens = 每秒 25 美元嗎?或者每秒 250 美元? 我們先別在意具體數字精確度,核心是:如果你的 AI 工廠能更快地產出 token,那么你的服務質量更好,也能賺到更多錢。但如果你為了讓 AI 回答更聰明生產更多 token、更多推理步驟,你就需要更多計算資源,導致整體吞吐量下降。這是一種合理的平衡。上面的曲線正是我們努力要改善的目標。
我要再次強調,Hopper 本來就是目前最快的計算機,推動了很多革命性進展。那我們如何進一步提升它呢?首先,我們采用 Blackwell 架構和 NVLink 8(同一個 Blackwell 芯片),運算更強,晶體管更多,整體規模更大。然后我們還采用了一種新精度:不是簡簡單單的 4-bit 浮點,但用 4-bit 浮點做量化能在同樣的運算里耗更少能量,從而做更多事。要知道,每個數據中心以后都會碰到“功率極限”。你能獲得多少收入,很大程度上取決于你能使用多少能源。和很多行業類似,我們也進入了一個“能耗受限”的時代。因此,你必須要構建盡可能節能高效的計算架構。
接下來,我們再把規模擴大到 NVLink 72,大家應該能理解這個思路??聪旅孢@張圖對比一下:
NVLink 72 + FP4 + 我們全新的Dynamo
還有一個是沒有 Dynamo 的配置
我們體系結構緊密結合,現在再加上 Dynamo,性能進一步拉升。Dynamo 對 Hopper 也會有幫助,但對 Blackwell 的幫助特別巨大。 現在你會看到,我在圖表中標出了兩個閃亮的區域——那大概就是 “最大效率點 (max-Q)”。你在尋找在高吞吐與高智能之間的平衡,那些點就是你“工廠”最優化的工作區間。如果我們把那兩個點連線對比,會發現 Blackwell 遠遠優于 Hopper。要記住,這里比較的是“相同功耗”(ISO Power),也就是所謂的終極摩爾定律。過去,摩爾定律在講晶體管數量的提升,這里我們是在同樣能耗的前提下做對比,結果居然是一代就提升 25 倍。那簡直不可思議。
在圖表上,你還能看到一個彩虹一樣的曲線,那就是所有可能的配置點——我們稱之為 Pareto 前沿。在那條前沿曲線下有無數種組合——工作拆分、分片策略、并行方式,各種可行配置。我們最終找到了最優解,也就是 Pareto 前沿 。根據曲線上的顏色,你可以看出在不同配置下的表現。這非常清楚地說明,你需要一個“可編程的”且“同構的”架構,因為負載在前沿曲線的不同部分有著截然不同的需求。
在曲線上某個頂部點,配置可能是“專家并行 8 + 批大小 3000 + 解聚關閉 + Dynamo 關閉”;中間可能是“專家并行 64 + 26% 上下文 + 批大小 64 + Dynamo 開啟”,等等;最底部點又是另外的配置,比如“張量并行 16 + 專家并行 4 + 批大小 2 + 1% 上下文”……也就是說,整臺計算機的配置會在這整個范圍內變化。這就是為什么我們說需要一個可編程的、通用的架構。
對比:Hopper 與 Blackwell 在“推理思維模型”中的性能
接著我們來看這個演示:在輸入序列長度為 1000 token、輸出長度為 2000 token 的測試場景中,Blackwell 性能是 Hopper 的 40 倍。哇,簡直不可思議。 我之前說過一句話:當 Blackwell 大規模出貨后,你送 Hopper 別人都不會要。這就是我指的意思,這也很合理。當然,如果你現在還打算買 Hopper 也沒關系,但是我是公司最大的“營收終結者”(,我的銷售團隊可能會想:“別這樣說??!”但是你們懂的,當技術以如此驚人的速度迭代,如果你確實在建一個“AI 工廠”,就應該投資在對的產品上。把它放到一個更大的視角看就明白了。
舉個例子,這是一座 100 兆瓦 的“AI 工廠”。
如果用 Hopper,需要 45,000 顆 GPU DIE、1400 個機架,能產出大約 3 億 token/s。
如果用 Blackwell,那就需要……呃……(黃仁勛做出手勢)好像就只要 8000 顆 GPU DIE,就能達到同樣產量。(現場笑聲)你可能想:“這聽上去我用不了那么多 GPU 了?” 我們并不是想賣得更少,而是想告訴你,這是一個更優解。“買得越多省得越多”,何況現在是“買得越多,賺得越多”嘛(笑)。
總之,現在的一切都圍繞“AI 工廠”這個概念來思考。我們一直談芯片,但實際上要先想好怎么做 “scale up”,最后才會決定你買多少芯片。 我現在想讓你看看一座實際 AI 工廠的樣子,但它實在太復雜了——僅僅一個機架就有 60 萬個元件、重達 3000 磅。如果你要連上幾十個甚至上百個這樣的機架,就更是龐然大物。所以我們開始在 Omniverse 里做“數據中心數字孿生 (digital twin of a data center)”,也就是先構建一座虛擬的 AI 工廠,再去建實體的。
NVIDIA 的路線圖(Roadmap)
現在我得加快節奏了,因為我要跟你們講的東西實在太多。如果我說得太快,不是因為我不關心你們,而是信息量確實很大(笑)。
先說一下我們的路線圖 (roadmap)?,F在我們已經全面量產 Blackwell,世界各地的計算機制造商都在大規模出貨這種令人驚艷的機器。我對此深感欣慰并心懷感激——大家為過渡到這套新架構都付出了巨大努力。然后在今年下半年,我們會平穩過渡到升級版,也就是 Blackwell Ultra + NVLink 72。 它具備原先 1.5 倍的 FLOPs,擁有新的 attention 指令,內存也提升了 1.5 倍,非常有用,比如放 KV cache;網絡帶寬也擴大了 2 倍左右。所以,基于相同的架構,我們會順利推出這個升級版本,稱之為 Blackwell Ultra,預計在今年下半年。
為什么我們要在這個場合宣布這樣的產品?一般情況下,別的公司宣布時大家可能會覺得“好啊,下一步是什么?”。事實上,這正是我們希望你們的反應。原因在于:我們現在要建的是 AI 工廠,需要多年的規劃。這可不是買臺筆記本電腦那么簡單,也不是一筆隨心所欲的支出,而是必須經過土地、電力、資金、工程團隊等各方面的長遠計劃。所以我們必須給你們一個 2~3 年的預告,而不是等到某個月份突然說“嘿,下個月又有一個超棒的新系統”。我會舉個例子讓你們看為什么要這樣做。
再往后一年,我們會推出以著名天文學家命名的新系統,她的名字是 Vera Rubin。她發現了“暗物質”,對,就是 Vera Rubin。她非常了不起。她這套新平臺里,CPU 也變成新的,比 Grace 性能提高兩倍、內存更多、帶寬更大,但功耗只增加一點點(可能是 50 瓦的 CPU),真是厲害。新的 GPU 代號是 CX9,還有新的智能網卡 SmartNIC、NVLink 6,以及新的內存(比如 HBM4)。一切都是全新的,只保留現有的機箱和底層基礎設施,這樣我們在一個方向上冒險升級時,不會同時冒險太多層面。我們稱之為 Vera Rubin + NVLink 144,將在 2026 年下半年問世。
關于 Blackwell 的命名變更
需要做個小小的澄清:Blackwell 芯片實際上包含兩個 GPU DIE,但我們過去把它當做“一塊 GPU”來稱呼,這在 NVLink 命名上造成了混亂。今后,我說 “NVLink 144” 指的是連接 144 個 GPU DIE——它們可能封裝在一起,也可能分開封裝??傊窈竺總€ GPU DIE 就叫一個 GPU,所以當我們說 “Rubin + NVLink 144”,就是可以連接 144 塊 GPU DIE。將來具體是怎么封裝的,會視情況而定。
有了 Vera Rubin + NVLink 144,接下來又為第二年(也就是再往后一年)做好了鋪墊,稱之為 Rubin Ultra。你們應該驚呼一下(笑)。對,這就是 Vera Rubin Ultra,預計在 2027 年下半年。這是 NVLink 576 極致擴展。每個機架 600kW,包含 250 萬個元件——哦不,250 萬組件。當然還會有更多 GPU,總之各項指標又提升一個數量級。 14 倍更多的 FLOPs,就是 15 exaFLOPs,而現在 Blackwell 的規模只有 1 exaFLOPS。我之前提到過可以做 15 exaFLOPs 的“scale-up”。內存帶寬達到 4.6 PB/s(4600 TB/s),這還是單機架內部的統一帶寬,并不是整體聚合帶寬 的概念。當然還會有全新的 NVLink 交換芯片和 CX9 等一系列新組件。
請注意,這里用了 16 顆 GPU DIE 打包封裝在一個封裝中,極大規模的 NVLink。我給你們比對一下。比如說,這就是你們現在正在量產、部署的 Grace Blackwell看上去像個小板子,對嗎?而 Rubin 比它大很多。我們是等比例放置,讓你們感受一下它的體積差別。
這就是為什么我們總是強調——在開始做大規模分布式(scale out)之前,你先得做極致的 “scale up”。然后我們再用一些讓你驚艷的技術進行分布式擴展。
性能演進:Hopper→Blackwell→Rubin
現在我們可以看看算力(scale-up FLOPs)的進化:
Hopper = 1×
Blackwell = 68×
Rubin = 900×
如果你把它和功率結合起來,也就是我前面說的“在可接受的能耗下,最大化 FLOPs×帶寬”。你會發現 Rubin 將帶來更低的成本、更高的效率。所以,這就是 NVIDIA 未來幾年的路線圖,大約一年一次的迭代節奏,就像時鐘滴答一樣穩定。
橫向擴展(Scale Out)
講完縱向擴展(scale up)的路,我們再來看橫向擴展(scale out)要怎么做。我們之前介紹過,MVLink 負責縱向擴展,而 InfiniBand 與 Spectrum X 負責橫向擴展。大家都知道我們進入以太網領域,因為我們想讓以太網擁有跟 InfiniBand 類似的性能特性,比如阻塞控制、超低延遲,以及把我們計算結構的軟件優勢帶進去,于是就有了 Spectrum X?,F在的表現非常出色,比如我們用 Spectrum X 構建了 “Colossus”,那是全球最大的單體 GPU 集群之一,表現非常好。Spectrum X 可以說是大獲成功。
我對另一個方向也很興奮:最大的企業網絡廠商將把 Spectrum X 整合進他們的產品線,幫助全球的企業“AI 化”。我們現在用的是 CX8、CX7,馬上要有 CX8、CX9。隨著將來要到 Vera Rubin 的時代,我們希望能擴展到成千上萬、甚至幾十萬塊 GPU DIE。 但是,如果要把幾十萬塊 GPU DIE 做成大規模橫向擴展,數據中心大到體育場大小,那么機架之間就需要遠距離連線,不再能完全使用銅纜。銅纜只適合在機架內或 1~2 米以內,這樣能保持高可靠、低成本、能效高;但在機房更大范圍內,我們就需要“硅光 ”技術。硅光長久以來的挑戰是收發模塊 功耗太大,需要把電信號轉換為光信號,需要串行器/解串器,以及好幾級轉換,每一個步驟都在消耗能源。
NVIDIA 首款 CPO 硅光系統
讓我們展示一下這個東西。首先,我們宣布了英偉達首個“共封裝硅光 方案”,世界上首個 1.6 Tb/s 的 CPO(co-packaged optics)。它基于 微環諧振調制器 (Micro Ring Resonator Modulator, MRM) 技術,這是我們在 TSMC 工藝上與眾多技術伙伴合作多年的成果。它非常瘋狂,極具創新。
之所以選用 MRM(微環諧振調制器),是因為它在功耗密度和能效方面都優于現有的馬赫-曾德爾調制器 ,后者目前主要用于遠距離電信或數據中心間通信。之前,在數據中心互聯或城域/長途光纖里,MoZ(馬赫-曾德爾)足夠用,因為對帶寬和密度的要求相對沒那么高。但如今隨著我們要在機架間、機房內都高密度部署光模塊,這就需要更高的集成度與更低功耗,而 MRM 更適合這種規?;膱鼍?。 好吧,這就是要讓‘推理模式’上線的時刻了。要把這些線整理好其實沒那么容易,它們又細又繞。好了,讓我們看看這個家伙(展示某個光學收發器)。
你看,這一塊功耗是 30 瓦。你要記住,30 瓦。如果你大批量采購,每個可能要 1000 美元。這里有一個插頭,這邊(指一端)是電連接,那邊(指另一端)是光學連接。所以,光纖會從黃色這邊進來;你把它插到交換機上,這一頭是電接口,里面包含了收發器、激光器,采用了被稱為“馬赫-曾德爾 (Mach-Zehnder)”的技術,十分先進。我們用它把 GPU 連接到交換機,再連接到下一級交換機,然后再下一層交換機,最終到另一塊 GPU。例如,如果我們有 10 萬塊 GPU,那么就要有 10 萬個這種光纖接口;然后再加上……呃,還要另一端從交換機到交換機,也有 10 萬個。最后去連接另一端 Nick(網絡接口卡)。如果我們有 25 萬塊 GPU,就得再加一級交換機。因此,每塊 GPU(25 萬塊 GPU 時)都會擁有 6 個收發器端口,也就是 6 個這樣的插頭。這樣的話,每塊 GPU 光是這些收發器就要消耗 180 瓦(30 瓦×6),每塊 GPU 還要 6000 美元的成本(1000 美元×6)。
所以,問題來了:我們如何把 GPU 的規模擴展到上百萬塊?如果我們有 100 萬塊 GPU,每塊都有 6 個收發器,那就等于 600 萬個收發器,總耗電是 600 萬×30 瓦 = 1.8×10^8 瓦,也就是 180 兆瓦 (megawatt) 純粹用來“搬運信號”,并沒有做任何計算。正如我之前說的,能源是我們最重要的資源,一切最終都和能耗掛鉤。若這些收發器吃掉 180 兆瓦,那就意味著我們的客戶(或我們自己的)數據中心能夠用于實際計算(從而創造收益)的電力減少了 180 兆瓦。
于是,我們必須想辦法解決這個問題。這就是我們所做的驚人的發明:我們開發了全球首款采用微環諧振調制器 (MRM, Micro Ring Resonator Modulator) 的硅光技術,它看起來是這樣的(展示示意圖)。你會看到有一個小小的波導,當光在這個環形結構里共振時,它會控制波導的反射率,通過吸收或者透過來改變光的強度,從而把連續激光束轉換成 0 和 1,這就是其神奇之處。然后,光子集成芯片與電子集成芯片 疊加在一起,再加上大量的微透鏡,以及所謂的光纖陣列 等多層技術——全部都是在臺積電 (TSMC) 采用他們稱作 COUPE 的制程里制造,并用 3D CoWoS(或 3D CoP 類封裝技術)來封裝。我們攜手眾多技術伙伴一起研發了很多年,才打造出如此不可思議的器件。讓我們看段視頻來了解下這項技術的奇跡吧。
然后,這些器件會被做成交換機,比如我們的 InfiniBand 交換機。硅芯片的工作狀況非常好。我們會在今年下半年(指 2025 下半年)出貨這款硅光交換機;到明年下半年(指 2026 下半年)會出貨整套 Spectrum X 解決方案。之所以能成功,是因為我們當初選擇了 MRM,也承擔了過去五年里的巨大技術風險,提交了數百項專利,還將這些專利授權給我們的合作伙伴來共同生產。如今,我們就有能力把硅光和共封裝技術集成在一起,直接把光纖插進交換機里,而無需傳統收發器模塊。這樣,每臺交換機就能做到 512 個端口,這在其他方式下幾乎不可能實現。
因此,這為我們擴展到十幾萬塊乃至上百萬塊 GPU 奠定了基礎。你們可以想象一下,在一個數據中心里,我們能節省幾十兆瓦的能耗。比如說,你可以省下 60 兆瓦,這相當于 10 個 Rubin Ultra 機架(每個 6 兆瓦),或者更多(如果一個 Rubin Ultra 機架是 600kW,則 60 兆瓦就是 100 個機架的電力)。我們就能把這些電能重新投入到 Rubin 超級計算機本身。
我們的年度節奏:一次一年
這就是我們的完整路線圖:每年一次,每年都會帶來一次新架構,兩年一個大的產品線迭代,每次都實現數量級的提升。我們會分步承擔硅片、網絡、機箱等方面的風險,從而推動整個行業不斷前進,朝著這些不可思議的技術邁進。
至于名字,“Vera Rubin” 用于下一代架構,向發現暗物質的 Vera Rubin 致敬。她非常了不起,我還要感謝她的孫子孫女們也在現場,見證我們對她的崇高敬意。再下一代,我們會以 “Feynman” 來命名,NVIDIA 的路線圖 就是這樣。
談談企業計算
非常重要的一點是:要把 AI 真正帶給全球企業,我們需要回到英偉達的另一個方向。
讓我們先回顧一下:AI 與機器學習從根本上重塑了整個計算堆?!幚砥髯兞恕⒉僮飨到y變了、應用程序也變了,編排方式也不同,運行方式也不同。舉個例子,過去我們檢索數據是精確檢索并讀取自己想要的內容;將來,我們可能會像用 Perplexity 那樣,直接問它一個問題,讓 AI 幫你找答案。這也是未來企業 IT 的模式:我們會有很多“AI 助手 (AI agents)”,它們相當于我們的數字化勞動力。全世界有 10 億知識工作者,而將來可能會有 100 億數字工作者與我們并肩協作。全球約有 3000 萬軟件工程師,我敢肯定其中 100% 會在未來用 AI 輔助進行開發;到今年年底,我們英偉達自己所有的軟件工程師也都將有 AI 助手。所以 AI 助手會無處不在,它們在企業里運行的方式也與現在完全不同,我們需要為其打造新的計算機形態。
看看這個:這就是未來 PC 的樣子,擁有 20 petaFLOPs 的算力,72 核 CPU,芯片間接口、HBM 內存……還有一些 PCIe 插槽方便你插 GeForce 顯卡(笑)。這款我們稱作 DGX Station或 DGX Spark;OEM 廠商比如 HP、Dell、Lenovo、華碩 等都會推出這種產品,面向全球的數據科學家與研究人員。這是進入 AI 時代后,計算機應有的樣子;未來的計算就會在這種機器上運行。我們也提供一整條產品線,從迷你機型到工作站再到服務器級、超級計算級,都會交由各大合作伙伴推出。
同時,我們還會徹底革新存儲。回想一下,計算有三大支柱:計算、網絡,再就是存儲。既然網絡升級成了 Spectrum X,存儲也要改頭換面:從過去的“檢索式”存儲系統轉向“語義式”存儲系統,要能在后臺不斷地對數據進行“embedding”,將其轉換成可用的知識。當你需要數據時,不再是“檢索數據”,而是直接對數據發問,讓 AI 幫你找到答案。Aaron 和 Box 公司就把一個“超智能存儲系統”放在了云上與我們合作,我很希望現場能有個視頻,但我們沒有。不過,未來每家企業都會擁有類似的“AI 存儲”。這將是企業存儲的未來。
我們正在與存儲領域的所有主要廠商——如 DDN、Dell、HPE、Hitachi、IBM、NetApp、Pure Storage、VAST、WDC——攜手,把 GPU 加速(GPU-accelerated)第一次帶到他們的存儲系統里。那將是第一次你的存儲系統也內置 GPU 加速。
有人覺得我幻燈片不夠多,所以 Michael 給了我這一張。盡管我本來就有很多 PPT,但這張確實不錯:它一張圖就展示了 Dell 將如何提供一系列英偉達企業級 IT + AI 基礎設施系統,以及在其上運行的所有軟件。你可以看到,我們正在推動全球企業 IT 的大變革。
最后說說“機器人 (Robotics)”
我們來聊一下機器人吧?,F在真的是機器人的時代了。機器人能與物理世界交互,執行純數字世界無法實現的工作。眾所周知,勞動力嚴重短缺。據估計,到本世紀 20 年代末,全球會短缺至少 5000 萬名工人。我們很樂意給他們每人 5 萬美元的年薪,但現實里并沒有這么多勞動力,所以有可能要給“機器人”付 5 萬美元/年的租金或使用費(笑)。這將是一個非常龐大的市場。
所有在移動的東西都將變得自主化。全球有成千上萬家工廠、數以億計的攝像頭、倉庫、無人車輛,汽車本身也是一個機器人?,F在我們還在研發通用機器人。我給你們放段視頻,展示我們的做法。
“物理 AI 和機器人正在飛速發展,可能會成為規模最大的產業。 一切的核心挑戰跟之前類似:數據從哪來、模型架構是什么、以及如何做擴展(scaling)。在機器人領域,我們同樣需要能大量生成或獲取數據,需要強大的計算來訓練模型,同時還得有能讓 AI 越訓越強的擴展性。英偉達為此打造了‘Omniverse’這一物理 AI 的‘操作系統 (OS)’,已談了很多年。今天再補充兩項新技術:
1、‘Cosmos’——把 Omniverse 與一種能夠理解物理世界的生成式模型結合起來。Omniverse 控制場景中的機器人和環境,Cosmos 則能生成無窮無盡的虛擬環境。你可以看到,我們在 Omniverse 里通過示意顏色來精確控制場景,而 Cosmos 不斷變化虛擬世界,讓數據既能‘有錨點’又能‘無限豐富’。
2、正如我們之前提到的,大型語言模型能快速提升的關鍵在于‘可驗證的強化學習 )’。機器人世界里這種‘可驗證的獎勵’就來自物理定律。所以我們需要一款極其強大的物理引擎。以往的物理引擎可能偏向大型機械或游戲,但要訓練機器人的精細操作、觸覺反饋、動力學控制,就需要 GPU 加速、超實時 (super real-time) 模擬,還要與機器人開發者常用的‘Mujoco’或類似框架無縫整合。因此,我們宣布一件非常特別的事:由三家企業——DeepMind、Disney Research 和 Nvidia——共同合作,推出一個叫做 Newton 的東西。讓我們看看 Newton 吧?!?/p>

正如我所說,我們機器人相關的進展巨大。今天宣布,Groot N1 現在是開源的!
我想感謝各位來到 GTC。讓我們做個總結吧:
1、Blackwell 已全面量產,需求極其旺盛,原因也很明顯——AI 迎來一個拐點,尤其是“推理”方面對算力需求激增,并且要訓練會推理、能自主規劃的“agentic AI”。
2、Blackwell + NVLink 72 + Dynamo 提供的 AI 工廠性能比 Hopper 提高了 40 倍。而在未來十年,推理 (inference) 將成為最重要的負載之一,我們會把 AI 規模繼續擴大。
3、我們公布了年度迭代的產品路線圖,好讓你們能規劃自己的 AI 基礎設施。
4、我們構建了三條 AI 基礎設施線:一條給云,一條給企業,一條給機器人。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
參考資料:https://www.youtube.com/watch?v=xZBxDHu_do8&t=7611s&ab_channel=BloombergTelevision
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.