網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

馬斯克出手，全球最大AI超算內(nèi)部首次曝光！19天神速組裝10萬(wàn)塊H100，未來(lái)規(guī)模還將擴(kuò)大一倍

2024-10-31 23:57:54　來(lái)源: 互聯(lián)網(wǎng)思想

廣東舉報(bào)

分享至

來(lái)源：新智元

【導(dǎo)讀】一文揭秘全球最大AI超算，解析液冷機(jī)架和網(wǎng)絡(luò)系統(tǒng)的創(chuàng)新設(shè)計(jì)。這臺(tái)全球最大AI超算Colossus由xAI和英偉達(dá)聯(lián)手建造，耗資數(shù)十億，10萬(wàn)塊H100僅半個(gè)多月搭建完成，未來(lái)規(guī)模還將擴(kuò)大一倍！

兩個(gè)月前，馬斯克才剛剛自曝了xAI的Colossus超算，稱其是世界上最強(qiáng)大的AI訓(xùn)練系統(tǒng)。

最近，馬斯克又宣布了一條振奮人心的消息——集群即將擴(kuò)展到20萬(wàn)張H100/H200顯卡！

同時(shí)，ServeTheHome也發(fā)布了一條15分鐘的視頻，公布了這臺(tái)超算的詳情！

來(lái)自ServeTheHome的Patrick Kennedy帶著攝影機(jī)探訪了這臺(tái)超級(jí)計(jì)算機(jī)

這臺(tái)全球最大的AI超級(jí)計(jì)算機(jī)Colossus位于美國(guó)田納西州孟菲斯，配備了10萬(wàn)個(gè)英偉達(dá)Hopper GPU，并由英偉達(dá)Spectrum-X以太網(wǎng)提供網(wǎng)絡(luò)傳輸支持。

目前，Colossus的第一階段建設(shè)已完成，集群全面上線，但這并不是終點(diǎn)。它將很快迎來(lái)升級(jí)，GPU容量將翻倍，新增5萬(wàn)塊H100 GPU和5萬(wàn)塊下一代H200 GPU。

Colossus正在用于訓(xùn)練xAI的Grok，并為X Premium訂閱用戶提供聊天機(jī)器人功能。

在訓(xùn)練超大規(guī)模的Grok時(shí)，Colossus展現(xiàn)了前所未有的網(wǎng)絡(luò)性能。在網(wǎng)絡(luò)結(jié)構(gòu)的所有層級(jí)中，系統(tǒng)在流量沖突的情況下沒(méi)有經(jīng)歷任何應(yīng)用延遲降級(jí)或數(shù)據(jù)包丟失。

通過(guò)Spectrum-X擁塞控制，它保持了95%的數(shù)據(jù)吞吐量。這種性能水平無(wú)法通過(guò)標(biāo)準(zhǔn)以太網(wǎng)實(shí)現(xiàn)，標(biāo)準(zhǔn)以太網(wǎng)在傳輸中會(huì)產(chǎn)生數(shù)千次流量沖突，數(shù)據(jù)吞吐量?jī)H能達(dá)到60%。

由于保密協(xié)議的限制，這臺(tái)超級(jí)計(jì)算機(jī)的一些細(xì)節(jié)并沒(méi)有透露。不過(guò)，像Supermicro GPU服務(wù)器等關(guān)鍵部件的介紹在視頻中都有所涉及。

液冷機(jī)架

Colossus集群的基本構(gòu)建單元是Supermicro液冷機(jī)架。

每個(gè)機(jī)架包含八臺(tái)4U服務(wù)器，每臺(tái)服務(wù)器配備八個(gè)英偉達(dá)H100，共計(jì)64個(gè)GPU。

八臺(tái)此類GPU服務(wù)器再加上一個(gè)Supermicro冷卻分配單元（CDU）及相關(guān)硬件，構(gòu)成了一個(gè)GPU計(jì)算機(jī)架。

這些機(jī)架以八臺(tái)為一組排列，共512個(gè)GPU，并通過(guò)網(wǎng)絡(luò)連接，形成更大系統(tǒng)中的小型集群。

xAI使用的是Supermicro 4U通用GPU系統(tǒng)。

這是目前市面上最先進(jìn)的AI服務(wù)器，有2個(gè)原因：其一是它的液冷程度；其二是設(shè)備的可維護(hù)性。

該系統(tǒng)被放置在托盤(pán)上，無(wú)需將系統(tǒng)從機(jī)架中移出即可維護(hù)。1U機(jī)架分流器可為每個(gè)系統(tǒng)引入冷卻液并排出溫?zé)嵋后w?？焖贁嚅_(kāi)裝置讓液冷系統(tǒng)可以迅速移除，甚至可以人工單手拆裝；移除后，托盤(pán)即可拉出以便維護(hù)。

下圖是一張?jiān)摲?wù)器原型的照片，展示了這些系統(tǒng)的內(nèi)部構(gòu)造。

SC23展示的Supermicro 4U通用GPU系統(tǒng)：支持液冷英偉達(dá)HGX H100和HGX 200

上圖SC23原型中的兩個(gè)x86 CPU液冷模塊相對(duì)常見(jiàn)。

特別之處在于右側(cè)：Supermicro的主板集成了幾乎所有HGX AI服務(wù)器中使用的四個(gè)Broadcom PCIe交換機(jī)，而非將其單獨(dú)安裝在另一塊板上。Supermicro為這四個(gè)PCIe交換機(jī)設(shè)計(jì)了定制液冷模塊。

其他AI服務(wù)器通常是在風(fēng)冷設(shè)計(jì)的基礎(chǔ)上加裝液冷，而Supermicro的設(shè)計(jì)則完全從零開(kāi)始，為液冷而打造，且所有組件均來(lái)自同一供應(yīng)商。

打個(gè)通俗的比方，這類似于汽車——有些車型先設(shè)計(jì)為燃油車，之后再安裝電動(dòng)動(dòng)力系統(tǒng)，而有些車型從一開(kāi)始就是為電動(dòng)車設(shè)計(jì)的。這款Supermicro系統(tǒng)就屬于后者，而其他HGX H100系統(tǒng)則屬于前者。

Patrick怒贊道：測(cè)評(píng)了各種各樣的液冷系統(tǒng)設(shè)計(jì)，這款Supermicro系統(tǒng)遙遙領(lǐng)先于其他系統(tǒng)！

網(wǎng)絡(luò)系統(tǒng)

這里的每條光纖連接速率為400GbE，是常見(jiàn)1GbE網(wǎng)絡(luò)速率的400倍。此外，每個(gè)系統(tǒng)擁有9條這樣的連接，意味著每臺(tái)GPU計(jì)算服務(wù)器的帶寬達(dá)到約3.6Tbps。

打個(gè)比方，如果1GbE的普通家庭網(wǎng)絡(luò)好比是一條單車道公路，那這個(gè)400GbE就像是一條擁有400車道的高速公路。而每個(gè)系統(tǒng)有9條這樣的「高速公路」，相當(dāng)于每臺(tái)GPU計(jì)算服務(wù)器擁有9條這樣的超寬帶公路，總帶寬達(dá)到3.6Tbps。

這個(gè)帶寬甚至超過(guò)了2021年初頂級(jí)Intel Xeon服務(wù)器處理器在所有PCIe通道上所能處理的連接總量。

GPU的RDMA網(wǎng)絡(luò)構(gòu)成了該帶寬的大部分。每個(gè)GPU都有自己的NIC。

在這里，xAI使用英偉達(dá)BlueField-3 SuperNIC和Spectrum-X網(wǎng)絡(luò)。英偉達(dá)的網(wǎng)絡(luò)堆棧中加入了一些獨(dú)特技術(shù)，可以幫助數(shù)據(jù)繞過(guò)集群中的瓶頸，確保數(shù)據(jù)準(zhǔn)確地傳輸?shù)街付ㄎ恢谩?/p>

這是一個(gè)重大突破！許多超級(jí)計(jì)算機(jī)網(wǎng)絡(luò)使用的是InfiniBand或其他技術(shù)，而這里采用的是以太網(wǎng)。

以太網(wǎng)是互聯(lián)網(wǎng)的骨干，因此它具有極強(qiáng)的擴(kuò)展性。這些龐大的AI集群已擴(kuò)展到一些更小眾技術(shù)未能觸及的規(guī)模。對(duì)于xAI團(tuán)隊(duì)而言，這確實(shí)是一個(gè)大膽的舉措。

除了GPU的RDMA網(wǎng)絡(luò)外，CPU也配備了400GbE連接，但使用完全不同的交換結(jié)構(gòu)。xAI為其GPU和集群的其余部分分別配置了獨(dú)立的網(wǎng)絡(luò)，這在高性能計(jì)算集群中是非常常見(jiàn)的設(shè)計(jì)。

除了高速集群網(wǎng)絡(luò)外，還有低速網(wǎng)絡(luò)用于管理接口和環(huán)境設(shè)備，這些都是此類集群的重要組成部分。

參考資料：

https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/3/

為偉大思想而生！

AI+時(shí)代，互聯(lián)網(wǎng)思想（wanging0123)，

第一必讀自媒體

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.