新智元報(bào)道
編輯:定慧 好困
【新智元導(dǎo)讀】人類進(jìn)化12000年,只為等AI覺醒?黃仁勛宣布「AI工廠時(shí)代」正式到來!從農(nóng)業(yè)到工業(yè)再到AI革命,英偉達(dá)如何用算力推動(dòng)歷史巨輪?未來,每家公司都將有一個(gè)專屬的超級(jí)智能工廠。并全覽目前最先進(jìn)的GB200 NVL72的詳細(xì)參數(shù)。
當(dāng)談到AI時(shí),上下文(Context)就是一切;當(dāng)談到上下文時(shí),數(shù)據(jù)就是一切。
當(dāng)談?wù)摂?shù)據(jù)時(shí),算力就是一切;而談起算力,皮衣教主就會(huì)閃亮登場了。
老黃在2025 GTC大會(huì)上預(yù)言:
在這里,「AI工廠」一詞并非隱喻,而是對(duì)存在于現(xiàn)代AI超級(jí)計(jì)算機(jī)真實(shí)面貌的寫照。
人類智能需要上下文,需要數(shù)據(jù),需要腦力,既然人類按照自身的形象創(chuàng)造了AI(基于大模型),這個(gè)道理自然也延伸到了AI上。
英偉達(dá)準(zhǔn)備打造的AI工廠,是一種能夠處理數(shù)PB數(shù)據(jù)并根據(jù)需求給出智能答案的超級(jí)計(jì)算機(jī),是一種推動(dòng)全球經(jīng)濟(jì)與文化巨變的新型工廠。
數(shù)據(jù)的一天
你是否好奇,我們?nèi)祟愂侨绾巫叩竭@一步的?AI工廠的出現(xiàn)是科技發(fā)展的必然嗎?
AI工廠會(huì)把人類變成某種數(shù)字超級(jí)智能的生物引導(dǎo)程序嗎?
如果你想更加深入的理解人類如何走到這一步,讓我們先回到12000年前看看。
從石器,到汽車,再到GPU
大約12000年前,人類的祖先厭倦了四處流浪尋找食物與住所,于是他們開始在一個(gè)地方定居下來——主動(dòng)種植作物、飼養(yǎng)牲畜以滿足食物需求。
農(nóng)業(yè)(種田、耕作)本質(zhì)上就是一種食物工廠,只不過主要在戶外進(jìn)行,因?yàn)橹参锖蛣?dòng)物的生長需要陽光、水和空氣。
中世紀(jì)時(shí),firma一詞指的是為了種植作物而支付的固定土地租金,因此也成為農(nóng)業(yè)的同義詞。
新石器革命
農(nóng)業(yè)迫使人類組織成等級(jí)分明的群體進(jìn)行勞作。
文字是為了管理而創(chuàng)造的——記錄食物工廠的投入與產(chǎn)出,以及管理圍繞農(nóng)業(yè)形成的社會(huì)規(guī)則(當(dāng)然,這些規(guī)則在不同地區(qū)存在差異)。
人類最終將文字的用途擴(kuò)展到其他領(lǐng)域,直到今天,它依然是傳遞大量密集信息最快的方式。
從人類放下弓箭和長矛,拿起鋤頭、耙子、犁耕地,并在泥板上刻下第一個(gè)符號(hào)的那一刻起,AI的誕生就已經(jīng)不可避免——AI工廠的出現(xiàn)也只是時(shí)間問題。
工業(yè)革命
人類花費(fèi)數(shù)千年才得以積累足夠的糧食盈余,「剩余」催生出最早的商人階級(jí)——通過手工制造物品供其他人使用。
制造業(yè)(manufacturing)一詞的字面意思就是拉丁語中的「用手制造」。
有了商業(yè),隨之出現(xiàn)了一種通用的交換媒介——貨幣,加速了以物易物的過程,并逐漸演變成現(xiàn)在所熟悉的經(jīng)濟(jì)體系。
更準(zhǔn)確地說,是形成了「全球經(jīng)濟(jì)」,因?yàn)樵诘乩泶蟀l(fā)現(xiàn)之后的第一波全球化浪潮將不同大陸重新聯(lián)系到了一起,使各個(gè)地區(qū)或國家的經(jīng)濟(jì)不再孤立。
從那時(shí)起,全球化經(jīng)歷了多次浪潮,徹底改變了農(nóng)業(yè)和制造業(yè)。
工廠(標(biāo)準(zhǔn)化生產(chǎn)的場所)最大的轉(zhuǎn)變是將制造過程拆分成多個(gè)步驟,以加快生產(chǎn)速度并提高可重復(fù)性。
這場工業(yè)革命恰好與啟蒙運(yùn)動(dòng)同時(shí)發(fā)生,識(shí)字率迅速提升,因?yàn)楣S需要受過教育的工人來最大限度提高效率、減少浪費(fèi)。
教育從來不是目的,而是一種必要條件。隨之而來的,則是財(cái)產(chǎn)權(quán)、人身安全和自由,以及接受迅速而公正審判的權(quán)利。
福特汽車流水線工廠
在21世紀(jì),人們已經(jīng)將這些權(quán)利視為理所當(dāng)然,但實(shí)際上應(yīng)當(dāng)感謝18世紀(jì)的貢獻(xiàn)。
工廠將制造活動(dòng)轉(zhuǎn)移到室內(nèi)。
通過蒸汽動(dòng)力、隨后電力的應(yīng)用,以及流水線精益生產(chǎn)等技術(shù),以低成本生產(chǎn)現(xiàn)代生活所需的商品,使普通人不僅能負(fù)擔(dān)得起基本生活,還能享受一定的舒適與便利。
制造業(yè)將人們從農(nóng)田中解放出來,創(chuàng)造了一個(gè)農(nóng)業(yè)社會(huì)無法想象的龐大中產(chǎn)階級(jí),使經(jīng)濟(jì)以前所未有的方式擴(kuò)張。
AI革命
然后互聯(lián)網(wǎng)出現(xiàn)了。
互聯(lián)網(wǎng)將所有人連接在一起的同時(shí),創(chuàng)造了一種前所未有的新資源——數(shù)據(jù)。
數(shù)據(jù)信息就是新時(shí)代的「金礦」,各個(gè)巨頭從數(shù)據(jù)中挖掘出你的一切需求。
而AI革命的發(fā)生,必須等到海量的文本、圖像、視頻和音頻數(shù)據(jù)被計(jì)算機(jī)化,并且等到大規(guī)模的計(jì)算能力能以可負(fù)擔(dān)的價(jià)格用于處理這些數(shù)據(jù)時(shí)。
其中,大數(shù)據(jù)的本質(zhì)就是足夠精確的信息量,運(yùn)行在一組具有高內(nèi)存帶寬的大規(guī)模并行GPU上,而這些GPU又提供了足夠精確的計(jì)算能力,足以創(chuàng)建能夠編碼人類對(duì)這個(gè)世界知識(shí)的神經(jīng)網(wǎng)絡(luò),從而使AI真正發(fā)揮作用。
所有這些條件必須同時(shí)滿足。
在20世紀(jì)80年代,研究人員擁有神經(jīng)網(wǎng)絡(luò)的算法,但他們沒有足夠的計(jì)算能力來運(yùn)行它們,也沒有足夠的數(shù)據(jù)來喂養(yǎng)它們。
當(dāng)時(shí),現(xiàn)在所知的AI在很大程度上仍然停留在理論階段,直到所有這三個(gè)條件都得到滿足。
AI工廠:并非隱喻,而是蛻變
AI工廠這一概念并非比喻——而是對(duì)真實(shí)存在的AI超級(jí)計(jì)算機(jī)的真實(shí)描述。
它不僅改變了企業(yè)計(jì)算的本質(zhì),也徹底重塑了數(shù)據(jù)分析的方式——數(shù)據(jù)的綜合與提煉,轉(zhuǎn)化為行動(dòng)或非行動(dòng)所需的信息。
AI工廠的出現(xiàn)是必然的,就像農(nóng)業(yè)工廠(人們合作供養(yǎng)彼此)一樣不可避免。
社會(huì)與文化圍繞這種革命進(jìn)行變革,為人類帶來了更多自由時(shí)間去思考與創(chuàng)造。
如今,人類擁有了能夠獲取人類全部知識(shí)并以對(duì)話形式檢索的機(jī)器。更重要的是,這些機(jī)器能夠被反向運(yùn)行,按照提示生成各種格式的新數(shù)據(jù)。
未來,每個(gè)企業(yè)和個(gè)人都會(huì)擁有自己的AI工廠,或至少共享其中的一部分。這些AI工廠將產(chǎn)生新想法、新視野,幫助人類拓展自身的創(chuàng)造能力。
也許今天世界各地在很多問題上缺乏共識(shí),但關(guān)注AI革命的人都認(rèn)同,AI日益增強(qiáng)的能力將改變?nèi)祟惖囊磺姓J(rèn)知和行動(dòng)。
使命:洞見與行動(dòng)的制造之地
AI工廠有兩項(xiàng)工作。第一項(xiàng)是訓(xùn)練基礎(chǔ)模型,這些模型提供人們都尋求的洞見,以改善業(yè)務(wù)和生活。
第二項(xiàng),也是最終更重要的工作,是將新數(shù)據(jù)和問題輸入模型,讓其推理出新答案——生成新的Token——以提供進(jìn)一步的洞見并驅(qū)動(dòng)行動(dòng)。
COLOSSUS:馬斯克xAI的巨型計(jì)算工廠,配備十萬片H100 GPU
在過去十年中,圍繞AI的大量討論都集中在Scaling Law上,這些模型現(xiàn)在擁有數(shù)千億到超過萬億的參數(shù)(類似于人腦中突觸的放電水平),以及處理的數(shù)據(jù)量(數(shù)萬億到數(shù)十萬億的Token,并且還在增長)。
Token數(shù)量代表知識(shí)量有多少,而參數(shù)量則代表已知知識(shí)的思考能力有多強(qiáng)。
在較大的Token集上使用較小的參數(shù)量會(huì)帶來更快但更簡單的答案。
在較小的Token集上使用較大的參數(shù)量會(huì)讓你對(duì)有限事物的理解給出更好的答案。
如今,思維鏈推理模型(本質(zhì)上也是多模態(tài)的,不僅僅關(guān)注文本)正在將數(shù)百個(gè)專業(yè)模型整合在一起協(xié)同工作,它們會(huì)考慮驅(qū)動(dòng)其他輸入的輸出,花費(fèi)更多時(shí)間來生成我們?nèi)祟惙Q之為答案的更好的Token流。
有了AI工廠,人類創(chuàng)造的所有內(nèi)容和AI模型生成的合成數(shù)據(jù)都成了原材料。
從這海量的歷史數(shù)據(jù)寶庫中獲得的洞見是收獲的成果,擁有人類智慧的人和具備AI的AI智能體利用這些洞見來做事。
這一次,人類不再是去工廠上班,而是將接入工廠作為其工作的一部分,用自己的技能來增強(qiáng)模型廣泛的知識(shí)和速度,從而更好更快地完成更多事情。
非凡的工程壯舉
「世界正在競相建設(shè)最先進(jìn)、大規(guī)模的AI工廠」,英偉達(dá)聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛在最近于圣何塞舉行的2025 NVIDIA GTC大會(huì)的主題演講中解釋道。
「建設(shè)一個(gè)AI工廠是一項(xiàng)非凡的工程壯舉,需要來自供應(yīng)商、架構(gòu)師、承包商和工程師的數(shù)萬名工人來建造、運(yùn)輸和組裝近50億個(gè)組件以及超過20萬英里的光纖——幾乎是從地球到月球的距離。」
強(qiáng)大的硬件加持
建設(shè)一個(gè)AI工廠是一項(xiàng)重大的資本投資。
一個(gè)AI工廠的合理配置是基于8個(gè)DGX B200系統(tǒng)機(jī)架的DGX SuperPOD,它由GPU、CPU、節(jié)點(diǎn)間的Quantum-X InfiniBand或Spectrum-X Ethernet互連技術(shù)以及存儲(chǔ)組成。
配備32個(gè)DGX B200系統(tǒng)后,這個(gè)SuperPOD提供了4.61 exaflops的FP4性能,擁有48TB的HBM3內(nèi)存和2PB/秒的總內(nèi)存帶寬。
每個(gè)DGX B200配8個(gè)Blackwell GPU,并通過第五代NVLink互連,DGX B200提供比上一代系統(tǒng)高3倍的訓(xùn)練性能和15倍的推理性能。
英偉達(dá)另一個(gè)AI工廠的藍(lán)圖是基于GB200 NVL72平臺(tái),這是一個(gè)機(jī)架級(jí)系統(tǒng),同樣包含 GPU、CPU、DPU、SuperNIC、NVLink和NVSwitch,以及InfiniBand和Spectrum-X網(wǎng)絡(luò)。
但它為AI模型提供了更大的共享GPU內(nèi)存域(72個(gè)GPU插槽,相比之下DGX B200節(jié)點(diǎn)只有8個(gè)),并且具有更高的計(jì)算密度,因此需要液冷。
GB200 NVL72于2024年3月發(fā)布,現(xiàn)已全面出貨。
GB200 NVL72機(jī)架級(jí)系統(tǒng)確實(shí)是一個(gè)完整的系統(tǒng)——除了你的數(shù)據(jù)之外,它不需要任何其他東西就可以開始構(gòu)建模型,然后轉(zhuǎn)身開始以文本、圖像、視頻或聲音格式輸出數(shù)據(jù) Token。
GB200 NVL72的基本構(gòu)建模塊是一個(gè)MGX服務(wù)器節(jié)點(diǎn),該節(jié)點(diǎn)包含一個(gè)Grace CPU作為一對(duì)Blackwell GPU的主機(jī)處理器,而這對(duì)Blackwell GPU本身是位于單個(gè)SXM插槽中的一對(duì)Blackwell GPU晶粒。
兩個(gè)這樣的服務(wù)器節(jié)點(diǎn)組合成一個(gè)內(nèi)置于NVL72機(jī)架中的計(jì)算托盤。機(jī)架中有18個(gè)計(jì)算托盤,共構(gòu)成72個(gè)GPU(144個(gè)GPU晶粒)和36個(gè)CPU。
GB200 NVL72機(jī)架級(jí)系統(tǒng)將Grace CPU與一對(duì)Blackwell GPU相結(jié)合,CPU和GPU之間通過450GB/秒的NVLink連接。
1.8TB/秒的NVLink端口與NVSwitch芯片一起使用,將所有72個(gè)GPU(144個(gè)GPU晶粒,每個(gè)900GB/秒)連接成一個(gè)全互聯(lián)(all-to-all)、共享內(nèi)存式的配置,這種配置非常適合基礎(chǔ)模型訓(xùn)練(當(dāng)它們?yōu)榇笠?guī)模互連時(shí))以及思維鏈推理。
由9個(gè)NVLink交換托盤(總共18個(gè)NVSwitch芯片)創(chuàng)建的NVLink互連結(jié)構(gòu)使得這144個(gè)GPU晶粒可以像一個(gè)巨大的GPU一樣被訪問。
GB200 NVL72系統(tǒng)擁有2,592個(gè)用于主機(jī)處理的Arm核心,并提供1.44 exaflops的FP4精度浮點(diǎn)處理能力,精度每提高2倍,吞吐量減半。
GB200 NVL72系統(tǒng)擁有連接到GPU的13.4TB HBM3e內(nèi)存,總帶寬高達(dá)576 TB/秒。那些 Grace CPU擁有總共17.3 TB的LPDDR5X內(nèi)存,與GPU僅相隔一個(gè)NVLink跳躍,并提供另外18TB/秒的總帶寬。
GB200 NVL72對(duì)于AI革命的意義,就像System/360對(duì)于五十年前的聯(lián)機(jī)事務(wù)處理和批處理革命的意義一樣。
IBM System/360是一個(gè)計(jì)算機(jī)系統(tǒng)家族,由IBM于1964年4月7日宣布
當(dāng)時(shí)與現(xiàn)在的一個(gè)主要區(qū)別是,NVL72可以通過InfiniBand互連進(jìn)行橫向擴(kuò)展,這正是DGX SuperPOD中所采用的方式。
而一旦購買了最大的System/360,那就是它的極限了,必須等待下一個(gè)升級(jí)周期才能獲得更強(qiáng)大的機(jī)器。
基于NVL72機(jī)架級(jí)系統(tǒng)的DGX SuperPOD配置需要近1 兆瓦的電力,但在8個(gè)計(jì)算機(jī)架上提供了11.5 exaflops的計(jì)算能力和240 TB的HBM3e內(nèi)存。
如果需要更高的性能,就像任何SuperPOD一樣,只需購買更多機(jī)架即可。
NVL72機(jī)架的計(jì)算密度需要專門的液冷技術(shù)和支持該技術(shù)的數(shù)據(jù)中心設(shè)施。
冷都不是一個(gè)新想法,在某種程度上,使用液冷是一種「倒退」。
回到20世紀(jì)60年代和70年代,那些改變了各行各業(yè)的大型主機(jī)也采用液冷的時(shí)代——以便它們能夠發(fā)揮當(dāng)時(shí)可用的絕對(duì)最高性能。
隨著推理被嵌入到各種應(yīng)用程序中,一個(gè)AI工廠幾乎肯定需要比這多得多的計(jì)算能力,特別是如果想要合理的查詢和AI智能體性能,并且隨著不可避免地轉(zhuǎn)向思維鏈推理模型。
據(jù)估計(jì),思維鏈推理模型所需的計(jì)算量比早期大語言模型常見的那種一次性、簡單回答多出100倍。
全面的軟件生態(tài)
DGX GB200系統(tǒng)和相關(guān)的DGX SuperPODAI超級(jí)計(jì)算機(jī)需要進(jìn)行管理和建模,這就需要用到幾種不同的工具。
NVIDIA Mission Control(包括Run.ai)負(fù)責(zé)在整個(gè)基礎(chǔ)設(shè)施中編排AI工作負(fù)載,并在出現(xiàn)問題時(shí)自動(dòng)恢復(fù)作業(yè)。
Mission Control對(duì)系統(tǒng)進(jìn)行健康檢查,并幫助根據(jù)系統(tǒng)上運(yùn)行的工作負(fù)載優(yōu)化功耗。
在此之上是NVIDIA AI Enterprise,這是一個(gè)系統(tǒng)軟件,包含了為在英偉達(dá)GPU和網(wǎng)絡(luò)上加速而優(yōu)化的庫、模型和框架。
AI工廠技術(shù)棧現(xiàn)在還包括NVIDIA Dynamo,這是一個(gè)用于在NVLink和DGX SuperPOD基礎(chǔ)設(shè)施上運(yùn)行推理的開源分布式框架。
DGX專家服務(wù)與支持(DGX Expert Service and Support)幫助客戶快速實(shí)施這些技術(shù),并縮短其AI工廠首次生成Token的時(shí)間。
對(duì)于那些構(gòu)建和擴(kuò)展這些系統(tǒng)的人,英偉達(dá)為其Omniverse「數(shù)字孿生」環(huán)境和設(shè)計(jì)工具創(chuàng)建了AI工廠藍(lán)圖,以模擬構(gòu)成AI工廠的整個(gè)數(shù)據(jù)中心,從而確保其在首次構(gòu)建時(shí)就能正確無誤,并在不可避免的擴(kuò)展過程中保持正確。
也許AI工廠最重要的方面是它所催生的思維轉(zhuǎn)變,以及英偉達(dá)在其當(dāng)前系統(tǒng)和路線圖中所關(guān)注的重點(diǎn),這向客戶保證了機(jī)架級(jí)和系統(tǒng)有充足的增長空間。
「我認(rèn)為,AI工廠之所以如此令人興奮且需求旺盛,是因?yàn)閷?duì)許多公司而言,生成Token現(xiàn)在等同于創(chuàng)造營收」,英偉達(dá)網(wǎng)絡(luò)高級(jí)副總裁Gilad Shainer表示。
「我們不再將數(shù)據(jù)中心視為成本中心,而是視為能夠產(chǎn)生收入的生產(chǎn)性資產(chǎn)」。
畢竟,這才是建造AI工廠的全部意義所在。
參考資料:
https://www.nextplatform.com/2025/04/11/the-ai-factory-12000-years-in-the-making-and-absolutely-inevitable/?linkId=100000357151212
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.