“到2025年,AI在全球數據中心用電量中的占比將從2%增加到10%。”來自Uptime Institute的報告,揭示出AI計算需求的急劇增長,并帶來能源消耗的快速攀升。
從通用算力走向智能算力,AI計算依賴于高性能的GPU、TPU等芯片加速器,一個GPU的功耗可能是數百瓦甚至更高,從計算卡到服務器再到整機柜,功率層層激增,加上AI算力的集群化部署特點,導致AI算力中心對電力消耗的需要越來越大。
國際能源署(IEA)發布的報告顯示,在2022年全球消耗約460TWh之后,數據中心的總用電量到2026年可能達到1000TWh以上。全球數據中心電力需求翻倍的背后,是智算中心超大集群建設,帶來的高功率和高能耗挑戰。
伴隨計算密度的增加,進一步地,智算中心對供電和制冷提出更高要求。供電系統作為動力心臟,任何電力波動都可能導致關鍵任務中斷;AI任務帶來的高發熱量使得制冷系統的負擔加重,作為重要保障,制冷系統要對其進行高效散熱,確保設備穩定運行。
“電+冷”,為智算中心打造雙重生命線
同樣來自Uptime Institute的報告數據顯示,數據中心發生故障的最常見原因是供配電電源問題,故障占比52%,另有19%的故障源于數據中心的冷卻問題,它們形成數據中心事故或中斷的兩大主因。
不難理解,更高的算力意味著更高的功耗,而更高的功耗意味著更大的熱量產生,進而需要更強大的制冷系統。反過來說,如果制冷系統運行不佳,設備溫度升高,功耗會進一步增加,甚至設備可能因為過熱而停機。此外,對于供電面臨的挑戰而言,不僅僅要提供足夠的電力,還包括如何做到高效、穩定,避免電力波動導致故障宕機。
尤其對于AI計算任務來說,訓練中斷導致回退乃至訓練重啟,將帶來更大的時間、資源浪費和經濟損失。
因此,供電和制冷系統的高可靠性成為關鍵。“智算時代,‘安全可靠’是數據中心基礎設施的最核心競爭力。”在華為全聯接大會2024首日召開的數據中心基礎設施峰會上,華為數字能源副總裁、華為數據中心能源及關鍵供電產品線總裁何波直言。
安全可靠始終是數據中心的最本質需求,步入智算時代,并行計算故障域擴大,波動負載更明顯,面向通算設計的供電和制冷架構越來越不匹配。
如何做到真正的安全可靠?顯然,供電和制冷不能有任何短板。在何波看來,“全鏈路的安全可靠,才是真正意義上的安全可靠”。這需要從規劃、建設到維護,構建端到端全鏈保障機制,應對不斷攀升的電力需求,處理陡增波動的功率跳變與熱量,例如將智算制冷故障的應急響應時間由2分鐘縮短至30秒,保障智算中心穩定運轉。
全鏈路安全可靠,構建智算中心堅實后盾
隔離式儲能、分布式架構、連續性制冷、高質量產品、專業化服務、智能化管理……為確保智算中心的全鏈路安全可靠,華為重塑了供電與制冷系統,全生命周期筑牢了產品設備的高可靠性。
- 安全始于“規劃”,可靠貫穿“設計”
首先,在架構安全方面,相比于多數大型數據中心采用集中式冷凍站供冷系統、數據中心傳統供配電系統多為攢機方案帶來的故障點多、故障域大、結構復雜等弊端,供電與制冷的分布式架構實現一箱一路電,一箱一制冷,單臺故障不擴散,帶來更高的架構解耦靈活性和可靠性,使得業務不斷電、溫度零波動,是智算數據中心故障域最小化的有效手段。
其次,在備電方案方面,鋰電在數據中心的應用越來越普及,尤其在智算時代,鋰電能量密度高、占地小、壽命長,是智算中心備電首選。同時,安全是一切的前提,除了選擇安全可靠的電芯,還要考慮拉遠部署鋰電,才能最大化保護GPU等核心算力資產。
第三,在制冷的連續性方面,在智算高密場景下,制冷中斷超過30秒將導致IT設備溫升超標。這要求智算制冷架構需具備制冷不中斷、異常恢復快兩大必備能力。華為通過創新架構實現連續制冷,主備電源切換時制冷系統零中斷,大幅提升了數據中心可靠性。
- 高質量產品是“基礎”,專業化服務是“保障”
為了確保數據中心具備高可靠性、高安全性,需要從產品本源安全可靠出發到專業化團隊設計運維,構建端到端全鏈保障機制,才能確保數據中心的整體安全可靠。
一方面,在產品設計、生產等環節貫穿全鏈安全理念,華為從設計、生產制造源頭保障了產品的安全可靠,以鋰電池產品為例,華為進行了5級可靠性設計和10層多防護設計,不斷提升備電系統的安全等級;另一方面,在交付服務上,將安全貫穿數據中心的“規劃設計、安裝交付、運維保障、優化提升”全生命周期,例如提供標準化、品質化交付,預防、預測性維護等,端到端構筑安全能力。
- AI反哺數據中心,助力智能化安全保障
得益于GPU等算力驅動和智算中心的發展,AI應用快速面世和普及,反過來,AI也將反哺數據中心,助力智能化安全保障。例如,利用人工智能算法對鋰電池的電、熱、化學信號等進行實時監測和分析,識別異常電芯,進行銅排異常檢測等,從而做到起火預防;以及進行掉電預防、高溫預防等,提前預測和診斷故障。
安全可靠、彈性演進、綠色低碳,引領AI DC新時代
在智算場景高功率密度和高熱量產生并存的局面下,看得出,華為將安全可靠做到了極致,打造高可靠制冷與供電,守護智算中心雙重生命線。
此外,隨著智算芯片演進節奏步入“一年一代”,以及數據中心耗電量的激增,數據中心的彈性演進、綠色低碳同樣成為行業用戶的兩大需求痛點。華為智算供電與智算制冷解決方案亦體現出了這兩大特色,舉例來說,華為室外電力模塊通過架構全解耦、全模塊化設計,實現一箱一路電,室外拉遠部署,既不占用機房空間,部署快、易擴容,還有效保障鋰電在數據中心的安全應用,是智算時代靈活供電首選方案。華為風液融合方案可以根據智算業務實際需求,動態調整風冷和液冷的比例,從而實現最佳的制冷效率,使得系統節能性大幅提升。
整體而言,面對安全性挑戰、高功率挑戰、高能耗挑戰,以及競爭加劇、代際迭代快的不確定性挑戰,華為以安全可靠、彈性演進、綠色低碳三大原則為核心,構筑智算時代新基石。
AI帶來了前所未有的算力革命,未來的數據中心將不僅具備更強大的算力,還會在供電和制冷方面更加節能、高效、可靠,成為推動數字經濟發展的綠色引擎,讓數字世界堅定運行。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.