不同于看不見的云計算,數據中心作為背后支撐云與AI大模型訓練的底層基礎設施,是一項重資產投入,其生命周期往往是按十年量級來衡量的。這也意味著一旦提前布局不當,或者跟不上當下應用市場的需求,對于建設方而言,不敢求回報,就連投資成本和后續的運營成本都可能無法收回。從運營商到獨立的第三方IDC廠商,以及互聯網/ICT企業在內,作為數據中心的主要參與者,都曾并正在經歷類似問題。
盡管因近些年受政策和市場需求(包括技術門檻的進一步降低)等多方面因素影響而時有波動,但國內數據中心的建設熱情不減。需求端,算力尤其是AI算力缺口依然很大,但Scale out芯片互聯等技術方案帶來的算力利用率不高也是事實。因而數據中心建設想要盡可能跟上企業客戶的算力需求,不僅要見效快,還能靈活可擴容。
政策端,其底色一直是朝著綠色低碳發展。早在2016年印發的《“十三五”國家信息化規劃》就提出,增加IT項目投資及逐步控制新建數據中心的PUE值(2018年不高于1.5,2020年不高于1.4)。2021年至今,北京、廣州等多地都相繼出臺了數據中心能耗保障的相關要求。總體上,對數據中心的PUE等能耗指標的考核不斷嚴格。
同時,全國多地政策鼓勵數據中心建設采用預制模塊化等裝配式建筑。一些國家級的綠色數據中心已經在積極采用液冷、高壓直流等高效冷卻技術產品、智能化運維管理技術及模塊化系統解決方案等。
因此,建設者們一直在推動數據中心預制化的解決方案,這也符合數據中心預制化、模塊化的趨勢。只不過,隨著時代的變遷,預制化數據中心從通用算力+風冷散熱方案為主體的上一代,開始逐漸轉變到AI算力等多元算力+液冷散熱方案為主體的AIDC模式。
鈦媒體近日跟隨浪潮信息走進了其位于濟南的元腦“算力工廠”。該智算中心是浪潮信息預制化AIDC解決方案的新樣板,支撐著在全球服務器大規模測試、客戶POC測試、大模型開發與應用、智能化轉型等業務場景的算力需求。
“賽博樂高”怎么搭
預制化數據中心,即將設備模塊在工廠就預先集成到集裝箱中,并完成測試。到達現場后,這些集裝箱就像“樂高”一樣被快速組裝起來,形成一個完整的數據中心。其優勢在于,與土建解耦,不受現場條件限制,所有機電設備在工廠預集成、預測試,接入市電、網絡和水源即可獨立運行,預制裝配率高,且集成工作與現場土建工作并行,縮短建設工期。
同時,根據功能的不同,集裝箱可被分為IT、電力、集成冷站、集成冷源、辦公、走廊、電梯、樓梯等八種功能箱體,可根據不同場景、規模靈活組合,并按照功率區段分區部署,匹配不同算力應用場景。對于客戶而言,初期根據資金水平和算力需求按需部署,后期可根據算力設備,匹配數據中心模式在線柔性升級擴容。在支持水平擴容的同時,可實現豎向按需擴容,最高可擴容至5層。
此外,當前數據中心建設必須將綠色節能考慮在內。過去十年,CPU熱設計功率(TDP)幾乎翻了一番,而GPU熱設計功耗已從2008年的不足200W到目前的1000W,單機柜功率密度已從5kW攀升至100kW以上。但Scale Up所帶來的部署密度提升是實現Scale Out規模持續擴張的前提和基礎,而液冷、智能溫控等先進制冷技術則會解決Scale Up引發的散熱問題,這意味著,占地大、能耗高的數百兆瓦數據中心會進一步壓縮到更加緊湊、更加節能。
元腦算力工廠正是基于這一思路展開。
當前一期建設規模上,已實現119臺集裝箱,419個機柜的一層部署,總容量達到10MW,使用年限可達50年。
從規劃到集裝箱工廠生產預制、地基建設、吊裝、調試等,總共耗時9個月完成交付,刨去前期規劃時間,實際建成投運僅用時120天。
鈦媒體注意到,在選擇用集裝箱投資建設之初,浪潮信息內部就做了深入的論證和預想。
“其實在國內,10MW以上規模的智算中心并不多。這意味著采用集裝箱結構一旦上了規模,幾百個進行組裝實現互聯互通,對技術要求是非常高的。同時,和樓宇建設相比,集裝箱式不僅可以短時間內構建這樣一個大規模集群,同時也可以為未來基建節省更多的投資。我們認為預制化是最能滿足AI時代算力快速部署的需求。”浪潮信息服務器產品線副總經理李金波指出。
除了在基建層面實現預制化外,元腦算力工廠全面遵循了“高密+綠色”的未來智算中心設計理念,算力節點大量使用高密智算算力倉,將風冷機柜的負載上限提升至50kW,液冷機柜的負載上限高達130kW。
為解決高密度部署帶來的散熱和能耗問題,浪潮信息還將液冷、光伏、儲能、余熱回收等多種技術結合,并采用智能管理平臺實現IT和機房設備的控制聯動,PUE可降至1.1以下。
如光伏發電技術將太陽能轉換為電能,為智算中心提供清潔的電力來源;儲能技術則允許智算中心在電力需求低時儲存能量,并在高峰時段使用儲存的能量,平衡電網負荷并提高能源利用效率;集成冷站采用變頻冷機,冬季和過渡季節實現自然冷卻,15℃/21℃中溫冷水制冷,整機能效比≥5.5;結合余熱利用技術,冬季可覆蓋辦公區供暖。
另外,集裝箱采用了預制化鋼結構建筑,材料回收率超80%,施工現場無粉塵噪音,建筑垃圾少,進一步實現綠色環保。
從成效上看,可總結為三點:一是“快”,將同等規模智算中心的建設周期從18個月縮減至4個月,工期縮短了近80%;二是“彈性可擴容”,可根據業務規模分期高效進行水平及豎向擴容,有效節省前期投入成本;三是“綠色節能”,全年節省電費近2億元,大幅降低運營成本。據測算,4個集裝箱、千卡規模算力,每年可節省電費400萬元。
智算中心只有最適合的方案
如今,面對復雜多變的市場需求和客戶挑戰,如何快速構建綠色高效智算中心,成為了眾多企業客戶共同面臨的難題。預制化智算中心的優勢在于其能夠大幅縮短交付周期。
但追求預制化的智算中心也同樣遵循“沒有最好的,只有最適合的方案”,每個客戶的業務場景、地理環境、能源政策等因素都各不相同。比如AIO(All-in-One)一體式、臨建級(十個集裝箱以內)、建筑級(永久性)三種預制化AIDC建設形式,適用于不同客戶訴求。對于算力基礎設施廠商而言,只有深入了解客戶需求,才能為其真正符合其實際需求的解決方案。
圖片來源@《2024算力工廠建設指南白皮書》
鈦媒體注意到,此前也有不少算力基礎設施廠商推出過預制化解決方案。在國內,也有不少結合了預制化模塊化思路的數據中心建設成果。例如,阿里云于2016年2016年投產的張北數據中心一號、二號園區,由于該地區冬季氣溫低達-38°C,長達半年不能施工,同樣借鑒了預制化的解決方案。
結合浪潮信息的實踐經驗來看,其解決方案已在互聯網、金融、能源、教科研、汽車等行業落地,但更多是AIO或者臨建式的預制化模式。也就是說,只需要數十個機柜,或者十個集裝箱以內的多箱拼接就可滿足需求,甚至不用地基。
“以高校為例,有時會有一些偶發性算力需求,比如受制于科研經費、場地空間等因素,智算中心規模較小,采用兩三個集裝箱即可拼接建成,使用十幾年達到生命周期報廢后,對高校在場地和投入上也不會有太大影響。再比如,在海外,考慮到初期建設成本問題,企業為快速上線應用,也可以采用這種方案。”李金波表示。
那么預制化AIDC是否短期內仍局限于一些特殊場景:比如自然條件苛刻的地區,傳統數據中心難以快速鋪開的海外市場,或者是偶發性的客戶算力需求?
國際咨詢機構ResearchAndMarkets近日發布的報告中指出,模塊化數據中心(modular data center)市場預計將從2024年的299.3億美元增長到2030年的794.9億美元,預測期內的復合年增長率(CAGR)為17.7%。其中,模塊化電源和冷卻系統、預制IT模塊和增強的自動化等關鍵進步,都在改變數據中心的設計和部署方式。
報告還指出,小型數據中心是模塊化數據中心市場的一個重要細分市場,旨在滿足客戶對本地化計算能力日益增長的需求,同時優化空間和能源使用。一個關鍵優勢是其靠近最終用戶,從而減少延遲并提高邊緣計算等應用的性能,同時配備先進的冷卻解決方案,可提高能源效率并降低運營成本。
浪潮信息人工智能與高性能產品線副總經理張強認為,未來落地像云腦算力工廠一樣的大規模預制化智算中心,是與液冷部署的規模相匹配的。
他進一步告訴鈦媒體,“盡管這兩年液冷開始不斷被提及,但實際與風冷相比,其部署量還是比較低的比例。我們看到從2024年開始,AI服務器高功耗導致的對液冷部署的強烈需求,到2025年可能就是液冷上量的關鍵時期。這意味著原有的一批數據中心可能沒辦法適應新的算力場景了。”
追溯預制化的發展歷程,也能夠發現隨著裝配式建筑技術與模塊化數據中心融合程度的加深,預制化數據中心呈現主體結構建筑化、空間及內外使用體驗樓宇化、功能區域標準化等趨勢,以適應高層級、多樓層、大規模集群的應用。這從此次走訪元腦算力工廠的實體空間就能感知一二。預制化智算中心正走向建筑級應用。
不等AI需求來了才開始布局,而是在可以預見的未來,還要領先市場半步。(本文首發于鈦媒體APP,作者 | 楊麗,編輯 | 蓋虹達)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.