老馮升職了!
被集團委派,成為集團智算中心租賃項目的負責人。
這個智算中心,可是集團的最新增長極,也是公司跨界轉型的橋頭堡,被集團寄予厚望。
新官上任,老馮最著急的就是讓改造的智算中心趕緊投產,把租賃業務盡快開動起來。
現在這波大模型風口可不能錯過,時間就是金錢,算力就是Money!
終于,智算中心改造完成,那天,老馮帶客戶參觀,躊躇滿志…
結果,業績慘淡,根本租不出去,好不容易租出去的,到期也沒有續租。
一個季度下來,老板看到慘淡的報表,恨不得揪住老馮破口大罵↓
為什么會鬧成這樣?
原來,老馮和大多數人一樣,只看重了紙面算力,關注核心組件GPU,卻忽略了很多細節。
正是這些細節坑,讓老馮栽了大跟頭。
那么,老馮都踩了哪些坑呢?究竟有哪些細節被老馮忽略了?
01、規劃階段的坑
最開始,老馮所有精力都放在搶卡上,動用了各種資源,結果發現,搞到GPU也沒那么難。
這一塊有了著落,老馮就對其他方面沒怎么上心了。
網絡?隨便搞搞就行了。
因為傳統數據中心組網,老馮以前也搞過,覺得沒啥大不了的,什么400G、800G,稀松平常。
他不知道,現在這種智算中心,網絡規劃不好,簡直就是天坑。
比如兩種技術路線,RoCE和IB,老馮想當然地覺得IB成熟靠譜,所以RoCE的方案商來交流,他都懶得搭理。
殊不知,這半年RoCE的聲勢已經蓋過了IB,無論是性價比、開放性、端口速率、可維護性,開始占據明顯上風。
就在老馮九牛拉不回,篤定要選IB的時候,集團下調了預算,因為IB比RoCE方案貴了一倍,要求老馮必須改方案。
沒辦法,老馮順坡下驢。
工期緊,就隨便選了一家廠商的網絡方案,推進上線。
這一步,棄IB選RoCE,沒錯!老馮錯在沒做功課,RoCE好不代表所有的RoCE都好。
02、部署上線階段的坑
看著各家參數都差不多,其實,RoCE和IB可不一樣,IB只是明坑多,而RoCE則是暗坑多。
設備一到貨,開始部署上線,RoCE那些暗坑立馬來了。
IB基本上即插即用,但RoCE如果選不好,部署上線和優化性能就太麻煩了,嚴重影響工期。
結果,別家都搞完租了半年了,老馮這里才姍姍來遲。
03、開局運營階段的坑
終于,熬到智算中心開張,也好不容易“忽悠”來了客戶。
老馮以為自家卡算力滿滿,結果租戶體驗極差:不是頻繁出錯,就是訓練卡頓。
租戶們都是明白人,搞大模型訓練就要爭分奪秒,提供推理服務也需要高實時性,否則就沒有客戶體驗。
像老馮這種智算中心,太拉了,于是大家紛紛退租…
至此,這個被集團寄予厚望智算中心項目,算是徹底啞火。
老馮也黯然離職,整個智算團隊解散。
如果給老馮重來一次的機會,他一定不會再這么托大。
對智算中心來說,算力卡很標準,大家都大差不差,最大的變數其實是網絡。
好網絡和差網絡,最終呈現的結果,天差地別。
那么,在智算中心建設中,如何避開網絡的那些明坑和暗坑?
首先,RoCE是未來,不選IB是對的,可以一次性避開明坑(性價比、開放性、可維護性…)。
但是,RoCE產品的選型,是很有門道的,要避免重蹈老馮覆轍。
我們先來看一個典型的智算中心組網拓撲↓
重點看左邊智算業務區的拓撲,其中參數網是個大坑,多軌連線復雜,配置量巨大。
以現在非常主流的萬卡場景為例,服務器約1250臺(8卡服務器),網絡設備約140臺,網絡配置項總量約41萬條,服務器配置項總量3萬+條。
而且,還需要跨部門協調,單就一次配置開局,沒幾個周搞不定,更不用說還要優化、變更。
所以在這一環節,必須要選擇支持算網協同智能化組網的。
比如業界就有某大廠推出了智算中心端到端的網絡自動化部署方案,通過控制器實現算網聯動,參數網/存儲網一鍵部署,萬卡規模智算中心天級開局。
組網過程中,該方案可從多視角展示交換機、算力卡、網卡互聯拓撲,快速定位網絡連接錯誤。
不要小看這個功能,超級實用。
比如,萬卡集群的線纜有幾萬條,沒人能一次把連線搞定:交換機線接錯了,服務器網卡線接錯了,網段劃分錯了,服務器內部GPU網卡拓撲異常…
但如果有了這種算網一體可視化拓撲,分分鐘就能找到接線錯誤點(交換機之間、交換機與服務器間、服務器內GPU與網卡間)。
一鍵查錯,快速修正,節省人力成本90%以上↓
在這樣的平臺下,“端隨網動”,端側服務器的配置可以自動化部署:RoCE配置、路由下發、網卡Bond設置均可以自動完成。
如此,GPU服務器上線一氣呵成不擰巴,大大縮短工期。
有了這套叫做“AD-DC”的神器,智算中心的部署和上線,再也不必擔心工期,按天來計算,麻麻利利,絕不脫泥帶水。(注:端網協同功能需要對應智算交換機支持)
接下來,智算中心開局,進入正式運營期,怎么保證租戶的體驗呢?
前面說過,拼算力卡的話,大家都差不多,你有的我也有,你沒有的我也沒有。
其實,網絡層面,單看硬件、端口規格、芯片能力,大家也差不多。
可為啥實際跑起智算任務就天差地別了呢?
有人頻繁報錯,訓練一天中斷好幾次;有人慢如蝸牛,訓練進度看不到頭;而有人卻能穩得一匹,訓練推理嗖嗖快。
這里面的關鍵差異,是智算網絡全局操控和調度的能力。
首先,對于400G、800G速率的鏈路,看起來帶寬足夠,但訓練任務在做All-Reduce等操作時,數據量極大。
傳統逐流負載均衡的模式,很容易把流量調度到一條鏈路上,導致擁塞。
如果按照設備端口粒度逐流,雖然能避免“多打一”,卻需要針對每個下行口指定一個同速率上行口(LBN)。
一一綁定工作量驚人,手工配置難度很大。
此時,我們再次拿出AD-DC神器,通過控制器自動識別連接服務器的交換機下行端口,批量整網部署LBN,大幅簡化工作量。
而且,AD-DC還提供分析器,監控并分析負載均衡的調度效果。
AD-DC在控制器側可以啟用路徑導航算法,通過仿真得到最佳端側參數,并下發配置到服務器。(注:路徑導航功能需要對應智算交換機支持)
同時,控制器還可以與UCCL(集合通信庫)配合,站在全局視角,為智算任務選擇最優鏈路。
這幾波神操作,既可以有效避免智算網絡的擁塞,又省掉了逐包負載均衡方案的保序網卡,大幅降低整網的造價和復雜度。
當然智算業務對網絡時延也很敏感,此時還可以啟用AI ECN動態調優,實時監控入棧流量模型,智能調整擁塞控制窗口,達到最優傳輸效率。
這就完了嗎?不!
這套AD-DC神器,還提供集群健康巡檢、訓前一鍵壓測、訓中作業監控和故障診斷等一系列智算運營運維能力↓
01、一鍵巡檢
跨域全面巡檢,萬卡集群,常規巡檢30分鐘內完成,深度巡檢小時級完成,提效80%。
02、一鍵壓測
萬卡集群環境下,10K網卡、30K設備接口,一鍵壓測小時級完成,提升效率80%。
03、一鍵診斷
交換機、服務器、網卡、GPU端到端的整網全棧數據采集、AI ECN調優及擁塞分析,保障訓練任務的穩定運行。
舉個大家感同身受的例子:在智算中心里,光模塊是故障高發器件。
故障引起的丟包錯報會讓訓練效率下降50%,而故障引起的閃斷會使訓練任務中斷,續訓影響3-5小時。
可是,一個萬卡集群的光模塊數量超過4萬個,平均每天要處理3例以上的光模塊問題,全手工排查的話,平均每個要花費2-4小時。
而采用AD-DC控制器的一鍵診斷工具,一分鐘內就可以定位問題光模塊。且能提前預測、提前發現,提前介入維護。
所以,如果搞智算中心的,早早選對AD-DC加持的智算網絡方案,那么從前期規劃到部署上線,再到運維運營,都會少走太多彎路。
規劃選型不踩坑,部署上線不墨跡,運維運營不拉跨。
這套“為RoCE網絡正名、讓智算中心雄起”的智算網絡解決方案,正是ICT豪門「新華三」的拿手本領。
左手全系列智算交換機,橫跨100G、200G、400G、800G,覆蓋百卡、千卡、萬卡、十萬卡超大規模組網↓
右手AD-DC智能管控析平臺,貫通部署上線、訓前、訓中、訓后智算網絡的全生命周期運維管理能力。
新華三智算網絡解決方案雙劍合璧,AIGC時代智算基礎設施的最強推手,來啦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.