一年一度,全球互聯網再次進入“烏鎮時間”。2023年世界互聯網大會迎來烏鎮峰會第十年,十年斗轉星移,互聯網不斷加速信息技術革命,話題延伸至各個行業和產業領域的前沿熱詞,而當下最引人矚目的當屬人工智能。
數字化、智能化是互聯網演變的重要方向,走近烏鎮峰會、“互聯網之光”博覽會,人工智能的身影隨處可見,全球互聯網大賽人工智能專題賽緊張而激烈、人工智能主題展區熱鬧非凡、人工智能賦能產業發展論壇討論引人入勝。雖稱之為互聯網大會,但升格為常設國際組織的烏鎮峰會已成為展現創新技術、把脈前沿業態、共商共建共享的世界交流平臺。
全球范圍內,人工智能創新空前活躍,AI自然成為2023年世界互聯網大會烏鎮峰會的重要議題和倍受關注的產業領域話題。其中,華為星河AI網絡解決方案以及業界首個高運力AI智算交換機CloudEngine XH16800亮相這一盛會,更是受到各方關注。
大模型需要大算力,大算力離不開大運力
從感知理解到內容生成、從單模態走向多模態、從專用走向通用……人工智能的發展正以超乎想象的速度跨越拐點,AI引領全面變革,一系列創新技術、應用倍受市場追捧。各類大模型無疑成為炙手可熱的焦點,如基于多模態大模型的AI個人助理將極大地便利人們的工作和生活,并且快速向行業滲透,如氣象預報、醫療健康、研發制造等領域,AI融入千行萬業、賦能產業升級有著巨大的潛力。
這背后,大模型參數量的不斷攀升,引發質變,使得AI在解決通用問題上表現出非常優異的性能和泛化能力。舉例來說,據業界估算,GPT-4參數規模達到1.8萬億,是GPT-3的1750億參數量的10倍以上,這讓其能夠更好地理解物理世界,處理更復雜的任務,能力、功能更強大。
當然,大參數量的背后又帶來算力需求的指數級增長,根據業界論文的理論推算,同等條件下參數變多,計算量變大,能達到可接受的訓練時長,需要百億參數百卡規模、千億參數千卡規模、萬億參數萬卡規模。據透露,GPT-4可能在大約10000-25000張A100 GPU卡上進行了訓練。
所以,大參數模型意味著大算力消耗和巨大的成本支出,充分發揮算力效能猶如高速路網承載高密度車輛,需要強大的網絡運力支撐,大運力與大算力是解鎖大模型技術創新的雙重力量。
AI演進中的傳統網絡面臨三重挑戰
隨著AI模型參數從千億增長到萬億、乃至十萬億級,傳統網絡基礎設施越來越難以匹配大模型訓練需求,而面臨著巨大的挑戰:
首先,在容量帶寬方面,大模型的參數量巨大需要傳輸大量的數據,逐漸形成“參數面大網”,這時每個節點的接入帶寬高達400G甚至達到800G,AI大模型并行計算模式需要以超大容量的網絡為基礎,傳統網絡無法滿足高帶寬需求。
其次,在通信耗時方面,AI計算集群規模越大,通信量和復雜度越大,網絡作為通信的咽喉要道,通信的端到端耗時占比急劇上升,而無法充分發揮處理器性能,傳統網絡面臨越來越明顯的傳輸效率瓶頸,導致整體計算集群效能低下、成本高昂。
第三,在可靠性方面,AI大模型訓練周期長,訓練過程中極易出現可靠性問題,導致網絡頻繁中斷,降低訓練效率,亟需通過提升網絡健壯性,確保訓練高效可靠地進行。
可見,隨著AI大模型參數量的不斷增長,需要更高的算力和更強的數據傳輸能力,傳統網絡面臨著帶寬壓力、通信耗時、可靠性問題等一系列挑戰。為了應對這些挑戰,亟待對網絡基礎設施進行升級,以滿足大模型訓練的需求,推動人工智能創新。
運得多、運得快、運得穩,星河AI網絡打造AI時代最強運力
面向AI時代的網絡基礎設施如何演進?華為星河AI網絡為人工智能帶來了更多驚喜和突破。自華為全聯接大會2023發布以來,星河AI網絡備受業界關注,其擁有10萬卡級組網和超95%負載率的超高吞吐,具備網絡故障預測和秒級定界修復的長穩可靠,大小流精細化編排和彈性抗劣化沖擊的彈性高并發等一系列優勢能力,正因如此,華為星河AI網絡及AI智算交換機CloudEngine XH16800亮相2023年世界互聯網大會烏鎮峰會,再次備受矚目。
憑借獨創的網絡級負載均衡(NSLB)、網絡智能調優(AI ECN)以及數據面故障快速收斂(DPFR)等創新技術,星河AI網絡打造了AI時代最強運力,方案具備三大特性:
運得多:華為星河AI網絡實現了端口高吞吐和網絡高吞吐,支持萬卡集群訓練,AI智算交換機CloudEngine XH16800支持576*400GE接口,AI組網規模是業界的4倍,從而能夠為AI訓練構建一張運得多、足夠寬闊的“高速路網”。
運得快:華為面向AI訓練場景量身打造了AI加速器NSLB算法,通過繪制全局的流量矩陣,計算出最佳的流量分布,然后自動進行導流,從而達到全網吞吐最優,加之自動化開局和全棧可視運維技術實現算網實時協同調度,將網絡有效吞吐從業界的50%提升到98%,大模型訓練效率提升20%,進而做到讓這張路網不僅寬闊且不堵車,數據傳輸效率更高、速度更快。
運得穩:AI網絡由于組網規模較大,設備、鏈路故障頻率較高,所以對網絡進行實時監控、感知、故障收斂尤為關鍵。在訓前,星河AI網絡通過進行AI網絡關鍵指標實時監控,保障網絡100%健康;訓中,華為采用獨家網絡數字地圖一體化運維,高精度采集數據,一鍵診斷通信異常,實現訓中排障效率提升90%;此外,結合Packet Event數據面異常感知技術和DPFR故障無感自愈技術等,星河AI網絡能夠實現亞毫秒級故障快速收斂,故障應用無感知,即在鏈路故障發生時業務性能無明顯下降,最終實現月級訓練不中斷。
至此,華為星河AI網絡面向AI大模型訓練場景,融合運得多、運得快、運得穩三大優勢,能夠為用戶打造一張大規模、高吞吐、高可靠的強大網絡。根據國際權威評測機構Tolly測評顯示,華為星河AI網絡下的AI模型訓練性能達到業界領先。
星河AI網絡鋪就AI生產力變革基石
AI大模型需要大算力,算力的有效釋放,離不開運力的支撐,大運力與大算力協同,是發揮AI計算集群最大效能、推動AI大模型創新發展的關鍵力量。反過來說,如果沒有強大的網絡形成大運力支撐,AI大模型的訓練周期、計算集群成本都將面臨嚴峻的考驗,網絡的演進是AI發展的必然。
面向未來,人工智能正開啟一個波瀾壯闊的時代進程,它的魅力將在融入千行萬業中盡顯。賦AI時代新動能,華為星河AI網絡解決方案以及高運力AI智算交換機CloudEngine XH16800提供了一個超強網絡底座,打造AI時代最強運力,為這場AI生產力變革鋪就了堅實基石。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.