通信世界網消息(CWW)今年初,低成本、高性的能DeepSeek掀起了大模型狂潮,其在預訓練中采用FP8與FP32 混合精度技術也成為一項重大技術創新,前者可以大幅減少算力消耗,提高計算速度;后者則針對數據精度關鍵環節保證了模型的準確性。兩者相結合,在不影響模型性能的前提下,實現了算力資源的高效利用。
類似的思路也被用于智算中心建設,不再像去年行業卷“萬卡集群”那樣,智算中心從建到用更為注重性價比,低精度計算應勢而起,正推動智算中心從“大力出奇跡”轉向“四兩撥千斤”的進化路徑。
所謂低精度計算是指采用FP8(8位浮點數)、FP6(6位浮點數)甚至FP4(4位浮點數)等低比特數值格式進行運算的技術體系。相較于傳統FP32(32位浮點數)計算,其數據存儲空間更小、計算能耗更低,不僅能夠破解大模型訓練和推理的算力難題,也有助于化解智算中心的能效比困境。
就行業發展來看,智算需求爆發直接促使低精度計算的崛起。近年來,大模型和生成式人工智能推高算力需求,全球智能算力需求呈指數級增長?!?025年中國人工智能計算力發展評估報告》指出,未來兩年,中國智能算力規模將保持高速增長。2023年至2028年期間,中國智能算力規模的五年年復合增長率預計達46.2%。然而,傳統通用算力中心難以滿足AI模型訓練的高密度、低時延需求,智算中心作為專用基礎設施的重要性得以凸顯。
在低精度計算的作用下,智算中心架構層的芯片技術變革最為明顯。在GTC 2025年大會上,英偉達發布的BlackwellUltra/Rubin系列芯片展現了算力精度下移的趨勢。例如Blackwell Ultra在FP4精度下的算力達到15PetaFLOPS,在特定推理場景中效率提升高達40倍。作為同類競品的AMD MI350X芯片則創新性引入動態精度切換技術。通過支持FP4和FP6,推理性能較前代提35倍,FP8算力突破4.6 PetaFLOPS。不僅如此,當前Meta、微軟、AWS等巨頭早已將低精度GPU列為采購核心指標。
低精度計算應用于智算中心說到底還是為了突破算力瓶頸,解決算力應用難題,其雖然并非最優解,但已經成為一塊“關鍵拼圖”。面向未來智算中心的發展,業界當前探索出了兩條關鍵路徑。
一是異構計算架構,不同于傳統方案強調雙精度浮動運算性能的超級計算,異構智算更多使用半精度浮動運算、整數運算,甚至更低精度的浮點運算,動態適配不同精度需求。在傳統算力的局限與旺盛的市場需求共同作用下,通用算力、智算算力、超算算力、邊緣算力等不同類型算力中心的融合發展將成為大勢所趨。
二是“超智融合”,作為異構智算的一種表現形式,“超智融合”即整合超算的高性能并行計算能力與智算的低功耗優化優勢,通過軟硬件協同提升算力效率。業內專家認為,隨著AI應用場景越來越復雜,通過單一芯片平臺提供全精度和混合精度計算,已成為“超智融合”發展背景下的算力基礎設施發展趨勢。
技術路徑找準之余,要想讓智算中心“輕裝上陣”,生態建設又是另一核心命題。與低精度計算相適配,國內仍需構建自主可控的開源框架,解決編程接口不統一、算子庫適配難等問題。因此,智算中心的未來不是一道高精度或低精度的選擇題,而是一道如何“恰到好處”協調適配各個環節的思考題。
可以預見,智算中心走向應用的“下半場”,一定不再是單純追求數值的堆砌,而是如何在有限資源里找到最優解。
面向未來,筆者認為智算中心有三大趨勢值得關注。一是全精度覆蓋,兼顧低精度推理與高精度訓練,滿足差異化需求;二是超智算一體化,通過全國一體化算力網實現跨區域資源共享;三是AI原生設計,將AI技術深度融入基礎設施建設與管理,實現自動化運維與動態優化。
*本篇刊載于《通信世界》2025年4月10日*
第4期 總965期
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.