當以“降本”聞名的馬斯克對外公布由 10 萬個液冷 H100 GPU 組成的超大集群,并宣布未來幾個月內還要再增加 10 萬顆 GPU 時,業界對 AI 基礎設施的衡量標準,一時間變得有些單一——大家更傾向于對比卡的數量,而對集群性能,尤其是特定業務場景下的性能表現,考量不足。
2025 年甫一開年,DeepSeek 就大幅降低了預訓練成本,繼而在 3 月份,螞蟻 Ling 團隊給出了基于國產算力的新成本優化方案,2025 國產的 GenAI 的主題顯然是極為務實的。這種務實的背景是,國內的 AI 應用市場,正處于爆發中,即將到來的是無數挑戰傳統 SaaS 的 AI 原生應用,以及被智能編程武裝起來的“超級團隊”。
這些應用和團隊需要的是,更有針對性的算力基礎設施,更靈活的算力獲取方式,更安全可靠的算力獲取保障,針對訓推一體和多模態數據的全局優化。
算力規模的擴展當然是必需的,也是當下算力開支的主要方向。但在規模問題之外,更緊迫的問題是對基建整體性能的調優。
這事兒聽起來沒有“堆卡”震撼,但難度卻絕不容小覷——這要求頭部云廠商,必須開始著手翻新整個基礎設施。
推理加速和降本,還有很多“文章”可做
實際上,這種翻新也是有明確“偏好”的,其中最顯眼的部分來自 GTC 2025 ,黃仁勛話里話外的意思是:整個 AI 產業正在經歷結構性的轉變——從做基礎模型預訓練,轉向推理業務。曾經在大模型預訓練這條賽道上,搶下行業接近 90% 利潤的英偉達, 如今認為,在 2028 年的智算中心預算支出里,推理芯片需求占比將達 70%。
造成這種轉變的原因主要有兩個:一是可供大模型做預訓練的公開數據有限,行業內公開的、深度的數據合作還很少,導致做預訓練的規模受限;二是行業已經從“百模大戰”的階段,進入“AI 應用落地”階段,對推理的需求大幅增加。據 Omdia 在 2024 年年中預測,全球生成式 AI 軟件收入在 2024 年增長 124%,復合年增長率將達到 53%。
這其中包含了從 ChatBot 形態的簡單推理業務,過渡到覆蓋智能駕駛、具身智能、端側智能等對模型推理表現要求更高的業務場景。
對企業而言,主要是解決四個關鍵問題:
如何讓大模型的冷啟動更快些
如何讓推理的速度更快些
如何支撐推理業務的流量洪峰
如何進一步降低網絡成本和存儲成本
必須要聲明的是,以上四個問題都不是新問題,尤其是推理降本,據李飛飛團隊發布的報告顯示,過去兩年間,推理成本已經降低 280 倍。但科技行業始終追求的是復制成本最低,邊際效應最大化。所以到了 2025 年,AI 應用落地的進程中,以上技術命題仍然是云服務迭代煥新的主流方向。
而從阿里云在 4 月 9 日 AI 基礎設施峰會上的眾多發布來看,情況也是如此。阿里云搞定這事兒的核心思路之一,是 PAI 。
據官網介紹,PAI 是阿里云專為開發者打造的一站式機器學習平臺,主要由可視化建模(Designer)、交互式建模(DSW)、分布式訓練(DLC)、模型在線服務(EAS)等核心功能模塊組成。簡單理解就是,PAI 解決的是 AI 落地問題,AI 開發在基礎設施搭建、工具框架部署、運維合規等方面的復雜工作,幫助企業從 0 到 1 開發、訓練、部署、推理一個模型服務,與 AWS SageMaker、Google Vertex AI 相似。
而 PAI 則是通過全新的模型權重服務來解決大模型冷啟動,以及提升擴容效率、應對流量洪峰的問題;通過分布式推理引擎 Llumnix 以及流量感知的 PD 分離推理服務共同完成推理加速,最后通過提升 KV Cache 的命中率,來進一步降本。
模型權重服務,簡單來說就是圍繞模型權重進行管理、存儲、分發等操作的一系列服務。模型在首次啟動或長時間未使用后重新啟動時,需要加載模型權重并準備好進行推理,也就是模型的“冷啟動”。所謂“全新模型權重服務”,和冷啟動效率的提升關系頗大。
根據本次發布,阿里云官方給出的優化成績是:縮短大參數模型冷啟動時間,0 到 100 節點冷啟動加速 21X;50 到 100 節點擴容加速 12X;降低模型存儲側網絡壓力,減少帶寬成本。
而分布式推理引擎 Llumnix,看起來是對標 NVIDIA 開源的 Dynamo 推理框架。Llumnix 通過跨模型實例的請求運行時重新調度來解決 LLM 推理服務中的負載均衡、資源碎片化、優先級區分等問題,通過高效可擴展的實時遷移技術來遷移請求及其內存狀態。用一句話總結就是, Llumnix 可以直接影響終端感受到的推理速度。
根據大會發布數據,相比 Round-robin 請求調度,Llumnix 可以將 TTFT P99 響應延遲(從發出請求到第一個 Token 返回)降低最高 92%;TPOT P99 (后續每個 Token 的平均返回時間)響應延遲降低最高 15%。
當然,改善 TPOT 數據表現是一個復合型工程,PD 分離的技術實現情況,也必須被納入計算。
大模型推理可以籠統分為 Prefill(預填充)階段和 Decode(解碼)階段,前者處理用戶輸入的 prompt,生成 KV 緩存(Key-Value Cache),屬于計算密集型任務,需要高并行度和顯存帶寬;后者基于 KV 緩存逐 Token 生成輸出,屬于存儲密集型任務,依賴低延遲的顯存訪問和高效的批處理調度。
傳統操作方式是允許兩階段在同一 GPU 集群運行,但資源爭搶會導致吞吐下降和長尾延遲增加。例如,prefill 階段占用大量算力時,decode 階段的實時生成能力會被擠壓。
所謂 PD 分離,就是對 Prefill(預填充)階段和 Decode(解碼)階段進行隔離,分別進行資源調度。但僅實現預填充與解碼階段的物理資源隔離也不夠好,這缺乏動態調整能力,容易導致預填充集群空閑時解碼任務無法搶占資源。
所以阿里云本次發布的是 PAI-EAS 多機 PD 分離部署架構,其核心在于通過分層調度與動態資源協同實現更高效的算力利用和延遲控制,給出的答卷是端到端服務吞吐提升 91%。
這里涉及到兩個關鍵組件:LLM Gateway,LLM Scheduler。前者作為全局流量入口,負責請求的協議轉換(REST/GRPC)和負載均衡。后者專為多模態大模型設計的協議適配層,支持文 / 圖 / 視頻輸入的混合解析,并通過請求分片技術將長文本拆解為多段并行預填充(Prefill),解決單機顯存不足的問題。
預填充任務在多機 GPU 上并行生成 KV Cache,并通過 RDMA 網絡同步至解碼集群,并在解碼階段通過動態批處理(Dynamic Batching)聚合多個請求,共享 KV Cache。
而所謂流量感知,是指系統能夠實時監測和分析網絡流量或請求流量的情況,讓智能路由更智能一些。
這里出現的 KV Cache,也是個熱門概念。實際上,KV Cache 是 Transformer 架構的核心組件,已成為突破大模型推理性能瓶頸、優化服務經濟性的關鍵基礎設施。
原本 KV Cache 的顯存占用會隨上下文長度線性增長,但 Transformer 架構本來就包含自回歸生成時的重復計算,因此留有很大的優化空間。
阿里云這次發布對 KV Cache 做了進一步升級,提升了請求調度效率,使千萬級活躍用戶場景下, KV Cache 命中率提升 10X。
然而,對于云計算而言,脫離計算、網絡、存儲這“三大件”去談推理加速屬于“空中樓閣”,而阿里云強化 AI 基礎設施的核心落腳點是靈駿集群。
對基礎設施的要求,也變了
靈駿集群的主要關注點,仍然是“三大件”,但在側重場景上,卻出現了很大的變化,其中最主要的變量,仍然是從預訓練轉向推理場景后,構建在 IaaS 層之上的業務場景變化很大。
與預訓練業務更偏好高算力 GPU 相比,推理業務更偏好高顯存帶寬 GPU,存儲也需分級緩存,結合對象存儲(如 OSS)實現冷熱分層。同時也需要算力本身有一定自愈能力,避免對業務造成影響。
在網絡層面,預訓練業務的需求可以總結為:對吞吐量的要求高,尤其是張量并行通信帶寬,但對延遲不敏感,可以接受分鐘級的延遲。而推理業務對延遲非常敏感,很多場景都是實時交互,比如自動駕駛決策,且需要應對突發性高并發要求。
至于存儲,推理業務更看重對數據訪問模式的優化,以及內存顯存直連優化,對能效比也更為敏感。
阿里云靈駿集群是支持超大規模 AI 訓練與推理的智算基礎設施,可提供超大規模、超強性能的智能算力,靈駿集群通過 HPN7.0 高性能網絡架構可實現單集群 10 萬張 GPU 卡互聯,萬卡規模下性能線性度可以達到 96%。
在服務器層面,阿里云采用磐久 AI 計算服務器,單臺服務器支持 8-16 張 GPU 卡,配備 3.2Tb/s RDMA 網絡與 400Gb/s 存儲訪問網卡,滿足大規模緊耦合計算需求。GPU 實例通過硬件級優化(如顯存帶寬提升、計算指令集加速)實現 MFU(Model FLOPs Utilization)提升 20% 以上。
在 4 月 9 日的 AI 基礎設施大會上,能看到靈駿集群的各項數據又有更新,主要是圍繞 AI 負載進行優化,包括整合計算(GPU 集群、磐久服務器)、網絡(HPN)、存儲(CPFS)硬件,搭配統一資源池、全局調度等軟件模塊,以形成高可靠、高性能的云超級計算機。
具體包括:
●EBS:靈駿支持塊存儲,快速集群擴縮容
●CPFS:單客戶端吞吐提升至 40GB/s
●VPC:VPC 帶寬能力全面升級,提升至 200Gbps
●HPN 優化:支持 IPV6,全面支持多路徑能力,優化專家并行的網絡通信性能(性能提升 25%)
●優化故障自愈系統:通過 PAI AI Master、AI Task、AI Cluster 與靈駿故障自愈系統、運維監控系統聯動,提升系統穩定性與算力利用率。
涵蓋了網絡、存儲和系統穩定性問題,可見阿里云圍繞算力有效利用率做了較多工作。
在網絡能力的優化方面,靈駿采用多路徑并行傳輸與 IPV6 通信域擴展,顯著提升了跨 Segment 的任務處理效率。這顯然與今年 AI 應用出海的大趨勢是相互呼應的。
在存儲方面, CPFS 迎來了升級。
在架構層面,CPFS 采用高性能并行架構,升級了全鏈路 RDMA 技術、容量性能水平擴展、CIPU 硬件加速隔離、全分布式元數據管理、彈性多租 Serverless 化。而且 CPFS 在 端側緩存和分層存儲有許多優化成績,包括:彈性文件客戶端 EFC 支持分布式緩存(借助 GPU 內存 / 本地盤加速)、支持 KVCache 存儲、與 OSS 數據流動(Tb 級帶寬)、分層存儲。
同時,阿里云 CPFS 文件存儲系統經全鏈路優化,單客戶端吞吐性達到 40GB/s,單計算節點緩存吞吐 15GB/s,配合目錄級權限控制,在保障模型訓練速度的同時實現企業級數據隔離,為大規模 AI 訓練提供了高效的存儲支持。
阿里云的 CPFS、KV Cache 已經形成了架構上的協同效應——CPFS 以 TB 級吞吐量將模型參數加載至 KV Cache,KV Cache 提供實時 K/V 向量,減少 GPU 顯存占用,最后將推理結果異步落盤至 CPFS,支持冷熱分層。
除此之外,OSS 對象存儲服務的優化也同樣值得關注。
阿里云 OSSFS 2.0 在單線程讀取 100GB 文件場景中實現吞吐性能提升 7.65 倍,Qwen-2.5-72B 超大規模模型的數據拉取速度提升 7.73 倍,意味著存儲層與 AI 算力的協同優化進入了一個新階段。
同時,資源池 QoS 新增的 BucketGroup 流控能力,實現多 Bucket 業務分組池化管理,將存儲資源管理粒度從單點擴展至業務單元。
這也契合企業混合云架構下存儲資源集約化運營的趨勢,尤其適用于需要跨地域協同的全球化 AI 訓練場景。
從地區覆蓋來看,新加坡成為繼北京、上海等核心節點后第五個具備 100Gbps 缺省讀吞吐能力的地域。隨著東南亞成為 AI 芯片供應鏈關鍵節點,該地域的存儲帶寬升級可直接支撐 10 萬卡級 GPU 集群的并發數據訪問需求。結合 OSS 加速器產品吞吐密度提升 50%、最大性能達 100GBps 的能力,阿里云正在構建覆蓋訓練、推理、邊緣計算的全球數據高速公路,為多模態大模型、自動駕駛等場景提供跨地域數據協同的基礎支撐。
阿里云 OSS 的升級某種程度上揭示了云存儲的進化方向:從被動承接數據存儲轉向主動參與計算優化。OSSFS 2.0 的突破驗證了"存儲即服務"向"存儲即算力"的范式轉換,而 BucketGroup 流控則是進一步加強精細化運營的思想體現。
整體來看,靈駿智算集群和人工智能平臺 PAI,已經成為阿里云支撐 AI 推理需求和 AI 應用落地的樞紐,阿里云甚至還在結合自己對客戶業務的理解,繼續將這種優勢外擴,使之也蔓延到了算力高可用、網絡安全等其他領域。
AI 應用大熱,算力高可用成了必選項
要服務好 AI 應用落地這一宏觀趨勢,在性能層面滿足業務要求,通常是 ToB 業務的準入門檻,能在多大程度上做好高可用以及安全合規服務,對最終業務落地也有較大影響。
由于跟客戶走得足夠近,云計算企業的嗅覺都很敏銳,因此對算力高可用的關注也比較及時。
在萬億參數模型訓練成為行業標配的今天,對服務可用性的要求已從 99.9% 的常規標準,進化為毫秒級響應 + 零故障容忍”的雙重閾值。從云服務層面,避免單節點故障造成的推理中斷,已經是個必選項,不然成本會高到客戶無法忍受。
而這種算力高可用的強需求,主要體現在算力高可用、實時數據同步、動態擴展性等多個方面。
具體來說,MoE 模型的分布式架構需要云計算平臺具備跨地域冗余存儲和智能流量調度能力,確保單點故障時專家模塊的無縫切換,同時需要支持彈性資源分配以應對突發負載,并通過細粒度快照技術實現模型狀態與訓練數據的實時備份;此外,云計算平臺還需要高效的故障檢測與自動化恢復機制,并結合增量備份策略,最小化災難場景下的服務中斷時間和數據丟失風險,從而保障大規模 AI 服務連續性。
另一項關乎業務連續性的重要課題是網絡安全,在 GenAI 時代,發動一場網絡攻擊的成本足夠低,但危害足夠大,共同導致網絡安全事件的頻發。
這, 就涉及到一個公有云必須解決的關鍵任務:云產品必須最大限度地集成安全能力,也是阿里云的一項長期工作。
從靈駿智算集群到推理加速,再到算力高可用和云安全,作為國內云計算市場的領頭羊,阿里云在本次 AI 基礎設施大會上的發布,覆蓋的技術領域相當廣。在整體的技術和產品進展上,仍處于進攻態勢。
業內構建并維護萬卡集群的共識是,要求其像“一張卡”一樣對外提供服務。但在今天看起來,這是個很粗暴,也很“浪漫主義”的說法。
關于整個集群性能表現、服務能力乃至計費模式,在 GenAI 時代都在出現相應的變化,預計未來半年到一年,圍繞這一技術要求,對基礎設施的更新速度與優化能力,將成為國內云廠商競相角逐的關鍵戰場。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.