機器之心發布
機器之心編輯部
當前 AI 領域呈現「端云并發」的發展態勢,端側與云側大模型各展所長,共同推動著智能發展與應用落地的邊界。端側模型實現本地毫秒級實時響應,云側模型依托強大算力支持復雜大規模推理,而兩者都離不開高效的推理系統支撐。
在 GTC 2025 上,NVIDIA CEO 黃仁勛強調,大模型計算正從預訓練轉向推理優化階段。隨著產業落地加速,推理計算需求正呈現爆發式增長,如何在性能、成本和響應速度間取得平衡成為關鍵工程挑戰,推理系統正是解決這一問題的核心
近日,無問芯穹發起了一次推理系統開源節,連續開源了三個推理工作,包括加速端側推理速度的 SpecEE、計算分離存儲融合的 PD 半分離調度新機制 Semi-PD、低計算侵入同時通信正交的計算通信重疊新方法 FlashOverlap,為高效的推理系統設計提供多層次助力。下面讓我們一起來對這三個工作展開一一解讀:
Day 1|SpecEE:基于推測的 Early Exiting 機制,讓 AI PC 推理速度起飛
- 官方知乎:https://zhuanlan.zhihu.com/p/1899766212109510455
- 開源倉庫:https://github.com/infinigence/SpecEE
- 論文地址:https://arxiv.org/abs/2504.08850
隨著 DeepSeek 等開源模型表現出越來越強悍的性能,在 PC 端本地部署大模型的需求持續增長。盡管許多情況下使用云端模型更加便利,但本地部署仍在數據隱私、網絡限制或者成本限制的條件下具有不可替代的優勢。
然而,端側設備往往受限于算力、電量和存儲,且 CPU、GPU、NPU 三類異構處理器的算力、架構差異顯著,產生許多不必要調度和通信開銷。將模型安裝到 PC 端本地環境后,推理速度太慢,能達到使用標準的場景也就比較有限了。
無問芯穹第一天開源的 SpecEE 推理引擎框架,就是為了解決端側計算、存儲與異構處理器協同挑戰而生。相關工作被收錄于 ISCA 2025(International Symposium on Computer Architecture,計算機體系結構領域的頂級會議),論文已在 arXiv 公開。
相比云場景,端側設備的場景特征是「單用戶、少請求」,而單用戶下大模型推理是底庫很大的搜索分類問題。
不同于傳統的 Early Exiting 技術,SpecEE 從搜索空間的角度探索 Early Exiting 的優化策略,并提出基于推測模型對 Early Exiting 搜索空間進行縮減,推動精度與速度的帕累托前沿。在 AI PC 場景下,可以獲得超過 2 倍的性能提升。
由于其角度的獨特性,SpecEE 的算法可以無感兼容任何輕量化優化技術。為了將核心思想進一步推進應用在 Early Exiting 預測器上,研究團隊針對預測器開展了三層面的優化:在算法層面通過輕量化預測器設計實現低開銷高精度預測;在系統層面通過自適應調度引擎實現預測器彈性激活;在映射層面,則通過重構推測解碼 Early Exiting 機制實現線性復雜度映射。
無問芯穹展示了 SpecEE 在聯想拯救者 Y7000(搭載 NVIDIA RTX 4060 Laptop GPU 與 Intel Core I7-13650HX)上的實測推理速度比較,運行 ReLU-llama-7B 最高可實現 14.83 token/s 的推理速度,相比 PowerInfer 12.41 token/s 的速度,實現了近 20% 的提升。相比于常用端側部署框架 llama.cpp,SpecEE 則能夠在 AI PC 上實現高達 2.43 倍的加速。
視頻鏈接:
https://mp.weixin.qq.com/s/vecJX1J8sFoRK8ZudFfzaA
值得一提的是,SpecEE 由于其動態性,也適合在單用戶云端場景下的推理,并且由于其方法的正交性可以與現有的一些優化方法進行集成,可無感兼容任何端側加速方案,進一步推動了端側模型推理精度和速度的帕累托前沿。
Day 2|Semi-PD:第三代 PD 半分離架構,推理系統的全新選擇
- 官方知乎:https://zhuanlan.zhihu.com/p/1900135208373716494
- 開源倉庫:https://github.com/infinigence/Semi-PD
- 技術報告:https://github.com/infinigence/Semi-PD/blob/main/docs/_static/paper/arxiv_semi_PD.pdf
第一代 P/D 融合架構采用資源統一分配的策略,Prefill(預填充)和 Decode(解碼)階段共享計算和存儲資源,整個推理流程在同一個實例上完成。第二代 P/D 分離架構將 Prefill 和 Decode 階段的計算與存儲資源解耦,請求在 Prefill 實例上完成 Prefill 階段計算后,傳輸 KV cache 至 Decode 實例進行后續計算,解耦了 TTFT 和 TPOT 的優化目標,消除了 P/D 之間的干擾,被月之暗面、DeepSeek 等公司紛紛采用,NVIDIA 也將其作為下一代 LLM 服務系統的核心技術方向。無問芯穹第二個開源項Semi-PD——第三代 PD 半分離架構,在消除 P/D 干擾的同時,保留了融合式的存儲效率,實現在給定資源和 SLO 的前提下,最大化「Goodput」(有效吞吐量)
Semi-PD 混合架構采用了「計算分離、存儲融合」的設計理念。不同于傳統方案將 Prefill 和 Decode 任務分別放在不同實例上,Semi-PD 讓 Prefill 進程和 Decode 進程共享同一個實例,各自占用部分計算資源(可以想象為「半張卡」)。同時,兩個進程通過 IPC 機制,模型權重和 KV cache 只需存儲一份,同時能夠「看到」所有的存儲資源。
這種設計可以靈活調整 P 和 D 的資源占比,從而更細粒度地調優首次 token 延遲(TTFT)和每個輸出 token 的時間(TPOT)。考慮到實際服務中 Prefill 和 Decode 的負載往往動態變化的,固定資源分配會導致資源利用率低,為此,研發團隊創新性地引入了服務級別目標(SLO)感知的動態資源調整機制。該機制通過實時監控系統負載,動態調整 Prefill 和 Decode 的資源配比(x, y),以更好地滿足延遲約束和系統吞吐的雙重目標。在滿足 SLO 要求的同時,最大化有效吞吐量的性能突破
打個比方,如果說 PD 分離架構讓備菜師傅專注處理食材(Prefill),炒菜師傅只管烹飪(Decode),那么 Semi-PD 混合架構則像配備了智能變形功能的現代化廚房,通過可移動的智能隔斷,廚房空間可以動態劃分:早上備菜多就多給備菜區,午市炒菜忙就多給烹飪區。最巧妙的是,兩個區域共享同一套智能廚具系統(統一存儲),既避免了重復購置設備,又能通過資源動態分配實現效率最大化。
相比于開源的 SOTA 實現,Semi-PD 的 Goodput 提升了 1.55-1.72 倍,單請求平均端到端時延提升 1.27-2.58 倍。
llama 系列模型結果:
其中 vllm-S 對應 splitfuse schedule,vllm-D 對應 default schedule 即 Prefill 優先
Deepseek 系列模型結果:
Day 3|FlashOverlap:計算零干擾,基于信號的通信重疊
- 官方知乎:https://zhuanlan.zhihu.com/p/1900488778407211472
- 開源倉庫:https://github.com/infinigence/FlashOverlap
- 論文地址:https://arxiv.org/abs/2504.19519
第三天,無問芯穹放出了一個非常有意思的工作「FlashOverlap」,這是一個基于控制信號的計算通信重疊新思路。主要出發點在于提供一種低侵入矩陣乘法、無侵入通信的方式完成細粒度計算通信重疊,可以無縫適配矩陣乘法和各種常見的通信原語,包括但不限于 AllReduce、ReduceScatter、All2All 等。對于通信瓶頸顯著的低端消費卡來講優化效果尤為明顯,可以達到高達 1.65 倍的性能提升。
研究團隊首先指出,一個低開發成本高性能收益的計算和通信重疊方案,需要至少滿足以下三個方面:
- 支持 Tile 粒度的重合和調度,以最大化重疊效果;
- 重疊方案要盡可能少的侵入計算部分,以最小化對計算部分的傷害;
- 重疊方案要盡可能對不同的通信原語和基于拓撲的優化技術正交,以最小化對通信部分的傷害,以及最小化不同通信原語的適配成本。
為此,我們提出一種基于信號的計算通信重疊技術,可以完美契合上面提到的三個準則。
就好比參加接力跑比賽需要訓練一套團隊戰術——交接棒時要往前多送一段,最大化重疊效果;接棒時要站在整體最短路徑上,最小化對競速部分的傷害;交接時統一右手交右手接,最小化對大部分運動員左右手習慣的適配成本。FlashOverlap 就像是一套最先進的接力賽戰術,能夠讓整體團隊都省力的同時,跑出最快的速度。
如何能減少對計算的侵入性,同時又能和通信都正交是實現基于信號控制做通信的難點。FlashOverlap 的核心 idea 是,讓計算 Kernel 能夠在完成一部分計算結果之后自動發出一個就緒的信號,然后接收到該信號之后再發起一次針對就緒部分數據的 NCCL 的通信。最終基于信號的計算通信重疊架構如下圖:
FlashOverlap 的實驗結果分為兩部分:第一部分是針對矩陣乘法和 AllReduce、ReduceScatter 和 All2All 三個通信算子,在 A800 和 4090 的優化效果;第二部分以 AllReduce 為例,分析 M、N、K 變化時優化效果的變化。
整體上看,FlashOverlap 可以獲得 1.07-1.31 倍性能提升,而且大多數情況下都優于其他 SOTA 工作。具體如下圖所示,研究團隊測試了小面表格中大量的矩陣乘法形狀,柱狀圖代表表格中所有矩陣乘法形狀下的平均性能,線狀圖分別代表性能最差情況和最優情況。
為了更進一步展開,研究團隊在 4090 上針對 TP=2 下做 ReduceScatter,在 A800 上針對 TP=4 下做 AllReduce,這兩種場景不同矩陣乘法形狀 MKN 的性能結果。
研究團隊表示,開源這一方案,希望能幫助到各個生成式大模型訓練和推理場景,降低大規模計算帶來的通信開銷。
軟硬協同驅動高效推理系統發展
無問芯穹 2023 年就曾推出過一個驚艷業界的推理加速方法 FlashDecoding++(機器之心曾獨家報道:GPU 推理提速 4 倍,256K 上下文全球最長:無問芯穹刷新大模型優化記錄),通過異步方法實現注意力計算的真正并行,并針對「矮胖」矩陣乘優化加速 Decode 階段的計算,將國際主流 GPU 推理速度提升了 2-4 倍。隨后將這套軟硬件協同設計能力逐個應用在國產計算卡上,取得了十余種計算卡的最佳優化效果,搭建了 GPU 云「異構云」,支持在多種國產芯片上完成大模型推理任務。
近日,無問芯穹聯合創始人、CEO 夏立雪在出席活動時表示:「此次開源無問芯穹新一代大模型端、云推理系統相關工作,是希望以開源方案為橋梁,助力大模型產業落地在保障質量的基礎上實現效率躍升與成本優化,加速技術普惠與產業升級進程。」
推理系統是技術協同的中樞,也是產業價值的放大器。在縱向維度上,推理系統向上連接著 AI 模型、工具和各類應用場景,向下對接硬件資源,能充分發揮不同硬件優勢;在橫向維度上,高效推理系統的應用,將全面激活大模型在端側的應用潛能以及在云側的生產力效能,推動 AI 技術的價值向更多行業和人群輻射滲透。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.