網易首頁 > 網易號 > 正文申請入駐

無問芯穹開源大模型推理加速神器，加碼構建新一代端、云推理系統

2025-04-29 19:08:54　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

機器之心編輯部

當前 AI 領域呈現「端云并發」的發展態勢，端側與云側大模型各展所長，共同推動著智能發展與應用落地的邊界。端側模型實現本地毫秒級實時響應，云側模型依托強大算力支持復雜大規模推理，而兩者都離不開高效的推理系統支撐。

在 GTC 2025 上，NVIDIA CEO 黃仁勛強調，大模型計算正從預訓練轉向推理優化階段。隨著產業落地加速，推理計算需求正呈現爆發式增長，如何在性能、成本和響應速度間取得平衡成為關鍵工程挑戰，推理系統正是解決這一問題的核心

近日，無問芯穹發起了一次推理系統開源節，連續開源了三個推理工作，包括加速端側推理速度的 SpecEE、計算分離存儲融合的 PD 半分離調度新機制 Semi-PD、低計算侵入同時通信正交的計算通信重疊新方法 FlashOverlap，為高效的推理系統設計提供多層次助力。下面讓我們一起來對這三個工作展開一一解讀：

Day 1｜SpecEE：基于推測的 Early Exiting 機制，讓 AI PC 推理速度起飛

官方知乎：https://zhuanlan.zhihu.com/p/1899766212109510455
開源倉庫：https://github.com/infinigence/SpecEE
論文地址：https://arxiv.org/abs/2504.08850

隨著 DeepSeek 等開源模型表現出越來越強悍的性能，在 PC 端本地部署大模型的需求持續增長。盡管許多情況下使用云端模型更加便利，但本地部署仍在數據隱私、網絡限制或者成本限制的條件下具有不可替代的優勢。

然而，端側設備往往受限于算力、電量和存儲，且 CPU、GPU、NPU 三類異構處理器的算力、架構差異顯著，產生許多不必要調度和通信開銷。將模型安裝到 PC 端本地環境后，推理速度太慢，能達到使用標準的場景也就比較有限了。

無問芯穹第一天開源的 SpecEE 推理引擎框架，就是為了解決端側計算、存儲與異構處理器協同挑戰而生。相關工作被收錄于 ISCA 2025（International Symposium on Computer Architecture，計算機體系結構領域的頂級會議），論文已在 arXiv 公開。

相比云場景，端側設備的場景特征是「單用戶、少請求」，而單用戶下大模型推理是底庫很大的搜索分類問題。

不同于傳統的 Early Exiting 技術，SpecEE 從搜索空間的角度探索 Early Exiting 的優化策略，并提出基于推測模型對 Early Exiting 搜索空間進行縮減，推動精度與速度的帕累托前沿。在 AI PC 場景下，可以獲得超過 2 倍的性能提升。

由于其角度的獨特性，SpecEE 的算法可以無感兼容任何輕量化優化技術。為了將核心思想進一步推進應用在 Early Exiting 預測器上，研究團隊針對預測器開展了三層面的優化：在算法層面通過輕量化預測器設計實現低開銷高精度預測；在系統層面通過自適應調度引擎實現預測器彈性激活；在映射層面，則通過重構推測解碼 Early Exiting 機制實現線性復雜度映射。

無問芯穹展示了 SpecEE 在聯想拯救者 Y7000（搭載 NVIDIA RTX 4060 Laptop GPU 與 Intel Core I7-13650HX）上的實測推理速度比較，運行 ReLU-llama-7B 最高可實現 14.83 token/s 的推理速度，相比 PowerInfer 12.41 token/s 的速度，實現了近 20% 的提升。相比于常用端側部署框架 llama.cpp，SpecEE 則能夠在 AI PC 上實現高達 2.43 倍的加速。

視頻鏈接：

https://mp.weixin.qq.com/s/vecJX1J8sFoRK8ZudFfzaA

值得一提的是，SpecEE 由于其動態性，也適合在單用戶云端場景下的推理，并且由于其方法的正交性可以與現有的一些優化方法進行集成，可無感兼容任何端側加速方案，進一步推動了端側模型推理精度和速度的帕累托前沿。

Day 2｜Semi-PD：第三代 PD 半分離架構，推理系統的全新選擇

官方知乎：https://zhuanlan.zhihu.com/p/1900135208373716494
開源倉庫：https://github.com/infinigence/Semi-PD
技術報告：https://github.com/infinigence/Semi-PD/blob/main/docs/_static/paper/arxiv_semi_PD.pdf

第一代 P/D 融合架構采用資源統一分配的策略，Prefill（預填充）和 Decode（解碼）階段共享計算和存儲資源，整個推理流程在同一個實例上完成。第二代 P/D 分離架構將 Prefill 和 Decode 階段的計算與存儲資源解耦，請求在 Prefill 實例上完成 Prefill 階段計算后，傳輸 KV cache 至 Decode 實例進行后續計算，解耦了 TTFT 和 TPOT 的優化目標，消除了 P/D 之間的干擾，被月之暗面、DeepSeek 等公司紛紛采用，NVIDIA 也將其作為下一代 LLM 服務系統的核心技術方向。無問芯穹第二個開源項Semi-PD——第三代 PD 半分離架構，在消除 P/D 干擾的同時，保留了融合式的存儲效率，實現在給定資源和 SLO 的前提下，最大化「Goodput」（有效吞吐量）

Semi-PD 混合架構采用了「計算分離、存儲融合」的設計理念。不同于傳統方案將 Prefill 和 Decode 任務分別放在不同實例上，Semi-PD 讓 Prefill 進程和 Decode 進程共享同一個實例，各自占用部分計算資源（可以想象為「半張卡」）。同時，兩個進程通過 IPC 機制，模型權重和 KV cache 只需存儲一份，同時能夠「看到」所有的存儲資源。

這種設計可以靈活調整 P 和 D 的資源占比，從而更細粒度地調優首次 token 延遲（TTFT）和每個輸出 token 的時間（TPOT）。考慮到實際服務中 Prefill 和 Decode 的負載往往動態變化的，固定資源分配會導致資源利用率低，為此，研發團隊創新性地引入了服務級別目標（SLO）感知的動態資源調整機制。該機制通過實時監控系統負載，動態調整 Prefill 和 Decode 的資源配比（x, y），以更好地滿足延遲約束和系統吞吐的雙重目標。在滿足 SLO 要求的同時，最大化有效吞吐量的性能突破

打個比方，如果說 PD 分離架構讓備菜師傅專注處理食材（Prefill），炒菜師傅只管烹飪（Decode），那么 Semi-PD 混合架構則像配備了智能變形功能的現代化廚房，通過可移動的智能隔斷，廚房空間可以動態劃分：早上備菜多就多給備菜區，午市炒菜忙就多給烹飪區。最巧妙的是，兩個區域共享同一套智能廚具系統（統一存儲），既避免了重復購置設備，又能通過資源動態分配實現效率最大化。

相比于開源的 SOTA 實現，Semi-PD 的 Goodput 提升了 1.55-1.72 倍，單請求平均端到端時延提升 1.27-2.58 倍。

llama 系列模型結果：

其中 vllm-S 對應 splitfuse schedule，vllm-D 對應 default schedule 即 Prefill 優先

Deepseek 系列模型結果：

Day 3｜FlashOverlap：計算零干擾，基于信號的通信重疊

官方知乎：https://zhuanlan.zhihu.com/p/1900488778407211472
開源倉庫：https://github.com/infinigence/FlashOverlap
論文地址：https://arxiv.org/abs/2504.19519

第三天，無問芯穹放出了一個非常有意思的工作「FlashOverlap」，這是一個基于控制信號的計算通信重疊新思路。主要出發點在于提供一種低侵入矩陣乘法、無侵入通信的方式完成細粒度計算通信重疊，可以無縫適配矩陣乘法和各種常見的通信原語，包括但不限于 AllReduce、ReduceScatter、All2All 等。對于通信瓶頸顯著的低端消費卡來講優化效果尤為明顯，可以達到高達 1.65 倍的性能提升。

研究團隊首先指出，一個低開發成本高性能收益的計算和通信重疊方案，需要至少滿足以下三個方面：

支持 Tile 粒度的重合和調度，以最大化重疊效果；
重疊方案要盡可能少的侵入計算部分，以最小化對計算部分的傷害；
重疊方案要盡可能對不同的通信原語和基于拓撲的優化技術正交，以最小化對通信部分的傷害，以及最小化不同通信原語的適配成本。

為此，我們提出一種基于信號的計算通信重疊技術，可以完美契合上面提到的三個準則。

就好比參加接力跑比賽需要訓練一套團隊戰術——交接棒時要往前多送一段，最大化重疊效果；接棒時要站在整體最短路徑上，最小化對競速部分的傷害；交接時統一右手交右手接，最小化對大部分運動員左右手習慣的適配成本。FlashOverlap 就像是一套最先進的接力賽戰術，能夠讓整體團隊都省力的同時，跑出最快的速度。

如何能減少對計算的侵入性，同時又能和通信都正交是實現基于信號控制做通信的難點。FlashOverlap 的核心 idea 是，讓計算 Kernel 能夠在完成一部分計算結果之后自動發出一個就緒的信號，然后接收到該信號之后再發起一次針對就緒部分數據的 NCCL 的通信。最終基于信號的計算通信重疊架構如下圖：

FlashOverlap 的實驗結果分為兩部分：第一部分是針對矩陣乘法和 AllReduce、ReduceScatter 和 All2All 三個通信算子，在 A800 和 4090 的優化效果；第二部分以 AllReduce 為例，分析 M、N、K 變化時優化效果的變化。

整體上看，FlashOverlap 可以獲得 1.07-1.31 倍性能提升，而且大多數情況下都優于其他 SOTA 工作。具體如下圖所示，研究團隊測試了小面表格中大量的矩陣乘法形狀，柱狀圖代表表格中所有矩陣乘法形狀下的平均性能，線狀圖分別代表性能最差情況和最優情況。

為了更進一步展開，研究團隊在 4090 上針對 TP=2 下做 ReduceScatter，在 A800 上針對 TP=4 下做 AllReduce，這兩種場景不同矩陣乘法形狀 MKN 的性能結果。

研究團隊表示，開源這一方案，希望能幫助到各個生成式大模型訓練和推理場景，降低大規模計算帶來的通信開銷。

軟硬協同驅動高效推理系統發展

無問芯穹 2023 年就曾推出過一個驚艷業界的推理加速方法 FlashDecoding++（機器之心曾獨家報道：GPU 推理提速 4 倍，256K 上下文全球最長：無問芯穹刷新大模型優化記錄），通過異步方法實現注意力計算的真正并行，并針對「矮胖」矩陣乘優化加速 Decode 階段的計算，將國際主流 GPU 推理速度提升了 2-4 倍。隨后將這套軟硬件協同設計能力逐個應用在國產計算卡上，取得了十余種計算卡的最佳優化效果，搭建了 GPU 云「異構云」，支持在多種國產芯片上完成大模型推理任務。

近日，無問芯穹聯合創始人、CEO 夏立雪在出席活動時表示：「此次開源無問芯穹新一代大模型端、云推理系統相關工作，是希望以開源方案為橋梁，助力大模型產業落地在保障質量的基礎上實現效率躍升與成本優化，加速技術普惠與產業升級進程。」

推理系統是技術協同的中樞，也是產業價值的放大器。在縱向維度上，推理系統向上連接著 AI 模型、工具和各類應用場景，向下對接硬件資源，能充分發揮不同硬件優勢；在橫向維度上，高效推理系統的應用，將全面激活大模型在端側的應用潛能以及在云側的生產力效能，推動 AI 技術的價值向更多行業和人群輻射滲透。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.