99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

無問芯穹開源大模型推理加速神器,加碼構建新一代端、云推理系統

0
分享至



機器之心發布

機器之心編輯部

當前 AI 領域呈現「端云并發」的發展態勢,端側與云側大模型各展所長,共同推動著智能發展與應用落地的邊界。端側模型實現本地毫秒級實時響應,云側模型依托強大算力支持復雜大規模推理,而兩者都離不開高效的推理系統支撐。

在 GTC 2025 上,NVIDIA CEO 黃仁勛強調,大模型計算正從預訓練轉向推理優化階段。隨著產業落地加速,推理計算需求正呈現爆發式增長,如何在性能、成本和響應速度間取得平衡成為關鍵工程挑戰,推理系統正是解決這一問題的核心

近日,無問芯穹發起了一次推理系統開源節,連續開源了三個推理工作,包括加速端側推理速度的 SpecEE、計算分離存儲融合的 PD 半分離調度新機制 Semi-PD、低計算侵入同時通信正交的計算通信重疊新方法 FlashOverlap,為高效的推理系統設計提供多層次助力。下面讓我們一起來對這三個工作展開一一解讀:

Day 1|SpecEE:基于推測的 Early Exiting 機制,讓 AI PC 推理速度起飛

  • 官方知乎:https://zhuanlan.zhihu.com/p/1899766212109510455
  • 開源倉庫:https://github.com/infinigence/SpecEE
  • 論文地址:https://arxiv.org/abs/2504.08850

隨著 DeepSeek 等開源模型表現出越來越強悍的性能,在 PC 端本地部署大模型的需求持續增長。盡管許多情況下使用云端模型更加便利,但本地部署仍在數據隱私、網絡限制或者成本限制的條件下具有不可替代的優勢。

然而,端側設備往往受限于算力、電量和存儲,且 CPU、GPU、NPU 三類異構處理器的算力、架構差異顯著,產生許多不必要調度和通信開銷。將模型安裝到 PC 端本地環境后,推理速度太慢,能達到使用標準的場景也就比較有限了。

無問芯穹第一天開源的 SpecEE 推理引擎框架,就是為了解決端側計算、存儲與異構處理器協同挑戰而生。相關工作被收錄于 ISCA 2025(International Symposium on Computer Architecture,計算機體系結構領域的頂級會議),論文已在 arXiv 公開。



相比云場景,端側設備的場景特征是「單用戶、少請求」,而單用戶下大模型推理是底庫很大的搜索分類問題。

不同于傳統的 Early Exiting 技術,SpecEE 從搜索空間的角度探索 Early Exiting 的優化策略,并提出基于推測模型對 Early Exiting 搜索空間進行縮減,推動精度與速度的帕累托前沿。在 AI PC 場景下,可以獲得超過 2 倍的性能提升。

由于其角度的獨特性,SpecEE 的算法可以無感兼容任何輕量化優化技術。為了將核心思想進一步推進應用在 Early Exiting 預測器上,研究團隊針對預測器開展了三層面的優化:在算法層面通過輕量化預測器設計實現低開銷高精度預測;在系統層面通過自適應調度引擎實現預測器彈性激活;在映射層面,則通過重構推測解碼 Early Exiting 機制實現線性復雜度映射。



無問芯穹展示了 SpecEE 在聯想拯救者 Y7000(搭載 NVIDIA RTX 4060 Laptop GPU 與 Intel Core I7-13650HX)上的實測推理速度比較,運行 ReLU-llama-7B 最高可實現 14.83 token/s 的推理速度,相比 PowerInfer 12.41 token/s 的速度,實現了近 20% 的提升。相比于常用端側部署框架 llama.cpp,SpecEE 則能夠在 AI PC 上實現高達 2.43 倍的加速。



視頻鏈接:

https://mp.weixin.qq.com/s/vecJX1J8sFoRK8ZudFfzaA

值得一提的是,SpecEE 由于其動態性,也適合在單用戶云端場景下的推理,并且由于其方法的正交性可以與現有的一些優化方法進行集成,可無感兼容任何端側加速方案,進一步推動了端側模型推理精度和速度的帕累托前沿。



Day 2|Semi-PD:第三代 PD 半分離架構,推理系統的全新選擇

  • 官方知乎:https://zhuanlan.zhihu.com/p/1900135208373716494
  • 開源倉庫:https://github.com/infinigence/Semi-PD
  • 技術報告:https://github.com/infinigence/Semi-PD/blob/main/docs/_static/paper/arxiv_semi_PD.pdf

第一代 P/D 融合架構采用資源統一分配的策略,Prefill(預填充)和 Decode(解碼)階段共享計算和存儲資源,整個推理流程在同一個實例上完成。第二代 P/D 分離架構將 Prefill 和 Decode 階段的計算與存儲資源解耦,請求在 Prefill 實例上完成 Prefill 階段計算后,傳輸 KV cache 至 Decode 實例進行后續計算,解耦了 TTFT 和 TPOT 的優化目標,消除了 P/D 之間的干擾,被月之暗面、DeepSeek 等公司紛紛采用,NVIDIA 也將其作為下一代 LLM 服務系統的核心技術方向。無問芯穹第二個開源項Semi-PD——第三代 PD 半分離架構,在消除 P/D 干擾的同時,保留了融合式的存儲效率,實現在給定資源和 SLO 的前提下,最大化「Goodput」(有效吞吐量)



Semi-PD 混合架構采用了「計算分離、存儲融合」的設計理念。不同于傳統方案將 Prefill 和 Decode 任務分別放在不同實例上,Semi-PD 讓 Prefill 進程和 Decode 進程共享同一個實例,各自占用部分計算資源(可以想象為「半張卡」)。同時,兩個進程通過 IPC 機制,模型權重和 KV cache 只需存儲一份,同時能夠「看到」所有的存儲資源。

這種設計可以靈活調整 P 和 D 的資源占比,從而更細粒度地調優首次 token 延遲(TTFT)和每個輸出 token 的時間(TPOT)。考慮到實際服務中 Prefill 和 Decode 的負載往往動態變化的,固定資源分配會導致資源利用率低,為此,研發團隊創新性地引入了服務級別目標(SLO)感知的動態資源調整機制。該機制通過實時監控系統負載,動態調整 Prefill 和 Decode 的資源配比(x, y),以更好地滿足延遲約束和系統吞吐的雙重目標。在滿足 SLO 要求的同時,最大化有效吞吐量的性能突破

打個比方,如果說 PD 分離架構讓備菜師傅專注處理食材(Prefill),炒菜師傅只管烹飪(Decode),那么 Semi-PD 混合架構則像配備了智能變形功能的現代化廚房,通過可移動的智能隔斷,廚房空間可以動態劃分:早上備菜多就多給備菜區,午市炒菜忙就多給烹飪區。最巧妙的是,兩個區域共享同一套智能廚具系統(統一存儲),既避免了重復購置設備,又能通過資源動態分配實現效率最大化。

相比于開源的 SOTA 實現,Semi-PD 的 Goodput 提升了 1.55-1.72 倍,單請求平均端到端時延提升 1.27-2.58 倍。

llama 系列模型結果:

其中 vllm-S 對應 splitfuse schedule,vllm-D 對應 default schedule 即 Prefill 優先



Deepseek 系列模型結果:



Day 3|FlashOverlap:計算零干擾,基于信號的通信重疊

  • 官方知乎:https://zhuanlan.zhihu.com/p/1900488778407211472
  • 開源倉庫:https://github.com/infinigence/FlashOverlap
  • 論文地址:https://arxiv.org/abs/2504.19519

第三天,無問芯穹放出了一個非常有意思的工作「FlashOverlap」,這是一個基于控制信號的計算通信重疊新思路。主要出發點在于提供一種低侵入矩陣乘法、無侵入通信的方式完成細粒度計算通信重疊,可以無縫適配矩陣乘法和各種常見的通信原語,包括但不限于 AllReduce、ReduceScatter、All2All 等。對于通信瓶頸顯著的低端消費卡來講優化效果尤為明顯,可以達到高達 1.65 倍的性能提升。

研究團隊首先指出,一個低開發成本高性能收益的計算和通信重疊方案,需要至少滿足以下三個方面:

  • 支持 Tile 粒度的重合和調度,以最大化重疊效果;
  • 重疊方案要盡可能少的侵入計算部分,以最小化對計算部分的傷害;
  • 重疊方案要盡可能對不同的通信原語和基于拓撲的優化技術正交,以最小化對通信部分的傷害,以及最小化不同通信原語的適配成本。

為此,我們提出一種基于信號的計算通信重疊技術,可以完美契合上面提到的三個準則。



就好比參加接力跑比賽需要訓練一套團隊戰術——交接棒時要往前多送一段,最大化重疊效果;接棒時要站在整體最短路徑上,最小化對競速部分的傷害;交接時統一右手交右手接,最小化對大部分運動員左右手習慣的適配成本。FlashOverlap 就像是一套最先進的接力賽戰術,能夠讓整體團隊都省力的同時,跑出最快的速度。

如何能減少對計算的侵入性,同時又能和通信都正交是實現基于信號控制做通信的難點。FlashOverlap 的核心 idea 是,讓計算 Kernel 能夠在完成一部分計算結果之后自動發出一個就緒的信號,然后接收到該信號之后再發起一次針對就緒部分數據的 NCCL 的通信。最終基于信號的計算通信重疊架構如下圖:



FlashOverlap 的實驗結果分為兩部分:第一部分是針對矩陣乘法和 AllReduce、ReduceScatter 和 All2All 三個通信算子,在 A800 和 4090 的優化效果;第二部分以 AllReduce 為例,分析 M、N、K 變化時優化效果的變化。

整體上看,FlashOverlap 可以獲得 1.07-1.31 倍性能提升,而且大多數情況下都優于其他 SOTA 工作。具體如下圖所示,研究團隊測試了小面表格中大量的矩陣乘法形狀,柱狀圖代表表格中所有矩陣乘法形狀下的平均性能,線狀圖分別代表性能最差情況和最優情況。



為了更進一步展開,研究團隊在 4090 上針對 TP=2 下做 ReduceScatter,在 A800 上針對 TP=4 下做 AllReduce,這兩種場景不同矩陣乘法形狀 MKN 的性能結果。



研究團隊表示,開源這一方案,希望能幫助到各個生成式大模型訓練和推理場景,降低大規模計算帶來的通信開銷。

軟硬協同驅動高效推理系統發展

無問芯穹 2023 年就曾推出過一個驚艷業界的推理加速方法 FlashDecoding++(機器之心曾獨家報道:GPU 推理提速 4 倍,256K 上下文全球最長:無問芯穹刷新大模型優化記錄),通過異步方法實現注意力計算的真正并行,并針對「矮胖」矩陣乘優化加速 Decode 階段的計算,將國際主流 GPU 推理速度提升了 2-4 倍。隨后將這套軟硬件協同設計能力逐個應用在國產計算卡上,取得了十余種計算卡的最佳優化效果,搭建了 GPU 云「異構云」,支持在多種國產芯片上完成大模型推理任務。

近日,無問芯穹聯合創始人、CEO 夏立雪在出席活動時表示:「此次開源無問芯穹新一代大模型端、云推理系統相關工作,是希望以開源方案為橋梁,助力大模型產業落地在保障質量的基礎上實現效率躍升與成本優化,加速技術普惠與產業升級進程。」

推理系統是技術協同的中樞,也是產業價值的放大器。在縱向維度上,推理系統向上連接著 AI 模型、工具和各類應用場景,向下對接硬件資源,能充分發揮不同硬件優勢;在橫向維度上,高效推理系統的應用,將全面激活大模型在端側的應用潛能以及在云側的生產力效能,推動 AI 技術的價值向更多行業和人群輻射滲透。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
弟弟生活困難哥嫂給了他5萬,5年后他裝窮回村,哥嫂的做法太感人

弟弟生活困難哥嫂給了他5萬,5年后他裝窮回村,哥嫂的做法太感人

白云故事
2025-04-17 05:20:03
林彪去世40周年后,他的墓前出現了七個人,來看都是誰?

林彪去世40周年后,他的墓前出現了七個人,來看都是誰?

歷史1949
2025-01-19 22:21:37
雷軍人設塌房?繼車禍事件后,小米又遭遇重擊

雷軍人設塌房?繼車禍事件后,小米又遭遇重擊

象視汽車
2025-04-30 07:00:09
上海街頭突然眾人圍觀,民警霸氣三連問!這一幕熱傳

上海街頭突然眾人圍觀,民警霸氣三連問!這一幕熱傳

環球網資訊
2025-04-30 09:17:31
吃相太難看,明明可以直接搶,還要給你一個學生的成績單

吃相太難看,明明可以直接搶,還要給你一個學生的成績單

歷史總在押韻
2025-04-29 23:42:12
美媒:莫迪給西方上了一課,只要有中國在,美國就不敢跟印度翻臉

美媒:莫迪給西方上了一課,只要有中國在,美國就不敢跟印度翻臉

漣漪讀史
2025-04-29 18:27:16
“名嘴”宋世雄現狀:居住北京,老到認不出,兒女成才后都在國外

“名嘴”宋世雄現狀:居住北京,老到認不出,兒女成才后都在國外

楊哥歷史
2025-04-29 14:14:41
葉挺:當新四軍長起初并不被延安認可,不早逝也不太可能成為元帥

葉挺:當新四軍長起初并不被延安認可,不早逝也不太可能成為元帥

阿胡
2025-04-29 16:28:14
魔獸世界:國服官宣5月15日開放ICC,全新直升禮包到來

魔獸世界:國服官宣5月15日開放ICC,全新直升禮包到來

胖哥游戲說
2025-04-30 11:18:42
這5種“高危剩菜”,吃錯全家中毒!別怕浪費,趕緊扔掉!

這5種“高危剩菜”,吃錯全家中毒!別怕浪費,趕緊扔掉!

人民日報健康客戶端
2025-04-29 07:36:41
50架全拒收!波音放話威脅必須接手,中國要警惕了,C919或遭制裁

50架全拒收!波音放話威脅必須接手,中國要警惕了,C919或遭制裁

基斯默默
2025-04-30 10:17:41
輪到自己了!李鐵昔日寄語監獄服刑人員好好改造,早日新生

輪到自己了!李鐵昔日寄語監獄服刑人員好好改造,早日新生

直播吧
2025-04-30 10:10:17
金正恩攜女兒登上的“大船”,有啥新鮮的?

金正恩攜女兒登上的“大船”,有啥新鮮的?

中國新聞周刊
2025-04-27 15:24:52
中國這聲“不跪”,今天全世界都聽到了 !

中國這聲“不跪”,今天全世界都聽到了 !

小企鵝侃世界
2025-04-29 23:03:23
《淮水竹亭》用中式美學與電影質感,勾繪動人中國神話故事

《淮水竹亭》用中式美學與電影質感,勾繪動人中國神話故事

看電視
2025-04-28 22:09:54
足壇反腐:原足協紀委主任王小平、原中超董事長劉軍暫未審判

足壇反腐:原足協紀委主任王小平、原中超董事長劉軍暫未審判

懂球帝
2025-04-30 10:35:21
華表獎后眾星團聚!黃渤陳凱歌坐主位,人均80元,排隊給領導敬酒

華表獎后眾星團聚!黃渤陳凱歌坐主位,人均80元,排隊給領導敬酒

裕豐娛間說
2025-04-28 09:12:42
“75后”袁達已任國家發改委秘書長

“75后”袁達已任國家發改委秘書長

澎湃新聞
2025-04-29 21:34:33
499元!內置電池的無線圖傳!

499元!內置電池的無線圖傳!

相機Beta
2025-04-28 11:38:01
穩樓市,又來大招了!

穩樓市,又來大招了!

地產觀點
2025-04-30 08:15:05
2025-04-30 12:43:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10427文章數 142300關注度
往期回顧 全部

科技要聞

AI讓短劇成本直降99% 萬元一部人人能拍

頭條要聞

牛彈琴:關稅大戰 特朗普第一個嚴重后果來了

頭條要聞

牛彈琴:關稅大戰 特朗普第一個嚴重后果來了

體育要聞

一文回顧李鐵案:歷時2年半!獲刑20年

娛樂要聞

37歲毛曉彤北京熱舞 辣翻環球影城

財經要聞

特朗普簽署公告!對汽車零部件關稅補償

汽車要聞

智能升格滿載出發 全新攬境:再給燃油車一次機會

態度原創

房產
健康
親子
公開課
軍事航空

房產要聞

央企重磅加碼海口樓市,王炸級產品,突然殺出!

唇皰疹和口腔潰瘍是"同伙"嗎?

親子要聞

女人坐月子,就得自私一點

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基承認烏情報部門刺殺俄軍高官

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 石城县| 黔南| 房产| 德惠市| 临沧市| 五指山市| 高安市| 慈利县| 高陵县| 远安县| 廉江市| 宁陕县| 山阴县| 黄冈市| 青河县| 正镶白旗| 博兴县| 盈江县| 孟连| 邢台市| 乌兰浩特市| 托里县| 萨嘎县| 仲巴县| 富宁县| 上思县| 武胜县| 禄丰县| 洛扎县| 海淀区| 印江| 新龙县| 上栗县| 铁力市| 新绛县| 高雄市| 日喀则市| 天等县| 宿州市| 晋城| 盱眙县|