網易首頁 > 網易號 > 正文申請入駐

鄭緯民院士攜最佳論文出席 QCon：月之暗面 Kimi 大模型推理架構 Mooncake全網最權威解讀

2025-03-28 20:28:08　來源: InfoQ

北京舉報

分享至

近日，中國工程院院士 / 清華大學教授 / 博士生導師鄭緯民確認出席 QCon 北京大會發表題為《關于人工智能大模型的幾點思考》的主題演講，并將分享 Kimi 幕后的大模型推理架構 Mooncake。

2025 年，人工智能加速從單模態向多模態發展，大模型在各行業廣泛落地。在此進程中，人工智能大模型生命周期的各個環節對算力和存儲產生了爆發式需求。數據獲取時，海量小文件存儲面臨挑戰；數據預處理開銷成為大模型訓練瓶頸；模型訓練任務負載重、硬件出錯概率高；模型微調需平衡數據規模與質量；模型推理存在算力困境。

這些問題該如何解決？在當前大模型產品中又如何落地相應解決方案？鄭緯民將在本次演講中結合 Kimi 幕后的大模型推理架構 Mooncake 對以上問題進行深入剖析。Kimi 從初期頻繁算力擴容仍宕機，到如今能平穩承載高速增長的流量，Mooncake 發揮了關鍵作用，且該成果已于近期榮獲第 23 屆 USENIX 文件與存儲技術會議（FAST25）最佳論文獎（https://www.cs.tsinghua.edu.cn/info/1034/6611.htm）。

Mooncake 采用一種以鍵值緩存（KVCache）為中心的分離架構，不僅將預填充和解碼集群分開，還高效利用了推理集群中未充分利用的 CPU、DRAM、SSD 和 NIC 資源，建立了一個分離的 KVCache 緩存池。其核心創新在于以 KVCache 為中心的全局緩存和調度器，旨在嚴格的延遲相關服務級別目標（SLOs）下最大化吞吐量。

實驗表明，Mooncake 在處理長上下文輸入的場景中表現出色。在使用真實數據進行的測試中，與基線方法相比，Mooncake 在符合 SLOs 的情況下，將有效請求處理能力提高了 59%~498%。目前，Mooncake 已在數千個節點上運行，每天處理超過 1000 億個 token。在實際部署中，Mooncake 的創新架構使 Kimi 在 NVIDIA A800 和 H800 集群上分別比以前的系統多處理 115% 和 107% 的請求。

鄭緯民院士在本次會議的詳細演講內容如下：

演講提綱

2025 年 AI 大模型的兩個特點：闡述 AI 大模型從單模態邁向多模態的發展趨勢，以及在各行業落地帶來的變革。
人工智能大模型生命周期的五個環節

數據獲取：收集不同模態海量文件時，面臨海量小文件存儲難題，如元數據管理困難、現有文件系統難以滿足需求等。
數據預處理：對分布式技術提出挑戰，其開銷逐漸制約大模型訓練，需創新數據處理方式。
模型訓練：檢查點文件讀寫對存儲系統要求高，現有策略性能不佳，需優化存儲策略以應對硬件錯誤和大規模數據存儲需求。
模型微調：精調垂域模型需要可控算力，同時要平衡數據規模與質量，以提升模型在特定領域的性能。
模型推理：實時處理用戶請求，需要穩定可靠算力，當前面臨算力困境，需探索新的推理架構和優化方法。

構建國產智算系統的核心基礎軟件

清華大學 “八卦爐” 智算系統解析：介紹 “八卦爐” 在國產超算上的應用，以及對多種國產芯片的支持和性能優化成果。
Mooncake——Kimi 幕后的大模型推理架構：剖析 Mooncake 以 KVCache 為中心的架構設計、工作原理和優勢，以及其在提升 Kimi 性能方面的關鍵作用。

三步讓企業明確如何利用 AI 大模型：指導企業通過明確關鍵問題、評估數據質量、判斷人力與 AI 的適用性，以及選擇和微調模型等步驟，有效利用 AI 大模型實現轉型發展。

聽眾受益

清晰把握大模型的技術發展趨勢
全面熟知人工智能大模型開發生命周期各環節的問題與解決方案
深入了解 Kimi 背后的大模型推理架構
掌握判斷企業是否適合利用 AI 大模型轉型的方法

除了鄭緯民院士的權威解讀之外，月之暗面系統工程師黃維嘯也將在「面向 AI 的研發基礎設施」專題論壇上分享《月之暗面穩定高效的 LLM 基礎設施構建之道》，重點介紹月之暗面在訓推混部集群中的實踐經驗，探討如何快速定位并隔離故障，實現任務的高效恢復，從而提升系統整體穩定性。另外還會分享如何在資源有限的情況下最大化利用率、避免浪費，并進一步將該思路應用于強化學習任務的訓練中。

2025 年 4 月 10 - 12 日，QCon 全球軟件開發大會將在北京召開，大會以 “智能融合，引領未來” 為主題，將匯聚各領域的技術先行者以及創新實踐者，為行業發展撥云見日。屆時，騰訊安全副總裁、騰訊玄武實驗室負責人于旸（TK）、亞馬遜云科技大中華區產品技術總監王曉野、微軟亞太人工智能黑帶團隊技術總經理曾臻（Vickie）、原網易集團副總裁 / 杭州研究院執行院長 / 現杭州久痕科技 CEO 汪源博士等重磅嘉賓也將在主論壇分享各自領域內的洞察和實踐。

本次大會還策劃了多模態大模型及應用、AI 驅動的工程生產力、面向 AI 的研發基礎設施、不被 AI 取代的工程師、大模型賦能 AIOps、云成本優化、Lakehouse 架構演進、越挫越勇的大前端等專題，屆時將有來自不同行業、不同領域、不同企業的 100+ 資深專家在 QCon 北京現場帶來前沿技術洞察和一線實踐經驗。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.