字節開源了他們內部百億級集群實戰驗證的MoE加速庫——COMET,相比DeepSeek近期開源的DualPipe等MoE優化方案,COMET可以像插件一樣直接接入已有的MoE訓練框架,無論你的模型用哪種并行策略,COMET都能完美支持
按照字節的說法,COMET已經在字節跳動10,000+ GPU的生產集群上大規模部署,實實在在省下了數百萬 GPU 小時! 效果有多驚人?論文里給出了硬核數據:
?單層 MoE 提速 1.96x??
?端到端 MoE 模型加速 1.71x??
這效率提升,直接把MoE模型的性價比拉滿!更關鍵的是,COMET的原理非常硬核:細粒度計算-通信重疊,徹底榨干GPU算力!
給大家劃個重點:COMET神器特點
?即插即用,代碼改動極小告別復雜的魔改,只需幾行代碼就能替換現有MoE模塊,無痛上手!
?通吃所有MoE并行模式TP/EP/EP+TP,無論你的模型用哪種并行策略,COMET都能完美支持
?MLSys'25 頂級評分實打實的硬實力,性能經過大規模驗證,可靠性杠杠的!
簡單來說,MoE模型雖然參數量巨大,但實際計算是稀疏的,只有部分“專家”會被激活。然而,大規模MoE模型的瓶頸在于通信開銷,設備間數據交換耗時驚人,甚至能占到模型運行時間的47%!
現有的優化方法,比如粗粒度的計算-通信流水線,效果有限,GPU空閑時間依然不少COMET的創新之處在于:
?細粒度重疊:COMET通過數據依賴分析和任務重調度,實現了計算和通信的精細化同步,消除了傳統方法中粗粒度劃分帶來的效率損失
?自適應工作負載分配:MoE模型運行時,不同專家的負載動態變化,COMET能動態調整GPU資源分配,平衡計算和通信,最大程度隱藏延遲
COMET的核心技術包括:
1.基于共享張量的依賴解析: COMET深入分析MoE層中計算和通信操作之間的數據依賴關系,通過分解共享張量,打破粗粒度數據依賴,實現更靈活的流水線
2.自適應工作負載分配: 針對MoE模型動態負載的特點,COMET設計了自適應的線程塊分配機制,在kernel內部動態平衡計算和通信資源,實現極致的延遲隱藏
簡單來說,COMET就像一個精密的調度大師,把MoE模型的計算和通信過程拆解重組,讓GPU資源得到最大化利用,從而實現性能飛躍
開發團隊seed希望以此為契機,推動MoE模型優化的進一步發展。他們還提到,未來會探索使用Triton、TVM等編譯器,進一步提升COMET的性能。
論文:
https://arxiv.org/pdf/2502.19811
代碼:
https://github.com/bytedance/flux/pull/54/
開源地址:
https://github.com/bytedance/flux
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.