DeepSeek今天正式啟動為期五天的開源成果發布計劃,首個亮相的項目是FlashMLA。這一開源項目將先進的MLA算法與GPU優化技術相結合,為大模型推理提供了一套高性能、低延遲的解碼方案。
FlashMLA是一款專門為HopperGPU(比如H800SXM5)優化的高效MLA解碼內核,旨在加速大模型的計算任務,尤其是在NVIDIA高端顯卡上提升性能。
通過FlashMLA,開發者能夠在處理大規模語言模型時顯著提高效率,降低延遲。與傳統解碼器相比,FlashMLA在處理可變長度序列時展現出更高的計算效率。
作為頭部的AI基礎設施公司,PPIO派歐云第一時間對FlashMLA在主流HopperGPU(H20、H100、H200、H800)上的性能進行了評測。在深入了解評測結果之前,我們先來了解一下相關的背景知識。
科普時間:什么是HopperGPU、解碼內核和MLA?
?HopperGPU:NVIDIA推出的新一代高性能GPU架構,專為AI和高性能計算(HPC)設計。它采用先進制程技術和創新架構,在復雜計算任務中提供卓越的性能和能效。主流的HopperGPU包括H20、H100、H200和H800。
?解碼內核:專門用于加速解碼任務的硬件或軟件模塊。在AI推理中,解碼內核能顯著提升模型推理的速度和效率,尤其是在處理序列數據時。
?MLA:多頭潛在注意力(Multi-headLatentAttention)的簡稱,MLA對KV緩存的需求更輕量化,使其在處理長序列時更容易擴展,同時性能也優于傳統的多頭注意力機制(Multi-HeadAttention,MHA)。
PPIO獨家評測:FlashMLA性能實測
DeepSeek官方宣稱,FlashMLA在H800SXM5GPU上可達到3000GB/s的內存速度上限和580TFLOPS的計算上限。在PPIO對FlashMLA的評測中,我們對不同參數配置下的性能進行了全面測試。為了更直觀地展示結果,橫坐標依次表示測試的參數配置,具體包括:
?批次大?。˙atchSize)
?序列長度(SequenceLength)
?注意力頭的數量(NumberofAttentionHeads)
評測結果如下:
?H20GPU:內存速度上限為1024GB/s,計算性能上限為126TFLOPS。
?H100GPU:內存速度上限為2906GB/s,計算性能上限為526TFLOPS。
?H200GPU:內存速度上限為3887GB/s,計算性能上限為512TFLOPS。
?H800GPU:內存速度上限為1785GB/s,計算性能上限為331TFLOPS。
本測試結果基于官方測試腳本。由于官方最優參數配置未知,數據可能未達到理論上限。
FlashMLA對主流推理框架的影響
FlashMLA的發布不僅吸引了開發者的目光,也引起了主流推理框架的重視。兩大熱門框架vLLM和SGLang都對FlashMLA做出了積極回應。
vLLM團隊預計很快會實現集成FlashMLA。技術上,FlashMLA基于PagedAttention實現,與vLLM的技術棧高度兼容,集成后有望進一步提升vLLM的推理性能。
SGLang會繼續用已經合并了的FlashInferMLA。根據他們的評測,FlashInferMLA的性能與FlashMLA基本相當。
PPIO會第一時間引入最新的MLA技術,提升推理效率,讓客戶享受更快的推理速度和更低的計算成本。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.