網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

一文詳解DeepSeek開源的FlashMLA，他們才是真正的“源神”。

2025-02-24 11:14:51　來源: 數(shù)字生命卡茲克

天津舉報

分享至

剛剛，萬眾矚目的DeepSeek，開源了他們第一天的項目。

開源地址在此：

https://github.com/deepseek-ai/FlashMLA

開源的是一個叫FlashMLA的東西。

不到半小時，Github已經(jīng)已經(jīng)300多Star了。

幾個參數(shù)：

核心的一句話是：

“FlashMLA is an efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences serving.”

翻譯過來就是：FlashMLA是一款面向Hopper GPU的高效MLA解碼內(nèi)核，并針對可變長度序列的服務(wù)場景進(jìn)行了優(yōu)化。

因為確實(shí)比較硬核，我只能說用我僅有的知識，給大家簡單科普一下這是個啥，可能會有錯誤，不保證對，如果出現(xiàn)錯誤歡迎大佬評論區(qū)拍磚。

把這句話拆解一下。

“MLA decoding kernel”。

這里的“MLA”指的是Multi-head Latent Attention，多頭潛在注意力，DeepSeek降低成本的王炸，反正它是個專門用來做解碼階段的注意力加速器。

大模型有兩個主要階段：訓(xùn)練（包括prefill）和推理解碼（infer decoding）。在解碼階段，我們往往需要一次一次地拿KV緩存出來，反復(fù)計算，所以當(dāng)序列變長之后，這部分開銷會爆炸似的增長。如果能在解碼階段有更強(qiáng)的核去優(yōu)化，意味著你的大模型可以更快地產(chǎn)出結(jié)果，特別對像這種長上下文對話就很關(guān)鍵。

第二，“for Hopper GPUs”。

英偉達(dá)的卡有幾個架構(gòu)，包括A架構(gòu)和H架構(gòu)。

A是Ampere架構(gòu)（2020年發(fā)布），是NVIDIA的第七代GPU架構(gòu)，主打通用計算和高性能AI訓(xùn)練/推理，典型代表型號為A100。

H代表Hopper架構(gòu)（2022年發(fā)布），是NVIDIA的第九代架構(gòu)（跳過第八代），目前最新的，專為超大規(guī)模AI和超算設(shè)計，顯著優(yōu)化了Transformer模型性能，典型的就是H100，不過因為國內(nèi)問題，能用到的都是閹割版的H800。

所以，大家就可以明白，F(xiàn)lashMLA是DeepSeek專門針對NVIDIA H800這一代高端加速卡做的深度優(yōu)化。

他們在release note里還說跑在H800上能達(dá)到“3000 GB/s memory-bound & 580 TFLOPS compute-bound”，這等于在“內(nèi)存帶寬”和“浮點(diǎn)算力”兩方面都拉到極限了。基本已經(jīng)是我見過的最逼近巔峰的了。

他們在致謝了寫了靈感來自于FlashAttention。

我就去翻了下那個項目。

相比FlashAttention-2，F(xiàn)lashMLA接近翻了2倍，甚至都能跟FlashAttention-3還差點(diǎn)，而別人是H100優(yōu)化的，DeepSeek是針對H800優(yōu)化的。

第三，“optimized for variable-length sequences.” 。

就是說它不僅僅適合固定batch，還對那種“每個人輸入長度不一樣，隨時變更token長度”的場景特別好。

因為就大模型的實(shí)際應(yīng)用而言，用戶往往輸入并不規(guī)則，隨時來個長上下文對話或者給你干上去一個超長PDF，這就需要內(nèi)核支持“動態(tài)序列”，同時還能保持高效，而這塊，DeepSeek也做了大幅的優(yōu)化。

目前整體上也可以開箱即用。

DeepSeek這是真的把自己最牛逼的東西開源出來了。

這尼瑪，才是真正的OpenAI啊。

想起來了他們前幾天發(fā)的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》，整個目標(biāo)也都是有異曲同工之妙。

如果說FlashMLA是針對推理解碼做的“終極性能爆破”，那么Native Sparse Attention就是對訓(xùn)練和推理做更全面的“稀疏化改革”。

兩者結(jié)合到一起，意思就是DeepSeek在告訴你。

“無論訓(xùn)練還是推理，我都要把硬件榨干，要做就做最猛的AI。”

對于整個AI生態(tài)來說，這是一件天大的好事。

特別是國內(nèi)。

越多的開源優(yōu)化，意味著以后大家都可以在高效注意力、稀疏推理、長上下文訓(xùn)練等方面取得突破，不用像過去那樣閉源大廠獨(dú)家享受。

如果你是小白或者純產(chǎn)品經(jīng)理，可以把這件事情當(dāng)做：

蘋果又給iPhone做了一個專門的GPU調(diào)教，所以游戲跑得更爽了。

只不過，這次是DeepSeek在給AI大模型做專門的GPU調(diào)教，把H800的極限性能都薅出來，換來更快的推理和訓(xùn)練速度。

這是妥妥的GPU性能紅利。

所以我對DeepSeek挺佩服，敢搞硬件極限那一套，敢把論文跟開源項目一起放出來，而且頻率這么高。

而且這還只是第一天。

后面還有四天，不敢想他們還會放出來多牛逼的東西出來。。

希望這篇小白友好版的文章能讓你對FlashMLA有個更直觀的理解。

既然沒卡，沒有資源。

那我們自己，就特娘的打下那一片天。

感謝DeepSeek。

你才是真正的源神。

以上，既然看到這里了，如果覺得不錯，隨手點(diǎn)個贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時間收到推送，也可以給我個星標(biāo)?～謝謝你看我的文章，我們，下次再見。

>/ 作者：卡茲克

>/ 投稿或爆料，請聯(lián)系郵箱：wzglyay@gmail.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.