剛剛,萬眾矚目的DeepSeek,開源了他們第一天的項目。
開源地址在此:
https://github.com/deepseek-ai/FlashMLA
開源的是一個叫FlashMLA的東西。
不到半小時,Github已經(jīng)已經(jīng)300多Star了。
幾個參數(shù):
核心的一句話是:
“FlashMLA is an efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences serving.”
翻譯過來就是:FlashMLA是一款面向Hopper GPU的高效MLA解碼內(nèi)核,并針對可變長度序列的服務(wù)場景進(jìn)行了優(yōu)化。
因為確實(shí)比較硬核,我只能說用我僅有的知識,給大家簡單科普一下這是個啥,可能會有錯誤,不保證對,如果出現(xiàn)錯誤歡迎大佬評論區(qū)拍磚。
把這句話拆解一下。
“MLA decoding kernel”。
這里的“MLA”指的是Multi-head Latent Attention,多頭潛在注意力,DeepSeek降低成本的王炸,反正它是個專門用來做解碼階段的注意力加速器。
大模型有兩個主要階段:訓(xùn)練(包括prefill)和推理解碼(infer decoding)。在解碼階段,我們往往需要一次一次地拿KV緩存出來,反復(fù)計算,所以當(dāng)序列變長之后,這部分開銷會爆炸似的增長。如果能在解碼階段有更強(qiáng)的核去優(yōu)化,意味著你的大模型可以更快地產(chǎn)出結(jié)果,特別對像這種長上下文對話就很關(guān)鍵。
第二,“for Hopper GPUs”。
英偉達(dá)的卡有幾個架構(gòu),包括A架構(gòu)和H架構(gòu)。
A是Ampere架構(gòu)(2020年發(fā)布),是NVIDIA的第七代GPU架構(gòu),主打通用計算和高性能AI訓(xùn)練/推理,典型代表型號為A100。
H代表Hopper架構(gòu)(2022年發(fā)布),是NVIDIA的第九代架構(gòu)(跳過第八代),目前最新的,專為超大規(guī)模AI和超算設(shè)計,顯著優(yōu)化了Transformer模型性能,典型的就是H100,不過因為國內(nèi)問題,能用到的都是閹割版的H800。
所以,大家就可以明白,F(xiàn)lashMLA是DeepSeek專門針對NVIDIA H800這一代高端加速卡做的深度優(yōu)化。
他們在release note里還說跑在H800上能達(dá)到“3000 GB/s memory-bound & 580 TFLOPS compute-bound”,這等于在“內(nèi)存帶寬”和“浮點(diǎn)算力”兩方面都拉到極限了。基本已經(jīng)是我見過的最逼近巔峰的了。
他們在致謝了寫了靈感來自于FlashAttention。
我就去翻了下那個項目。
相比FlashAttention-2,F(xiàn)lashMLA接近翻了2倍,甚至都能跟FlashAttention-3還差點(diǎn),而別人是H100優(yōu)化的,DeepSeek是針對H800優(yōu)化的。
第三,“optimized for variable-length sequences.” 。
就是說它不僅僅適合固定batch,還對那種“每個人輸入長度不一樣,隨時變更token長度”的場景特別好。
因為就大模型的實(shí)際應(yīng)用而言,用戶往往輸入并不規(guī)則,隨時來個長上下文對話或者給你干上去一個超長PDF,這就需要內(nèi)核支持“動態(tài)序列”,同時還能保持高效,而這塊,DeepSeek也做了大幅的優(yōu)化。
目前整體上也可以開箱即用。
DeepSeek這是真的把自己最牛逼的東西開源出來了。
這尼瑪,才是真正的OpenAI啊。
想起來了他們前幾天發(fā)的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》,整個目標(biāo)也都是有異曲同工之妙。
如果說FlashMLA是針對推理解碼做的“終極性能爆破”,那么Native Sparse Attention就是對訓(xùn)練和推理做更全面的“稀疏化改革”。
兩者結(jié)合到一起,意思就是DeepSeek在告訴你。
“無論訓(xùn)練還是推理,我都要把硬件榨干,要做就做最猛的AI。”
對于整個AI生態(tài)來說,這是一件天大的好事。
特別是國內(nèi)。
越多的開源優(yōu)化,意味著以后大家都可以在高效注意力、稀疏推理、長上下文訓(xùn)練等方面取得突破,不用像過去那樣閉源大廠獨(dú)家享受。
如果你是小白或者純產(chǎn)品經(jīng)理,可以把這件事情當(dāng)做:
蘋果又給iPhone做了一個專門的GPU調(diào)教,所以游戲跑得更爽了。
只不過,這次是DeepSeek在給AI大模型做專門的GPU調(diào)教,把H800的極限性能都薅出來,換來更快的推理和訓(xùn)練速度。
這是妥妥的GPU性能紅利。
所以我對DeepSeek挺佩服,敢搞硬件極限那一套,敢把論文跟開源項目一起放出來,而且頻率這么高。
而且這還只是第一天。
后面還有四天,不敢想他們還會放出來多牛逼的東西出來。。
希望這篇小白友好版的文章能讓你對FlashMLA有個更直觀的理解。
既然沒卡,沒有資源。
那我們自己,就特娘的打下那一片天。
感謝DeepSeek。
你才是真正的源神。
以上,既然看到這里了,如果覺得不錯,隨手點(diǎn)個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標(biāo)?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@gmail.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.