99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一文詳解DeepSeek開源的FlashMLA,他們才是真正的“源神”。

0
分享至

剛剛,萬眾矚目的DeepSeek,開源了他們第一天的項目。


開源地址在此:

https://github.com/deepseek-ai/FlashMLA

開源的是一個叫FlashMLA的東西。

不到半小時,Github已經(jīng)已經(jīng)300多Star了。


幾個參數(shù):


核心的一句話是:

“FlashMLA is an efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences serving.”

翻譯過來就是:FlashMLA是一款面向Hopper GPU的高效MLA解碼內(nèi)核,并針對可變長度序列的服務(wù)場景進(jìn)行了優(yōu)化。

因為確實(shí)比較硬核,我只能說用我僅有的知識,給大家簡單科普一下這是個啥,可能會有錯誤,不保證對,如果出現(xiàn)錯誤歡迎大佬評論區(qū)拍磚。

把這句話拆解一下。

“MLA decoding kernel”。

這里的“MLA”指的是Multi-head Latent Attention,多頭潛在注意力,DeepSeek降低成本的王炸,反正它是個專門用來做解碼階段的注意力加速器。

大模型有兩個主要階段:訓(xùn)練(包括prefill)和推理解碼(infer decoding)。在解碼階段,我們往往需要一次一次地拿KV緩存出來,反復(fù)計算,所以當(dāng)序列變長之后,這部分開銷會爆炸似的增長。如果能在解碼階段有更強(qiáng)的核去優(yōu)化,意味著你的大模型可以更快地產(chǎn)出結(jié)果,特別對像這種長上下文對話就很關(guān)鍵。

第二,“for Hopper GPUs”。

英偉達(dá)的卡有幾個架構(gòu),包括A架構(gòu)和H架構(gòu)。

A是Ampere架構(gòu)(2020年發(fā)布),是NVIDIA的第七代GPU架構(gòu),主打通用計算和高性能AI訓(xùn)練/推理,典型代表型號為A100。

H代表Hopper架構(gòu)(2022年發(fā)布),是NVIDIA的第九代架構(gòu)(跳過第八代),目前最新的,專為超大規(guī)模AI和超算設(shè)計,顯著優(yōu)化了Transformer模型性能,典型的就是H100,不過因為國內(nèi)問題,能用到的都是閹割版的H800。

所以,大家就可以明白,F(xiàn)lashMLA是DeepSeek專門針對NVIDIA H800這一代高端加速卡做的深度優(yōu)化。

他們在release note里還說跑在H800上能達(dá)到“3000 GB/s memory-bound & 580 TFLOPS compute-bound”,這等于在“內(nèi)存帶寬”和“浮點(diǎn)算力”兩方面都拉到極限了。基本已經(jīng)是我見過的最逼近巔峰的了。

他們在致謝了寫了靈感來自于FlashAttention。

我就去翻了下那個項目。


相比FlashAttention-2,F(xiàn)lashMLA接近翻了2倍,甚至都能跟FlashAttention-3還差點(diǎn),而別人是H100優(yōu)化的,DeepSeek是針對H800優(yōu)化的。

第三,“optimized for variable-length sequences.” 。

就是說它不僅僅適合固定batch,還對那種“每個人輸入長度不一樣,隨時變更token長度”的場景特別好。

因為就大模型的實(shí)際應(yīng)用而言,用戶往往輸入并不規(guī)則,隨時來個長上下文對話或者給你干上去一個超長PDF,這就需要內(nèi)核支持“動態(tài)序列”,同時還能保持高效,而這塊,DeepSeek也做了大幅的優(yōu)化。

目前整體上也可以開箱即用。


DeepSeek這是真的把自己最牛逼的東西開源出來了。

這尼瑪,才是真正的OpenAI啊。

想起來了他們前幾天發(fā)的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》,整個目標(biāo)也都是有異曲同工之妙。


如果說FlashMLA是針對推理解碼做的“終極性能爆破”,那么Native Sparse Attention就是對訓(xùn)練和推理做更全面的“稀疏化改革”。

兩者結(jié)合到一起,意思就是DeepSeek在告訴你。

“無論訓(xùn)練還是推理,我都要把硬件榨干,要做就做最猛的AI。”

對于整個AI生態(tài)來說,這是一件天大的好事。

特別是國內(nèi)。

越多的開源優(yōu)化,意味著以后大家都可以在高效注意力、稀疏推理、長上下文訓(xùn)練等方面取得突破,不用像過去那樣閉源大廠獨(dú)家享受。

如果你是小白或者純產(chǎn)品經(jīng)理,可以把這件事情當(dāng)做:

蘋果又給iPhone做了一個專門的GPU調(diào)教,所以游戲跑得更爽了。

只不過,這次是DeepSeek在給AI大模型做專門的GPU調(diào)教,把H800的極限性能都薅出來,換來更快的推理和訓(xùn)練速度。

這是妥妥的GPU性能紅利。

所以我對DeepSeek挺佩服,敢搞硬件極限那一套,敢把論文跟開源項目一起放出來,而且頻率這么高。

而且這還只是第一天。

后面還有四天,不敢想他們還會放出來多牛逼的東西出來。。

希望這篇小白友好版的文章能讓你對FlashMLA有個更直觀的理解。

既然沒卡,沒有資源。

那我們自己,就特娘的打下那一片天。

感謝DeepSeek。

你才是真正的源神。

以上,既然看到這里了,如果覺得不錯,隨手點(diǎn)個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標(biāo)?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@gmail.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄧亞萍去洛陽賞牡丹, 她漢服造型遭吐槽, 網(wǎng)友:第一眼以為是潘長江

鄧亞萍去洛陽賞牡丹, 她漢服造型遭吐槽, 網(wǎng)友:第一眼以為是潘長江

草莓解說體育
2025-04-14 00:13:05
美前財長耶倫倒戈,表示特朗普應(yīng)向中國低頭,以換取中國的諒解!

美前財長耶倫倒戈,表示特朗普應(yīng)向中國低頭,以換取中國的諒解!

大道無形我有型
2025-04-15 18:34:49
經(jīng)此一戰(zhàn),中國國際威望大增,全世界的人態(tài)度都變了

經(jīng)此一戰(zhàn),中國國際威望大增,全世界的人態(tài)度都變了

華山穹劍
2025-04-15 20:25:15
央視主持張宏民被逼婚:64歲單身的他,卻被一個遼寧大姐瘋狂追求

央視主持張宏民被逼婚:64歲單身的他,卻被一個遼寧大姐瘋狂追求

混沌錄
2025-04-15 17:44:05
奧運(yùn)冠軍陳曉敏:這輩子最正確的決定,就是以399萬賣掉所有金牌

奧運(yùn)冠軍陳曉敏:這輩子最正確的決定,就是以399萬賣掉所有金牌

八斗小先生
2025-04-14 17:05:39
暴跌51%!!鄭州大幅降價

暴跌51%!!鄭州大幅降價

河南交通廣播1041
2025-04-15 11:47:07
城中村里的男女關(guān)系亂到啥程度?網(wǎng)友:男人的天堂,女人的樂園

城中村里的男女關(guān)系亂到啥程度?網(wǎng)友:男人的天堂,女人的樂園

解讀熱點(diǎn)事件
2025-04-10 00:15:04
均價18.34萬/平方米 保利世博天悅“樓王”漲價入市

均價18.34萬/平方米 保利世博天悅“樓王”漲價入市

觀點(diǎn)機(jī)構(gòu)
2025-04-15 00:20:04
美暈了!今起正式開放!每天限800人,票價公布;網(wǎng)友:“再次被上海震撼到”

美暈了!今起正式開放!每天限800人,票價公布;網(wǎng)友:“再次被上海震撼到”

新民晚報
2025-04-15 13:21:14
注銷必查三年賬?稅局明確!4月15日起,企業(yè)注銷必須這樣辦,否則后果嚴(yán)重!

注銷必查三年賬?稅局明確!4月15日起,企業(yè)注銷必須這樣辦,否則后果嚴(yán)重!

祥順財稅俱樂部
2025-04-15 09:08:56
男子花費(fèi)88萬,包酒店頂層為87歲老母慶生,事后母子雙雙跳樓

男子花費(fèi)88萬,包酒店頂層為87歲老母慶生,事后母子雙雙跳樓

罪案洞察者
2025-04-11 16:23:36
網(wǎng)友:無錫這樓盤房價降得很猛啊!100多萬說虧就虧,還不算利息

網(wǎng)友:無錫這樓盤房價降得很猛啊!100多萬說虧就虧,還不算利息

火山詩話
2025-04-15 09:46:16
1-3!24場不敗慘遭終結(jié) 10.2億豪門仍晉級歐冠4強(qiáng) 上屆亞軍出局

1-3!24場不敗慘遭終結(jié) 10.2億豪門仍晉級歐冠4強(qiáng) 上屆亞軍出局

狍子歪解體壇
2025-04-16 05:12:44
河南制造之痛:已沒落的鄭州少林客車廠,中巴客車曾做到全國第一

河南制造之痛:已沒落的鄭州少林客車廠,中巴客車曾做到全國第一

小鵬財經(jīng)
2025-04-15 17:13:02
蘇州市一級高級警長擬任新職

蘇州市一級高級警長擬任新職

警界君
2025-04-15 21:40:10
南海改個名,就歸菲律賓了?谷歌地圖將南海改名,外交部反將一軍

南海改個名,就歸菲律賓了?谷歌地圖將南海改名,外交部反將一軍

二大爺觀世界
2025-04-16 00:22:29
上海最新人事!他們的新職務(wù)明確

上海最新人事!他們的新職務(wù)明確

小陸搞笑日常
2025-04-16 00:50:01
《奔跑吧》定檔海報引熱議,太不尊重白鹿了,粉絲要求節(jié)目組道歉

《奔跑吧》定檔海報引熱議,太不尊重白鹿了,粉絲要求節(jié)目組道歉

農(nóng)村教育光哥
2025-04-15 09:31:38
三河市綠招牌后續(xù)!換顏色原因曝光,各大官媒怒批,負(fù)責(zé)人已被免

三河市綠招牌后續(xù)!換顏色原因曝光,各大官媒怒批,負(fù)責(zé)人已被免

派大星紀(jì)錄片
2025-04-15 12:03:20
所有的明星,都在閑魚標(biāo)注好了價格

所有的明星,都在閑魚標(biāo)注好了價格

藍(lán)鯨新聞
2025-04-15 15:28:13
2025-04-16 06:11:00
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
283文章數(shù) 386關(guān)注度
往期回顧 全部

科技要聞

小鵬汽車MPV車型改款上市,35.98萬起

頭條要聞

中國不理他特朗普破防了 稱中國為"敵對貿(mào)易國家"

頭條要聞

中國不理他特朗普破防了 稱中國為"敵對貿(mào)易國家"

體育要聞

惡性循環(huán)!錫伯杜的壓榨哲學(xué)是對是錯?

娛樂要聞

娛樂圈模范夫妻塌房?私生活曝光!

財經(jīng)要聞

李強(qiáng):以更大力度促進(jìn)消費(fèi)擴(kuò)大內(nèi)需

汽車要聞

19.99萬起 廣汽本田P7能在新能源分一杯羹?

態(tài)度原創(chuàng)

時尚
家居
教育
親子
軍事航空

春天穿“韓系少女風(fēng)”的你,美到離譜!

家居要聞

現(xiàn)代本真 展現(xiàn)歸零心態(tài)

教育要聞

剛剛,青島四區(qū)義務(wù)教育招生政策公布

親子要聞

寶寶為了吃冰淇淋有多努力,還會提前查看媽媽是否睡著。

軍事要聞

烏遭俄導(dǎo)彈襲擊 澤連斯基喊話特朗普訪烏

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 民丰县| 南平市| 富平县| 永川市| 古浪县| 上蔡县| 河南省| 星座| 施甸县| 新乐市| 汉阴县| 博湖县| 南漳县| 广灵县| 安乡县| 米脂县| 南川市| 阿克陶县| 石楼县| 阆中市| 宁远县| 双流县| 息烽县| 柞水县| 洛阳市| 射阳县| 通辽市| 沙湾县| 汶川县| 井冈山市| 缙云县| 巴彦淖尔市| 搜索| 治多县| 台山市| 莲花县| 昌黎县| 凯里市| 都匀市| 平邑县| 旅游|