ä¸èƒ½å†è‚了,但我åˆè¦ºå¾—DeepSeek值得。。。
這兩天,DeepSeekçš„é«˜å¼·åº¦é–‹æºæ³¢ï¼Œä¸€å±±æ›´æ¯”一山高。
先是給GPUå®‰è¶…é »åŠ é€Ÿå¤–æŽ›çš„ ï¼Œåˆæ˜¯å«è‹±å‰é”知é““原來GPU沒有商æ¥è·åŸŽæ²³â€çš„ 。
æˆ‘ä¹Ÿéƒ½ç¬¬ä¸€æ™‚é–“çµ¦å¤§å®¶å¸¶ä¾†äº†å ±é“。
åœ¨è¿½æ±‚æ•ˆçŽ‡ã€æŠŠç¡¬ä»¶è³‡æºå¹²ä¸‹ä¾†çš„路上,DeepSeekå¿«æˆAI性能效率上的Godfather了。。。
這回,他們開æºçš„æ˜¯ä¸€å€‹å«åšDeepGEMM的玩æ„兒,專門給當時爆cei全網的DeepSeek-V3åšçš„。
Github星星沒åŠå°æ™‚,就幾百個了。點的越多,æ„味著開æºå‹å‹å€‘越喜愛和越關注這個代碼倉庫,水分那是相當的少。一般幾åƒçš„æ˜Ÿæ˜Ÿå°±å·²ç¶“算是爆款了,åŠå°æ™‚就幾百,這個å«é‡‘é‡ä½ 懂的。
é–‹æºéˆæŽ¥åœ¨æ¤ï¼šhttps://github.com/deepseek-ai/DeepGEMM?tab=readme-ov-file
這æ±è¥¿ï¼Œå€’也沒那么難懂。
舉個例å,å‡å¦‚我çµå©šäº†ã€‚å ´é¢ç‰¹åˆ¥ç‰¹åˆ¥å¤§ï¼Œè¨˜å¾—是å‡å¦‚。。。
幾百è¬äººçµ„æˆçš„迎親隊ä¼ã€é»žéžç‚®å¾—é»žå¹¾å„„ç¨®ã€æŽ¥è¦ªéšŠä¼ä¹Ÿå«å€‹å¹¾ç™¾è¬äººä¾†ï¼Œç”šè‡³æˆ‘冿žé»žå¤§çš„出來,比如弄個幾è¬ç›žç‡ˆå…‰ç§€ã€‚
所有的一切的一切都需è¦è¨ˆç®—好時間點,相互之間得互相æé…。而DeepGEMM這æ±è¥¿ï¼Œèƒ½æŠŠä»¥ä¸Šæ‰€æœ‰æ±è¥¿å¡žé€²ä¸€å€‹çŸ©é™£é‡Œã€‚
所有迎親隊ä¼çš„實時行走軌跡ã€å•¥æ™‚候點éžç‚®çš„精細時間è¦åŠƒã€æŽ¥è¦ªéšŠä¼å¾—到哪里ç‰ã€ç‰å¤šä¹…,幾è¬ç›žç‡ˆå…‰ç§€å’Œå¹¾åƒè¬é¦–音樂秀,幾分幾秒,該怎么é…åˆï¼Œæ•ˆæžœæœ€å¥½ï¼Œç‰ç‰ã€‚
全都能放進矩陣里計算,這都快æˆåœ¨å¤©ä¸Šä¿¯çž°äººé–“çš„God了。。。
用技術語言說,就是:
DeepGEMM 是一個為 DeepSeek-V3 專門è¨è¨ˆçš„,用于 FP8 的,通用矩陣乘法(GEMMï¼‰åº«ã€‚é‚„æ”¯æŒæ™®é€šçš„和專家混åˆï¼ˆMix-of-Experts,MoE)分組 GEMM。
å®‰è£æ™‚ï¼Œä½ éƒ½ç„¡éœ€ç·¨è¯ï¼Œåªé€šéŽä¸€å€‹è¼•é‡ç´šçš„峿™‚ç·¨è¯ï¼ˆJIT)模塊,在é‹è¡Œæ™‚å°±å¯ä»¥ç·¨è¯æ‰€æœ‰å…§æ ¸äº†ã€‚牛逼,一點多余æ±è¥¿éƒ½ä¸èˆå¾—è®“ä½ å¤šå¹²æ´»ã€‚
而且,åªç”¨äº†300行代碼,實在是牛逼。。。
ç›®å‰ï¼ŒDeepGEMMè·Ÿå‰å…©å¤©ä¸€æ¨£ï¼Œé‚„æ˜¯åªæ”¯æŒHå¡ã€‚它為了讓FP8這種速度快但精度å低的計算方å¼è®Šå¾—更準確,利用了CUDAæ ¸å¿ƒåšäº†å…©æ¬¡ç´¯åŠ ã€‚
簡單說就是先用FP8完æˆå¿«é€Ÿè¨ˆç®—,然åŽå†ç”¨CUDAæ ¸å¿ƒå°çµæžœé€²è¡Œæ›´ç²¾ç´°çš„å†åŠ å·¥ï¼Œé€™æ¨£æ—¢èƒ½ä¿æŒé€Ÿåº¦å¿«ï¼Œé‚„能把精度æä¸ŠåŽ»ã€‚
DeepGEMM也借鑒了英å‰é”CUTLASSå’ŒCuTe的一些概念。
CUTLASS 是基于英å‰é”明星當家CUDA架構。簡單說,它是一個寫給 NVIDIA顯å¡çš„å·¥å…·åŒ…ï¼Œå°ˆé–€ç”¨ä¾†åŠ é€Ÿâ€œçŸ©é™£è¨ˆç®—â€çš„。
英å‰é”çš„CUTLASS實在是éŽäºŽé«˜æ•ˆï¼Œä»¥è‡³äºŽè¢«ç”¨ä¾†æ§‹å»ºå…§æ ¸æ™‚ï¼Œå¹¾ä¹Žèƒ½å¹«é¡¯å¡æŠŠçŸ©é™£è¨ˆç®—çš„æ€§èƒ½æ¦¨åˆ°æ¥µé™ï¼Œè·‘到顯å¡çš„ç†è«–峰值。
ä½†æ˜¯å¦‚æžœä½ æ‰‹é‡Œçš„ç¡¬ä»¶æ²’é‚£ä¹ˆå¼·å¤§ï¼Œå°±åƒå¾ˆå¤šç¾åœ¨çš„AIå…¬å¸å€‘é‚„åœåœ¨ä¸Šä¸€ä»£çš„å¡ä¸Šæ™‚,CUTLASSé€™ç¨®å¤§è€Œå…¨çš„åŠ é€Ÿå¥—ä»¶ï¼Œå°±æœ‰é»žç”¨ä¸ä¸Šäº†ã€‚
CUTLASS雖然時哥通用ã€åŠŸèƒ½å¼·å¤§çš„çŸ©é™£åŠ é€Ÿåº«ï¼Œä½†æ˜¯DeepGEMMé€™ç¨®æ¿€é€²çš„å„ªåŒ–æ–¹å¼æ›´å°ˆæ³¨ã€æ›´è¼•é‡ã€‚
深刻的展ç¾äº†DeepSeek那種“摳â€åˆ°æ¥µè‡´çš„ç†å¿µã€‚
把性能也摳到了極é™ã€‚
性能åªè¦å¡çš„䏿»ï¼ŒDeepSeek就能拿效率調優這æ¢è‡³ç°¡å¤§è·¯æ²–出來,無形ä¸é€£ç¾Žåœ‹ç®—力å°éŽ–éƒ½çµ¦æ…ç ´äº†ã€‚ã€‚ã€‚
它完全沒有一點å°è‹±å‰é”é …ç›®çš„æ¨¡ç‰ˆor代數的éŽåˆ†çš„ä¾è³´åº¦ï¼Œå…¨æ†‘自主。
è€Œä¸”ä¸æ¢æ˜¯è¼•é‡åŒ–,性能也是直接起飛。
按他們的話說,
åœ˜éšŠèªªï¼Œèƒ½å¤ åŒ¹é…甚至超越英å‰é”ã€ADMç‰ç‰å°ˆå®¶å°ˆé–€èª¿å„ªçš„庫。。。
比英å‰é”自己的CUTLASS 3.6,速度還æå‡äº†2.7å€ã€‚
他們在H800上,測試了 DeepSeek-V3 å’Œ R1 推ç†ä¸å¯èƒ½ç”¨åˆ°çš„æ‰€æœ‰çŸ©é™£æƒ…æ³ï¼Œæ€§èƒ½æ°´å¹³ï¼Œæˆ‘都整ç†åœ¨é€™äº†ã€‚
先是密集模型檔,估計è€é»ƒé‚£å€‹é …目的人,也很難想明白,幾百行代碼怎么調優調æˆé€™æ¨£çš„。。。
之å‰ä¸æ˜¯éƒ½èªªï¼Œç¡¬ä»¶æ˜¯æœ‰è·åŸŽæ²³çš„嘛。。。ç¾åœ¨çœ‹èµ·ä¾†ï¼ŒDeepSeek比英å‰é”都懂GPU。
ç„¶åŽå°±æ˜¯ç¾åœ¨è¢«ç¨±ç‚ºAI未來方å‘ä¹‹ä¸€çš„å°ˆå®¶æ··åˆæ¨¡åž‹MoE了。它在處ç†å¾©é›œä»»å‹™ä¸Šç¨æ¨¹ä¸€å¹Ÿã€‚æ•´é«”çš„æ€§èƒ½ï¼Œå¯¦åœ¨æ˜¯å¤ªç¡¬æ ¸äº†ã€‚æ•¸æ“šå¦‚ä¸‹ï¼š
但DeepSeek的人也確實說了。
DeepGEMMé›–ç„¶éžå¸¸ç‰›é€¼ï¼Œä½†æ˜¯åœ¨æŸäº›æƒ…æ³ä¸Šçš„表ç¾ç¢ºå¯¦ä¸å¤ªå¥½ï¼Œæ¡è¿Žæ‰€æœ‰äººä¸€èµ·æ”¹é€²ã€‚
具體的部署上,ä¾èˆŠå’Œä¹‹å‰æ¯æ¬¡DeepSeeké–‹æºæ™‚çš„å‹•ä½œä¸€æ¨£ï¼ŒæŠŠé£¯å–‚åˆ°ä½ å˜´é‚Šï¼Œé †ä¾¿èµ°çš„æ™‚å€™ï¼Œå†çµ¦ä½ 擦擦嘴。
å› ç‚ºç„¡éœ€ç·¨è¯ï¼Œéƒ¨ç½²é€Ÿåº¦æœƒæ›´å¿«ã€æ›´é †æš¢ã€‚這讓我想起來了當年的貼å§å¤§ç¥žå€‘,åªç•™ä¸‹å¯¶å…¸æ•™ç¨‹é‡Œæœ€æ ¸å¿ƒçš„éƒ¨åˆ†ï¼Œæ®æ®è¡£è¢–,就跑了。。。
隨著下一代基座模型,比如DeepSeek V4ã€GPT-4.5ç‰ç‰çš„åƒæ•¸å’Œå¾©é›œåº¦ç¹¼çºŒå¢žé•·æ™‚,深入到底層進行優化的DeepGEMM這種庫,真的會越來越é‡è¦ã€‚
AI圈åå…§æ›¾ç¶“å……æ–¥è‘—ï¼Œé–‰æºæ‰æ˜¯é€šå‘AGI的論調。
這平ç‰åœ°å‚·å®³äº†ï¼Œæ¯ä¸€å€‹è¸é€²AI大門的普通人們。
é–‰æºçš„AIä¸–ç•Œï¼Œå°±åƒæ˜¯é»‘暗森林。
æ¯å€‹äººéƒ½æ˜¯æ‹¿è‘—æ§è¿½è‘—ç¯ç«çš„çµäººã€‚
但DeepSeek這一舉。
讓我çªç„¶æƒ³èµ·ä¾†ã€Šæ•™çˆ¶ã€‹é‡Œé‚£å¥å言。
æ°¸é ä¸è¦å‹•怒。
絕ä¸è¦å¨è„…。
è¦è¬›é“ç†ã€‚
é–‹æºå°±æ˜¯DeepSeek這群家伙們的é“ç†ã€‚
共勉。
以上,既然看到這里了,如果覺得ä¸éŒ¯ï¼Œéš¨æ‰‹é»žå€‹è´Šã€åœ¨çœ‹ã€è½‰ç™¼ä¸‰é€£å§ï¼Œå¦‚果想第一時間收到推é€ï¼Œä¹Ÿå¯ä»¥çµ¦æˆ‘個星標?~è¬è¬ä½ çœ‹æˆ‘çš„æ–‡ç« ï¼Œæˆ‘å€‘ï¼Œä¸‹æ¬¡å†è¦‹ã€‚
>/ 作者:å¡èŒ²å…‹ã€èŠè˜å±±
>/ 投稿或爆料,請è¯ç³»éƒµç®±ï¼šwzglyay@gmail.com
ç‰¹åˆ¥è²æ˜Žï¼šä»¥ä¸Šå…§å®¹(å¦‚æœ‰åœ–ç‰‡æˆ–è¦–é »äº¦åŒ…æ‹¬åœ¨å…§)為自媒體平臺“網易號â€ç”¨æˆ¶ä¸Šå‚³å¹¶ç™¼å¸ƒï¼Œæœ¬å¹³è‡ºåƒ…æä¾›ä¿¡æ¯å˜å„²æœå‹™ã€‚
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.