99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek連開三源,解開訓練省錢之謎

0
分享至



“DeepSeek有效地駁斥了頻繁出現的在訓練方面‘他們撒謊了’的言論。”

舊金山人工智能行業解決方案提供商 Dragonscale Industries 的首席技術官 Stephen Pimentel在X上如是評論DeepSeek“開源周”。

“是的。以及關于5萬張H100的虛假傳聞(也被駁斥了)……”全球咨詢公司DGA Group合伙人、中美技術問題專家Paul Triolo也附和道。



DeepSeek“開源周”從2月24日至2月28日,共持續5天。會陸續開源5個項目。

過去三天的開源項目分別是:

l Day1:FlashMLA,針對英偉達Hopper架構GPU的高效MLA(多頭潛在注意力)解碼內核;

l Day2:DeepEP,首個用于MoE(混合專家)模型訓練和推理的開源EP(專家并行)通信庫;

l Day3: DeepGEMM,支持稠密和MoE模型的FP8計算庫,可為V3/R1的訓練和推理提供強大支持。

剛進行到第三天,“開源周”已經讓懷疑DeepSeek在訓練成本上“撒謊”的人噤聲了。因為每個開源項目都在向世界展示DeepSeek極致壓榨英偉達芯片的功力。

還有什么比“貼臉開大”更能打敗質疑的呢?

A

我們先來看看DeepSeek最新開源的DeepGEMM,只能說,在壓榨英偉達芯片、AI性能效率提高這方面,DeepSeek已經出神入化。

這是當初團隊專門給V3模型用的,現在就這么水靈靈地開源了,要不怎么說DeepSeek的誠意實在感人呢。

在GitHub上發布不到10個小時,就已經有2.6千個星星了。要知道一般來說,在GitHub上獲得幾千星星就已經算很成功了。



“DeepGEMM像是數學領域的超級英雄,快過超速計算器,強過多項式方程。我嘗試使用DeepGEMM時,現在我的GPU在計算時以每秒超過1350 TFLOPS(萬億次浮點運算)的速度運轉,好像已經準備好參加AI奧運會了!”一位開發者興奮地在X上表示。



DeepSeek新開源的DeepGEMM究竟是什么、意味著什么?

DeepSeek官方介紹DeepGEMM是一個支持密集型和MoE 模型的FP8 GEMM庫:

l 無重度依賴,像教程一樣簡潔;

l 完全JIT(即時編譯)

l 核心邏輯約300行代碼,在大多數矩陣尺寸下優于經過專家調優的內核

l 同時支持密集布局和兩種MoE布局

一句話定義:DeepGEMM是一款專注于FP8高效通用矩陣乘法(GEMM)的庫,主要滿足普通矩陣計算以及混合專家(MoE)分組場景下的計算需求。

利用該庫,能夠動態優化資源分配,從而顯著提升算力效率。

在深度學習中,FP8(8位浮點數)可以減少存儲和計算的開銷,但是缺點(特點)也有,那就是精度比較低。如果說高精度格式是無損壓縮,那FP8就是有損壓縮。大幅減少存儲空間但需要特殊的處理方法來維持質量。而由于精度低,就可能產生量化誤差,影響模型訓練的穩定性。

在報告中DeepSeek介紹:“目前,DeepGEMM僅支持英偉達Hopper張量核心。為了解決FP8張量核心積累的精度問題,它采用了CUDA核心的兩級積累(提升)方法。”

而DeepSeek為了讓FP8這種速度快但精度偏低的計算方式變得更準確,利用了CUDA核心做了兩次累加,先用FP8做大批量乘法,然后再做高精度匯總,以此防止誤差累積。既大幅減少空間,同時又保有精度,效率也就由此提升。

JIT(即時編譯)和Hooper張量核心也是絕配。

Hopper張量核心是專門為高效執行深度學習任務而設計的硬件單元,而JIT則意味著允許程序在運行時根據當前硬件的實際情況,動態地編譯和優化代碼。比如,JIT編譯器可以根據具體的GPU架構、內存布局、計算資源等實時信息來生成最適合的指令集,從而充分發揮硬件性能。

最最最驚人的是,這一切,都被DeepSeek塞進了約300行代碼當中。

DeepSeek自己也說:“雖然它借鑒了一些CUTLASS和CuTe的概念,但避免了對它們模板或代數的過度依賴。相反,該庫設計簡單,只有一個核心內核函數,代碼大約有300行左右。這使得它成為一個簡潔且易于學習的資源,適用于學習Hopper FP8矩陣乘法和優化技術。”

CUTLASS是英偉達自家的CUDA架構,專門給英偉達GPU來加速矩陣計算。畢竟官方出品,它的確非常好用。但它同時也很大很沉,如果手里的卡不太行,那還真不一定跑得了。

吃不上的饅頭再想也沒用啊,而DeepSeek的極致壓榨哲學就在這里閃爍光芒了。優化更激進、更聚焦,也更輕。

輕的同時表現也很好,在報告中,DeepSeek表示,DeepGEMM比英偉達CLUTLASS 3.6的速度提升了2.7倍。



還記得DeepSeek在春節時大火,人們使用后都在為其“科技浪漫”風觸動不已。

如今看來,DeepSeek的“科技浪漫”絕不僅僅在最終呈現給用戶的文字當中,DeepGEMM就像一把鋒利的小刀,在英偉達芯片上雕出漂亮的小花,線條簡潔又優雅。

B

不僅是DeepGEMM,DeepSeek前兩個開源項目也將其“科技美學”體現得淋漓盡致。

第一天,DeepSeek開源了FlashMLA。

用DeepSeek的話說,這是“用于Hopper GPU的高效MLA解碼內核,針對可變長度序列進行了優化。”

略過技術細節,我們來看看FlashMLA如何發揮作用。

首先,在大型語言模型推理時,高效的序列解碼對于減少延遲和提高吞吐量至關重要。FlashMLA針對變長序列和分頁KV緩存的優化,使其非常適合此類任務。

其次,像聊天機器人、翻譯服務或語音助手等應用需要低延遲響應。FlashMLA的高內存帶寬和計算吞吐量確保這些應用能夠快速高效地返回結果。

以及,在需要同時處理多個序列的場景(如批量推理)中,FlashMLA能夠高效地處理變長序列并進行內存管理,從而確保最佳性能。

最后,研究人員在進行新的AI模型或算法實驗時,可以使用FlashMLA加速實驗和原型開發,尤其是在處理大規模模型和數據集時。

還是兩個字:壓榨。在報告當中,DeepSeek表示,這個工具專門針對英偉達H800做優化——在H800 SXM5平臺上,如內存受限最高可以達到3000GB/s,如計算受限可達峰值580 TFLOPS。

第二天,DeepSeek開源了DeepEP。

用DeepSeek的話說,這是“首個用于 MoE 模型訓練和推理的開源 EP 通信庫”。

MoE即混合專家(Mixture of Experts),這種架構利用多個“專家”子模型來處理不同的任務。和使用單一大模型處理所有任務不同,MoE根據輸入選擇性地激活一部分專家,從而使模型更高效。

順帶一提,MoE和前文提到的MLA(多頭潛在注意力)正是DeepSeek所使用的降低成本的關鍵先進技術。

而DeepEP當中的EP則是指專家并行(Expert Parallelism),是MoE中的一種技術,讓多個“專家”子模型并行工作。

DeepEP這個庫,可以在加速和改善計算機(或GPU)之間在處理復雜機器學習任務時的通信,特別是在涉及混合專家(MoE)模型時。這些模型使用多個“專家”(專門的子模型)來處理問題的不同部分,而DeepEP確保數據在這些專家之間快速而高效地傳遞。

就像是機器學習系統中一個聰明的交通管理員,確保所有“專家”能夠按時收到數據并協同工作,避免延遲,使系統更加高效和快速。

假設你有一個大型數據集,并且想讓不同的模型(或專家)處理數據的不同部分,DeepEP會將數據在合適的時機發送給正確的專家,讓他們無需等待或造成延遲。如果你在多個GPU(強大的處理器)上訓練機器學習模型,你需要在這些GPU之間傳遞數據。DeepEP優化了數據在它們之間的傳輸方式,確保數據流動迅速而順暢。

即便你不是一個開發者,對以上內容并不完全理解,也能從中讀出兩個字來:高效。

這正是DeepSeek開源周所展現的核心實力——這家公司究竟是怎樣最大化利用有限的資源的。

C

自從DeepSeek開啟開源周,就不怎么見到此前對其發出質疑的人再有什么評論了。

正如本文開頭引用Pimentel的辣評:“DeepSeek有效地駁斥了頻繁出現的在訓練方面‘他們撒謊了’的言論。”

在去年12月關于V3的技術報告中,DeepSeek表示該模型使用了大約2000塊英偉達H800進行訓練,成本約為600萬美元。這個成本遠低于規模更大的競爭對手,后者動輒就是幾十億、上萬億美元的投入,OpenAI甚至在DeepSeek的R1模型走紅前,剛剛和甲骨文、軟銀攜手宣布了5000億美元的合資項目。

這也引發了對DeepSeek在開發成本方面誤導公眾的指控。

持有懷疑態度的包括但不限于Anthropic創始人達里奧·阿莫迪(Dario Amodei)、Oculus VR的創始人帕爾默·盧基(Palmer Luckey)。Oculus已經被Meta收購。

盧基就稱,DeepSeek的預算是“虛假的”,而阿莫迪干脆撰寫檄文呼吁美國加強芯片出口管制,指責DeepSeek“偷偷”用了大量更先進的芯片。

這些批評聲并不相信DeepSeek自己的表態——DeepSeek 在其技術報告中表示,高效訓練的秘訣是多種創新的結合,從MoE混合專家架構到MLA多頭潛在注意力技術。

如今,DeepSeek開源周零幀起手,就從這些技術的深度優化方面做開源。

Bindu Reddy在X上表達振奮的心情:“DeepSeek正在圍繞MoE模型訓練和推理開源極高效的技術。感謝DeepSeek,推動AGI的發展,造福全人類。”Reddy曾在谷歌擔任產品經理、在AWS擔任人工智能垂直領域總經理并,后創辦Abacus AI,是開源路線的信仰者。



有媒體評論道:“對于熱愛人工智能的人來說,FlashMLA就像一股清新的空氣。它不僅關乎速度,還為創造力和協作開辟了新途徑。”

在Github相關開源項目的交流區,不僅有技術交流,也有不少贊美之聲,甚至有中文的“到此一游”打卡貼。在中文互聯網上,人們已經開始把DeepSeek稱為“源神”。



DeepSeek有自己的難題嗎?當然有,比如商業化這個老大難問題,DeepSeek或許也得面對。但在那之前,它先將壓力給到了對手。

同樣是在Github的交流區,不少人想起了OpenAI,將DeepSeek稱為“真正的OpenAI”。OpenAI已經走上閉源之路好幾年,甚至被戲稱為“CloseAI”,直到DeepSeek出現,OpenAI的CEO山姆·奧特曼(Sam Altman)才終于松口,稱在開源/閉源的問題上,自己或許站在了歷史錯誤的一邊。

一周前,他曾經在X上發起投票,詢問粉絲希望OpenAI的下一個開源項目是什么類型的。

不過到目前為止,這一切都還在承諾中,并未見之于世。

另一邊,馬斯克的xAI,仍然在新一代發布時,開源上一代大模型。剛剛發布了Grok 3,宣布會開源Grok 2。

與此同時,DeepSeek的開源周,讓更多人擔心起英偉達,這個在AI浪潮中最大的受益者之一。

有人看著DeepSeek的開源項目一個接一個發布,在X上表示:“這是第三天看到我的英偉達股票正在火上烤。”



北京時間2月27日,既是DeepSeek開源周的第四天,是OpenAI放出開源信號的第九天,也是英偉達財報發布的日子。

OpenAI的開源項目會來嗎?英偉達的股價能穩住嗎?DeepSeek還將開源什么?人工智能戰場上,總是不缺少令人期待答案的問號。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巴鐵猛轟印軍!中國造武器成決勝關鍵?三大底牌曝光

巴鐵猛轟印軍!中國造武器成決勝關鍵?三大底牌曝光

Ck的蜜糖
2025-04-26 10:38:23
哈爾濱市發布“五一”假期“3+21+40”系列促消費活動

哈爾濱市發布“五一”假期“3+21+40”系列促消費活動

人民資訊
2025-04-27 16:14:11
人活多久,看小便就知道?提醒:排尿時若有4個變化,應盡早檢查

人活多久,看小便就知道?提醒:排尿時若有4個變化,應盡早檢查

39健康網
2025-04-27 20:30:55
小龍蝦價格“大跳水”,為啥人們不愛吃了?4個原因勸退消費者

小龍蝦價格“大跳水”,為啥人們不愛吃了?4個原因勸退消費者

小談食刻美食
2025-04-26 08:24:08
教皇葬禮:熱烈掌聲獻給澤連斯基,梵蒂岡教廷破例安排C位

教皇葬禮:熱烈掌聲獻給澤連斯基,梵蒂岡教廷破例安排C位

鷹眼Defence
2025-04-27 18:21:46
緊張時間,巴基斯坦打通了王毅的電話

緊張時間,巴基斯坦打通了王毅的電話

頭條爆料007
2025-04-27 22:14:56
張蘭失去的俏江南,現在居然在張蘭前夫汪璽手里,真相原來是這樣

張蘭失去的俏江南,現在居然在張蘭前夫汪璽手里,真相原來是這樣

她時尚丫
2025-04-23 15:14:13
潘江:很多隊員在吃止疼片堅持,北汽的人員配備數一數二

潘江:很多隊員在吃止疼片堅持,北汽的人員配備數一數二

雷速體育
2025-04-27 13:31:06
降維打擊能讓人多無助?網友:本人今年38,能單挑幼兒園所有學生

降維打擊能讓人多無助?網友:本人今年38,能單挑幼兒園所有學生

解讀熱點事件
2025-04-26 00:10:07
銀行存款大調整!2025年4月起,存款超50萬的家庭需留意!

銀行存款大調整!2025年4月起,存款超50萬的家庭需留意!

巢客HOME
2025-04-08 20:33:26
歐美高科技為啥不賣給中國?荷蘭:我70萬的平衡車,他們600拿下

歐美高科技為啥不賣給中國?荷蘭:我70萬的平衡車,他們600拿下

看世界的人
2025-04-26 11:21:26
這6樣東西“沒有保質期”,過期了也能用,別再傻乎乎地扔了!

這6樣東西“沒有保質期”,過期了也能用,別再傻乎乎地扔了!

室內設計師有料兒
2025-03-10 09:05:09
直接給100萬到你卡里!這你受得了?杭州人才購房補貼太果決了…

直接給100萬到你卡里!這你受得了?杭州人才購房補貼太果決了…

火山詩話
2025-04-27 11:51:55
留學生圍毆高校生后續:知情人曝聊天記錄,校方回應,還原經過

留學生圍毆高校生后續:知情人曝聊天記錄,校方回應,還原經過

鋭娛之樂
2025-04-26 14:22:02
溫哥華突發,已致9死!正核查是否有中國公民

溫哥華突發,已致9死!正核查是否有中國公民

都市快報橙柿互動
2025-04-27 21:05:28
湖南衛視首播!開播一天沖上收視第一,演員陣容雄厚,值得重溫!

湖南衛視首播!開播一天沖上收視第一,演員陣容雄厚,值得重溫!

手工制作阿殲
2025-04-27 15:15:25
所以他倆在海邊真的親了嗎

所以他倆在海邊真的親了嗎

悅君兮君不知
2025-04-28 00:57:44
巨大隱患!杰曼&古德溫雙雙被奪權,若累計兩次將自動停賽兩場

巨大隱患!杰曼&古德溫雙雙被奪權,若累計兩次將自動停賽兩場

雷速體育
2025-04-27 22:52:18
沒想到大阪萬世會的“頂流”竟然是印度館?日本網友紛紛“跪求”印度館別開門了...

沒想到大阪萬世會的“頂流”竟然是印度館?日本網友紛紛“跪求”印度館別開門了...

日本物語
2025-04-27 20:37:59
豪橫!上海10后小孩鬧車展,媽媽當場訂車。網友:校服不簡單!

豪橫!上海10后小孩鬧車展,媽媽當場訂車。網友:校服不簡單!

阿矗論古今
2025-04-27 16:58:58
2025-04-28 05:47:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
1837文章數 7990關注度
往期回顧 全部

科技要聞

充1秒跑2.5公里,寧德時代比亞迪華為激戰

頭條要聞

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

頭條要聞

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

華表獎獲獎名單!張譯二影帝惠英紅勇影后

財經要聞

2千億!核電開閘 國常會核準10臺新機組

汽車要聞

蔚來李斌的"十年磨一劍" 從看得見 到看不見

態度原創

房產
時尚
親子
數碼
本地

房產要聞

首開2小時熱銷超 200 套!天河芯紅盤憑什么交出樓市滿分答卷?

5條適合春天的裙子、褲子!溫柔顯瘦美到爆炸!

親子要聞

海洋球分類挑戰!

數碼要聞

AMD新一代筆記本GPU陣容曝光 共6款型號 劍指英偉達?  

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 吉水县| 溧阳市| 临汾市| 吴忠市| 逊克县| 内黄县| 通化市| 依安县| 承德市| 南阳市| 乌拉特前旗| 盱眙县| 桃园县| 衡东县| 门源| 桐梓县| 宁波市| 白沙| 德安县| 洞口县| 岫岩| 闽清县| 镇远县| 贵德县| 宿迁市| 建湖县| 辉县市| 靖安县| 阳泉市| 普陀区| 英山县| 蒙自县| 永修县| 大同市| 探索| 望都县| 普兰店市| 海安县| 邯郸县| 环江| 临朐县|