來源:騰訊科技(ID:qqtech)
作者:中存算董事長 陳巍,蘇揚
編輯:鄭可君
DeepSeek在春節期間的驚艷表現,成為中、美科技競爭的新變量。在技術方面,DeepSeek成功地摸索出了一套在“算力受限”的條件下,提升算力效率、實現大模型性能大幅躍升的路徑;對行業而言,DeepSeek自信地用開源的方式賦能各行各業;而對用戶來說,其免費商業模式也意外地推動了“AI技術平權”和“AI普惠”。
DeepSeek在全球AI產業掀起的技術、資本風暴,伴隨而來的是企業和用戶們瘋狂涌入帶來的“潑天”流量。
朱嘉明教授曾提到,人工智能未來的發展將會出現分叉:一種是更前沿、尖端、高成本的路線,旨在研究人類未知的領域;一種是走向低成本、大規模的大眾化路線,DeepSeek就是這種大眾路線的最佳踐行者——他們不僅選擇了大眾路線,也想把更多的人帶上這條路。
相比出圈爆火,DeepSeek做了一件更值得被記錄在大模型開源史上的事情——通過連續五天的發布,將其一路走來的方法論、“武功秘籍”公之于人,這其中包括:
開源針對Hopper架構GPU(例如H100或H800)加速MLA機制計算的FlashMLA內核
開源加速MoE模型高效通信和并行處理,實現H800帶寬翻倍的DeepEP代碼庫
開源采用CUDA編寫,適用于矩陣和MoE模型計算,支持FP8精度的高性能通用矩陣乘法庫DeepGEMM
開源V3/R1訓練中采用的計算與通信重疊的雙向管道/流水線并行算法DualPipe,用以提升資源利用率
開源利用SSD和RDMA網絡帶寬設計的并行文件系統3FS文件系統,用以提升模型訓推效率
現在,我們完全可以將DeepSeek稱之為 “OpenSeek” 。
DeepSeek“開源五日”這套動作,給外界的觀感是將CUDA、Hopper架構吃透了,甚至可以說DeepSeek的工程師,可能比英偉達的多數研究員更懂CUDA和Hopper,但相關研究的本質還是因為“算力受限”與成本高企。
那么問題來了,春節之后的這段時間,DeepSeek在用戶和市場份額上的走勢如何,其算力現狀是什么,他們究竟需要什么量級的算力,資本支出在什么量級,會給產業上下游帶來什么樣的機會?
1
DeepSeek接入潮的負效應:移動端日活減半
根據SensorTower數據,截至2025年2月24日,DeepSeek移動端近30天的平均日活為950萬,2月24日日活接近700萬,對比2月初1500萬的峰值數據,數據接近砍半。
日活用戶大幅度減少,與過去一段時間越來越多的終端廠商、云廠以及企業私有化部署所組成的“接入潮”有關。
此前,由于用戶扎堆導致DeepSeek官方服務頻繁異常,第三方接入后,大量用戶被分流至外部場景當中。
但同時,低頻用戶的熱情逐漸消退,也是DeepSeek月活下降的一個重要原因。所以,在多數對大模型感興趣的人都已下載的情況下,到2月24日,DeepSeek的日下載量下滑至75萬左右。相比之下,1月28日,DeepSeek在移動端創下了531萬的峰值紀錄。
面對如此的流量下滑之勢,DeepSeek的未來是否值得擔心?答案是否定的。
如果DeepSeek擔心用戶分流而反噬自己,就不會選擇開源核心模型和硬件效率提升的相關方法論,也更不會在行業里率先發起降價潮,你看最近他們又開始降價了,至少現在看,流量變現不是其最核心的目標。
當然,還要考慮另一重因素,我們所看到的流量下滑只是移動端趨勢的反應,一是網頁端、API接入的數據沒有披露,二是用戶使用頻次這類更細分的數據還未可知。
2
2000萬日活的入場券:預估需要2.78萬張GPU
相對其他同尺寸的稠密模型,DeepSeek R1模型的DeepSeekMoE+MLA(多頭注意力)架構具備顯著成本優勢。
單Token激活參數僅37B(670B全參數的5.5%),KV Cache對顯存的需求,降低至傳統架構的1/3~1/15,理論上顯存只需要14GB,而H800和A800這些特供版的顯存都是80GB。
注:KV Cache:將需要重復計算的結果進行緩存,需要緩存的值為歷史token對應的KV值,用以避免重復計算。
另外,DeepSeek R1/V3還采用了8位(而不是16位的格式)的FP8數據格式,使得所需的顯存進一步減少。
具體到部署方面,除了常見的IDC集群部署外,業界也為DeepSeek提供了開源的經濟型部署方案。例如清華KTransformers團隊針對參數存儲進行優化,使用單卡4090運行壓縮版671B DeepSeek。所以,這段時間很多人在談論大眾層面的“AI技術平權”,實際上在行業層面,DeepSeek以及清華KTransformers這樣的外部團隊的探索,以及陸續的開源動作,也可以歸結為一種由算力瓶頸驅動的算法平權。
前面提到,DeepSeek移動端大概950萬,如果網頁端+API也按照這個數據計算(實際上從辦公的角度看,web端流量應該更高),保守一點,我們假設其日活2000萬,那么這個量級的流量,需要多少模型,需要多少算力?
我們假設平均每個用戶每天10次問答,單次平均消耗10秒鐘,即1/8640天,這意味著2000萬日活對應的單日推理請求總計2億次,如果排隊的話,總耗時為2億×1/8640,即1個模型跑23148天,顯然這種策略不合理,但可以換一種理解方式,部署23148個模型并行跑1天。
考慮到推理集群、時差等因素需要設置一定量的冗余,在23148個模型的基礎上,取1.2作為系數估算(實際系數與服務和客戶活動曲線有關),即實際部署的并行模型數約為2.78萬。
回到模型本身,DeepSeek R1模型一共有256個專家,根據用戶群的需求動態調整細粒度專家的分布,這意味需要同時運行2.78萬個DeepSeek R1模型副本,以對應2000萬日活,人均10次問答(平均每次10秒)的推理需求。按照DeepSeek論文給出的優化部署方案,每個模型的共享專家與8個細粒度專家常駐一個GPU(更精準的描述是Prefill 1+9,Decode 1+2,不影響推算結果),最終需要2.78萬張GPU。
可能會有人問:單一GPU不能同時處理多個查詢請求嗎,實際場景中必須要這么多模型并行嗎?
正常情況下,單張GPU同一時刻只能運行一個模型,類似人腦同一時間只能處理一個對話。對單個GPU來說,多個并行查詢其實是時分復用排隊或眾核并行計算(不能處理太大計算)的方式,原則上一次對話,由集群分配給一個GPU或一組GPU盡快算完,然后處理下一個客戶的一次對話,這樣才會有大量GPU同時計算同時服務不同客戶。
注:數據根據前述假設和常規占用率估算,僅供參考,與實際數量不一定符合
3
養一個大模型團隊——60億元
2021年,DeepSeek母公司幻方量化在美國對華芯片出口管制生效前,前瞻性地采購了10000張英偉達A100 GPU。
受管制之后,英偉達連續為市場推出了H800、H20等多個特供版本,幻方量化也通過正規渠道采購了部分特供版以及其他型號合規的GPU,但具體數量未公開。
一個消息可以佐證這個推測——2024年,幻方旗下AI公司DeepSeek在訓練大模型時使用了2048塊英偉達H800 GPU集群,運行55天完成模型訓練。
考慮到高強度部署和高強度訓練接近占滿GPU(這里假設上述2048塊H800 GPU為白天訓練時專用,夜間會調度更多部署用途GPU給訓練),則幻方實際的卡數即2.78萬張(A100+H20)+2048張H800,總計29848張,大概在3萬張卡左右的規模。
注意,這些只是比較保守的預估,與國外技術媒體SemiAnalysis對DeepSeek GPU數量的預估在同一數量級。
3萬張卡的對于一家創企來說,規模已經相當大了。作為對比,硅谷的這些小巨頭們,像xAI Grok 3、OpenAI GPT4.5這些單一模型的訓練,就用到了10萬張、20萬張GPU。
就算基于性價比考慮,用于客戶服務的GPU估計主要為A100、H20,我們假設兩者按比例平均后批量采購價約為10萬元,2.78萬張大概為27.8億人民幣,另外2048張卡為H800,單卡按30萬人民幣計算,成本約為6億人民幣。
也就是說,幻方量化在GPU成本上的投入,總計應該不低于33.8億人民幣,再考慮到CPU、基礎設施建設等相關費用,預計硬件成本至少約為38億人民幣。
在這種規模的硬件投入以及API價格比OpenAI、kimi國內外的同類型產品便宜的情況下,還能做到545%的利潤率,確實非常出彩。不過這個利潤率只是單純的從API服務角度計算而來,未直接包含硬件折舊、人力、工程等諸多成本。
目前DeepSeek團隊規模約150人(新希望集團董事長劉永好也在近期采訪中確認和梁文鋒談話時被告知公司160人左右),主要從中國頂尖高校(如北大、浙大、清華)招聘,對核心研發人員提供年薪超934萬人民幣(約130萬美元,網傳消息),遠超國內同行水平。若以人均年薪500萬人民幣保守估算,僅人力成本年支出已達7.5億人民幣。
另外,綜合成本計算還要將數據成本、水電及管理費用計算在內,假設水電和管理費用為1.5億,則DeepSeek的研發成本顯著高于行業早期估算的557.6萬美元。
綜合計算,硬件、人力成本差不多47億人民幣左右,如果疊加配套軟件環境開發、數據獲取等隱性支出,其總研發投入應超過60億。
4
給國產算力帶來5000億的機會
這兩天,一些MaaS服務商在說接入DeepSeek虧錢的事情,忽略這種極端案例,總體來說,它給國產算力帶來的是一個巨大的機會。
在DeepSeek發布后,華為昇騰、沐曦等國產芯片廠商迅速完成DeepSeek全模型適配,翻譯過來就是,一些國產芯片也能較好地用于DeepSeek的推理服務,客戶們在英偉達H20之外,多了一個可選項。
根據業內傳出來的數據,DeepSeek爆發之后,H20 GPU8卡服務器的價格由從100萬以內,沖到了100萬以上,漲價幅度接近20%,消費級的4090 GPU則大量斷貨。
不過,這場接入潮對國產芯片的考驗不是它們能不能適配DeepSeek,而是有沒有足夠的產能來匹配這波“潑天的富貴”,加入“算力游戲”當中。
除了芯片層面的適配之外,服務器提供商這波跟進的也比較快,華為、新華三推出不同配置的DeepSeek大模型一體機服務器,支持從滿血版到蒸餾版不同尺寸模型的推理服務。
到目前為止,已經有幾十家的服務器提供商推出了相關的一體機產品,根據配置的差異,價格落在10萬-100萬這個區間。對于那些掌握私有化數據金礦的企業來說,這類一體機提供了API、模型服務商和云廠之外,更符合其私有化部署和安全策略的選擇。
關于其市場規模,浙商證券在研報中如此說道——2025年至2027年,DeepSeek一體機在央國企市場將達到1236、2937、5208億元。注意下,這還只是央國企市場。
所以,DeepSeek的爆火出圈,除了振奮了國產大模型的信心外,也為大模型的普及、落地進行了一場全球性的科普,同時給更多的上下游廠商帶來新的機會,這也是開頭我們所說的開源——它的能量、力量的表現。
你看,黃仁勛在2025財年第四季度財報電話會議上就說,“感謝DeepSeek,它開源了一個絕對世界級的推理模型”,對于享受這波紅利的國產廠商而言,更是如此。
說明:發布并不意味著我們贊同其觀點,只為多一個視角看待問題,部分信息和圖片無法核準,如涉權益,煩請聯系,我們將迅速處理,謝謝!有融資需求請加微信(FA_rzj),為方便備注,申請好友時請發送(姓名·城市·公司·職務)
- The End -
我們已經與阿里巴巴創新投資、達晨創投、高瓴資本、高榕資本、高特佳投資、戈壁創投、國新風投、國中創投、紅杉資本、華映資本、火山石投資、IDG、經緯中國、今日資本、紀源資本、君聯資本、聯想之星、藍馳創投、梅花天使基金、平安創投、啟賦資本、軟銀中國、賽伯樂投資、賽富基金、深創投、天圖資本、騰訊投資、五源資本、毅達資本、英諾天使基金、優勢資本、真格基金、浙商創投、中國風投、中國文化產業投資等近千家知名投資機構2000余名專業投資人建立廣泛聯系和合作。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.