【摘要】2025年初,DeepSeek-R1開源大模型的發布掀起了一輪國產AI芯片產業變革,英偉達主導的“算力至上”秩序開始被撼動。
國內AI芯片廠商迎來一輪新機遇,但華為昇騰、昆侖芯、燧原科技、海光信息等紛紛完成模型適配。
但新一輪行業分化卻逐漸暴露:當頭部廠商憑借技術積累與生態布局主導市場,中小玩家可能即將面臨邊緣化。
國產算力正從“實驗室參數競賽”轉向“生態統治力之爭”,馬太效應下,未來十年的競爭邊界正與此刻的場景落地速度密切相關。
以下為正文:
2025年1月20日,中國AI初創公司深度求索(以下簡稱DeepSeek)發布開源大模型DeepSeek-R1,短短7天用戶量突破1億,下載量超越ChatGPT的歷史峰值。
大模型遍地走的年初,這場看似普通的技術發布,卻引發了一場難以預料的資本市場海嘯:1月27日,英偉達股價單日暴跌16.9%,市值一度蒸發6000億美元。
DeepSeek-R1的顛覆性,參數規模(671B)還在其次,重點在于其用十分之一的算力成本實現了幾乎對標GPT-4的性能。
“算力至上”的行業鐵律在彼時悄然間裂了條縫——當算法效率的提升速度超過摩爾定律,依賴硬件堆砌的舊秩序似乎正在崩塌。
更深遠的影響在于,這場“效率革命”真正意義上帶動了AI大模型應用的浪潮,各行各業開始第一次真正體會到大模型的深度推理鏈路,而頻繁彈出的“系統繁忙”字樣,則催生了另一波國產風口。
此刻,距離DeepSeek-R1發布剛剛一月有余,但一個曾被英偉達陰影籠罩的市場,正在悄然切換至“國產替代”的快車道。
01
DeepSeek成了國產AI芯片的“催化劑”
從來沒有一家大模型企業能夠在最短時間內吸引最大規模的AI芯片廠商加入適配。
2月初,一半的國產智算力量已經投入其中。華為昇騰、海光信息、昆侖芯、燧原科技、沐曦、天數智芯、摩爾線程、壁仞科技、太初元碁、云天勵飛10家國產AI芯片企業相繼宣布適配或上架DeepSeek模型服務。
為何AI芯片企業這次動作如此之快,其中一個原因是DeepSeek開源框架對硬件生態的強兼容性,芯片廠商能夠從被動適配國際標準轉向主動定義本土生態,這是各頭部玩家能夠快速展開身手的重要因素。
DeepsSeek的開源模塊側面證明了一個事實:國產企業有能力深入剖解英偉達CUDA和并行計算芯片的緊密耦合模式,后者是傳統AI研究領域認為不可撼動的軟硬件基礎設施,是英偉達寬闊的護城河。
據Nextplatform報道,DeepSeek-R1在訓練方面使用了約2000張英偉達H800GPU;在推理層面,DeepSeek-R1采用混合專家架構,推理時僅激活約10%的參數量,大幅降低了計算資源消耗。
當訓練成本下降為行業巨頭的十分之一,中小企業甚至個體的需求就被飛速激發了出來。
近一個月來,越來越多的公司利用AI技術來提升產品和服務,有效推動業務的數字化轉型。
推理端需求則開始飛速增長,國產AI芯片正是在這一過程中迎來了大規模的市場機遇。
當前,市場普遍認為,一方面,訓練成本大幅降低推動AI商業化進程加速落地,推理環節的算力需求得到增強;另一方面,有限算力亦可實現高性能模型的結果則有望帶來現階段國產算力的機遇。DeepSeek全面開源的策略以及極具性價比的API定價已經開始推動AI應用軟件的快速迭代發展。
當進口硬件的依賴破除和下游市場的需求增長同時到來,此前那個萬億級別市場的故事才真正開始說得通。
02
誰是浪潮中的“急行軍”?
理論來看,DeepSeek的爆發既然是算法革命的勝利,應該對中小AI芯片科技企業有更多的利好,但從實際情況上看,這場適配競賽中,頭部的華為昇騰、海光信息、昆侖芯、燧原科技等玩家反而正在憑借技術積累與生態布局先一步突圍。
與之伴隨的,是市場分化與垂直場景的爭奪戰。
舉例而言,今年2月初,DeepSeek就與華為云攜手,聯合推出了基于華為云昇騰云服務的DeepSeek R1/V3推理服務。
按照宣傳,這一服務的推出,得益于DeepSeek自研推理加速引擎的加持,使得在華為云昇騰云服務上部署的DeepSeek模型能夠取得與全球高端GPU部署模型相當的效果。
緊接著的2月13日,華為宣布推出昇騰DeepSeek一體機,在提供強大算力、簡化部署流程、降低運維成本、推動AI應用創新等方面具有足夠的優勢。
畢竟,華為的全棧能力是能夠支撐起短期內構建起的護城河的。這一能力對于迅速構建起“硬件-框架-模型”全棧優化的效果至關重要。
除此之外,一個頗值得玩味的現實是:盡管當前推出的機器五花八門,但不少受限于本身的實力,是僅支持參數量較少的“蒸餾”模型的單機設備,或者是通過多機協同部署“滿血版”的DeepSeek R1。
通俗來講,市場給了中小廠商露臉的機會,但大家實際一體驗,卻發現還是槽點滿滿。
這時候,能夠支持滿血版DeepSeek R1的單機設備顯得尤為可貴。
而昆侖芯則在此時成為國內少有的、能支持單機部署滿血版DeepSeek R1的芯片。
今年2月20日,昆侖芯科技宣布,其P800成為首款支持單機部署DeepSeekV3/R1671B滿血版大模型的國產AI芯片,按照昆侖芯的官方信息,P800在配置上提供了8卡與16卡兩種選擇。
其中,單機8卡配置便可實現 2437 tokens/s 吞吐(處理數據快),在性能、功耗和部署靈活性上達到行業領先水平,滿足輕量化與極致效價比需求。如果使用16卡版本,則最高能夠實現每秒處理4825個token的吞吐量。
據公開資料,百度智能云已經推出搭載昆侖芯 P800的百舸、千帆一體機產品,能夠達到單機高吞吐,數據處理速度快,可支持500人團隊并發使用,推理延遲低,響應速度快,平均50毫秒以內,運維成本低,最高可降低80%,這使其價格成為了國內最低的方案。
另一邊,同樣作為國產算力領軍企業,燧原科技目前已經完成對DeepSeek全量模型的高效適配,包括DeepSeek-R1/V3 671B原生模型、DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸餾模型。
值得一提的是,整個適配進程中,燧原AI加速卡的計算能力得到充分利用,能夠快速處理海量數據,同時其穩定性和大規模部署能力成為區別于其他廠商的優勢。
目前,DeepSeek的全量模型已在慶陽、無錫、成都等智算中心完成了數萬卡的快速部署,這種超大規模集群的部署能力在當下其實不可或缺。
與之對應的是燧原的豐富生態,其已經與并濟科技、并行科技、東華軟件、道客網絡、光環云、邁富時、清程極智、燧弘華創、未來速度、無問芯穹、向量棧、億算智能、中科加禾等企業開始推進DeepSeek全量模型的更多系統級優化,進一步提升模型在推理系統的性價比。
按照此前消息,燧原科技還將與萬物安全、飛渡科技、萬物之宜等深度合作,推出面向“智慧城市、智慧園區、智慧交通”等AIoT場景的國內首個DeepSeek智算訓推一體機,幫助用戶解決國產化私有算力、超清數字孿生及物聯網安全等問題。
另一邊,此前一直在布局DCU(深度計算單元)的海光信息也已經成功完成并上線了DeepSeek V3和R1模型與海光DCU的適配。
得益于DCU采用的GPGPU通用加速計算架構,DeepSeek模型能夠直接在DCU上運行,無需進行大規模的適配工作。
以大規模深度學習模型訓練為例,使用海光 DCU 搭配 DeepSeek 新技術,在電力消耗和硬件采購成本上,相較于英偉達 GPU 有著明顯的優勢。而且,隨著技術的不斷優化,海光 DCU 的單位計算成本還在持續下降。
以往需要數周時間才能完成訓練的大型模型,現在借助新技術,可能只需短短幾天,這對于那些對時間成本極為敏感的科研項目和商業應用來說,具有極大的吸引力。
以上四家的關鍵,或是優質的全棧能力、或是優質的滿血版支持能力、或是大規模集群能力又或是超前的技術布局和生態適配,但無論哪一種,其實都是頭部玩家才能有的資源和積累。
一個事實已經在若隱若現,國產AI芯片內部的超車可能并不一定容易,生態整合與場景落地的協同效率可能正在推動新一輪“馬太效應”的產生,強者或許更強。
03
正在分野的國產AI芯片
DeepSeek問世之前,從紙上參數到實戰驗證,市場其實已經給了一段不短的時間。
而這場突如其來的技術浪潮,反而成了一場針對AI芯片玩家的“壓力測試”——唯有過去數年深耕芯片架構設計、工具鏈生態與場景適配能力的廠商,才能在新一輪風口中迅速抓住機遇。
將DeepSeek的適配競賽比作國產芯片技術路線的“照妖鏡”其實并不為過。
以華為昇騰為例,其自研達芬奇架構與CANN異構計算框架,早在前幾年便通過MindSpore社區積累了大量開發者生態。這也是其迅速完成DeepSeek全系列模型部署的關鍵基礎。
相比之下,部分還在依賴第三方IP授權的廠商,短期內還缺乏自主工具鏈優化能力,而如果只能拿出一個參數量壓縮后的蒸餾模型,很快便會難以服眾。
昆侖芯也正是搶先一步抓住“滿血版”布局這一關鍵要素,才能在資本市場冷靜之后持續體現價值。
正是得益于昆侖芯成本優勢,在私有化部署方面,百度智能云已經推出搭載昆侖芯 P800的百舸、千帆一體機產品,可支持在單機環境下一鍵部署DeepSeek R1/V3全系列模型。
滿血版背后,則是昆侖芯P800萬卡集群成功點亮,且將進一步點亮3萬卡集群。
數據指標上看,昆侖芯P800在性能上表現卓越。其顯存規格比同類主流GPU高出20%-50%,對MoE架構更為友好,并且率先支持8bit推理,單機8卡就能運行671B模型。
這使得昆侖芯在部署上更加輕松,運行成本顯著降低,還能輕松完成DeepSeek-V3/R1全版本推理任務。不僅如此,昆侖芯P800在DeepSeek系列MoE模型大規模訓練任務中也表現出色,全面支持MLA、多專家并行等特性,僅需32臺即可支持模型全參訓練,高效助力模型的持續訓練和微調。
與此同時,燧原科技在國內大規模點亮的萬卡集群,則是中小廠商難以在短期內“補作業”式趕上的壁壘。
基于此,這場分化背后,實際是生態整合速度與場景落地實力的終極比拼。
一個殘酷的產業邏輯是:技術積累的厚度,決定了市場卡位的速度,而生態整合的深度,正在劃定未來十年的競爭邊界。
馬太效應的齒輪開始轉動,國產AI芯片的終極戰場,已從實驗室的參數競賽,轉向真實世界的生態統治力之爭。
04
尾聲
2025年的DeepSeek,實際提前揭開了國產AI芯片蟄伏多年的技術底牌。
對外而言,這場由算法效率掀起的風暴,確實在一定程度上改寫了算力至上的行業敘事。
但對內而言,單純的國產替代之外,一場從硬件架構到生態話語權的系統革命正在引發新一輪頭部效應。
一個更殘酷的真理很快被擺上臺面:在半導體這場馬拉松中,沒有彎道超車的童話,只有厚積薄發的必然。
站在算力革命的分水嶺回望,英偉達單日市值蒸發6000億美元的震蕩,不過是一個太小的插曲,真正的終局之戰,已經在各家搶先布局的架構能力、萬卡集群中寫好了結果。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.