網易首頁 > 網易號 > 正文申請入駐

為什么昇騰是DeepSeek的“最優解”？

2025-02-14 23:09:11　來源: 科技行者

山東舉報

分享至

作者 | 金旺

來源 | 科技行者

2月13日，OpenAI CEO Sam Altman公開表示，“GPT-5將會在未來幾個月發布，并將對公眾開放免費使用?！?/p>

直接跳過OpenAI o3，迎來免費版GPT-5，這與最近一段時間DeepSeek火爆全球不無關系。

作為全球大模型領域主導者，OpenAI不能失去自己的鐵王座，DeepSeek V3/R1在過去兩個月里為全球人工智能產業帶來的沖擊，讓這一領域的頭部玩家們不得不重新思考人工智能的創新節奏。

就在本周，百度創始人李彥宏在World Governments Summit 2025峰會上也談到，“每12個月，大模型的推理成本就會降低90%以上，這比以往計算機革命都要快很多。”

那么，DeepSeek究竟為人工智能產業帶來了怎樣的變化？它又需要怎樣的算力底座？

01 DeepSeek的鯰魚效應

2024年12月26日，國內一家成立僅一年多的AI團隊發布了一個名為DeepSeek V3的模型，這個模型是在14.8萬億高質量token上進行預訓練，并通過監督微調和強化學習進一步提高了模型的性能。

相較于五個月前發布的上一版本模型，這次他們采用了多頭潛在注意力 (MLA)和MoE架構，并引入了無輔助損失的負載均衡策略和多token預測訓練目標，這樣的好處是能夠實現高效推理和低成本訓練。

僅僅是在一個月后，這個團隊又發布了一個新模型，DeepSeek R1。

這次，他們僅用相當于OpenAI o1三十分之一的成本卻實現了比肩OpenAI o1的性能，尤其DeepSeek R1還以開源形式公開了它的思維鏈，這讓DeepSeek迅速火爆全球。

在這之后，我們看到，全球人工智能領域在短短一個月內經過了多次思想上的碰撞，推動了全球人工智能產業鏈的變革。

這場變革主要體現在三個方面：

第一，加速基座大模型創新。

此前，基座大模型的市場已經開始向幾家頭部AI玩家聚集，DeepSeek R1的出現，就像一條鯰魚，加快了基座大模型的競爭和創新速度。

我們不僅能看到OpenAI官方將在未來幾個月里推出免費版本的GPT-5，還看到了近期頭部AI玩家紛紛發布了性能更強的基座大模型，例如阿里發布了Qwen 2.5-Max，谷歌也發布了Gemini 2.0系列模型。

此外，頭部AI玩家紛紛加大了技術投入以維持自己的領先優勢。

例如，Meta創始人扎克伯格官宣加大2025年的AI投資，預計2025年在AI領域至少投入600-650億美元（2024年為400億美元）。

與此同時，谷歌的AI投資也將從525億美元增加到750億美元。

第二，加速應用創新。

在過去一個月里，我們看到國內四大云廠商接入了DeepSeek，看到國內三大運營商跑步接入了DeepSeek，與此同時，我們也看到在B端市場，越來越多企業正在加快接入DeepSeek。

有數據顯示，自DeepSeek R1發布后，僅僅20天內，國內外就已經有160多家企業接入了DeepSeek。

第三，加速大模型普及。

據QuestMobile統計數據顯示，DeepSeek日活躍用戶數在2月1日突破了3000萬大關，刷新了全球最快達成3000萬日活用戶榜單。

另一組來自Xsignal的數據顯示，截至2月8日，DeepSeek國內APP端日活用戶數達到了3494萬，海外APP端日活用戶數達到了3685萬，全球Web端日活更是達到4800萬，全球日活用戶總量達到1.19億。

用戶數的爆炸式增長，讓DeepSeek成為繼ChatGPT后大模型在消費市場普及的又一拐點，再次加速了大模型在消費市場的普及，以及更多大模型應用的涌現。

如果深究這場人工智能產業變革的本質，實際上是DeepSeek通過模型結構、計算通信、后訓練和推理等方面極致的工程優化，提升了算力利用率。

在這一過程中，DeepSeek的模型訓練效率提升了2~3倍，推理效率提升了5~7倍，與此同時，在整體訓練成本降低了60%的同時，模型性能提升了20%。

而在DeepSeek加速大模型技術創新和普及應用時，穩定可靠的算力底座，依舊是模型創新的根本。

02 昇騰提供的“最優解”

2月4日，DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro正式上線昇騰社區，支持一鍵獲取DeepSeek系列模型，支持在昇騰硬件平臺上開箱即用。

作為原生支持昇騰的DeepSeek，這時在國內已經有不少企業基于昇騰完成了DeepSeek的快速上線。

實際上，早在2024年，昇騰團隊就已經在研究并行解碼技術，這與DeepSeek V3/R1特有的多頭潛在注意力機制不謀而合。

2024年12月26日，在Deepseek-V3上線并開源后，昇騰、硅基流動與DeepSeek團隊進行了多次座談，共同研討聯合創新的機會。

在這之后，昇騰成了業界首個適配完成DeepSeek核心算法，支持DeepSeek全系模型預訓練及微調，也是國內業界唯一一個從預訓練到微調全流程適配DeepSeek的AI訓練平臺。

相關數據顯示，目前各行業已有80+企業基于昇騰快速適配/上線了DeepSeek系列模型并在對外提供服務，此外，還有20+企業在適配測試中，預計在未來兩周內全部完成上線，總體而言，國內70%的企業基于昇騰快速上線。

為什么這么多企業會選擇基于昇騰平臺來上線DeepSeek？

我們了解到，昇騰是目前進行DeepSeek部署的“最優解”。

就訓練能力而言，昇騰超節點支持DeepSeek全系模型預訓練及微調，支持DualPipe、跨節點All2All等DeepSeek核心優化技術，超大帶寬通信域更適合DeepSeek的流水線并行算法及冗余專家等能力。

DeepSeek R1是強化學習RL模型，昇騰超節點是更適合DeepSeek V3/R1的解決方案。

就推理能力而言，昇騰通過并行推理優化技術+專家負載均衡能力，助力DeepSeek模型推理吞吐性能提升30%+。

DeepSeek小專家創新架構，帶來的是通信耗時及專家負載不均挑戰，更多的小專家并行，引入極大的通信開銷，更多專家的數據負載難以均衡。

昇騰平臺通過偽EP混合并行算法，通信優化性能提升30%+，稀疏路由稠密化算法，訪存性能提升20%+，從而降低專家不均衡度，推理吞吐性能提升20%~35%。

此外，作為一個開放的AI基礎軟硬件平臺，昇騰平臺打造了Atlas系列硬件、異構計算架構CANN、全場景AI框架昇思MindSpore、昇騰應用使能以及一站式開發平臺ModelArts等全棧產品體系，并形成了規模龐大的產業生態。

據悉，截至2024年12月31日，昇騰已發展超過60硬件合作伙伴，330萬多開發者，2500多家行業合作伙伴，并共同孵化了150多個昇騰原生硬件產品，超過5800個解決方案。

面向DeepSeek掀起的這波大模型普及的技術浪潮，目前已有30+軟硬件伙伴基于昇騰推出DeepSeek一體機方案，昇騰一體機成了支持DeepSeek系列模型快速上線，支撐客戶生產系統的“最優解”。

此外，據公開信息統計，目前昇騰正在助力20+省、25城市公共算力服務平臺啟動部署DeepSeek系列模型，全國超70%區域可獲取本地支持。

如果說ChatGPT是大模型從技術研發到產業應用的一個拐點，那么，DeepSeek可以被視為第二個拐點。

接下來，我們將會在2025年看到大模型技術競爭更加激烈，也將會看到更多大模型應用在產業，乃至消費市場中陸續落地。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Transformer原作打臉DeepSeek觀點？一句Wait就能引發反思，RL都不用

新智元 2025-04-22 19:18:00
23 跟貼 23
Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0

DeepSeek如何改變世界？效率狂魔外，更有開源格局

雷科技 2025-03-11 16:49:46
2 跟貼 2

MIT開發新方法，無需從頭訓練機器人即可執行復雜任務

DeepTech深科技 2024-11-05 18:05:35
5 跟貼 5
上交基于AI開發多感官反饋系統及硬件，建立人機協同空間認知范式

DeepTech深科技 2025-04-24 23:02:43
0 跟貼 0

AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0

大模型正在打破教育領域的“不可能三角〞

量子位 2025-04-17 19:02:09
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0

宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
263 跟貼 263
實測訊飛曉醫VS DeepSeek-R1，誰是更懂你的家庭健康助手？

量子位 2025-03-08 19:20:56
0 跟貼 0
實現人類靈巧雙手技能向機器人遷移，通研院開源MANIPTRANS框架

DeepTech深科技 2025-04-24 23:07:22
5 跟貼 5
4o生圖前端效果騙了太多人，網友扒出逐行生成的演示當不得真

量子位 2025-04-02 21:22:14
0 跟貼 0
DeepSeek開口說話了反應超神無限打斷只要兩行代碼15分鐘

量子位 2025-03-07 14:20:34
0 跟貼 0
DeepSeek的橫空出世，讓AI+騰訊云數據庫產生了什么化學反應？

量子位 2025-03-04 20:07:47
0 跟貼 0
為什么日本出不來DeepSeek？

虎嗅APP 2025-04-24 21:34:12
7 跟貼 7
老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
單圖生成14秒吉卜力動畫，分享制作過程

量子位 2025-04-08 18:23:02
0 跟貼 0
人人都能做開發者！連小學生都能輕松上手的0代碼開發平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0
DeepSeek應用如何落地？解鎖性能釋放x多模態融合xRAG增強

量子位 2025-03-07 22:58:40
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
DeepSeek引爆AI革命，誰能笑到最后？

量子位 2025-03-11 17:16:22
0 跟貼 0
DeepSeek開口說話了：只要15分鐘就能讓DeepSeek開口說話

量子位 2025-03-10 18:03:15
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
面對AI應用落地難題，垂類大模型是突圍關鍵

量子位 2025-04-24 11:58:32
0 跟貼 0
亞馬遜與英偉達高管齊聲：AI數據中心建設熱度未見放緩

財聯社 2025-04-25 02:40:13
0 跟貼 0
OpenAI發最強圖像生成模型API！可高級定制功能，價格低至0.15元/圖

智東西 2025-04-24 23:20:11
0 跟貼 0
線性擴散模型LiT，極簡線性注意力助力擴散模型AIPC時代端側部署

機器之心Pro 2025-02-01 15:01:13
2 跟貼 2
大模型如何讓智能硬件有腦有腳、聽話能干？

36氪 2025-01-26 10:30:50
0 跟貼 0
史上最大人肉機械臂，能拿東西還能做復雜手勢

量子位 2025-03-29 17:36:24
0 跟貼 0
微軟發布首個開源2B參數規模原生1bit LLM：BitNet，單CPU就能跑

量子位 2025-04-23 16:13:42
0 跟貼 0
智能車速度刷新：僅10個月，首個純端側大模型上車量產！

量子位 2025-04-24 18:42:58
4 跟貼 4
媒體:董明珠稱"海歸派里有間諜絕不會用" 很違背常識

新民周刊 2025-04-24 18:45:08
31235 跟貼 31235
HSD能像人一樣思考？在上海街頭體驗未來駕駛的神級操作

量子位 2025-04-19 11:43:06
1 跟貼 1
董明珠正在發動一場非國民運動，很危險

熊太行 2025-04-24 15:47:49
15423 跟貼 15423
美媒放風：美國對華關稅可能將從145%降至50%

澎湃新聞 2025-04-24 11:11:01
603 跟貼 603
韓國稱DeepSeek未經同意將用戶數據傳至境外，外交部回應

新京報 2025-04-24 19:07:36
0 跟貼 0
諾獎得主辛頓：AI時代醫療領域會催生更多崗位！

盧菁老師 2025-04-23 17:18:38
0 跟貼 0
全球最小飛行機器人，直徑不到1cm，僅靠磁場驅動起飛

量子位 2025-04-22 23:35:16
8 跟貼 8
吉利智能蛋殼艙亮相車展，階躍星辰智能終端Agent生態再加碼

數智前線 2025-04-24 20:39:56
0 跟貼 0

科技行者

科技正在如何變革商業世界

5261文章數 524關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

藝術

健康

數碼

時尚

手機 / 數碼

房產 / 家居

為什么昇騰是DeepSeek的“最優解”？

3.99萬"白菜價"，人形機器人半馬亞軍爆單

"繼父生母虐死10歲男孩"案今日再開庭 男孩生父將到場

"繼父生母虐死10歲男孩"案今日再開庭 男孩生父將到場

拒當黑八倒霉蛋！廣廈又站到了遼寧面前

黃曉明生二胎！葉柯產女住上海高級醫院

特朗普考慮對華關稅分級方案

純電CLA L及Vision V概念車 奔馳這次玩大了

態度原創

“懷孕同事想讓我每天幫她打飯”上熱搜：遠離你身邊的巨嬰思維者

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎？

從小而美到全國第一！猛瑪靠什么贏得300萬用戶認可？

比T恤更時髦，它才是2025最火的上衣

為什么昇騰是DeepSeek的“最優解”？

"繼父生母虐死10歲男孩"案今日再開庭男孩生父將到場

"繼父生母虐死10歲男孩"案今日再開庭男孩生父將到場

拒當黑八倒霉蛋！廣廈又站到了遼寧面前

黃曉明生二胎！葉柯產女住上海高級醫院

純電CLA L及Vision V概念車奔馳這次玩大了

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎？

從小而美到全國第一！猛瑪靠什么贏得300萬用戶認可？

比T恤更時髦，它才是2025最火的上衣