作者 | 金旺
來源 | 科技行者
2月13日,OpenAI CEO Sam Altman公開表示,“GPT-5將會在未來幾個月發布,并將對公眾開放免費使用?!?/p>
直接跳過OpenAI o3,迎來免費版GPT-5,這與最近一段時間DeepSeek火爆全球不無關系。
作為全球大模型領域主導者,OpenAI不能失去自己的鐵王座,DeepSeek V3/R1在過去兩個月里為全球人工智能產業帶來的沖擊,讓這一領域的頭部玩家們不得不重新思考人工智能的創新節奏。
就在本周,百度創始人李彥宏在World Governments Summit 2025峰會上也談到,“每12個月,大模型的推理成本就會降低90%以上,這比以往計算機革命都要快很多。”
那么,DeepSeek究竟為人工智能產業帶來了怎樣的變化?它又需要怎樣的算力底座?
01 DeepSeek的鯰魚效應
2024年12月26日,國內一家成立僅一年多的AI團隊發布了一個名為DeepSeek V3的模型,這個模型是在14.8萬億高質量token上進行預訓練,并通過監督微調和強化學習進一步提高了模型的性能。
相較于五個月前發布的上一版本模型,這次他們采用了多頭潛在注意力 (MLA)和MoE架構,并引入了無輔助損失的負載均衡策略和多token預測訓練目標,這樣的好處是能夠實現高效推理和低成本訓練。
僅僅是在一個月后,這個團隊又發布了一個新模型,DeepSeek R1。
這次,他們僅用相當于OpenAI o1三十分之一的成本卻實現了比肩OpenAI o1的性能,尤其DeepSeek R1還以開源形式公開了它的思維鏈,這讓DeepSeek迅速火爆全球。
在這之后,我們看到,全球人工智能領域在短短一個月內經過了多次思想上的碰撞,推動了全球人工智能產業鏈的變革。
這場變革主要體現在三個方面:
第一,加速基座大模型創新。
此前,基座大模型的市場已經開始向幾家頭部AI玩家聚集,DeepSeek R1的出現,就像一條鯰魚,加快了基座大模型的競爭和創新速度。
我們不僅能看到OpenAI官方將在未來幾個月里推出免費版本的GPT-5,還看到了近期頭部AI玩家紛紛發布了性能更強的基座大模型,例如阿里發布了Qwen 2.5-Max,谷歌也發布了Gemini 2.0系列模型。
此外,頭部AI玩家紛紛加大了技術投入以維持自己的領先優勢。
例如,Meta創始人扎克伯格官宣加大2025年的AI投資,預計2025年在AI領域至少投入600-650億美元(2024年為400億美元)。
與此同時,谷歌的AI投資也將從525億美元增加到750億美元。
第二,加速應用創新。
在過去一個月里,我們看到國內四大云廠商接入了DeepSeek,看到國內三大運營商跑步接入了DeepSeek,與此同時,我們也看到在B端市場,越來越多企業正在加快接入DeepSeek。
有數據顯示,自DeepSeek R1發布后,僅僅20天內,國內外就已經有160多家企業接入了DeepSeek。
第三,加速大模型普及。
據QuestMobile統計數據顯示,DeepSeek日活躍用戶數在2月1日突破了3000萬大關,刷新了全球最快達成3000萬日活用戶榜單。
另一組來自Xsignal的數據顯示,截至2月8日,DeepSeek國內APP端日活用戶數達到了3494萬,海外APP端日活用戶數達到了3685萬,全球Web端日活更是達到4800萬,全球日活用戶總量達到1.19億。
用戶數的爆炸式增長,讓DeepSeek成為繼ChatGPT后大模型在消費市場普及的又一拐點,再次加速了大模型在消費市場的普及,以及更多大模型應用的涌現。
如果深究這場人工智能產業變革的本質,實際上是DeepSeek通過模型結構、計算通信、后訓練和推理等方面極致的工程優化,提升了算力利用率。
在這一過程中,DeepSeek的模型訓練效率提升了2~3倍,推理效率提升了5~7倍,與此同時,在整體訓練成本降低了60%的同時,模型性能提升了20%。
而在DeepSeek加速大模型技術創新和普及應用時,穩定可靠的算力底座,依舊是模型創新的根本。
02 昇騰提供的“最優解”
2月4日,DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro正式上線昇騰社區,支持一鍵獲取DeepSeek系列模型,支持在昇騰硬件平臺上開箱即用。
作為原生支持昇騰的DeepSeek,這時在國內已經有不少企業基于昇騰完成了DeepSeek的快速上線。
實際上,早在2024年,昇騰團隊就已經在研究并行解碼技術,這與DeepSeek V3/R1特有的多頭潛在注意力機制不謀而合。
2024年12月26日,在Deepseek-V3上線并開源后,昇騰、硅基流動與DeepSeek團隊進行了多次座談,共同研討聯合創新的機會。
在這之后,昇騰成了業界首個適配完成DeepSeek核心算法,支持DeepSeek全系模型預訓練及微調,也是國內業界唯一一個從預訓練到微調全流程適配DeepSeek的AI訓練平臺。
相關數據顯示,目前各行業已有80+企業基于昇騰快速適配/上線了DeepSeek系列模型并在對外提供服務,此外,還有20+企業在適配測試中,預計在未來兩周內全部完成上線,總體而言,國內70%的企業基于昇騰快速上線。
為什么這么多企業會選擇基于昇騰平臺來上線DeepSeek?
我們了解到,昇騰是目前進行DeepSeek部署的“最優解”。
就訓練能力而言,昇騰超節點支持DeepSeek全系模型預訓練及微調,支持DualPipe、跨節點All2All等DeepSeek核心優化技術,超大帶寬通信域更適合DeepSeek的流水線并行算法及冗余專家等能力。
DeepSeek R1是強化學習RL模型,昇騰超節點是更適合DeepSeek V3/R1的解決方案。
就推理能力而言,昇騰通過并行推理優化技術+專家負載均衡能力,助力DeepSeek模型推理吞吐性能提升30%+。
DeepSeek小專家創新架構,帶來的是通信耗時及專家負載不均挑戰,更多的小專家并行,引入極大的通信開銷,更多專家的數據負載難以均衡。
昇騰平臺通過偽EP混合并行算法,通信優化性能提升30%+,稀疏路由稠密化算法,訪存性能提升20%+,從而降低專家不均衡度,推理吞吐性能提升20%~35%。
此外,作為一個開放的AI基礎軟硬件平臺,昇騰平臺打造了Atlas系列硬件、異構計算架構CANN、全場景AI框架昇思MindSpore、昇騰應用使能以及一站式開發平臺ModelArts等全棧產品體系,并形成了規模龐大的產業生態。
據悉,截至2024年12月31日,昇騰已發展超過60硬件合作伙伴,330萬多開發者,2500多家行業合作伙伴,并共同孵化了150多個昇騰原生硬件產品,超過5800個解決方案。
面向DeepSeek掀起的這波大模型普及的技術浪潮,目前已有30+軟硬件伙伴基于昇騰推出DeepSeek一體機方案,昇騰一體機成了支持DeepSeek系列模型快速上線,支撐客戶生產系統的“最優解”。
此外,據公開信息統計,目前昇騰正在助力20+省、25城市公共算力服務平臺啟動部署DeepSeek系列模型,全國超70%區域可獲取本地支持。
如果說ChatGPT是大模型從技術研發到產業應用的一個拐點,那么,DeepSeek可以被視為第二個拐點。
接下來,我們將會在2025年看到大模型技術競爭更加激烈,也將會看到更多大模型應用在產業,乃至消費市場中陸續落地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.