(關注公眾號設為標,獲取AI深度洞察)
全文 14,000字 | 閱讀約42分鐘
【核心要點預覽】
DeepSeek頂級AI模型,引發NVIDIA單日蒸發6000億美元市值。
NVIDIA面臨來自Cerebras等硬件創新者、CUDA生態被削弱、科技巨頭自研芯片三重挑戰。
DeepSeek通過FP8訓練、多詞元預測、改良MOE架構等創新,實現了AI訓練和推理效率的重大突破。
這場風暴連帶影響Broadcom、臺積電、微軟等科技巨頭,總計市值蒸發超1400億美元。
NVIDIA 75%的高毛利率可能難以持續,整個AI芯片產業格局面臨重構。
今天是除夕,先祝各位大家春節快樂!
在2025年1月27日周一的美國科技市場,半導體巨頭英偉達(NVIDIA)遭遇了史上最大規模的市值蒸發。從1月24日(周五)到1月27日(周一),英偉達股價從142.62美元暴跌至118.58美元,跌幅高達16.9%,市值蒸發近6000億美元。這場驚人的跌勢不僅令英偉達元氣大傷,更引發了整個科技行業的連鎖反應。
這場股市風暴的導火索,是國內AI公司DeepSeek發布的R1模型。這個模型證明了一個重要觀點:打造出色的AI模型,未必需要昂貴的高端芯片。這個發現對以高端AI芯片著稱的英偉達來說無疑是個重大打擊。
那么,DeepSeek究竟做出了什么突破?為什么能在AI領域掀起如此巨大的波瀾?讓我們深入解析這家"黑馬"公司的技術創新。
一、牛市論點
讓我們先簡要回顧一下大家都耳熟能詳的“看多 NVDA ”邏輯。Deep learning 和 AI 是自互聯網以來最具變革性的技術,將滲透到社會的方方面面。如今, Nvidia 幾乎壟斷了整個行業在訓練和推理基礎設施上的資本開支。
像 Microsoft 、 Apple 、 Amazon 、 Meta 、 Google 、 Oracle 等全球巨頭都已下定決心斥巨資,以免在這場競爭中掉隊。于是各方面投入——資金、電力、數據中心建設面積,當然還有 GPU 數量——都在飆升,沒有放緩的跡象。而 Nvidia 能在最高端、面向數據中心的產品上獲得超過 90% 的瘋狂毛利率。
這只是看多理由的初步概述。現在還出現了新的看多動因,讓許多原本就很樂觀的人更是“加碼”看多。舉例來說,“類人機器人”的興起就可能大大顛覆我們的想象:當它們能迅速勝任包括洗衣、打掃、整理、烹飪,以及團隊式地裝修房子或建房子、管理倉庫、駕駛叉車等工作時,很多人恐怕會被震驚到。而且還有很多更多人甚至沒考慮過的因素也在發酵。
其中一個前沿話題是“新的縮放定律”,它給我們提供了理解計算需求如何增長的新視角。最初的縮放定律——也就是支撐 AI 在 2012 年 AlexNet 出現、2017 年 Transformer 架構問世后飛速前進的背后邏輯——是說:如果我們在訓練中使用數十億甚至萬億級的詞元,打造更大規模的模型,并投入更多 FLOPS 來訓練這些模型,模型在各種下游任務上就能獲得更好的效果。
而且,這種改進趨勢還具備一定可預期性,像 OpenAI 和 Anthropic 這樣的頂尖實驗室,在正式訓練前,就能相當準確地預測模型最終的表現——有時誤差還不超過幾個百分點。這套“最初的縮放定律”十分關鍵,但一直以來也讓人對未來有些擔憂。
比如,我們可能已接近耗盡全球大部分高質量訓練數據。雖說并非完全如此——還有很多歷史書刊并未被妥善數字化,或并未獲得授權用于訓練——可就算加上這些,從 1500 年到 2000 年之間所有“專業出版”的英語著作,把它們投入到動輒 15 萬億詞元規模的訓練語料庫中,增量仍然有限。
一個現實比對:Google Books 已數字化約 4000 萬本書,若每本書平均含 5 萬到 10 萬單詞(約 6.5 萬到 13 萬詞元),那也只給我們帶來約 2.6 萬億到 5.2 萬億詞元;而事實上,無論版權問題如何,其中大量內容早已被拿去訓練主流模型了。此外,還有學術論文(僅 arXiv 上就超過 200 萬篇), Library of Congress 也收藏了 30 億份數字化報紙頁面。即使合并起來或許能到 7 萬億詞元,但其中許多其實也早被納入訓練,真正的“增量”并不算大。
當然,我們也能另辟蹊徑,比如自動轉錄 YouTube 的全部視頻,將其轉換成文字。盡管在邊際上可能有些幫助,但比起公認權威的專業教科書,這些轉錄文本的質量就差得多。所以當談及這套“最初的縮放定律”,我們一直面臨“數據瓶頸”的問題:盡管可以不斷增加 GPU 和數據中心的投入,要大規模制造新的、正確且增量意義顯著的知識卻非常難。如今,所謂“合成數據”的想法開始興起,也就是由 LLM 自動生成的文本,這看似“自給自足”有點自嗨的感覺,但在數學、邏輯和編程方面,它確實效果顯著。
原因很簡單:這些領域可以自動檢驗結果對不對。我們可以隨意生成大量數學定理或 Python 代碼,然后只把檢測合格的內容納入訓練數據。這樣一來,至少在這些領域,我們能極大擴充高質量訓練數據的規模。
此外,還有文本之外的大量數據可以用于 AI 訓練。例如,一億人的完整基因組測序數據(每個人未壓縮約 200GB 到 300GB),從量上看非常龐大,盡管不同個體之間其實大同小異。這里也不能簡單拿它來和書籍或互聯網文本做對比,因為:
基因組文件的大小和詞元數量并不對應
基因組數據的信息與文本完全不同
高度冗余的數據其訓練價值尚不明朗
處理基因組數據的計算需求也不同
不過,這依然是未來訓練超大模型時可能的一種多樣化信息來源。
因此,盡管我們有一些方法去收集更多訓練數據,但看看這些年訓練語料庫暴漲的速度就知道:若想在“通用有用知識”這一層面不斷進步、邁向“比 馮諾依曼還聰明 10 倍、精通所有人類專業領域”的超級智能,我們恐怕很快就會遇到數據極限。
除了數據量有限性,依賴預訓練縮放定律的擁護者們腦中還一直藏著其他隱憂。其中之一是:當你訓練完一個模型后,這么大一套計算基礎設施接下來要干嗎?還要用來訓練下一個模型嗎?固然可以,可 GPU 和技術更新速度非常快,用兩年前的集群來做新模型,經濟上未必劃算。更理想的是使用剛建的全新數據中心,雖然建造成本比舊數據中心高 10 倍,但算力是舊的 20 倍。但問題在于,這些前期投資遲早得通過正向盈利來攤銷并收回成本,對吧?
眼下,市場對 AI 的興奮度極高,這也給了 OpenAI 等公司機會,即使在創建以來一系列運營虧損的背景下,依舊獲得令人瞠目結舌的后續融資估值(當然他們營收增速確實也很快)。但從長周期看,要想讓這套游戲持續下去,最終還是得收回數據中心成本,并在風險調整后保證這個行業與其他投資機會相比具備合理的回報率。
二、新的范式
我們先前談到的預訓練縮放定律,主要指的是模型在訓練階段需要投入巨大的計算量。然而,在最近一年的討論中,另一個完全不同的“推理階段計算縮放”定律開始引起關注。過去,訓練模型的成本占據了絕大部分的計算預算,而一旦模型訓練完畢,推理時所需的計算量相對來說少很多。
然而,隨著一系列革命性的 Chain-of-Thought (“COT”)模型出現(其中最具代表性的就是 OpenAI 的 O1 model ,以及 DeepSeek 最近的 R1 model ),推理計算的方式徹底改變。新的 COT 模型在推理過程中除了生成對用戶可見的輸出文本,還會生成相當數量的“邏輯詞元”——類似模型的思維草稿或“內部對話”。這樣一來,通過在內部不斷檢驗和修正思路,模型便能提供更高質量的結果。可以將它想象成給人類更多時間和工具,反復檢查和驗證自己的思路,然后才拿出最終答案。
這一方法解決了 Transformer 模型最大的難點:模型有時會“一條路走到黑”,即使中途發現有問題,也很難自動回退和修正。而 COT 允許模型不斷迭代嘗試、尋找可行方案,直到它們較有把握自己沒在胡說。這讓“推理”所需的計算量隨內部邏輯詞元的增多而飆升,但好處是正確率也顯著提升。
舉例而言, Anthropic 的 Claude3.5 Sonnet 模型在編寫 Python 代碼時已經相當出色,但處理較復雜、較長的代碼時常會出一些“小錯”,需要后續修補。而 OpenAI 的 O1 model 會在輸出前就用 COT 過程自動發現并修復這些問題,導致很多代碼第一次就能跑通,令人驚艷。
事實上, ChatGPT Plus 里的 O1 model 和更昂貴的 ChatGPT Pro 訂閱( O1-Pro )使用的模型本質上差異并不大,只是后者會花更多時間在“內部推理”上,因此能產生更準確、更可靠的結果。這意味著同一個長達數百 KB 的提示,在一般模型里幾秒就能開始回應,而 O1-Pro 可能需要數分鐘才會完成,但回答的準確度通常更高。
在實際應用中,凡是對正確性要求高到不能犯一點錯誤的場景(金融交易、醫療建議、法律咨詢等),都非常適合犧牲響應速度以換取更高的推理深度。最近, OpenAI 新的 O3 model 更是震驚行業:它在超高難度的數學題目上取得突破,只是因為投入了極其驚人的計算資源——為單個難題的推理就花費數千美元,這遠遠超過傳統模型一次推理所需的幾美元成本。
這讓我們看到了完全獨立于“預訓練規模”之外的另一個新維度:如今,模型訓練只是起點,真正能讓 AI 解決超困難的問題并保持極高可靠度的,是在推理階段投入巨大的計算資源,以實現“天才級別”的深度分析,從而繞過任何會令普通 LLM 出錯的陷阱。
三、為什么 Nvidia 能獨享大部分紅利?
即便你像我一樣,非常看好 AI 的遠大前景,一個現實問題仍在眼前:“憑什么就只有某家公司能拿到這塊市場的絕大部分利潤?”歷史上也有很多至關重要的新技術,確實改變了世界,但當初看起來最有希望的公司,往往并不一定是最后最大的贏家。比如, 萊特兄弟雖然率先發明并完善了飛機技術,但如今它的后續企業加起來市值也不超過 100 億美元;而 Ford 現在的市值雖有 400 億美元,卻也只占 Nvidia 的 1.1% 左右。
要搞明白為什么 Nvidia 現在能吃下如此大的一塊蛋糕,先得看看它為什么比別人更能賺錢。畢竟,做 GPU 的可不只它一家。AMD 也做出了不錯的 GPU ,紙面參數并不落后多少,制程節點等也差不多。誠然, AMD 的 GPU 沒那么快,也沒那么先進,但也不是被 Nvidia 完全碾壓到 10 倍性能差距那種程度。如果按每 FLOPS 的成本粗算, AMD 的價格可能還更便宜,大概是 Nvidia 的一半左右。
回頭看別的半導體領域,比如 DRAM ,雖然市場高度集中到三星、 Micron 和 SK-Hynix 三家,但它們的毛利率在周期底部可能是負數,周期峰值也就 60% 左右,平均更是只有 20% 左右。而 Nvidia 最近幾個季度的綜合毛利率接近 75%,還包括了利潤率比較低、同質化更高的消費級 3D 顯卡業務。
是什么讓 Nvidia 能維持如此高的利潤?主要優勢之一在于軟件:相較于 AMD 令人吐槽的 Linux 驅動, Nvidia 的驅動更加穩定可靠、對各種環境支持也更好;主流的 AI 軟件庫(比如 PyTorch )對 Nvidia 的硬件也做了深度優化。此外,更底層的編程框架 CUDA 也是 Nvidia 的專有技術,幾乎成了事實標準。有能力在 GPU 上“榨出”最大性能的人才,大都只熟悉 CUDA 。這意味著如果你花大價錢招了一批頂級 GPU 工程師,他們多半只會在 CUDA 里思考和寫代碼。
另一個大賣點是 interconnect 技術,也就是把成千上萬塊 GPU 連接到一起進行高效并行的帶寬能力。訓練這些超大型基礎模型的關鍵在于讓所有 GPU 同時保持高負載,不要因為等待數據而閑置。對帶寬的要求非常苛刻,傳統的數據中心網絡設備不足以支持這種高吞吐低延遲的需求。
2019 年, Nvidia 僅用 69 億美元收購了以色列公司 Mellanox ,繼而掌握了業內領先的互聯技術。這對訓練階段意義尤其重大,因為要同時協調數千塊 GPU 的輸出;而推理(包括 COT 推理)所需的 GPU 相對少,只要 VRAM 裝得下訓練好的模型就行。
這些都構成了 Nvidia 能長期保持高額利潤率的“護城河”。此外,它還能用這些超額利潤再投入到大量研發中,形成技術飛輪,保持在硬件性能方面的持續領先。
不過,對客戶而言,往往最直接的考量還是“單位成本下的性能”,包括設備成本和能耗。Nvidia 的卡確實很快,但如果從“每 FLOPS 價格”的角度去看,它未必最佳。而問題在于,其他條件并非同等:AMD 驅動不夠成熟,主流 AI 庫對 AMD 的支持也欠佳, AMD 還缺乏足夠好的互聯方案,你想聘到懂 AMD 的高級人才也并不容易……這些都讓 AMD 的高端數據中心前景黯淡。
聽起來,這些似乎都對 Nvidia 十分有利,市值水漲船高也就不足為奇。但同時也有一些“烏云”正在醞釀。我認為值得注意的風險點主要有幾個:有些其實一直存在,只是過去在市場高速擴張時并不明顯;現在隨著局勢變化,可能會變得重要。還有一些是最近(過去兩周內)才出現的動態,可能對短期 GPU 需求的增長軌跡帶來巨大影響。
四、主要威脅
如果從宏觀角度來審視:Nvidia 在相對小眾的領域經營了很長時間;它的對手并不多,而且那些對手也沒能獲得足以威脅到 Nvidia 的巨大收益或增長,因為它們沒有足夠的資本來撼動這家市場領跑者。游戲市場雖然規模可觀、保持增長,但利潤率和年增長速度都稱不上驚人。
2016-2017 年左右,一些科技巨頭開始大力招聘并投入機器學習和 AI 項目,但就整體預算而言,這些投入更像是“登月計劃”式的探索性研發,尚未成為主要支出。直到 2022 年 ChatGPT 橫空出世(雖然從時間看只過了兩年多,但技術迭代的密集度令人感覺像過了更久),格局才發生劇變。
一夜之間,大型公司愿意迅速砸下數十億美元。Neurips 、 ICML 等知名學術會議的與會者人數出現井噴。那些原先可能去學金融衍生品的“天才學生”,紛紛轉向 Transformers 研究;而在頂級 AI 實驗室里,為不帶團隊的工程師開出百萬美元年薪,竟也成了一種常態。
當然,讓龐大的組織轉向并不是一蹴而就的事:新建數據中心需要耗時一年甚至更久,設備的交付時間也在拉長;哪怕雇來了聰明人,也要花不少時間才能讓他們熟悉現有的技術棧。但如今,資本、人才和大量精力正集中涌入這一領域。眼看著 Nvidia 如今是這里面“賺大錢”的代表,其他玩家自然想要從它身上“分一杯羹”。
從更大的視角看,關鍵在于:只要需求和利潤夠大,市場就會迸發出各種新方法和新硬件思路,意在繞過 Nvidia 賴以維系市場霸主地位的技術和生態壁壘。畢竟“條條大路通羅馬”,為了撬動這塊巨大蛋糕,競爭對手必然會試圖用不同形式的創新來撼動 Nvidia 的護城河。
五、硬件領域的沖擊:誰能撼動 Nvidia ?
在硬件層面, Cerebras 這類公司是很好的例子。他們開發了“整片晶圓級”(wafer scale) AI 訓練芯片,把整整一塊 300mm 硅晶圓做成一顆巨型芯片,容納數量級上遠超傳統水平的晶體管和內核(他們也在最新博文里解釋了怎樣解決過去困擾此類方案的“良率問題”)。
和 Nvidia 旗艦 GPU H100 相比, Cerebras 的最新 WSE-3 芯片晶體管面積大約是 H100 的 57 倍,核心數量也達到近 90 萬,而 H100 不過剛過百來個“流式多處理器”。粗略計算,在 AI 場景下,單顆 WSE-3 能提供約等于 H100 32 倍的算力。既然 H100 已經賣到近 4 萬美元,這塊“天價”芯片可想而知。
關鍵在于, Cerebras 不用去追趕 Mellanox 的互聯技術,而是“一塊巨型芯片干掉一堆 H100 ”,因此在帶寬需求上不必走 Nvidia 的思路。Cerebras 的推理性能也非常搶眼,已經可以免費試用他們跑 Meta 的 Llama-3.3-70B 模型,推理時幾乎是瞬時響應,每秒可輸出約 1,500 詞元。相較之下,超過每秒 30 詞元就已被認為“夠快”,更別提 1,500 詞元/秒了。
另一個有異曲同工之妙的公司是 Groq ,這名字別和 Elon Musk 旗下 X AI 訓練的 Grok 搞混了。Groq 發明了自己的“張量處理器(TPU)”,完全聚焦于深度學習所需的數學運算,并且采用“確定性計算”理念,讓運算時序不會隨機波動,因此能從底層對芯片進行極致優化。結果就是,在類似 Llama 的模型上,他們已演示了每秒 500+ 詞元的推理速度,甚至經過“推測性解碼”后能達到每秒 1,320 詞元,和 Cerebras 不相上下,遠超常規 GPU 。
有人也許會說, ChatGPT 的響應速度也沒這么快,但用戶不也覺得夠用?不過別忘了,高速推理不僅能帶來更好的交互體驗,還能支撐更多多階段推理或低延遲場景(內容審核、反欺詐、動態定價等)。推理越快,硬件利用率越高,按請求數攤下來的成本也更低——哪怕 Groq 的設備一臺要幾百萬美元,只要有足夠的任務負載,就能把平攤成本降到合理區間。
就像 Nvidia 有 CUDA 一樣, Groq 也擁有自家的專有軟件棧,能夠對像 Meta 、 DeepSeek 或 Mistral 這些開源模型做特殊拆分,加速效果顯著。他們的硬件思路只針對“推理計算”,不處理訓練環節,但在 COT 類推理越來越重要且計算越來越昂貴的背景下,“專攻推理、更高效且更快速”也足以對 Nvidia 形成挑戰,至少會使投資人對 Nvidia 未來業績增長的樂觀預期打上問號。
除了這些專注硬件創新的初創公司, Nvidia 的主要客戶也在自研芯片瞄準 AI 訓練和推理。Google 從 2016 年就開始研發自家 TPU ,雖曾短暫對外出租售,近年基本在內部用,迭代到第六代。Amazon 做了 Trainium2 和 Inferentia2 ,在花巨資堆 Nvidia GPU 的同時,也在投巨資建自研芯片集群,給 Anthropic 準備的一個集群據說有 40 多萬顆芯片。Amazon 本身對 AI 模型開發的結果也許不盡如人意,但芯片研發是另一回事,他們只要性能“夠用”,再加上沒有 Nvidia 90%+ 的毛利,就已經很誘人。
OpenAI 也表態要開發自研芯片,而他們加上 Microsoft ,是 Nvidia 數據中心產品最大用戶。更別提 Microsoft 自己也說要搞自研芯片!而世界最值錢的科技公司 Apple ,在移動 CPU 和 GPU 設計上也早已嶄露頭角:他們比 Intel 和 AMD 拿出了更高“性能/功耗比”的處理器。雖然 Apple 的方向似乎與上面這些玩家略有區別,但若真給 iPhone 用戶提供大規模 AI 服務,也不能排除他們會搞一款自己的“推理/訓練”芯片。
需要注意的是, Nvidia 的超級大客戶群中,前幾名占據了主要的利潤來源。而如今幾乎每個大客戶都在自研專門面向 AI 的芯片,這對 Nvidia 的未來意味著什么?
更要緊的是, Nvidia 其實并不自己制造芯片——它主要是家 IP 公司。真正讓這些高性能芯片得以實現的關鍵在于代工廠 TSMC 和提供 EUV 光刻機的 ASML 。只要你有錢、有量, TSMC 可以為任何人生產同樣先進制程的芯片,不管用途是比特幣挖礦、 GPU 、 TPU 還是手機 SoC 。再加上, Nvidia 的設計師薪資再高,也擋不住其他巨頭的挖人。只要招到人、有資金,兩三年就能憋出一顆“不一定有 H100 一半那么強但也相當不錯”的芯片,關鍵是 Nvidia 的高毛利給對手留下了很大“降價”或“差異化”空間。有了 TSMC ,他們就能用和 Nvidia 相同的制程把圖紙變成實物。
六、軟件層面的挑戰:CUDA 霸權還能穩固多久?
硬件上的新動向已經讓 Nvidia 感到不小威脅,但近幾年在軟件領域也有幾股力量正悄然崛起,起初沒引起太多關注,如今勢頭漸強,可能會動搖 Nvidia 在 CUDA 生態上的統治地位。先說 AMD GPU 在 Linux 驅動方面的問題。我們提過, AMD 長期以來對自己驅動的低質量睜只眼閉只眼,真是把大筆錢拱手讓出。
結果,知名黑客 George Hotz (少年時曾為初代 iPhone 越獄,如今是自動駕駛公司 Comma.ai 和 Tiny Corp 的 CEO,同時也是 tinygrad 開源框架的作者)最近公開表示,他受夠了 AMD 驅動的糟糕表現。他們的 TinyBox AI 電腦系列有使用 Nvidia 也有用 AMD ,但后者的價格更低,他很想挖掘 AMD 硬件的潛能,卻被驅動限制得太死。
他干脆自己動手編寫 AMD 的驅動和軟件棧,且沒有 AMD 官方的支持。2025 年 1 月 15 日,他在公司官方 X 帳號發文,稱他們只差解決 RDNA3 匯編器這一塊就能在 AMD 上實現完整的自主技術棧。他們已經有了自己寫的驅動、運行時、庫和模擬器,總行數只有 1.2 萬行左右。考慮到他過去的技術成績,或許再過幾個月就能讓它跑起來,這可能為企業使用 AMD GPU 打開一個全新世界,而無需花大價錢買 Nvidia 。
當然,單靠一個還沒完成的 AMD 驅動并不足以動搖 Nvidia ,還有更具潛力的變化。例如,大量大公司和開源社區正合力打造通用 AI 軟件框架,讓 CUDA 只變成眾多編譯目標之一。這樣一來,開發者用更高層次的語法撰寫代碼,系統自己把它編譯成對各種硬件都高度優化的低層代碼——不管是 CUDA ,還是其他 GPU/TPU 。像 MLX (蘋果領銜)、 Triton ( OpenAI 領銜)和 JAX (谷歌出品)等框架就是這種思路:它們能幫助你一次編寫高水平的 AI 代碼,然后自動匹配和編譯到不同平臺上。
這樣的模式令人回想起 20 世紀 80 年代手寫匯編 vs. 高級語言的演變:最初,手寫匯編的性能優勢顯著,但隨著編譯器不斷進步,平臺更新換代的成本也倒逼大家轉向更靈活的高級語言。同樣地, AI 開發也將迎來類似過程——手寫 CUDA 確實可能在性能上拔尖,但代碼維護和遷移成本高昂。隨著軟件抽象層和編譯器技術的成熟,開發者會更青睞一次編寫、高效適配多硬件的通用框架,同時還可繞過“ CUDA 稅”節省硬件開支。
再進一步想,未來 CUDA 本身或許會被當作一種“規范化”描述語言(類似硬件設計用的 Verilog ),開發者熟悉它,用它來闡述并行算法。但最終不必只編譯到 Nvidia 硬件上,而是能通過 LLM 把 CUDA 源碼自動轉換成適配別的芯片的指令。這聽上去有點像科幻,但以 OpenAI 現今的 O3 模型為例,這種功能也許已經基本可行,一兩年內更有望普及。
七、理論層面的威脅
或許最令人震驚、之前提到過的進展就發生在過去兩周內。它在整個 AI 界引發了巨大的轟動,成為推特上內行人士熱議的話題——盡管主流媒體對此毫無報道:一家名為 DeepSeek 的小型初創公司發布了兩款新模型,其整體表現幾乎與 OpenAI 和 Anthropic 的最佳模型不相上下(還遠超了 Meta 的 Llama3 模型以及其他體量更小的開源模型玩家,例如 Mistral )。這兩款模型分別是 DeepSeek-V3 (大致對應于 GPT-4o 和 Claude3.5 Sonnet 的水準)和 DeepSeek-R1 (大致相當于 OpenAI 的 O1 模型)。
為什么會如此震撼?首先, DeepSeek 是一家員工 reportedly 不到 200 人的中國小公司。據說他們最初是一家類似 TwoSigma 或 RenTec 的量化對沖基金,他們利用數學與工程能力轉向做 AI 研究。但事實是,他們針對 DeepSeek-V3 和 DeepSeek-R1 這兩款模型發布了兩份極其詳盡的技術報告。
這些技術報告相當專業,如果你對線性代數不甚了解,可能讀起來會云里霧里。可你真正應該做的是,在此處的 AppStore 免費下載名為 DeepSeek 的應用(用 Google 賬號登錄即可嘗試),或者在此處安裝其安卓版,或直接在桌面瀏覽器上用他們的網頁版。然后確保在設置里選擇 “DeepThink” 選項以啟用推理鏈功能(即 R1 模型),并讓它用簡單易懂的方式解釋技術報告中的部分內容。
這樣做可以讓你同時看到幾個重要事實:
1、這個模型確實靠譜。AI 基準測試里充斥各種“注水”手段——很多模型在指標上看著很強,可在現實世界中表現糟糕。Google 在這方面尤其糟糕,常常吹噓他們的 LLM 有多厲害,但在任何實際場景下都拙劣得連最簡單的任務都無法穩定完成,更別提棘手的編程類任務了。而 DeepSeek 的模型與此截然不同——輸出連貫、有說服力,的確與 OpenAI 和 Anthropic 不相上下。
2、DeepSeek 不僅在模型質量上取得了深刻進展,更關鍵的是他們在模型訓練與推理效率方面做出了重大突破。通過在硬件層面緊密協作、結合數種迥然不同且極具巧思的優化手段, DeepSeek 可以用遠比其他前沿模型更高的效率來訓練這些驚艷的模型。據一些測算,他們的效率比業界其他領先方案高出大約 45 倍。DeepSeek 聲稱,訓練 DeepSeek-V3 的總成本僅略高于 500 萬美元。對 OpenAI 、 Anthropic 等來說,這幾乎就是九牛一毛,因為它們早在 2024 年訓練單一模型的成本就輕松突破了上億美元的門檻。
這樣做怎么可能?一家資源、人員、資金、 GPU 數量等都比西方頂尖 AI 實驗室少了不止一個量級的小公司,怎么能在這種層面上“搶戲”?美國對中國出口 GPU 的限制難道不應該讓他們在硬件上乏力嗎?具體原因非常技術化,但可以這么理解:DeepSeek 相對“貧瘠”的 GPU 資源反倒成了激發創意和聰明解決方案的關鍵,畢竟“匱乏往往催生創新”。
他們的一大創新在于高明的混合精度訓練框架,可在整個訓練過程中使用 FP8 (8-bit 浮點數)。大多數西方 AI 實驗室依舊采用 FP32 (32-bit 浮點數,即“全精度”)進行訓練。FP8 雖然只有 8 位,但它并不只是簡單地把數值刻畫為 256 個等距區間,而是運用了復雜的數學技巧來同時表示很大和很小的數——只是在精度上沒有 32 位那么高。FP8 的好處是能大幅節省顯存并提高性能,而仍保持對許多 AI 工作負載足夠的準確度。
以往的做法往往是在高精度下完成訓練,然后再壓縮到低精度——過程會損失一些質量;而 DeepSeek 采用了原生的 FP8 方式,從一開始就享受內存節省的好處,又通過在網絡中的關鍵位置引入高精度計算,避免性能或質量被明顯折損。當你在數千塊 GPU 上并行訓練時,每張卡的內存需求降低,就意味著總體需要的 GPU 數量也能顯著減少。
另一項重大突破是他們的多詞元預測系統。大多數基于 Transformer 的 LLM 在推理時,都是一次只預測下一個詞元。DeepSeek 找到方法在確保質量與單詞元預測相當的前提下,一次預測多個詞元。他們的辦法能讓這些額外預測的詞元有約 85%-90% 的正確率,等于是將推理速度提高近一倍,而質量損失很小。更巧妙之處在于,他們依舊保留了完整的因果預測鏈,模型并非在“瞎猜”,而是在構造化的上下文中進行推斷。
這是他們在處理所謂 Key-Value 索引方面的一次突破——這些 KV 索引可以理解為 Transformer 架構中注意力機制里對各個詞元的表征方式。雖然這里的技術含量相當高,但簡單來說, KV 索引在訓練和推理過程中會大量消耗 VRAM ,這也是為什么在訓練這些模型時往往需要成千上萬塊 GPU ——每塊 GPU 的 VRAM 最多不過 96GB,而這些索引會迅速將這部分內存占滿。
他們的 MLA 系統找到了一個方法,可以把這些索引用壓縮過的形式存儲起來;它在保留核心信息的同時,大幅減少了內存占用。巧妙之處在于,這種壓縮直接融入到模型的學習過程中——不是后期再加上的某種“額外步驟”,而是直接進入了端到端訓練流程。這意味著整個機制是“可微分的”,可以用標準優化器直接訓練。能做到這一點的原因在于,模型本質上會在更低維的空間中對底層數據進行表示,而非使用所謂“環境維度”(ambient dimensions)。所以即使大家一直以來都存儲完整的 KV 索引,這其實在浪費大量空間。
這樣一來,不僅可以避免存儲許多無用數據而浪費寶貴的顯存,從而顯著提升訓練時的內存占用效率(再次強調,這能減少你需要的 GPU 數量),還能在一定程度上強化模型質量,因為這在某種程度上充當了“正則化”的角色,讓模型將注意力放在真正重要的部分,而不是把過多容量用于擬合訓練數據中的噪音。因此,你不僅節省了內存,而且模型可能表現更佳。至少,你不會因大幅減少內存消耗而顯著降低性能(這通常是 AI 訓練中面對的艱難取舍)。
他們還借助自己的 DualPipe 算法和定制的通信內核,實現了 GPU 通信效率的重大飛躍。該系統能夠智能地將計算與通信重疊進行,同時在兩者之間平衡 GPU 資源。訓練時,他們只需要讓大約 20 個 GPU 的流式多處理器(SM)用于通信,剩余部分全部用于計算。結果是遠高于常規訓練配置的 GPU 利用率。
另一個非常聰明的做法是對 Transformer 架構采用所謂“專家混合(Mixture-of-Experts,MOE)”方案,但在負載均衡方面進行了關鍵的創新。可能大家知道, AI 模型的“規模”常常用模型中包含的參數數量來衡量。參數就是存儲在模型內部的一些數值,用來描述某個人造神經元的重要程度,或在注意力機制中某個詞元在特定上下文里的權重等等。
例如, Meta 新的 Llama3 模型有幾個規模版本:1B 參數的(最小)、 70B 參數的(最常用)以及高達 405B 參數的巨型版本。但這個龐大模型對大多數人來說用處有限,因為即便只是在推理時想獲得還算湊合的速度,也需要數萬美元的 GPU 設備投入,尤其是在原生全精度模式下。現實里,大多數真正在用、或者讓人興奮的開源模型使用的是 8B 參數版本,或者高度量化的 70B 參數版本,因為這樣才能在一張消費者級 Nvidia 4090 顯卡(不到 1,000 美元)上運行。
為什么這些數字重要?從某種角度看,參數量和精度代表了模型內部存儲的“原始信息”規模。當然,這與模型的推理能力或“智商”并不能直接畫等號;事實證明,有時參數量并不算大的模型也能在復雜邏輯問題、幾何定理證明、 SAT 數學題等方面展現令人驚訝的推理水平。
可是,若論對世界上各種知識點都面面俱到,或者記住所有名家小說的情節與轉折,小模型就不一定能應對,而特別龐大的模型有可能辦到。這樣的“代價”是:無論在訓練還是推理時,你都需要同時把所有 405B 參數(或者任何具體數量)加載到 GPU 的 VRAM 中,這在硬件層面會非常笨重昂貴。
而采用 MOE 的好處是,你可以把“大模型”拆解成一系列“小模型”,它們各自掌握不同且不完全重疊的知識。DeepSeek 在這方面的創新是引入了所謂“無輔助損失(auxiliary-loss-free)”的負載均衡策略,能夠在保持專家利用率的同時避免通常負載均衡帶來的性能損失。接著,根據推理請求的性質,你可以將請求智能地分配給最合適的“專家”子模型。
粗略的類比可想象成一個專家委員會,各自擅長不同領域——比如一位是法律專家,另一位是計算機科學專家,再有一位是商業策略專家。若問題是關于線性代數,你就不會派給法律專家。當然,這只是個簡單比喻,實際機制并不真的這樣運作。
真正的優點在于,這種方法讓模型可以容納海量知識,但本身卻不會變得過度龐大。原因在于,雖然所有專家加起來參數很多,可任何給定時刻只有一小部分參數是“活躍”的,也就是實際需要加載到顯存中以完成推理。對 DeepSeek-V3 而言,他們有一個規模非常龐大的 MOE 模型,共含 671B 參數——比 Llama3 最大的 405B 還多——但在任何給定時刻只有 37B 參數在運轉,這足以放進兩塊消費級 Nvidia 4090 顯卡的顯存里(總價不到 2,000 美元),而不需要動輒花 4 萬美元買 H100 。據傳 ChatGPT 和 Claude 也用到了 MOE 架構,一些泄露消息稱 GPT-4 的總參數達 1.8 萬億,分為 8 個子模型,每個 2200 億參數。即便這樣,也比讓全部 1.8 萬億參數一起加載要容易多了,但依舊需多塊 H100 級別的 GPU 才能運行,因為內存占用非常龐大。
此外,論文還提到幾項其它關鍵優化。比如,他們極度節省內存的訓練框架避免了張量并行,通過在反向傳播時重新計算部分操作(而不是存儲它們),并在主模型與輔助預測模塊之間共享參數,從而進一步降低負擔。所有這些創新疊加起來,就產生了網絡上流傳的“ ~45 倍效率提升”這種驚人數據。我個人也十分相信這個量級至少大致靠譜。
很有力的佐證之一是 DeepSeek 的 API 成本:在幾乎達到業界頂尖表現的前提下,他們的接口調用費比 OpenAI 或 Anthropic 便宜了約 95% 。某種意義上,這像極了把 Nvidia GPU 與競爭對手的專用芯片對比——哪怕對手的性能稍弱,只要在投入產出比上好得多,對于特定應用來說依舊值得考慮,只要他們能證明性能足夠達標且接口可用性與延遲也令人滿意(迄今為止,鑒于這些新模型性能引發的需求爆炸,大家對 DeepSeek 的基礎設施居然還能穩定運轉都感到非常驚奇)。
但是,與 Nvidia 的情況不同的是, Nvidia 的超高毛利主要來自它在數據中心產品上幾乎壟斷的地位,而 DeepSeek 在 API 價格上與 OpenAI 和 Anthropic 相差如此之大,可能純粹是因為他們在計算效率上接近高出 50 倍(且在推理環節上可能還不止)。事實上,目前并不清楚 OpenAI 和 Anthropic 在 API 服務上能賺到多少利潤——它們或許更關心營收增長,以及從所有 API 請求中收集到的數據。
最后需要補充的是,不少人猜測 DeepSeek 或許在夸大他們的 GPU 利用率數據,因為他們實際擁有遠超限額的 H100 卡,只是由于出口管制不想惹麻煩,或不想妨礙今后繼續獲取 GPU 。雖然這不無可能,但我個人更傾向于相信他們是真正通過極具創造力的訓練與推理方式實現了這個成績。他們在論文中具體說明了方法,我覺得等其他實驗室的研究人員嘗試復現實驗,也許就能證明這些結果確實可靠。
八、一個真正會思考的模型
新的 R1 模型和技術報告或許更加令人驚嘆,因為他們在 chain-of-thought 方面搶在 Anthropic 之前,成了除 OpenAI 外唯一能讓這項技術大規模商用的團隊。不過別忘了, OpenAI 的預覽版 O1 模型還是在 2024 年 9 月中旬才發布的,到現在也就 4 個月左右!你必須得明白一件事:不像 OpenAI 非常諱莫如深地對外界保密其底層運行原理,且除了與 Microsoft 等簽過保密協議的合作伙伴外不開放模型權重, DeepSeek 卻將這兩款模型完全開源并且允許相當自由地使用。他們不僅發布了極其詳盡的技術報告,解釋工作原理,還放出了源代碼供任何人查看或嘗試復刻。
通過 R1 , DeepSeek 可以說是在 AI 領域攻下了一座“圣杯”:讓模型在沒有海量監督數據集的情況下,能一步步地推理。他們的 DeepSeek-R1-Zero 實驗顯示了驚人的結果:利用純粹的強化學習,再加上精心設計的獎勵函數,模型自己就能發展出復雜的推理能力。這不僅是為了解題——模型會自發地長篇推理、對答案進行自我校驗,并在面對較難問題時分配更多計算時間。
其核心技術突破在于他們對獎勵建模(reward modeling)的新穎思路。他們沒用那些可能導致“獎勵投機(reward hacking)”的復雜神經網絡式獎勵模型(模型會想出不真實的方法來提高獎勵,反而無法提升真實世界表現),而是設計了一套精巧的基于規則的系統,將對最終答案正確性的獎勵和對思維結構的獎勵結合起來。跟許多團隊采用的過程式獎勵模型相比,這種更簡單的方式反而更穩健且更易擴展。
最令人著迷的是,在訓練過程中,他們觀察到一個名為“aha 時刻”的現象:當模型遇到不確定性時,它會在中途自發地修正推理思路。這個涌現行為并非靠人工編寫,而是自然地從模型與強化學習環境的交互中產生的。模型會在內部“叫停”自己,指出潛在的推理問題,然后換種方法重來——而這些都沒經過顯式的訓練指令。
完整的 R1 模型在這些洞見之上又加了一些東西,比如在應用強化學習技巧之前先用了一個小規模的高質量示例集(“冷啟動”數據),并成功解決了推理模型的一個重大挑戰:語言一致性。過去很多 chain-of-thought 推理嘗試會讓模型“混雜語言”或輸出不連貫的內容。而 DeepSeek 通過在 RL 訓練過程中加入語言一致性獎勵,犧牲少許性能來換取更可讀、更一致的結果。
效果驚人:在難度極高的高中數學競賽 AIME 2024 上, R1 獲得了 79.8% 的準確率,追平 OpenAI 的 O1 模型;在 MATH-500 測試中達到了 97.3% ,而且在 Codeforces 編程比賽中排名進了 96.3 百分位。但或許最令人震撼的是,他們成功將這些能力壓縮到更小規模的模型上:他們的 14B 參數版本就能勝過許多更大型的模型,說明推理能力不光取決于純粹的參數規模,還要看怎樣訓練模型處理信息。
九、總結
概括而言, Nvidia 正陷入一場前所未有的“合圍之戰”:依靠 20x 未來營收和 75% 毛利率來支撐的高估值,隨著各路競爭對手的逼近,越來越讓人心里沒底。公司在硬件、軟件與效率層面的護城河,正出現令人擔憂的裂痕。全球有數不清的資金和頂尖人才,正從每個可能的角度對 Nvidia 展開進攻。
硬件上, Cerebras 和 Groq 這類顛覆式架構表明:Nvidia 引以為傲的互聯技術并非無法替代,甚至可以用完全不同的設計路線來繞過它。Cerebras 的整片晶圓方案、 Groq 的確定性計算,都展示了無需 Nvidia 互聯也能獲得強悍性能。而在傳統賽道上, Google 、 Amazon 、 Microsoft 、 Meta 、 Apple 等超級客戶也都在研發自研芯片,或許會逐步蠶食 Nvidia 在數據中心的高額利潤;它們的項目已經不再是“實驗室里玩玩”,例如 Amazon 單單為 Anthropic 就上馬了 40 多萬顆自研芯片的基礎設施。
在軟件領域,形勢也類似。MLX 、 Triton 、 JAX 等高層次框架正在淡化 CUDA 的地位,同時改進 AMD 驅動也意味著以更低成本選用其它硬件成為可能。回想匯編到 C/C++ 的演變, CUDA 的領先地位是否能長期保持,真的要打個問號。更何況,如今的大模型能自動翻譯 CUDA 代碼到任意目標硬件——這足以撼動 Nvidia 生態最大的“粘性”之一。
最讓人瞠目結舌的,是 DeepSeek 以不到別人 1/45 的計算投入就拿下頂尖模型的表現,這暗示全行業對算力的需求預測或許都高估了。如果再加上 chain-of-thought 等技術讓推理更高效,那么實際算力需求恐怕遠低于以往設想。從經濟角度看,當 DeepSeek 能與 GPT-4 旗鼓相當,卻只要對方 5% 的 API 價格時,這不是說明大家在白白燒錢,就是意味著行業利潤終將顯著收縮。
再考慮到 TSMC 愿意把最先進的工藝給任何能付得起錢、能保證產能的客戶, Nvidia 的架構優勢也就有了天花板。更重要的是,歷史告訴我們,“超額利潤”極難在一個競爭激烈的市場里長久維持。將這些威脅放在一起看, Nvidia 要想持續現在的高增長和高毛利,恐怕沒那么容易。無論是硬件架構創新、客戶自研、軟件層屏蔽、效率突破,還是制造能力普及化,只要其中任何一點見效,就可能對 Nvidia 的增長或利潤造成實質打擊。以當前的股價來衡量,市場似乎對這些風險的定價幾乎為零。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
https://youtubetranscriptoptimizer.com/blog/05_the_short_case_for_nvda
https://techcrunch.com/2025/01/27/nvidia-drops-600bn-off-its-market-cap-amid-the-rise-of-deepseek/
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編:圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.