網易首頁 > 網易號 > 正文申請入駐

繼OpenAI之后，Anthropic CEO發聲：DeepSeek正用一個意想不到的方式，改寫全球AI規則

2025-01-30 06:17:50　來源: AI深度研究員

上海舉報

分享至

　　全文 4,000字 | 閱讀約10分鐘

　　【導語】

　　在全球AI領域，當兩大巨頭相繼對同一家公司發表評論時，往往意味著一個重要拐點的到來。近期，繼OpenAI CEO Sam Altman稱贊DeepSeek的R1模型"令人印象深刻"后，Anthropic的掌門人也對這家中國AI公司作出深度解讀，引發業界廣泛關注。

　　【核心要點預覽】

　　DeepSeek的技術突破更多體現了AI領域的自然成本下降趨勢，而非顛覆性創新。

　　在全球AI競爭格局中，大規模計算資源的獲取和控制能力仍是決定性因素。

　　企業需要投入更多資源來保持競爭力，誰能獲得并掌控關鍵計算資源，誰就能在全球AI競爭中占據主導地位。

　　競爭不僅僅是技術層面的較量，更關乎未來全球科技格局的走向。

　　當OpenAI的Sam Altman稱贊DeepSeek的R1模型"令人印象深刻"時，
就在昨天29日Anthropic的CEO Dario Amode也對這家Deepseek做出深度解讀。這兩位全球頂級AI企業掌門人的關注，讓我們不得不重新思考：DeepSeek到底做對了什么？

　　從表面上看，DeepSeek似乎只是用更低的成本，復制了美國頂級AI模型的成就。但在Amodei看來，事情遠不這么簡單。這不僅關乎單個企業的成功，更揭示了整個AI行業發展的深層規律。正如他所說，DeepSeek的進展并非偶然，而是符合AI技術發展的基本邏輯。

　　要理解這一現象，我們首先需要厘清推動AI發展的三大核心動力。這些動力不僅解釋了為什么DeepSeek能夠在短時間內取得如此顯著的進展，也讓我們得以一窺未來AI競爭的關鍵所在。

　　三大 AI 發展動力

　　在談政策之前，先得了解三種關于 AI 系統的核心發展動力：

　　1、擴展定律 ( Scaling laws )

　　簡單來說，當我們對 AI 系統加大訓練規模時，它在各類認知任務上的表現往往會平穩而且大幅度地提升。我的團隊和我在 OpenAI 時，就率先記錄了這個現象。比如，一款投入 100 萬美元訓練的模型可能只能完成 20% 的重要編程任務；如果投入 1000 萬美元，成績就能提升到 40%；而 1 億美元的投入則能達到 60%——其中的差距在實際應用中意義非凡：再多投入一個數量級，模型可能就從本科生水平跳到博士生水平。因此，各家公司都在積極投入資金來提升模型實力。

　　2、推動曲線 ( Shifting the curve )

　　在這一領域，層出不窮的新想法能讓模型訓練和運行效率更高：可能是對 Transformer 架構做一些微調，也可能是讓模型在硬件上跑得更順暢。新一代硬件同樣有這方面的效果。其結果就是“推動”整條曲線前進：如果有個創新可以帶來 2 倍的“ compute multiplier ( CM )”，那么同樣的指標就能用原本一半的預算達成。前沿的 AI 公司經常發現各種幅度不同的 CM ——大多是 1.2 倍左右的改進，有時能到 2 倍，偶爾還能達到 10 倍。由于更強大的系統價值極大，公司往往會把節省下來的成本再投回到更大規模的訓練上，從而讓模型更加智能；唯一的限制是公司自身的預算規模。很多人會直覺地認為：“先貴后便宜”，好像 AI 質量不變，價格便宜了我們就會少用芯片，但真正要看的是擴展曲線：當效率提升時，我們只會更快往曲線的高端走，因為高端的潛在價值實在太大。我的團隊在 2020 年發表的論文指出，算法改進能讓這條曲線每年推進 1.68 倍；近年來這個數字可能更高，還沒把硬件和效率提升算進來。估計當下的速度或許能達到每年 4 倍。有另一種測算也能佐證這一點。而且，訓練曲線的這種推動也會帶動推理曲線 ( inference curve ) 的進步，所以，保持同樣質量的模型時，成本已在過去幾年里不斷下降。像 Claude 3.5 Sonnet 就比最初的 GPT-4 發布晚了 15 個月，但在大部分測評上都超過了 GPT-4 ， API 價格卻便宜了 10 倍左右。

　　2、轉變范式 ( Shifting the paradigm )

　　有時候，擴展所基于的核心思路會發生變化，或者訓練流程里會加入新的擴展手段。2020 年到 2023 年，大家主要是不斷加大預訓練模型的規模——先在海量 internet text 上進行訓練，再輔以少量其它訓練。可到了 2024 年，用 reinforcement learning ( RL ) 來教模型生成推理鏈 ( chains of thought ) 已成為新的研究熱點。Anthropic 、 DeepSeek 和其他不少公司（尤其是 OpenAI 在 9 月推出的 o1-preview 模型）都發現，這樣的訓練方式能顯著提升模型在數學、編程競賽以及類似推理任務上的客觀性能。具體做法是先獲取一個常規預訓練模型，然后在第二階段使用 RL 來增強它的推理能力。因為這種 RL 還算新穎，大家都只是在第二階段投入相對不大的費用，但即便從 10 萬美元提高到 100 萬美元也能帶來巨大飛躍。如今，各家公司都在加速把這部分預算擴展到數億乃至數十億美元，但重要的是要意識到：我們正處于一個“交匯點”上——這一新范式非常強大，而且還處在擴展曲線的初期，因此可以在短期內看到驚人的進步。

　　DeepSeek 的模型發布

　　前面提到的三種驅動 AI 發展的動力，也能幫助我們理解 DeepSeek 最近的模型發布。大約一個月前， DeepSeek 推出了 “ DeepSeek-V3 ”，這是一種純預訓練模型3——對應前文第 3 點所提及的第一階段。上周他們又發布了 “ R1 ”，加入了第二階段。從外部觀察，我們無法知曉這些模型的所有細節，但以下是我對它們的主要認識。

　　實際上，真正令人眼前一亮的，是一個月前就已發布的 DeepSeek-V3 ——這個模型當時就值得引起大家的關注（我們也確實如此）。DeepSeek-V3 作為一款預訓練模型，似乎能在某些關鍵任務上接近美國頂尖 US 模型的水平?，而且訓練成本還明顯更低（不過我們發現， Claude 3.5 Sonnet 在現實編程等一些關鍵任務上依然有明顯優勢）。DeepSeek 團隊主要依靠在工程效率方面的一系列真材實料、令人印象深刻的創新做到這一點，其中包括對 “ Key-Value cache ” 的創新管理，以及推動 “ mixture of experts ” 方法比過去更進一步的嘗試。

　　但我們要仔細看看背后情況：

　　DeepSeek 并沒有像一些人所說的那樣，“只花 600 萬美元?就做到了 US AI 公司花數十億美元才能完成的事”。至少就 Anthropic 而言：Claude 3.5 Sonnet 是個中等規模的模型，訓練花費是幾千萬美元級別（我不會給出確切數字）。此外， 3.5 Sonnet 并沒有通過更龐大或更昂貴的模型進行任何訓練（這與傳言相反）。Sonnet 的訓練發生在 9 到 12 個月前，而 DeepSeek 的模型是在去年 11 月和 12 月訓練的，而且 Sonnet 在許多內部和外部測評中依然領先。所以，更合理的說法是：“ DeepSeek 以相對較低的成本（但沒想象中那么夸張），做出了性能接近美國 7～10 個月前那些模型的成果。”

　　如果過去的歷史趨勢是訓練成本每年能下降 4 倍左右，那么像 2023 和 2024 年那樣的大幅度成本下降并不意外。因此，人們自然而然會在今年這個時段，看到一個比 3.5 Sonnet / GPT-4o 便宜 3～4 倍的模型出現。而因為 DeepSeek-V3 和美國目前最前沿的模型相比還有一定差距——可以估算它在擴展曲線 ( scaling curve ) 上差了約兩倍（我其實已經很看好它了）——那么如果 DeepSeek-V3 的訓練成本比美國當前這些一年前發布的模型低 8 倍左右，也完全在預期范圍內。所以，即便認可 DeepSeek 自己宣稱的訓練成本，這個結果也只是“符合歷史趨勢”，甚至有可能還達不到。比如，從最早的 GPT-4 到 Claude 3.5 Sonnet 的推理價格差就達到 10 倍，而 3.5 Sonnet 的質量還勝過 GPT-4 。因此， DeepSeek-V3 稱不上是個重大突破，也沒有在根本上改變大規模語言模型 ( LLM ) 的經濟邏輯；它只是一個落在成本持續下降曲線上的“正常點”。不過，此次與以往不同的地方在于，第一家把這種常規成本下降呈現出來的企業是來自中國，這在地緣政治層面非常值得關注。但美國公司很快也會跟進——不是通過抄襲 DeepSeek ，而是因為他們一樣在達成常規的成本下降趨勢。

　　DeepSeek 和美國 AI 公司都擁有比以往訓練它們“主打”模型時更多的資金和芯片儲備。額外的芯片往往用于研發，以嘗試新的思路，或者來訓練更大的模型（可能還沒正式推出，或者需要多次試驗才能成功）。據報道（我們無法保證其真實性）， DeepSeek 可能擁有 5 萬塊 Hopper 代芯片，我估算這可能比美國主要 AI 公司擁有的數量相差 2～3 倍（相比之下，這比 xAI 的 “ Colossus ” 集群少 2～3 倍）。這 5 萬塊 Hopper 芯片差不多要花 10 億美元。因此， DeepSeek 作為一家公司（不是訓練單個模型），它的總投入和美國 AI 實驗室比并沒有高出很多。

　　另外，“擴展曲線” ( scaling curve ) 的分析確實有些簡化，因為不同模型在不同任務上有強項和弱項；曲線僅僅是一個忽略了許多細節的粗略平均值。就 Anthropic 的模型而言，正如我前面提到的， Claude 在寫代碼方面表現極好，而且在人機交互的風格設計上也相當優秀（很多人用它來做個人建議或情感支持）。在這些以及一些其他任務上， DeepSeek 與之相比還差得遠。這部分實力差異不會體現在單純的擴展曲線數據里。

　　執行得力的出口管制是唯一能大幅降低中國大規模獲取芯片風險的關鍵手段，也是在國際格局中維持單極或雙極態勢的重要因素。

　　并不是因為 DeepSeek 表現優異，出口管制就已經失效。正如我先前提到， DeepSeek 擁有相當可觀的芯片資源，所以他們能研發并訓練出高水平的模型并不令人意外。他們在硬件與資金上并不比 US 的 AI 公司匱乏，而出口管制并非促使他們“創新”的根本原因。就工程實力而言，他們的團隊確實相當出色，也顯示出China在此領域與 US 之間的競爭力。

　　同時， DeepSeek 并沒有證明中國可以無限通過走私獲得所有想要的芯片，也沒有顯示出口管制存在難以補救的漏洞。我并不認為出口管制的目標是阻止它獲得幾萬塊芯片——隱藏 1B 美元的交易也許并非絕無可能，但要隱藏 10B 或 100B 美元就相當困難，更不用說一次性走私數以百萬計的芯片。在 SemiAnalysis 的報道中， DeepSeek 目前擁有包括 H100 、 H800 和 H20 在內的約 5 萬塊芯片；自 H100 發布以來就被列入禁運清單，所以如果他們真有 H100 ，只能通過少量特殊渠道獲取（盡管 Nvidia 方面曾表示， DeepSeek 所做的工作“完全符合出口管制規定”）。至于 H800 是在 2022 年第一輪管制時仍可正常出口的，但在 2023 年 10 月新規出臺后被禁止，因此很可能是禁令前已交付；而 H20 雖然在訓練效率上不及前兩種芯片，但推理性能較佳，目前仍屬允許出口范圍。可見， DeepSeek 的芯片組合中，一部分屬于當時未被禁止但后續或應納入限制的型號，一部分是在禁令生效前就交付，還有一些可能是通過非正常手段獲取。由此也能看出，出口管制正在不斷完善、堵漏；如果沒有這些管制，或許他們可以更容易獲得更多更高端的芯片。只要管控收緊及時，就有可能限制 China 在更大規模上獲取這些芯片，從而提升 US 維持優勢地位的可能性。

　　之所以我會著重討論出口管制與 US 的安全問題，并不是要刻意“針對” DeepSeek 。從他們的訪談看，這家公司專注于技術研發本身，致力于做出實用產品。

　　但如果他們的技術能在 AI 領域與美國持平甚至超越，全球在此領域的競爭格局將會出現諸多不確定性。基于多種考量，出口管制依然是影響這一競爭態勢的重要調控手段。技術不斷升級、效能不斷提高，若將此視為放寬管制的理由，則可能帶來更多不可預見的風險。

　　原文鏈接：https://darioamodei.com/on-deepseek-and-export-controls

　　來源：官方媒體/網絡新聞

　　排版：Atlas

　　編輯：深思

　　主編：圖靈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.