全文 4,000字 | 閱讀約10分鐘
【導語】
在全球AI領域,當兩大巨頭相繼對同一家公司發表評論時,往往意味著一個重要拐點的到來。近期,繼OpenAI CEO Sam Altman稱贊DeepSeek的R1模型"令人印象深刻"后,Anthropic的掌門人也對這家中國AI公司作出深度解讀,引發業界廣泛關注。
【核心要點預覽】
DeepSeek的技術突破更多體現了AI領域的自然成本下降趨勢,而非顛覆性創新。
在全球AI競爭格局中,大規模計算資源的獲取和控制能力仍是決定性因素。
企業需要投入更多資源來保持競爭力,誰能獲得并掌控關鍵計算資源,誰就能在全球AI競爭中占據主導地位。
競爭不僅僅是技術層面的較量,更關乎未來全球科技格局的走向。
當OpenAI的Sam Altman稱贊DeepSeek的R1模型"令人印象深刻"時,
就在昨天29日Anthropic的CEO Dario Amode也對這家Deepseek做出深度解讀。這兩位全球頂級AI企業掌門人的關注,讓我們不得不重新思考:DeepSeek到底做對了什么?
從表面上看,DeepSeek似乎只是用更低的成本,復制了美國頂級AI模型的成就。但在Amodei看來,事情遠不這么簡單。這不僅關乎單個企業的成功,更揭示了整個AI行業發展的深層規律。正如他所說,DeepSeek的進展并非偶然,而是符合AI技術發展的基本邏輯。
要理解這一現象,我們首先需要厘清推動AI發展的三大核心動力。這些動力不僅解釋了為什么DeepSeek能夠在短時間內取得如此顯著的進展,也讓我們得以一窺未來AI競爭的關鍵所在。
三大 AI 發展動力
在談政策之前,先得了解三種關于 AI 系統的核心發展動力:
1、擴展定律 ( Scaling laws )
簡單來說,當我們對 AI 系統加大訓練規模時,它在各類認知任務上的表現往往會平穩而且大幅度地提升。我的團隊和我在 OpenAI 時,就率先記錄了這個現象。比如,一款投入 100 萬美元訓練的模型可能只能完成 20% 的重要編程任務;如果投入 1000 萬美元,成績就能提升到 40%;而 1 億美元的投入則能達到 60%——其中的差距在實際應用中意義非凡:再多投入一個數量級,模型可能就從本科生水平跳到博士生水平。因此,各家公司都在積極投入資金來提升模型實力。
2、推動曲線 ( Shifting the curve )
在這一領域,層出不窮的新想法能讓模型訓練和運行效率更高:可能是對 Transformer 架構做一些微調,也可能是讓模型在硬件上跑得更順暢。新一代硬件同樣有這方面的效果。其結果就是“推動”整條曲線前進:如果有個創新可以帶來 2 倍的“ compute multiplier ( CM )”,那么同樣的指標就能用原本一半的預算達成。前沿的 AI 公司經常發現各種幅度不同的 CM ——大多是 1.2 倍左右的改進,有時能到 2 倍,偶爾還能達到 10 倍。由于更強大的系統價值極大,公司往往會把節省下來的成本再投回到更大規模的訓練上,從而讓模型更加智能;唯一的限制是公司自身的預算規模。很多人會直覺地認為:“先貴后便宜”,好像 AI 質量不變,價格便宜了我們就會少用芯片,但真正要看的是擴展曲線:當效率提升時,我們只會更快往曲線的高端走,因為高端的潛在價值實在太大。我的團隊在 2020 年發表的論文指出,算法改進能讓這條曲線每年推進 1.68 倍;近年來這個數字可能更高,還沒把硬件和效率提升算進來。估計當下的速度或許能達到每年 4 倍。有另一種測算也能佐證這一點。而且,訓練曲線的這種推動也會帶動推理曲線 ( inference curve ) 的進步,所以,保持同樣質量的模型時,成本已在過去幾年里不斷下降。像 Claude 3.5 Sonnet 就比最初的 GPT-4 發布晚了 15 個月,但在大部分測評上都超過了 GPT-4 , API 價格卻便宜了 10 倍左右。
2、轉變范式 ( Shifting the paradigm )
有時候,擴展所基于的核心思路會發生變化,或者訓練流程里會加入新的擴展手段。2020 年到 2023 年,大家主要是不斷加大預訓練模型的規模——先在海量 internet text 上進行訓練,再輔以少量其它訓練。可到了 2024 年,用 reinforcement learning ( RL ) 來教模型生成推理鏈 ( chains of thought ) 已成為新的研究熱點。Anthropic 、 DeepSeek 和其他不少公司(尤其是 OpenAI 在 9 月推出的 o1-preview 模型)都發現,這樣的訓練方式能顯著提升模型在數學、編程競賽以及類似推理任務上的客觀性能。具體做法是先獲取一個常規預訓練模型,然后在第二階段使用 RL 來增強它的推理能力。因為這種 RL 還算新穎,大家都只是在第二階段投入相對不大的費用,但即便從 10 萬美元提高到 100 萬美元也能帶來巨大飛躍。如今,各家公司都在加速把這部分預算擴展到數億乃至數十億美元,但重要的是要意識到:我們正處于一個“交匯點”上——這一新范式非常強大,而且還處在擴展曲線的初期,因此可以在短期內看到驚人的進步。
DeepSeek 的模型發布
前面提到的三種驅動 AI 發展的動力,也能幫助我們理解 DeepSeek 最近的模型發布。大約一個月前, DeepSeek 推出了 “ DeepSeek-V3 ”,這是一種純預訓練模型3——對應前文第 3 點所提及的第一階段。上周他們又發布了 “ R1 ”,加入了第二階段。從外部觀察,我們無法知曉這些模型的所有細節,但以下是我對它們的主要認識。
實際上,真正令人眼前一亮的,是一個月前就已發布的 DeepSeek-V3 ——這個模型當時就值得引起大家的關注(我們也確實如此)。DeepSeek-V3 作為一款預訓練模型,似乎能在某些關鍵任務上接近美國頂尖 US 模型的水平?,而且訓練成本還明顯更低(不過我們發現, Claude 3.5 Sonnet 在現實編程等一些關鍵任務上依然有明顯優勢)。DeepSeek 團隊主要依靠在工程效率方面的一系列真材實料、令人印象深刻的創新做到這一點,其中包括對 “ Key-Value cache ” 的創新管理,以及推動 “ mixture of experts ” 方法比過去更進一步的嘗試。
但我們要仔細看看背后情況:
DeepSeek 并沒有像一些人所說的那樣,“只花 600 萬美元?就做到了 US AI 公司花數十億美元才能完成的事”。至少就 Anthropic 而言:Claude 3.5 Sonnet 是個中等規模的模型,訓練花費是幾千萬美元級別(我不會給出確切數字)。此外, 3.5 Sonnet 并沒有通過更龐大或更昂貴的模型進行任何訓練(這與傳言相反)。Sonnet 的訓練發生在 9 到 12 個月前,而 DeepSeek 的模型是在去年 11 月和 12 月訓練的,而且 Sonnet 在許多內部和外部測評中依然領先。所以,更合理的說法是:“ DeepSeek 以相對較低的成本(但沒想象中那么夸張),做出了性能接近美國 7~10 個月前那些模型的成果。”
如果過去的歷史趨勢是訓練成本每年能下降 4 倍左右,那么像 2023 和 2024 年那樣的大幅度成本下降并不意外。因此,人們自然而然會在今年這個時段,看到一個比 3.5 Sonnet / GPT-4o 便宜 3~4 倍的模型出現。而因為 DeepSeek-V3 和美國目前最前沿的模型相比還有一定差距——可以估算它在擴展曲線 ( scaling curve ) 上差了約兩倍(我其實已經很看好它了)——那么如果 DeepSeek-V3 的訓練成本比美國當前這些一年前發布的模型低 8 倍左右,也完全在預期范圍內。所以,即便認可 DeepSeek 自己宣稱的訓練成本,這個結果也只是“符合歷史趨勢”,甚至有可能還達不到。比如,從最早的 GPT-4 到 Claude 3.5 Sonnet 的推理價格差就達到 10 倍,而 3.5 Sonnet 的質量還勝過 GPT-4 。因此, DeepSeek-V3 稱不上是個重大突破,也沒有在根本上改變大規模語言模型 ( LLM ) 的經濟邏輯;它只是一個落在成本持續下降曲線上的“正常點”。不過,此次與以往不同的地方在于,第一家把這種常規成本下降呈現出來的企業是來自中國,這在地緣政治層面非常值得關注。但美國公司很快也會跟進——不是通過抄襲 DeepSeek ,而是因為他們一樣在達成常規的成本下降趨勢。
DeepSeek 和美國 AI 公司都擁有比以往訓練它們“主打”模型時更多的資金和芯片儲備。額外的芯片往往用于研發,以嘗試新的思路,或者來訓練更大的模型(可能還沒正式推出,或者需要多次試驗才能成功)。據報道(我們無法保證其真實性), DeepSeek 可能擁有 5 萬塊 Hopper 代芯片,我估算這可能比美國主要 AI 公司擁有的數量相差 2~3 倍(相比之下,這比 xAI 的 “ Colossus ” 集群少 2~3 倍)。這 5 萬塊 Hopper 芯片差不多要花 10 億美元。因此, DeepSeek 作為一家公司(不是訓練單個模型),它的總投入和美國 AI 實驗室比并沒有高出很多。
另外,“擴展曲線” ( scaling curve ) 的分析確實有些簡化,因為不同模型在不同任務上有強項和弱項;曲線僅僅是一個忽略了許多細節的粗略平均值。就 Anthropic 的模型而言,正如我前面提到的, Claude 在寫代碼方面表現極好,而且在人機交互的風格設計上也相當優秀(很多人用它來做個人建議或情感支持)。在這些以及一些其他任務上, DeepSeek 與之相比還差得遠。這部分實力差異不會體現在單純的擴展曲線數據里。
執行得力的 出口管制 是唯一能大幅降低中國大規模獲取芯片風險的關鍵手段,也是在國際格局中維持單極或雙極態勢的重要因素。
并不是因為 DeepSeek 表現優異, 出口管制 就已經失效。正如我先前提到, DeepSeek 擁有相當可觀的芯片資源,所以他們能研發并訓練出高水平的模型并不令人意外。他們在硬件與資金上并不比 US 的 AI 公司匱乏,而 出口管制 并非促使他們“創新”的根本原因。就工程實力而言,他們的團隊確實相當出色,也顯示出China在此領域與 US 之間的競爭力。
同時, DeepSeek 并沒有證明中國可以無限通過走私獲得所有想要的芯片,也沒有顯示 出口管制 存在難以補救的漏洞。我并不認為 出口管制 的目標是阻止它獲得幾萬塊芯片——隱藏 1B 美元的交易也許并非絕無可能,但要隱藏 10B 或 100B 美元就相當困難,更不用說一次性走私數以百萬計的芯片。在 SemiAnalysis 的報道中, DeepSeek 目前擁有包括 H100 、 H800 和 H20 在內的約 5 萬塊芯片;自 H100 發布以來就被列入禁運清單,所以如果他們真有 H100 ,只能通過少量特殊渠道獲取(盡管 Nvidia 方面曾表示, DeepSeek 所做的工作“完全符合 出口管制 規定”)。至于 H800 是在 2022 年第一輪管制時仍可正常出口的,但在 2023 年 10 月新規出臺后被禁止,因此很可能是禁令前已交付;而 H20 雖然在訓練效率上不及前兩種芯片,但推理性能較佳,目前仍屬允許出口范圍。可見, DeepSeek 的芯片組合中,一部分屬于當時未被禁止但后續或應納入限制的型號,一部分是在禁令生效前就交付,還有一些可能是通過非正常手段獲取。由此也能看出, 出口管制 正在不斷完善、堵漏;如果沒有這些管制,或許他們可以更容易獲得更多更高端的芯片。只要管控收緊及時,就有可能限制 China 在更大規模上獲取這些芯片,從而提升 US 維持優勢地位的可能性。
之所以我會著重討論 出口管制 與 US 的安全問題,并不是要刻意“針對” DeepSeek 。從他們的訪談看,這家公司專注于技術研發本身,致力于做出實用產品。
但如果他們的技術能在 AI 領域與美國持平甚至超越,全球在此領域的競爭格局將會出現諸多不確定性。基于多種考量, 出口管制 依然是影響這一競爭態勢的重要調控手段。技術不斷升級、效能不斷提高,若將此視為放寬管制的理由,則可能帶來更多不可預見的風險。
原文鏈接:https://darioamodei.com/on-deepseek-and-export-controls
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編:圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.