99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

繼OpenAI之后,Anthropic CEO發聲:DeepSeek正用一個意想不到的方式,改寫全球AI規則

0
分享至

  全文 4,000字 | 閱讀約10分鐘

  

  

  【導語】

  在全球AI領域,當兩大巨頭相繼對同一家公司發表評論時,往往意味著一個重要拐點的到來。近期,繼OpenAI CEO Sam Altman稱贊DeepSeek的R1模型"令人印象深刻"后,Anthropic的掌門人也對這家中國AI公司作出深度解讀,引發業界廣泛關注。

  【核心要點預覽】

  DeepSeek的技術突破更多體現了AI領域的自然成本下降趨勢,而非顛覆性創新。

  在全球AI競爭格局中,大規模計算資源的獲取和控制能力仍是決定性因素。

  企業需要投入更多資源來保持競爭力,誰能獲得并掌控關鍵計算資源,誰就能在全球AI競爭中占據主導地位。

  競爭不僅僅是技術層面的較量,更關乎未來全球科技格局的走向。

  當OpenAI的Sam Altman稱贊DeepSeek的R1模型"令人印象深刻"時,
就在昨天29日Anthropic的CEO Dario Amode也對這家Deepseek做出深度解讀。這兩位全球頂級AI企業掌門人的關注,讓我們不得不重新思考:DeepSeek到底做對了什么?

  從表面上看,DeepSeek似乎只是用更低的成本,復制了美國頂級AI模型的成就。但在Amodei看來,事情遠不這么簡單。這不僅關乎單個企業的成功,更揭示了整個AI行業發展的深層規律。正如他所說,DeepSeek的進展并非偶然,而是符合AI技術發展的基本邏輯。

  要理解這一現象,我們首先需要厘清推動AI發展的三大核心動力。這些動力不僅解釋了為什么DeepSeek能夠在短時間內取得如此顯著的進展,也讓我們得以一窺未來AI競爭的關鍵所在。

  三大 AI 發展動力

  在談政策之前,先得了解三種關于 AI 系統的核心發展動力:

  1、擴展定律 ( Scaling laws )

  簡單來說,當我們對 AI 系統加大訓練規模時,它在各類認知任務上的表現往往會平穩而且大幅度地提升。我的團隊和我在 OpenAI 時,就率先記錄了這個現象。比如,一款投入 100 萬美元訓練的模型可能只能完成 20% 的重要編程任務;如果投入 1000 萬美元,成績就能提升到 40%;而 1 億美元的投入則能達到 60%——其中的差距在實際應用中意義非凡:再多投入一個數量級,模型可能就從本科生水平跳到博士生水平。因此,各家公司都在積極投入資金來提升模型實力。

  2、推動曲線 ( Shifting the curve )

  在這一領域,層出不窮的新想法能讓模型訓練和運行效率更高:可能是對 Transformer 架構做一些微調,也可能是讓模型在硬件上跑得更順暢。新一代硬件同樣有這方面的效果。其結果就是“推動”整條曲線前進:如果有個創新可以帶來 2 倍的“ compute multiplier ( CM )”,那么同樣的指標就能用原本一半的預算達成。前沿的 AI 公司經常發現各種幅度不同的 CM ——大多是 1.2 倍左右的改進,有時能到 2 倍,偶爾還能達到 10 倍。由于更強大的系統價值極大,公司往往會把節省下來的成本再投回到更大規模的訓練上,從而讓模型更加智能;唯一的限制是公司自身的預算規模。很多人會直覺地認為:“先貴后便宜”,好像 AI 質量不變,價格便宜了我們就會少用芯片,但真正要看的是擴展曲線:當效率提升時,我們只會更快往曲線的高端走,因為高端的潛在價值實在太大。我的團隊在 2020 年發表的論文指出,算法改進能讓這條曲線每年推進 1.68 倍;近年來這個數字可能更高,還沒把硬件和效率提升算進來。估計當下的速度或許能達到每年 4 倍。有另一種測算也能佐證這一點。而且,訓練曲線的這種推動也會帶動推理曲線 ( inference curve ) 的進步,所以,保持同樣質量的模型時,成本已在過去幾年里不斷下降。像 Claude 3.5 Sonnet 就比最初的 GPT-4 發布晚了 15 個月,但在大部分測評上都超過了 GPT-4 , API 價格卻便宜了 10 倍左右。

  2、轉變范式 ( Shifting the paradigm )

  有時候,擴展所基于的核心思路會發生變化,或者訓練流程里會加入新的擴展手段。2020 年到 2023 年,大家主要是不斷加大預訓練模型的規模——先在海量 internet text 上進行訓練,再輔以少量其它訓練。可到了 2024 年,用 reinforcement learning ( RL ) 來教模型生成推理鏈 ( chains of thought ) 已成為新的研究熱點。Anthropic 、 DeepSeek 和其他不少公司(尤其是 OpenAI 在 9 月推出的 o1-preview 模型)都發現,這樣的訓練方式能顯著提升模型在數學、編程競賽以及類似推理任務上的客觀性能。具體做法是先獲取一個常規預訓練模型,然后在第二階段使用 RL 來增強它的推理能力。因為這種 RL 還算新穎,大家都只是在第二階段投入相對不大的費用,但即便從 10 萬美元提高到 100 萬美元也能帶來巨大飛躍。如今,各家公司都在加速把這部分預算擴展到數億乃至數十億美元,但重要的是要意識到:我們正處于一個“交匯點”上——這一新范式非常強大,而且還處在擴展曲線的初期,因此可以在短期內看到驚人的進步。

  DeepSeek 的模型發布

  前面提到的三種驅動 AI 發展的動力,也能幫助我們理解 DeepSeek 最近的模型發布。大約一個月前, DeepSeek 推出了 “ DeepSeek-V3 ”,這是一種純預訓練模型3——對應前文第 3 點所提及的第一階段。上周他們又發布了 “ R1 ”,加入了第二階段。從外部觀察,我們無法知曉這些模型的所有細節,但以下是我對它們的主要認識。

  實際上,真正令人眼前一亮的,是一個月前就已發布的 DeepSeek-V3 ——這個模型當時就值得引起大家的關注(我們也確實如此)。DeepSeek-V3 作為一款預訓練模型,似乎能在某些關鍵任務上接近美國頂尖 US 模型的水平?,而且訓練成本還明顯更低(不過我們發現, Claude 3.5 Sonnet 在現實編程等一些關鍵任務上依然有明顯優勢)。DeepSeek 團隊主要依靠在工程效率方面的一系列真材實料、令人印象深刻的創新做到這一點,其中包括對 “ Key-Value cache ” 的創新管理,以及推動 “ mixture of experts ” 方法比過去更進一步的嘗試。

  但我們要仔細看看背后情況:

  DeepSeek 并沒有像一些人所說的那樣,“只花 600 萬美元?就做到了 US AI 公司花數十億美元才能完成的事”。至少就 Anthropic 而言:Claude 3.5 Sonnet 是個中等規模的模型,訓練花費是幾千萬美元級別(我不會給出確切數字)。此外, 3.5 Sonnet 并沒有通過更龐大或更昂貴的模型進行任何訓練(這與傳言相反)。Sonnet 的訓練發生在 9 到 12 個月前,而 DeepSeek 的模型是在去年 11 月和 12 月訓練的,而且 Sonnet 在許多內部和外部測評中依然領先。所以,更合理的說法是:“ DeepSeek 以相對較低的成本(但沒想象中那么夸張),做出了性能接近美國 7~10 個月前那些模型的成果。”

  如果過去的歷史趨勢是訓練成本每年能下降 4 倍左右,那么像 2023 和 2024 年那樣的大幅度成本下降并不意外。因此,人們自然而然會在今年這個時段,看到一個比 3.5 Sonnet / GPT-4o 便宜 3~4 倍的模型出現。而因為 DeepSeek-V3 和美國目前最前沿的模型相比還有一定差距——可以估算它在擴展曲線 ( scaling curve ) 上差了約兩倍(我其實已經很看好它了)——那么如果 DeepSeek-V3 的訓練成本比美國當前這些一年前發布的模型低 8 倍左右,也完全在預期范圍內。所以,即便認可 DeepSeek 自己宣稱的訓練成本,這個結果也只是“符合歷史趨勢”,甚至有可能還達不到。比如,從最早的 GPT-4 到 Claude 3.5 Sonnet 的推理價格差就達到 10 倍,而 3.5 Sonnet 的質量還勝過 GPT-4 。因此, DeepSeek-V3 稱不上是個重大突破,也沒有在根本上改變大規模語言模型 ( LLM ) 的經濟邏輯;它只是一個落在成本持續下降曲線上的“正常點”。不過,此次與以往不同的地方在于,第一家把這種常規成本下降呈現出來的企業是來自中國,這在地緣政治層面非常值得關注。但美國公司很快也會跟進——不是通過抄襲 DeepSeek ,而是因為他們一樣在達成常規的成本下降趨勢。

  DeepSeek 和美國 AI 公司都擁有比以往訓練它們“主打”模型時更多的資金和芯片儲備。額外的芯片往往用于研發,以嘗試新的思路,或者來訓練更大的模型(可能還沒正式推出,或者需要多次試驗才能成功)。據報道(我們無法保證其真實性), DeepSeek 可能擁有 5 萬塊 Hopper 代芯片,我估算這可能比美國主要 AI 公司擁有的數量相差 2~3 倍(相比之下,這比 xAI 的 “ Colossus ” 集群少 2~3 倍)。這 5 萬塊 Hopper 芯片差不多要花 10 億美元。因此, DeepSeek 作為一家公司(不是訓練單個模型),它的總投入和美國 AI 實驗室比并沒有高出很多。

  另外,“擴展曲線” ( scaling curve ) 的分析確實有些簡化,因為不同模型在不同任務上有強項和弱項;曲線僅僅是一個忽略了許多細節的粗略平均值。就 Anthropic 的模型而言,正如我前面提到的, Claude 在寫代碼方面表現極好,而且在人機交互的風格設計上也相當優秀(很多人用它來做個人建議或情感支持)。在這些以及一些其他任務上, DeepSeek 與之相比還差得遠。這部分實力差異不會體現在單純的擴展曲線數據里。

  執行得力的 出口管制 是唯一能大幅降低中國大規模獲取芯片風險的關鍵手段,也是在國際格局中維持單極或雙極態勢的重要因素。

  并不是因為 DeepSeek 表現優異, 出口管制 就已經失效。正如我先前提到, DeepSeek 擁有相當可觀的芯片資源,所以他們能研發并訓練出高水平的模型并不令人意外。他們在硬件與資金上并不比 US 的 AI 公司匱乏,而 出口管制 并非促使他們“創新”的根本原因。就工程實力而言,他們的團隊確實相當出色,也顯示出China在此領域與 US 之間的競爭力。

  同時, DeepSeek 并沒有證明中國可以無限通過走私獲得所有想要的芯片,也沒有顯示 出口管制 存在難以補救的漏洞。我并不認為 出口管制 的目標是阻止它獲得幾萬塊芯片——隱藏 1B 美元的交易也許并非絕無可能,但要隱藏 10B 或 100B 美元就相當困難,更不用說一次性走私數以百萬計的芯片。在 SemiAnalysis 的報道中, DeepSeek 目前擁有包括 H100 、 H800 和 H20 在內的約 5 萬塊芯片;自 H100 發布以來就被列入禁運清單,所以如果他們真有 H100 ,只能通過少量特殊渠道獲取(盡管 Nvidia 方面曾表示, DeepSeek 所做的工作“完全符合 出口管制 規定”)。至于 H800 是在 2022 年第一輪管制時仍可正常出口的,但在 2023 年 10 月新規出臺后被禁止,因此很可能是禁令前已交付;而 H20 雖然在訓練效率上不及前兩種芯片,但推理性能較佳,目前仍屬允許出口范圍。可見, DeepSeek 的芯片組合中,一部分屬于當時未被禁止但后續或應納入限制的型號,一部分是在禁令生效前就交付,還有一些可能是通過非正常手段獲取。由此也能看出, 出口管制 正在不斷完善、堵漏;如果沒有這些管制,或許他們可以更容易獲得更多更高端的芯片。只要管控收緊及時,就有可能限制 China 在更大規模上獲取這些芯片,從而提升 US 維持優勢地位的可能性。

  之所以我會著重討論 出口管制 與 US 的安全問題,并不是要刻意“針對” DeepSeek 。從他們的訪談看,這家公司專注于技術研發本身,致力于做出實用產品。

  但如果他們的技術能在 AI 領域與美國持平甚至超越,全球在此領域的競爭格局將會出現諸多不確定性。基于多種考量, 出口管制 依然是影響這一競爭態勢的重要調控手段。技術不斷升級、效能不斷提高,若將此視為放寬管制的理由,則可能帶來更多不可預見的風險。

  原文鏈接:https://darioamodei.com/on-deepseek-and-export-controls

  來源:官方媒體/網絡新聞

  排版:Atlas

  編輯:深思

  主編:圖靈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
被反制后急眼了!美國副總統萬斯罵中國人"鄉巴佬",外交部回懟

被反制后急眼了!美國副總統萬斯罵中國人"鄉巴佬",外交部回懟

派大星紀錄片
2025-04-08 16:44:19
美國已經開始從中國進口的商品征收累計104%的關稅

美國已經開始從中國進口的商品征收累計104%的關稅

cnBeta.COM
2025-04-09 03:09:40
WCBA總決賽:東莞女籃2-0衛冕冠軍奪冠軍點 楊舒予23分楊力維20分

WCBA總決賽:東莞女籃2-0衛冕冠軍奪冠軍點 楊舒予23分楊力維20分

醉臥浮生
2025-04-08 21:33:48
剛剛,離岸人民幣直逼7.4大關,發生了什么?

剛剛,離岸人民幣直逼7.4大關,發生了什么?

金石隨筆
2025-04-09 00:24:55
48小時不到,特朗普態度突變:對中國減免關稅只需一個條件

48小時不到,特朗普態度突變:對中國減免關稅只需一個條件

侃侃娛季
2025-04-08 15:57:19
人民幣匯率破8時代將至?4月9日,凌晨的三大重要消息沖擊來襲!

人民幣匯率破8時代將至?4月9日,凌晨的三大重要消息沖擊來襲!

風口招財豬
2025-04-09 02:15:55
梅德韋杰夫:即使俄烏沖突停止,未來幾十年內俄羅斯都不會削減核武器

梅德韋杰夫:即使俄烏沖突停止,未來幾十年內俄羅斯都不會削減核武器

每日經濟新聞
2025-04-08 17:46:59
靴子即將“落地”!4月9日,今日凌晨的三大消息正式出爐

靴子即將“落地”!4月9日,今日凌晨的三大消息正式出爐

風口招財豬
2025-04-09 02:21:18
大家提前做好準備,若不出意外,4月以后,國內將迎來4個變化

大家提前做好準備,若不出意外,4月以后,國內將迎來4個變化

平說財經
2025-04-08 12:25:17
特朗普沒想到,中國來真的,暫停對美天然氣進口,歐洲因此松口氣

特朗普沒想到,中國來真的,暫停對美天然氣進口,歐洲因此松口氣

章幃戶外
2025-04-09 00:17:36
女網紅自稱遭寺廟老方丈性騷擾,卻不肯透露事發地,最終被網友挖出真相

女網紅自稱遭寺廟老方丈性騷擾,卻不肯透露事發地,最終被網友挖出真相

可達鴨面面觀
2025-04-08 17:53:09
買干果被宰9800元后續,警察調解都沒用,新疆文旅賬號被“攻陷”

買干果被宰9800元后續,警察調解都沒用,新疆文旅賬號被“攻陷”

阿傖說事
2025-04-08 16:53:00
無錫一景區男廁“紅唇”便斗引爭議,相關單位已更換

無錫一景區男廁“紅唇”便斗引爭議,相關單位已更換

現代快報
2025-04-08 21:02:22
10人排隊9人托!央媒為民除害,怒揭大鍋鹵菜騙局,結局大快人心

10人排隊9人托!央媒為民除害,怒揭大鍋鹵菜騙局,結局大快人心

二向箔
2025-04-08 17:10:19
臺海上空發生摩擦,48小時內美軍機三次逼近,立刻遭到我軍機驅離

臺海上空發生摩擦,48小時內美軍機三次逼近,立刻遭到我軍機驅離

空天力量
2025-04-08 19:07:05
突發!Shams:掘金解雇主帥邁克-馬龍!

突發!Shams:掘金解雇主帥邁克-馬龍!

直播吧
2025-04-09 01:33:09
這情商…維尼修斯輸球后立即發進球紀錄,社媒被皇馬球迷沖爛

這情商…維尼修斯輸球后立即發進球紀錄,社媒被皇馬球迷沖爛

直播吧
2025-04-08 20:04:04
大變局:移動公司劃歸公安部!

大變局:移動公司劃歸公安部!

運營商段子手
2025-04-08 00:52:02
哈維壓哨絕殺廣東男籃,張鎮麟評價:哈維挺邪乎啊!

哈維壓哨絕殺廣東男籃,張鎮麟評價:哈維挺邪乎啊!

懂球帝
2025-04-08 22:45:44
歐冠最新賠率:皇馬跌第6!巴薩巴黎槍手微弱差距占據前3

歐冠最新賠率:皇馬跌第6!巴薩巴黎槍手微弱差距占據前3

直播吧
2025-04-09 05:28:13
2025-04-09 05:39:00
AI深度研究員 incentive-icons
AI深度研究員
一個專注于人工智能(AI)前沿技術、理論研究和實際應用的自媒體
132文章數 75關注度
往期回顧 全部

科技要聞

馬斯克財富跌破3000億美元 怨特朗普?

頭條要聞

媒體:對美國"投降"的國家 在談判桌上只能被"收割"

頭條要聞

媒體:對美國"投降"的國家 在談判桌上只能被"收割"

體育要聞

100%當選狀元,但弗拉格不想進NBA?

娛樂要聞

金子涵正式宣布退圈,想回歸自己的生活

財經要聞

央地國資聯手護盤 國家隊領銜千億增持潮

汽車要聞

插混純電雙修 寶駿享境預售13.28萬起

態度原創

手機
數碼
游戲
本地
公開課

手機要聞

據傳iPhone 17 Pro機型將在相機應用中提供前后雙視頻錄制功能

數碼要聞

中國特供 RTX 5090D游戲性能普遍強于5090,影馳HOF顯卡新品曝光

數毛社稱NS2可實現PS4級別畫質!40幀模式或成主流

本地新聞

云游中國|更好濰坊,更好的家

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 儋州市| 涞水县| 恭城| 新兴县| 榆社县| 江源县| 抚州市| 太湖县| 铁岭县| 新沂市| 巴塘县| 池州市| 临邑县| 江安县| 宣武区| 潮州市| 太保市| 安西县| 普格县| 永春县| 梨树县| 沛县| 涞水县| 略阳县| 临桂县| 林甸县| 藁城市| 千阳县| 庆阳市| 永修县| 壶关县| 江川县| 兖州市| 青阳县| 吕梁市| 曲水县| 旌德县| 宝兴县| 开化县| 霍城县| 高州市|