網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

誕生在杭州的這條“鯨魚”重擊英偉達

2025-01-28 07:34:17　來源: 九千光年

浙江舉報

分享至

金鱗耀歲共啟新程

九千光年祝大家除夕快樂

一場名為DeepSeek（深度求索）的風暴，正在席卷全球。

昨天，中美兩國的蘋果應用商店同時被一條“鯨魚”攻占。作為一款來自中國的AI應用，DeepSeek完成了對ChatGPT的超越。

DeepSeek反超ChatGPT，位列美區(qū)蘋果應用商店免費App排行榜第一。

在資本市場，這條鯨魚也正在掀起滔天巨浪。

龍年最后一個交易日，A股AI算力指數(shù)大跌3.94%，寒武紀股價跌幅一度超10%。截至1月28日00:09，英偉達股價重挫15%，蒸發(fā)的市值相當于兩個阿里巴巴。

自2023年年底ChatGPT橫空出世，全球科技界的夜空被人工智能點亮以來，從未像現(xiàn)在這般聚集起一股“算力懷疑論”的厚重陰霾。

徹底釋放它的，就是一個月來官宣兩個開源大模型，被稱為“來自東方神秘力量”的DeepSeek。他們的總部位于杭州，是“杭州四小龍”的代表，創(chuàng)始人梁文鋒畢業(yè)于浙大，前不久剛被國務院總理李強接見。

中國的大模型已經(jīng)追上美國了？

故事還得追溯到一個月前，1月23日，中國大模型創(chuàng)業(yè)團隊DeepSeek官宣了新一代開源大模型DeepSeek-V3，部分性能GPT-4o和Claude Sonnet 3.5等頂尖模型相近。

一個月后，DeepSeek-R1開源模型面世，在數(shù)學、代碼、自然語言推理等任務上，性能比肩OpenAI o1正式版。

整件事最為傳奇的地方在于，DeepSeek-V3的訓練成本不到競爭對手的十分之一。Deepseek-R1的訓練成本雖然沒有公布，但它的收費只有OpenAI o1的三十分之一。

簡單說，現(xiàn)階段DeepSeek就是全球大模型“性價比”的代名詞。這就不難理解，全球的科技愛好者這兩天都在下載體驗DeepSeek。在國外，已經(jīng)出現(xiàn)“使用DeepSeek構(gòu)建一切”“Goodbye ChatGPT”這樣的話題。

昨天，同在杭州，《黑神話：悟空》出品人、游戲科學創(chuàng)始人馮驥總結(jié)了DeepSeek六大特點：強大、便宜、開源、免費、聯(lián)網(wǎng)、本土，并幽默地表示“實在太6了，6到不真實”。

而在他這條微博的開頭有一句“暴論”：DeepSeek，可能是個國運級別的科技成果。

聽上去有點夸張，但類似的討論已經(jīng)在美國持續(xù)了一周時間。在參與媒體訪談時，谷歌前CEO埃里克·施密特改變了美國在AI方面保持了兩到三年領先優(yōu)勢的看法。他表示，過去6個月，中國以一種非同尋常的方式迎頭趕上，其中一個項目就是DeepSeek。

硅谷人工智能數(shù)據(jù)服務公司Scale AI的創(chuàng)始人Alexander Wang在社交媒體上直言不諱地表達了對中國科技界追趕美國的擔憂：“當美國休息時，中國（科技界）在工作，以更低的成本、更快的速度和更強的實力趕上。”

AI三巨頭之一的楊立昆則認為，對于“中國在人工智能領域正在超越美國”正確的想法是“開源模式正在超越封閉模式”。

他們不是在復制，是在創(chuàng)新

當然，更多的是來自同行滿滿的敬意。DeepSeek-V3發(fā)布后，英偉達高級研究科學家Jim Fan曾在社交媒體上表示：“DeepSeek是本年度開源大語言模型領域的最大黑馬。”

R1面世后，他的評價更上一層樓：“我們生活在這樣一個時間線上，一家非美國公司正在維持OpenAI的原始使命——真正開放、前沿的研究，賦予所有人力量。這看似不合邏輯，但最有趣的結(jié)果往往最容易發(fā)生。”

這個不合邏輯在哪兒？在美國AI初創(chuàng)公司Perplexity首席執(zhí)行官Aravind Srinivas看來，DeepSeek的開發(fā)顯然也受制于高端芯片等硬件，但“需求是發(fā)明之母”，DeepSeek用變通的方式構(gòu)建了高效的解決方案。

他說自己非常驚訝，“通常的認知是中國人擅長復制。如果我們停止發(fā)表研究論文，停止描述我們的基礎設施架構(gòu)細節(jié)，停止開源，他們將無法趕上。但現(xiàn)實是，DeepSeek中的一些細節(jié)非常出色，我甚至不會驚訝Meta會借鑒其中的一些內(nèi)容，并將其應用到Llama模型中。這并不是說他們在復制，而是在創(chuàng)新。”

最新消息顯示，Meta已經(jīng)組建了四個小組專門研究DeepSeek的大模型。

那么，DeepSeek究竟用了什么魔法呢？

比如，他們對通用的模型推理步驟進行了調(diào)整。以往模型在提升推理能力時通常依賴于“監(jiān)督微調(diào)”這個環(huán)節(jié)。這個環(huán)節(jié)可以簡單類比為人類的填鴨式教育，就是讓大模型反復做題，學習人類的推理方式。

而DeepSeek-R1在訓練過程中直接跳過了這個環(huán)節(jié)，進入了“強化學習”階段，探索大模型在沒有任何監(jiān)督數(shù)據(jù)的情況下，通過純強化學習進行自我進化。他們要求大模型必須要把思考過程寫出來，通過“獎勵”引導這個“學生”找到最佳方案。

經(jīng)歷了無數(shù)次訓練后，大模型這個學生迎來了“Aha moment”（頓悟時刻）。頓悟后的大模型看上去更“通人性”，在回答上更滴水不漏。

（“如果我老婆問我，我和你媽同時掉到水里，你先救誰，如何回答？”kimi、豆包和DeepSeek-R1的回答詳見文末。）

算力需求需要修正嗎？

這個“頓悟”外加其他工程上的優(yōu)化，DeepSeek證明了瘋狂堆積算力、數(shù)據(jù)的“大力出奇跡”不是通往AGI的唯一路徑。此前，DeepSeek前員工Zihan Wang在接受采訪時就透露：整個團隊熱衷于將硬件挑戰(zhàn)轉(zhuǎn)化為創(chuàng)新機會。

當優(yōu)雅的算法能夠降低對算力的依賴，目前全球的算力是否存在過剩，未來市場對算力的需求是否需要修正？這是近期動搖全球資本市場對科技企業(yè)的估值，出現(xiàn)動蕩的根本。

畢竟，從2023年至今，英偉達的市值已擴大了近10倍。

有趣的是，在DeepSeek大殺四方的同時，OpenAI官宣了一項“星際之門”計劃，將與軟銀甲骨文組建合資公司，未來4年內(nèi)總投資5000億美元（約合3.64萬億元人民幣）在美國建立多個AI數(shù)據(jù)中心。

該計劃將立即啟動，OpenAI會先投入1000億美元。

從目前資本市場的表現(xiàn)來看，東方“四兩撥千斤”的解決方案似乎動搖了西方“野心勃勃”的高速擴張。

不過，需要指出的是，嚴格意義上來說，DeepSeek兩個模型的開發(fā)成本遠不止現(xiàn)在廣為流傳的那么低。DeepSeek在闡釋V3的論文里就表示，550萬美元的成本僅包括正式訓練，不包括與架構(gòu)、算法、數(shù)據(jù)相關的前期研究、消融實驗的成本。

實際上，有從業(yè)者指出，就DeepSeek的算法而言，如果有更強的算力，呈現(xiàn)的效果會更好。所以，不能簡單地將好的算法和好的算力對立起來。

而作為后發(fā)者，DeepSeek確實也“站在巨人肩膀上”，有效地利用了ChatGPT產(chǎn)生的大量數(shù)據(jù)。換句話說，不能因為吃到第三個餅覺得飽了就否認了前兩個餅的作用。

更重要的是，隨著DeepSeek的出現(xiàn)，用于大模型訓練的算力可能會受影響，但因為用戶使用AI的門檻進一步降低，隨之帶來更多推理的算力需求。后者對高質(zhì)量算力的需求遠低于訓練，但算力的整體規(guī)模更大。

只是從短期來看，DeepSeek確實成了壓倒已經(jīng)持續(xù)快速奔跑許久的那只駱駝的一根稻草。

最早的AI嘗試用在了炒股上

在官方公眾號上，DeepSeek對自己的介紹是，投身于探索AGI的本質(zhì)，不做中庸的事，帶著好奇心，用最長期的眼光去回答最大的問題。

在這次一鳴驚人前，很多人在國產(chǎn)的大模型江湖沒聽說過DeepSeek的名號。一定程度上緣于他們至今沒有融過資，更別說接到任何一個巨頭的“橄欖枝”。但這并不妨礙他們可能是“國內(nèi)擁有最多高性能GPU的公司”。

這個底子，是他們做量化投資打下的。在轟炸AI圈之前，DeepSeek及背后的團隊是金融江湖成名已久的高手。梁文鋒所領導的幻方量化，直到現(xiàn)在仍是國內(nèi)量化私募“四巨頭”之一。

低調(diào)的梁文鋒個80后，出生在廣東的一個五線城市，父親是一名小學老師。他畢業(yè)于浙江大學，主修軟件工程，人工智能方向。有同事評價梁文鋒：完全不像一個老板，而更像一個極客。因為作為老板，他本人每天都在寫代碼、跑代碼，學習能力驚人。

從公開的工作經(jīng)歷和職業(yè)生涯來看，梁文鋒從2008年開始致力于量化對沖領域的研究，2015年創(chuàng)立幻方量化，開始在量化投資領域嶄露頭角。

2016年，幻方量化首次上線運行AI策略。2018年，確立了要成為一家AI科技公司。2023年7月，梁文鋒創(chuàng)立深度求索DeepSeek，專注于AI大模型的研究和開發(fā)，公司就在杭州。

早在2019年，幻方和它背后的資金，就開始大手筆投入深度學習訓練平臺，到了2021年幻方量化對超算集群系統(tǒng)的投入增加到10億元，并且搭載了超1萬張英偉達A100顯卡。

在團隊配置上，DeepSeek只有139名研發(fā)人員，差不多是OpenAI的五分之一。其中，算法、推理框架、多模態(tài)等研發(fā)工程師以及深度學習方面的研究人員共有約70人。

梁文鋒曾透露，DeepSeek并沒有什么高深莫測的奇才，都是一些Top高校的應屆畢業(yè)生、沒畢業(yè)的博四、博五實習生，還有一些畢業(yè)才幾年的年輕人，“V2模型沒有海外回來的人，都是本土的。前50名頂尖人才可能不在中國，但也許我們能自己打造這樣的人。”

無論是在技術還是人才上，梁文鋒似乎堅定地看好中國走出自己的模式。他感慨，過去30多年的IT浪潮，中國扮演的是追隨者的角色，“隨著經(jīng)濟的發(fā)展，中國也應該逐步成為技術創(chuàng)新的主要貢獻者，而不是一直依賴別人的成果。”

也就是DeepSeek-R1發(fā)布的當天，他參加了總理座談會。會上李強總理強調(diào)，“要以科技創(chuàng)新推動新舊動能轉(zhuǎn)換，集中力量突破關鍵核心技術和前沿技術，加快推進科技成果產(chǎn)業(yè)化，努力培育更多經(jīng)濟新增長點。”

以“如果我老婆問我，我和你媽同時掉到水里，你先救誰，如何回答？”這道“送命題”為例，Kimi、豆包、ChatGPT和DeepSeek-R1的回答分別如下：

Kimi的回答既表達了對雙方的關心，又避免了直接選擇一方，可能會讓雙方都感到被重視。

豆包的回答：

ChatGPT的回答：

DeepSeek-R1不僅給出了答案，也分享了解題的核心要點。

文 | 梁應杰

VIEW MORE

@杭州四小龍：閃耀的”東方神秘力量“ >>

@無人機”極客捕手“ >>

@機器人“普羅米修斯” >>

@”大模型界的拼多多“要刺破英偉達泡沫？>>

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數(shù)碼

房產(chǎn) / 家居

誕生在杭州的這條“鯨魚”重擊英偉達