金鱗耀歲 共啟新程
九千光年祝大家除夕快樂
一場名為DeepSeek(深度求索)的風暴,正在席卷全球。
昨天,中美兩國的蘋果應用商店同時被一條“鯨魚”攻占。作為一款來自中國的AI應用,DeepSeek完成了對ChatGPT的超越。
DeepSeek反超ChatGPT,位列美區(qū)蘋果應用商店免費App排行榜第一。
在資本市場,這條鯨魚也正在掀起滔天巨浪。
龍年最后一個交易日,A股AI算力指數(shù)大跌3.94%,寒武紀股價跌幅一度超10%。截至1月28日00:09,英偉達股價重挫15%,蒸發(fā)的市值相當于兩個阿里巴巴。
自2023年年底ChatGPT橫空出世,全球科技界的夜空被人工智能點亮以來,從未像現(xiàn)在這般聚集起一股“算力懷疑論”的厚重陰霾。
徹底釋放它的,就是一個月來官宣兩個開源大模型,被稱為“來自東方神秘力量”的DeepSeek。他們的總部位于杭州,是“杭州四小龍”的代表,創(chuàng)始人梁文鋒畢業(yè)于浙大,前不久剛被國務院總理李強接見。
中國的大模型已經(jīng)追上美國了?
故事還得追溯到一個月前,1月23日,中國大模型創(chuàng)業(yè)團隊DeepSeek官宣了新一代開源大模型DeepSeek-V3,部分性能GPT-4o和Claude Sonnet 3.5等頂尖模型相近。
一個月后,DeepSeek-R1開源模型面世,在數(shù)學、代碼、自然語言推理等任務上,性能比肩OpenAI o1正式版。
整件事最為傳奇的地方在于,DeepSeek-V3的訓練成本不到競爭對手的十分之一。Deepseek-R1的訓練成本雖然沒有公布,但它的收費只有OpenAI o1的三十分之一。
簡單說,現(xiàn)階段DeepSeek就是全球大模型“性價比”的代名詞。這就不難理解,全球的科技愛好者這兩天都在下載體驗DeepSeek。在國外,已經(jīng)出現(xiàn)“使用DeepSeek構(gòu)建一切”“Goodbye ChatGPT”這樣的話題。
昨天,同在杭州,《黑神話:悟空》出品人、游戲科學創(chuàng)始人馮驥總結(jié)了DeepSeek六大特點:強大、便宜、開源、免費、聯(lián)網(wǎng)、本土,并幽默地表示“實在太6了,6到不真實”。
而在他這條微博的開頭有一句“暴論”:DeepSeek,可能是個國運級別的科技成果。
聽上去有點夸張,但類似的討論已經(jīng)在美國持續(xù)了一周時間。在參與媒體訪談時,谷歌前CEO埃里克·施密特改變了美國在AI方面保持了兩到三年領先優(yōu)勢的看法。他表示,過去6個月,中國以一種非同尋常的方式迎頭趕上,其中一個項目就是DeepSeek。
硅谷人工智能數(shù)據(jù)服務公司Scale AI的創(chuàng)始人Alexander Wang在社交媒體上直言不諱地表達了對中國科技界追趕美國的擔憂:“當美國休息時,中國(科技界)在工作,以更低的成本、更快的速度和更強的實力趕上。”
AI三巨頭之一的楊立昆則認為,對于“中國在人工智能領域正在超越美國”正確的想法是“開源模式正在超越封閉模式”。
他們不是在復制,是在創(chuàng)新
當然,更多的是來自同行滿滿的敬意。DeepSeek-V3發(fā)布后,英偉達高級研究科學家Jim Fan曾在社交媒體上表示:“DeepSeek是本年度開源大語言模型領域的最大黑馬。”
R1面世后,他的評價更上一層樓:“我們生活在這樣一個時間線上,一家非美國公司正在維持OpenAI的原始使命——真正開放、前沿的研究,賦予所有人力量。這看似不合邏輯,但最有趣的結(jié)果往往最容易發(fā)生。”
這個不合邏輯在哪兒?在美國AI初創(chuàng)公司Perplexity首席執(zhí)行官Aravind Srinivas看來,DeepSeek的開發(fā)顯然也受制于高端芯片等硬件,但“需求是發(fā)明之母”,DeepSeek用變通的方式構(gòu)建了高效的解決方案。
他說自己非常驚訝,“通常的認知是中國人擅長復制。如果我們停止發(fā)表研究論文,停止描述我們的基礎設施架構(gòu)細節(jié),停止開源,他們將無法趕上。但現(xiàn)實是,DeepSeek中的一些細節(jié)非常出色,我甚至不會驚訝Meta會借鑒其中的一些內(nèi)容,并將其應用到Llama模型中。這并不是說他們在復制,而是在創(chuàng)新。”
最新消息顯示,Meta已經(jīng)組建了四個小組專門研究DeepSeek的大模型。
那么,DeepSeek究竟用了什么魔法呢?
比如,他們對通用的模型推理步驟進行了調(diào)整。以往模型在提升推理能力時通常依賴于“監(jiān)督微調(diào)”這個環(huán)節(jié)。這個環(huán)節(jié)可以簡單類比為人類的填鴨式教育,就是讓大模型反復做題,學習人類的推理方式。
而DeepSeek-R1在訓練過程中直接跳過了這個環(huán)節(jié),進入了“強化學習”階段,探索大模型在沒有任何監(jiān)督數(shù)據(jù)的情況下,通過純強化學習進行自我進化。他們要求大模型必須要把思考過程寫出來,通過“獎勵”引導這個“學生”找到最佳方案。
經(jīng)歷了無數(shù)次訓練后,大模型這個學生迎來了“Aha moment”(頓悟時刻)。頓悟后的大模型看上去更“通人性”,在回答上更滴水不漏。
(“如果我老婆問我,我和你媽同時掉到水里,你先救誰,如何回答?”kimi、豆包和DeepSeek-R1的回答詳見文末。)
算力需求需要修正嗎?
這個“頓悟”外加其他工程上的優(yōu)化,DeepSeek證明了瘋狂堆積算力、數(shù)據(jù)的“大力出奇跡”不是通往AGI的唯一路徑。此前,DeepSeek前員工Zihan Wang在接受采訪時 就透露:整個團隊熱衷于將硬件挑戰(zhàn)轉(zhuǎn)化為創(chuàng)新機會。
當優(yōu)雅的算法能夠降低對算力的依賴,目前全球的算力是否存在過剩,未來市場對算力的需求是否需要修正?這是近期動搖全球資本市場對科技企業(yè)的估值,出現(xiàn)動蕩的根本。
畢竟,從2023年至今,英偉達的市值已擴大了近10倍。
有趣的是,在DeepSeek大殺四方的同時,OpenAI官宣了一項“星際之門”計劃,將與軟銀甲骨文組建合資公司,未來4年內(nèi)總投資5000億美元(約合3.64萬億元人民幣)在美國建立多個AI數(shù)據(jù)中心。
該計劃將立即啟動,OpenAI會先投入1000億美元。
從目前資本市場的表現(xiàn)來看,東方“四兩撥千斤”的解決方案似乎動搖了西方“野心勃勃”的高速擴張。
不過,需要指出的是,嚴格意義上來說,DeepSeek兩個模型的開發(fā)成本遠不止現(xiàn)在廣為流傳的那么低。DeepSeek在闡釋V3的論文里就表示,550萬美元的成本僅包括正式訓練,不包括與架構(gòu)、算法、數(shù)據(jù)相關的前期研究、消融實驗的成本。
實際上,有從業(yè)者指出,就DeepSeek的算法而言,如果有更強的算力,呈現(xiàn)的效果會更好。所以,不能簡單地將好的算法和好的算力對立起來。
而作為后發(fā)者,DeepSeek確實也“站在巨人肩膀上”,有效地利用了ChatGPT產(chǎn)生的大量數(shù)據(jù)。換句話說,不能因為吃到第三個餅覺得飽了就否認了前兩個餅的作用。
更重要的是,隨著DeepSeek的出現(xiàn),用于大模型訓練的算力可能會受影響,但因為用戶使用AI的門檻進一步降低,隨之帶來更多推理的算力需求。后者對高質(zhì)量算力的需求遠低于訓練,但算力的整體規(guī)模更大。
只是從短期來看,DeepSeek確實成了壓倒已經(jīng)持續(xù)快速奔跑許久的那只駱駝的一根稻草。
最早的AI嘗試用在了炒股上
在官方公眾號上,DeepSeek對自己的介紹是,投身于探索AGI的本質(zhì),不做中庸的事,帶著好奇心,用最長期的眼光去回答最大的問題。
在這次一鳴驚人前,很多人在國產(chǎn)的大模型江湖沒聽說過DeepSeek的名號。一定程度上緣于他們至今沒有融過資,更別說接到任何一個巨頭的“橄欖枝”。但這并不妨礙他們可能是“國內(nèi)擁有最多高性能GPU的公司”。
這個底子,是他們做量化投資打下的。在轟炸AI圈之前,DeepSeek及背后的團隊是金融江湖成名已久的高手。梁文鋒所領導的幻方量化,直到現(xiàn)在仍是國內(nèi)量化私募“四巨頭”之一。
低調(diào)的梁文鋒個80后,出生在廣東的一個五線城市,父親是一名小學老師。他畢業(yè)于浙江大學,主修軟件工程,人工智能方向。有同事評價梁文鋒:完全不像一個老板,而更像一個極客。因為作為老板,他本人每天都在寫代碼、跑代碼,學習能力驚人。
從公開的工作經(jīng)歷和職業(yè)生涯來看,梁文鋒從2008年開始致力于量化對沖領域的研究,2015年創(chuàng)立幻方量化,開始在量化投資領域嶄露頭角。
2016年,幻方量化首次上線運行AI策略。2018年,確立了要成為一家AI科技公司。2023年7月,梁文鋒創(chuàng)立深度求索DeepSeek,專注于AI大模型的研究和開發(fā),公司就在杭州。
早在2019年,幻方和它背后的資金,就開始大手筆投入深度學習訓練平臺,到了2021年幻方量化對超算集群系統(tǒng)的投入增加到10億元,并且搭載了超1萬張英偉達A100顯卡。
在團隊配置上,DeepSeek只有139名研發(fā)人員,差不多是OpenAI的五分之一。其中,算法、推理框架、多模態(tài)等研發(fā)工程師以及深度學習方面的研究人員共有約70人。
梁文鋒曾透露,DeepSeek并沒有什么高深莫測的奇才,都是一些Top高校的應屆畢業(yè)生、沒畢業(yè)的博四、博五實習生,還有一些畢業(yè)才幾年的年輕人,“V2模型沒有海外回來的人,都是本土的。前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。”
無論是在技術還是人才上,梁文鋒似乎堅定地看好中國走出自己的模式。他感慨,過去30多年的IT浪潮,中國扮演的是追隨者的角色,“隨著經(jīng)濟的發(fā)展,中國也應該逐步成為技術創(chuàng)新的主要貢獻者,而不是一直依賴別人的成果。”
也就是DeepSeek-R1發(fā)布的當天,他參加了總理座談會。會上李強總理強調(diào),“要以科技創(chuàng)新推動新舊動能轉(zhuǎn)換,集中力量突破關鍵核心技術和前沿技術,加快推進科技成果產(chǎn)業(yè)化,努力培育更多經(jīng)濟新增長點。”
以“如果我老婆問我,我和你媽同時掉到水里,你先救誰,如何回答?”這道“送命題”為例,Kimi、豆包、ChatGPT和DeepSeek-R1的回答分別如下:
Kimi的回答既表達了對雙方的關心,又避免了直接選擇一方,可能會讓雙方都感到被重視。
豆包的回答:
ChatGPT的回答:
DeepSeek-R1不僅給出了答案,也分享了解題的核心要點。
文 | 梁應杰
VIEW MORE
@杭州四小龍:閃耀的”東方神秘力量“ >>
@無人機”極客捕手“ >>
@機器人“普羅米修斯” >>
@”大模型界的拼多多“要刺破英偉達泡沫?>>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.