99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

誕生在杭州的這條“鯨魚”重擊英偉達

0
分享至




金鱗耀歲 共啟新程

九千光年祝大家除夕快樂

一場名為DeepSeek(深度求索)的風暴,正在席卷全球。

昨天,中美兩國的蘋果應用商店同時被一條“鯨魚”攻占。作為一款來自中國的AI應用,DeepSeek完成了對ChatGPT的超越。


DeepSeek反超ChatGPT,位列美區(qū)蘋果應用商店免費App排行榜第一。

在資本市場,這條鯨魚也正在掀起滔天巨浪。

龍年最后一個交易日,A股AI算力指數(shù)大跌3.94%,寒武紀股價跌幅一度超10%。截至1月28日00:09,英偉達股價重挫15%,蒸發(fā)的市值相當于兩個阿里巴巴。


自2023年年底ChatGPT橫空出世,全球科技界的夜空被人工智能點亮以來,從未像現(xiàn)在這般聚集起一股“算力懷疑論”的厚重陰霾。

徹底釋放它的,就是一個月來官宣兩個開源大模型,被稱為“來自東方神秘力量”的DeepSeek。他們的總部位于杭州,是“杭州四小龍”的代表,創(chuàng)始人梁文鋒畢業(yè)于浙大,前不久剛被國務院總理李強接見。



中國的大模型已經(jīng)追上美國了?

故事還得追溯到一個月前,1月23日,中國大模型創(chuàng)業(yè)團隊DeepSeek官宣了新一代開源大模型DeepSeek-V3,部分性能GPT-4o和Claude Sonnet 3.5等頂尖模型相近。

一個月后,DeepSeek-R1開源模型面世,在數(shù)學、代碼、自然語言推理等任務上,性能比肩OpenAI o1正式版。


整件事最為傳奇的地方在于,DeepSeek-V3的訓練成本不到競爭對手的十分之一。Deepseek-R1的訓練成本雖然沒有公布,但它的收費只有OpenAI o1的三十分之一。

簡單說,現(xiàn)階段DeepSeek就是全球大模型“性價比”的代名詞。這就不難理解,全球的科技愛好者這兩天都在下載體驗DeepSeek。在國外,已經(jīng)出現(xiàn)“使用DeepSeek構(gòu)建一切”“Goodbye ChatGPT”這樣的話題。

昨天,同在杭州,《黑神話:悟空》出品人、游戲科學創(chuàng)始人馮驥總結(jié)了DeepSeek六大特點:強大、便宜、開源、免費、聯(lián)網(wǎng)、本土,并幽默地表示“實在太6了,6到不真實”。


而在他這條微博的開頭有一句“暴論”:DeepSeek,可能是個國運級別的科技成果。

聽上去有點夸張,但類似的討論已經(jīng)在美國持續(xù)了一周時間。在參與媒體訪談時,谷歌前CEO埃里克·施密特改變了美國在AI方面保持了兩到三年領先優(yōu)勢的看法。他表示,過去6個月,中國以一種非同尋常的方式迎頭趕上,其中一個項目就是DeepSeek。

硅谷人工智能數(shù)據(jù)服務公司Scale AI的創(chuàng)始人Alexander Wang在社交媒體上直言不諱地表達了對中國科技界追趕美國的擔憂:“當美國休息時,中國(科技界)在工作,以更低的成本、更快的速度和更強的實力趕上。”

AI三巨頭之一的楊立昆則認為,對于“中國在人工智能領域正在超越美國”正確的想法是“開源模式正在超越封閉模式”。



他們不是在復制,是在創(chuàng)新

當然,更多的是來自同行滿滿的敬意。DeepSeek-V3發(fā)布后,英偉達高級研究科學家Jim Fan曾在社交媒體上表示:“DeepSeek是本年度開源大語言模型領域的最大黑馬。”

R1面世后,他的評價更上一層樓:“我們生活在這樣一個時間線上,一家非美國公司正在維持OpenAI的原始使命——真正開放、前沿的研究,賦予所有人力量。這看似不合邏輯,但最有趣的結(jié)果往往最容易發(fā)生。”

這個不合邏輯在哪兒?在美國AI初創(chuàng)公司Perplexity首席執(zhí)行官Aravind Srinivas看來,DeepSeek的開發(fā)顯然也受制于高端芯片等硬件,但“需求是發(fā)明之母”,DeepSeek用變通的方式構(gòu)建了高效的解決方案。

他說自己非常驚訝,“通常的認知是中國人擅長復制。如果我們停止發(fā)表研究論文,停止描述我們的基礎設施架構(gòu)細節(jié),停止開源,他們將無法趕上。但現(xiàn)實是,DeepSeek中的一些細節(jié)非常出色,我甚至不會驚訝Meta會借鑒其中的一些內(nèi)容,并將其應用到Llama模型中。這并不是說他們在復制,而是在創(chuàng)新。

最新消息顯示,Meta已經(jīng)組建了四個小組專門研究DeepSeek的大模型。


那么,DeepSeek究竟用了什么魔法呢?

比如,他們對通用的模型推理步驟進行了調(diào)整。以往模型在提升推理能力時通常依賴于“監(jiān)督微調(diào)”這個環(huán)節(jié)。這個環(huán)節(jié)可以簡單類比為人類的填鴨式教育,就是讓大模型反復做題,學習人類的推理方式。

而DeepSeek-R1在訓練過程中直接跳過了這個環(huán)節(jié),進入了“強化學習”階段,探索大模型在沒有任何監(jiān)督數(shù)據(jù)的情況下,通過純強化學習進行自我進化。他們要求大模型必須要把思考過程寫出來,通過“獎勵”引導這個“學生”找到最佳方案。

經(jīng)歷了無數(shù)次訓練后,大模型這個學生迎來了“Aha moment”(頓悟時刻)。頓悟后的大模型看上去更“通人性”,在回答上更滴水不漏。

(“如果我老婆問我,我和你媽同時掉到水里,你先救誰,如何回答?”kimi、豆包和DeepSeek-R1的回答詳見文末。)


算力需求需要修正嗎?

這個“頓悟”外加其他工程上的優(yōu)化,DeepSeek證明了瘋狂堆積算力、數(shù)據(jù)的“大力出奇跡”不是通往AGI的唯一路徑。此前,DeepSeek前員工Zihan Wang在接受采訪時 就透露:整個團隊熱衷于將硬件挑戰(zhàn)轉(zhuǎn)化為創(chuàng)新機會。

當優(yōu)雅的算法能夠降低對算力的依賴,目前全球的算力是否存在過剩,未來市場對算力的需求是否需要修正?這是近期動搖全球資本市場對科技企業(yè)的估值,出現(xiàn)動蕩的根本。

畢竟,從2023年至今,英偉達的市值已擴大了近10倍。

有趣的是,在DeepSeek大殺四方的同時,OpenAI官宣了一項“星際之門”計劃,將與軟銀甲骨文組建合資公司,未來4年內(nèi)總投資5000億美元(約合3.64萬億元人民幣)在美國建立多個AI數(shù)據(jù)中心。

該計劃將立即啟動,OpenAI會先投入1000億美元。

從目前資本市場的表現(xiàn)來看,東方“四兩撥千斤”的解決方案似乎動搖了西方“野心勃勃”的高速擴張。

不過,需要指出的是,嚴格意義上來說,DeepSeek兩個模型的開發(fā)成本遠不止現(xiàn)在廣為流傳的那么低。DeepSeek在闡釋V3的論文里就表示,550萬美元的成本僅包括正式訓練,不包括與架構(gòu)、算法、數(shù)據(jù)相關的前期研究、消融實驗的成本。

實際上,有從業(yè)者指出,就DeepSeek的算法而言,如果有更強的算力,呈現(xiàn)的效果會更好。所以,不能簡單地將好的算法和好的算力對立起來。

而作為后發(fā)者,DeepSeek確實也“站在巨人肩膀上”,有效地利用了ChatGPT產(chǎn)生的大量數(shù)據(jù)。換句話說,不能因為吃到第三個餅覺得飽了就否認了前兩個餅的作用。

更重要的是,隨著DeepSeek的出現(xiàn),用于大模型訓練的算力可能會受影響,但因為用戶使用AI的門檻進一步降低,隨之帶來更多推理的算力需求。后者對高質(zhì)量算力的需求遠低于訓練,但算力的整體規(guī)模更大。

只是從短期來看,DeepSeek確實成了壓倒已經(jīng)持續(xù)快速奔跑許久的那只駱駝的一根稻草。


最早的AI嘗試用在了炒股上

在官方公眾號上,DeepSeek對自己的介紹是,投身于探索AGI的本質(zhì),不做中庸的事,帶著好奇心,用最長期的眼光去回答最大的問題。

在這次一鳴驚人前,很多人在國產(chǎn)的大模型江湖沒聽說過DeepSeek的名號。一定程度上緣于他們至今沒有融過資,更別說接到任何一個巨頭的“橄欖枝”。但這并不妨礙他們可能是“國內(nèi)擁有最多高性能GPU的公司”。

這個底子,是他們做量化投資打下的。在轟炸AI圈之前,DeepSeek及背后的團隊是金融江湖成名已久的高手。梁文鋒所領導的幻方量化,直到現(xiàn)在仍是國內(nèi)量化私募“四巨頭”之一。


低調(diào)的梁文鋒個80后,出生在廣東的一個五線城市,父親是一名小學老師。他畢業(yè)于浙江大學,主修軟件工程,人工智能方向。有同事評價梁文鋒:完全不像一個老板,而更像一個極客。因為作為老板,他本人每天都在寫代碼、跑代碼,學習能力驚人。


從公開的工作經(jīng)歷和職業(yè)生涯來看,梁文鋒從2008年開始致力于量化對沖領域的研究,2015年創(chuàng)立幻方量化,開始在量化投資領域嶄露頭角。

2016年,幻方量化首次上線運行AI策略。2018年,確立了要成為一家AI科技公司。2023年7月,梁文鋒創(chuàng)立深度求索DeepSeek,專注于AI大模型的研究和開發(fā),公司就在杭州。

早在2019年,幻方和它背后的資金,就開始大手筆投入深度學習訓練平臺,到了2021年幻方量化對超算集群系統(tǒng)的投入增加到10億元,并且搭載了超1萬張英偉達A100顯卡。

在團隊配置上,DeepSeek只有139名研發(fā)人員,差不多是OpenAI的五分之一。其中,算法、推理框架、多模態(tài)等研發(fā)工程師以及深度學習方面的研究人員共有約70人。

梁文鋒曾透露,DeepSeek并沒有什么高深莫測的奇才,都是一些Top高校的應屆畢業(yè)生、沒畢業(yè)的博四、博五實習生,還有一些畢業(yè)才幾年的年輕人,“V2模型沒有海外回來的人,都是本土的。前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。”

無論是在技術還是人才上,梁文鋒似乎堅定地看好中國走出自己的模式。他感慨,過去30多年的IT浪潮,中國扮演的是追隨者的角色,“隨著經(jīng)濟的發(fā)展,中國也應該逐步成為技術創(chuàng)新的主要貢獻者,而不是一直依賴別人的成果。”

也就是DeepSeek-R1發(fā)布的當天,他參加了總理座談會。會上李強總理強調(diào),“要以科技創(chuàng)新推動新舊動能轉(zhuǎn)換,集中力量突破關鍵核心技術和前沿技術,加快推進科技成果產(chǎn)業(yè)化,努力培育更多經(jīng)濟新增長點。”

以“如果我老婆問我,我和你媽同時掉到水里,你先救誰,如何回答?”這道“送命題”為例,Kimi、豆包、ChatGPT和DeepSeek-R1的回答分別如下:

Kimi的回答既表達了對雙方的關心,又避免了直接選擇一方,可能會讓雙方都感到被重視。


豆包的回答:


ChatGPT的回答:


DeepSeek-R1不僅給出了答案,也分享了解題的核心要點。


文 | 梁應杰

VIEW MORE

@杭州四小龍:閃耀的”東方神秘力量“ >>

@無人機”極客捕手“ >>

@機器人“普羅米修斯” >>

@”大模型界的拼多多“要刺破英偉達泡沫?>>

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

九千光年 incentive-icons
九千光年
在技術奇點,和影響未來的人看“星辰大海”
1736文章數(shù) 5531關注度
往期回顧 全部

專題推薦

強軍之路

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 兴国县| 平罗县| 永定县| 庄浪县| 璧山县| 醴陵市| 余姚市| 平江县| 年辖:市辖区| 五家渠市| 赫章县| 自贡市| 阳春市| 丹巴县| 清新县| 大关县| 古丈县| 寿宁县| 阜平县| 连云港市| 苏州市| 绵阳市| 高淳县| 大同县| 濮阳县| 丰顺县| 泸州市| 辉县市| 漯河市| 手机| 龙州县| 商洛市| 莫力| 泸定县| 霍邱县| 陆河县| 龙井市| 梧州市| 基隆市| 安吉县| 南陵县|