網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

這匹中國(guó)大模型黑馬，讓扎克伯格破防了！

2025-01-17 11:55:01　來源: 冰川思想庫(kù)

浙江舉報(bào)

分享至

DeepSeek用實(shí)例給風(fēng)投們上了一課，不用高薪聘請(qǐng)擁有浮夸頭銜的資深從業(yè)者，以免費(fèi)的AI開源項(xiàng)目為基礎(chǔ)，利用有限資源同樣能夠做出一流的AI大模型。

撰文丨周隆斌

1月13日，美國(guó)拜登政府在卸任前最后一周出臺(tái)了《人工智能擴(kuò)散暫行最終規(guī)則》。

這份規(guī)則將全球各國(guó)和地區(qū)劃分為3個(gè)等級(jí)，在獲取美國(guó)最先進(jìn)的AI芯片時(shí)，分別接受不同級(jí)別的限制。讓人非常不希望看到的是，中國(guó)被劃分進(jìn)了最嚴(yán)格的三級(jí)管控，數(shù)據(jù)中心將被全面禁止進(jìn)口尖端AI芯片。

這項(xiàng)規(guī)則是否施行，將在120天的公眾意見征詢期后再行商討。不過，顯而易見的是，美國(guó)政府試圖通過行政手段干擾全球芯片和AI行業(yè)正常發(fā)展。

AI技術(shù)中蘊(yùn)藏著無限潛力已經(jīng)被廣泛證實(shí)，尖端AI芯片更是訓(xùn)練模型時(shí)必不可少的基礎(chǔ)。在獲取算力資源難度加大的背景下，國(guó)內(nèi)AI行業(yè)的出路究竟在何方？

近期，被稱作“AI界拼多多”的國(guó)產(chǎn)AI大模型——DeepSeek（深度求索），用有限的算力資源，給出了一個(gè)解決方案。

01

有起錯(cuò)的名字，沒有叫錯(cuò)的綽號(hào)。去年底剛剛發(fā)布的DeepSeek-V3開源AI大模型，以史無前例的性價(jià)比，刷新了全球AI行業(yè)的認(rèn)知。

先來看看這個(gè)AI大模型的性能，DeepSeek在自家公眾號(hào)中這么介紹V3模型：

DeepSeek-V3多項(xiàng)評(píng)測(cè)成績(jī)超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型，并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

簡(jiǎn)單來講就是，DeepSeek-V3已經(jīng)成為現(xiàn)在全球最強(qiáng)開源大模型，可以與頭部閉源大模型掰掰手腕。從測(cè)評(píng)結(jié)果上看，DeepSeek好像并沒有吹牛，在百科知識(shí)、代碼生成等場(chǎng)景中，DeepSeek-V3確實(shí)取得了第一梯隊(duì)的成績(jī)。

不過，行業(yè)內(nèi)的評(píng)測(cè)是一份公開試卷，完全可以有針對(duì)性地對(duì)模型進(jìn)行訓(xùn)練。就像電腦的跑分測(cè)試，未必就那么客觀。在實(shí)際使用體驗(yàn)上，DeepSeek-V3的數(shù)學(xué)和編程能力確實(shí)非常強(qiáng)，這也是評(píng)測(cè)的重點(diǎn)方向。不過，它在一些特殊語境或者創(chuàng)造性思維方面還是差點(diǎn)意思。

例如，向DeepSeek-V3詢問，香菇掉到了馬桶中，那它還能被稱作香菇嗎？它只會(huì)一本正經(jīng)地給出回答，GPT-4o則是先點(diǎn)明這是一句幽默的提問，再進(jìn)行回答。

對(duì)于將AI大模型當(dāng)作搜索引擎的我來說，DeepSeek-V3是合格的。盡管在一些總結(jié)歸納上與GPT-4o略有差距，考慮到后者的使用限制，我還是愿意將免費(fèi)的DeepSeek列為首選AI工具。

令人想不到的是，DeepSeek-V3整個(gè)模型的預(yù)訓(xùn)練成本花費(fèi)為557.6萬美元，僅需GPT-4o的二十分之一。“低廉”的成本給了DeepSeek砸穿行業(yè)底價(jià)的勇氣，開發(fā)者調(diào)用DeepSeek-V3的支出只要GPT-4o的十分之一，性價(jià)比爆棚。

更加難能可貴的是，DeepSeek-V3在訓(xùn)練時(shí)使用的GPU是英偉達(dá)的H800，一款在性能上被閹割的特供AI芯片。OpenAI手握上萬塊英偉達(dá)一流的AI芯片，愿意為其融資的投資者絡(luò)繹不絕，成本從來都不是他們考慮的第一要素。

后來者大部分以O(shè)penAI為標(biāo)桿，AI大模型只有砸錢、砸算力才能做出來的觀念在行業(yè)中深入人心。正因如此，花小錢辦大事的DeepSeek才讓一眾硅谷大佬們驚呼這是“來自東方的神秘力量”。

扎克伯格在談到DeepSeek時(shí)，罕見地表示：“他們的技術(shù)真的很不錯(cuò)，這個(gè)模型非常先進(jìn)。（在AI大模型領(lǐng)域）中國(guó)正在全力沖刺，我們當(dāng)然該支持美國(guó)的公司。實(shí)際上，這是一場(chǎng)差距很小的競(jìng)爭(zhēng)。”

02

早在去年5月，DeepSeek發(fā)布DeepSeek-V2模型時(shí)，超低的價(jià)格就引起了AI大模型降價(jià)的血雨腥風(fēng)。彼時(shí)DeepSeek尚未推出面向消費(fèi)者的應(yīng)用，大眾知名度遠(yuǎn)沒有現(xiàn)在這么高。

直到去年12月26日，DeepSeek-V3推出網(wǎng)頁(yè)版后一夜爆火，月度訪問量迅速突破千萬。與大模型一同發(fā)布的，還有一篇53頁(yè)的論文，詳細(xì)介紹了DeepSeek-V3模型的技術(shù)細(xì)節(jié)，將如何用有限資源進(jìn)行模型優(yōu)化的策略全部公之于眾。

DeepSeek采用的主要技術(shù)總結(jié)下來有三點(diǎn)，創(chuàng)新的模型架構(gòu)、高效的訓(xùn)練技術(shù)以及優(yōu)化資源利用。我認(rèn)為，其中MLA（多頭潛在注意力機(jī)制）架構(gòu)最值得稱道。DeepSeek將用戶任務(wù)分解為多個(gè)子任務(wù)，由不同的專家模型分別處理，再將各專家模型的結(jié)果匯總輸出結(jié)果。

這就意味著，大模型在接到用戶需求時(shí)，不用調(diào)動(dòng)全部資源進(jìn)行處理。提升模型運(yùn)行效率的同時(shí)，顯著降低了運(yùn)行成本，有種“專人專辦”的感覺。

如果仔細(xì)研究DeepSeek的解決方案，會(huì)發(fā)現(xiàn)DeepSeek更多是在進(jìn)行“工程創(chuàng)新”。它雖然沒有創(chuàng)造出一套全新的技術(shù)，卻改進(jìn)了業(yè)內(nèi)原有的模型訓(xùn)練方式。

有人認(rèn)為業(yè)內(nèi)對(duì)于DeepSeek的評(píng)價(jià)有些過高，它只是對(duì)原有技術(shù)進(jìn)行了優(yōu)化。這樣的看法顯然過度關(guān)注技術(shù)層面，而忽略了AI行業(yè)無限光明前景的背后，是有些陰暗的現(xiàn)實(shí)。

過去一年中，全球科技公司幾乎都鉚足了勁在AI項(xiàng)目上發(fā)力，全球AI初創(chuàng)公司如雨后春筍般冒出，“用AI重塑所有行業(yè)”的口號(hào)喊得震天響。然而，擺在所有企業(yè)面前的窘境是，AI商業(yè)化路徑并沒有被完全打通。

對(duì)于傳統(tǒng)企業(yè)而言，如果需要AI大模型為業(yè)務(wù)賦能，選擇開源模型進(jìn)行微調(diào)，定制專屬大模型試錯(cuò)成本更低。廣大消費(fèi)者為AI功能付費(fèi)的意愿也不高，大部分用戶都是“白嫖黨”，尚且屬于培養(yǎng)用戶習(xí)慣的階段。

就連作為AI行業(yè)的領(lǐng)軍企業(yè)OpenAI至今都尚未實(shí)現(xiàn)盈利，很大一部分原因在于尖端AI模型的訓(xùn)練耗資驚人，運(yùn)行成本也十分高昂。據(jù)測(cè)算，僅維持ChatGPT的運(yùn)營(yíng)，每天成本就高達(dá)70萬美元。OpenAI首席執(zhí)行官山姆·奧特曼則表示，未來的AI模型成本預(yù)計(jì)將超過10億美元。

《紐約時(shí)報(bào)》獲得的融資文件顯示，OpenAI 2024年預(yù)計(jì)收入達(dá)到37億美元，但預(yù)計(jì)虧損也將達(dá)到50億美元，而2026年虧損可能會(huì)高達(dá)140億美元，這一估算還不包括給員工的股票激勵(lì)兌現(xiàn)。

可以說，高度依賴融資的OpenAI在破產(chǎn)的邊緣反復(fù)搖擺。如果明天投資界厭倦了看不到盈利希望的AI行業(yè)，OpenAI僅憑自身的造血能力，恐怕難以為繼，其他AI初創(chuàng)企業(yè)更是如此。

這樣的擔(dān)憂并非空穴來風(fēng)，知名數(shù)據(jù)分析機(jī)構(gòu) CB Insights 發(fā)布的《2024年第三季度全球人工智能投融資報(bào)告》顯示，2024年第三季度生成式AI領(lǐng)域的投資額環(huán)比下降了29%，10億美元以上的大額融資量環(huán)比下降77%。

任何生意的核心都是成本與收入的平衡，DeepSeek為AI行業(yè)提供了一種嶄新的思路，既然收入端暫時(shí)難以大規(guī)模提升，不妨先從成本端發(fā)力。或許DeepSeek在技術(shù)上沒有多么驚天動(dòng)地的創(chuàng)新，卻讓國(guó)內(nèi)AI行業(yè)看到了一絲在夾縫中生存的可能性，也為全球AI行業(yè)長(zhǎng)久存續(xù)提供了新范式。

DeepSeek的成功離不開前輩們技術(shù)開源的支持，DeepSeek也愿意將自己的成果以開源的方式反哺整個(gè)行業(yè)。在通往AGI（通用人工智能）的漫漫石階中，DeepSeek刻下了屬于自己的名字。

03

降低成本這件事并不是什么精妙的點(diǎn)子，更是中國(guó)企業(yè)最擅長(zhǎng)的事情。為什么從百度、騰訊、阿里這些互聯(lián)網(wǎng)大廠，到月之暗面、智譜AI、零一萬物等號(hào)稱中國(guó)大模型領(lǐng)域“六小虎”的創(chuàng)業(yè)公司，沒有一家能夠提早想到呢？

如果深入了解DeepSeek這家公司后，就會(huì)發(fā)現(xiàn)這絕非偶然。

DeepSeek在V3模型發(fā)布前相當(dāng)?shù)驼{(diào)，模型發(fā)布后也沒有如國(guó)內(nèi)同行一樣，鋪天蓋地地打廣告，知名度更多來自于用戶們口口相傳。但如果說到它的全資母公司幻方量化，股民朋友們肯定十分熟悉。

幻方量化，迄今為止國(guó)內(nèi)唯一規(guī)模曾經(jīng)超過千億元大關(guān)的量化私募。根據(jù)私募排排網(wǎng)數(shù)據(jù)顯示，幻方量化的代表產(chǎn)品九章幻方中證500量化多策略1號(hào)，從2017年1月19日成立至今（2025年1月10日），累計(jì)收益率超過300%，年化收益率達(dá)到19%，與巴菲特年化收益率的20%十分相近。

ChatGPT 3.5問世時(shí)，業(yè)內(nèi)測(cè)算想要做出這種級(jí)別的大模型，至少需要1萬張英偉達(dá)A100芯片。彼時(shí)全球算力競(jìng)賽尚未正式開啟，國(guó)內(nèi)擁有萬卡算力的公司，滿打滿算也就6家，百度、騰訊、字節(jié)、阿里、商湯，還有一位手握入場(chǎng)券的正是幻方量化。

DeepSeek由幻方量化創(chuàng)始人梁文峰一手創(chuàng)辦，雖然公司成立時(shí)間是在2023年7月，但DeepSeek項(xiàng)目在幻方內(nèi)部已經(jīng)孵化很久。

2021年幻方量化私募規(guī)模破千億元時(shí)，梁文峰選擇主動(dòng)降低管理規(guī)模，暫停旗下所有產(chǎn)品的申購(gòu)，并免除所有基金的贖回費(fèi)用。目前，幻方量化的管理規(guī)模已降至200億-300億元。

彼時(shí)外界幾乎沒有任何人能理解梁文峰的決定。主動(dòng)降低管理規(guī)模固然有行業(yè)監(jiān)管趨嚴(yán)、市場(chǎng)風(fēng)險(xiǎn)等客觀因素，但很少有私募基金會(huì)和送上門的錢過不去。以幻方量化當(dāng)時(shí)的體量和名氣，不說業(yè)績(jī)提成，單是管理費(fèi)每年都能躺賺數(shù)十億元。

現(xiàn)在看來，或許梁文峰早就看到了AI技術(shù)爆發(fā)的曙光。梁文峰在接受采訪時(shí)提到：“我們的出發(fā)點(diǎn)，就不是趁機(jī)賺一筆，而是走到技術(shù)的前沿，去推動(dòng)整個(gè)生態(tài)發(fā)展。中國(guó)也要逐步成為貢獻(xiàn)者，而不是一直搭便車。”

04

DeepSeek這家公司的企業(yè)文化也十分獨(dú)特。其他國(guó)內(nèi)科技企業(yè)習(xí)慣重金聘請(qǐng)行業(yè)大佬，DeepSeek的團(tuán)隊(duì)則十分年輕化。

據(jù)梁文峰自己透露：“我們的核心技術(shù)崗位，基本以應(yīng)屆和畢業(yè)一兩年的人為主。”就連公司的管理層，也都是一些畢業(yè)5年左右的年輕人。當(dāng)然，這些年輕人沒有很深厚的工作背景，卻也都是國(guó)內(nèi)一流院校的天之驕子。

DeepSeek內(nèi)部采用扁平化管理模式，每一位員工的想法都會(huì)得到充分尊重。只要有新點(diǎn)子，不論職級(jí)，在經(jīng)過內(nèi)部討論后，都可以調(diào)動(dòng)公司資源進(jìn)行項(xiàng)目研究。DeepSeek-V3的MLA架構(gòu)，最初正是由一位年輕研究員的個(gè)人興趣所誕生。

除此之外，背靠幻方的DeepSeek是業(yè)內(nèi)罕見的不依靠外部融資生存的初創(chuàng)公司。沒有投資人給的壓力，商業(yè)化自然也不是DeepSeek的首要任務(wù)。所以直到V3模型之前，DeepSeek都沒有選擇上線面向大眾的產(chǎn)品。或許是巧合，OpenAI的ChatGPT也是迭代到3.5版本，才選擇公之于眾。

成員年輕化，組織結(jié)構(gòu)扁平化，不以商業(yè)化為首要目標(biāo)，這一切組合在一起，使得DeepSeek在行業(yè)中顯得格格不入。梁文峰主動(dòng)跳出私募行業(yè)的舒適圈，帶領(lǐng)一群壓根沒有找到自己舒適圈的年輕員工，開辟出了一條未曾設(shè)想的道路。

有人說，DeepSeek閃亮登場(chǎng)，用少量算力資源訓(xùn)練出超強(qiáng)大模型，英偉達(dá)慌了，芯片要賣不動(dòng)了。然而，DeepSeek提供的是一種現(xiàn)有大模型訓(xùn)練的優(yōu)化方案，要想達(dá)成AGI光憑現(xiàn)有技術(shù)肯定是不夠的，下一代大模型還是要仰仗算力堆砌。

真正應(yīng)該慌的，是那些AI初創(chuàng)企業(yè)們。

正如小米造車前，雷軍計(jì)劃5年投入1000億元。沒想到研發(fā)、建廠、營(yíng)銷一系列開支下來，僅花費(fèi)300億元，第一款車型小米SU7就火爆全國(guó)。國(guó)內(nèi)投資圈這才明白過來，那些砸進(jìn)去大幾百億連年虧損，毛利率轉(zhuǎn)正都難的造車新勢(shì)力們有多無能。

DeepSeek同樣用實(shí)例給風(fēng)投們上了一課，不用高薪聘請(qǐng)擁有浮夸頭銜的資深從業(yè)者，以免費(fèi)的AI開源項(xiàng)目為基礎(chǔ)，利用有限資源同樣能夠做出一流的AI大模型。

沒有對(duì)比就沒有傷害，其余AI初創(chuàng)公司的精美PPT中，究竟有多少是高管給投資人畫的大餅，無數(shù)輪募資中拿到的錢是不是用在了刀把上？DeepSeek論文發(fā)布后，不知道有多少AI初創(chuàng)公司的高管正在連夜開會(huì)，琢磨新的說辭。

在中美AI競(jìng)賽中，DeepSeek以業(yè)界黑馬的形象出現(xiàn)，給硅谷帶來了一點(diǎn)小小的中國(guó)震撼。作為一家以量化交易起家的中國(guó)公司，DeepSeek并不被視為技術(shù)引領(lǐng)者，但他在有限的算力資源條件下，卻依然能夠做出令整個(gè)AI行業(yè)為之側(cè)目的技術(shù)創(chuàng)新。

這也讓世人看到，在這場(chǎng)前途未卜的AI大競(jìng)賽當(dāng)中，中國(guó)公司仍然有很大機(jī)會(huì)，結(jié)合自身優(yōu)勢(shì)，在先進(jìn)AI領(lǐng)域擁有自己的話語權(quán)，進(jìn)而迸發(fā)出改變世界的力量。

*本文為冰川思想庫(kù)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載，否則追究相關(guān)法律責(zé)任

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.