DeepSeek用實(shí)例給風(fēng)投們上了一課,不用高薪聘請(qǐng)擁有浮夸頭銜的資深從業(yè)者,以免費(fèi)的AI開源項(xiàng)目為基礎(chǔ),利用有限資源同樣能夠做出一流的AI大模型。
撰文丨周隆斌
1月13日,美國(guó)拜登政府在卸任前最后一周出臺(tái)了《人工智能擴(kuò)散暫行最終規(guī)則》。
這份規(guī)則將全球各國(guó)和地區(qū)劃分為3個(gè)等級(jí),在獲取美國(guó)最先進(jìn)的AI芯片時(shí),分別接受不同級(jí)別的限制。讓人非常不希望看到的是,中國(guó)被劃分進(jìn)了最嚴(yán)格的三級(jí)管控,數(shù)據(jù)中心將被全面禁止進(jìn)口尖端AI芯片。
這項(xiàng)規(guī)則是否施行,將在120天的公眾意見征詢期后再行商討。不過,顯而易見的是,美國(guó)政府試圖通過行政手段干擾全球芯片和AI行業(yè)正常發(fā)展。
AI技術(shù)中蘊(yùn)藏著無限潛力已經(jīng)被廣泛證實(shí),尖端AI芯片更是訓(xùn)練模型時(shí)必不可少的基礎(chǔ)。在獲取算力資源難度加大的背景下,國(guó)內(nèi)AI行業(yè)的出路究竟在何方?
近期,被稱作“AI界拼多多”的國(guó)產(chǎn)AI大模型——DeepSeek(深度求索),用有限的算力資源,給出了一個(gè)解決方案。
01
有起錯(cuò)的名字,沒有叫錯(cuò)的綽號(hào)。去年底剛剛發(fā)布的DeepSeek-V3開源AI大模型,以史無前例的性價(jià)比,刷新了全球AI行業(yè)的認(rèn)知。
先來看看這個(gè)AI大模型的性能,DeepSeek在自家公眾號(hào)中這么介紹V3模型:
DeepSeek-V3多項(xiàng)評(píng)測(cè)成績(jī)超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
簡(jiǎn)單來講就是,DeepSeek-V3已經(jīng)成為現(xiàn)在全球最強(qiáng)開源大模型,可以與頭部閉源大模型掰掰手腕。從測(cè)評(píng)結(jié)果上看,DeepSeek好像并沒有吹牛,在百科知識(shí)、代碼生成等場(chǎng)景中,DeepSeek-V3確實(shí)取得了第一梯隊(duì)的成績(jī)。
不過,行業(yè)內(nèi)的評(píng)測(cè)是一份公開試卷,完全可以有針對(duì)性地對(duì)模型進(jìn)行訓(xùn)練。就像電腦的跑分測(cè)試,未必就那么客觀。在實(shí)際使用體驗(yàn)上,DeepSeek-V3的數(shù)學(xué)和編程能力確實(shí)非常強(qiáng),這也是評(píng)測(cè)的重點(diǎn)方向。不過,它在一些特殊語境或者創(chuàng)造性思維方面還是差點(diǎn)意思。
例如,向DeepSeek-V3詢問,香菇掉到了馬桶中,那它還能被稱作香菇嗎?它只會(huì)一本正經(jīng)地給出回答,GPT-4o則是先點(diǎn)明這是一句幽默的提問,再進(jìn)行回答。
對(duì)于將AI大模型當(dāng)作搜索引擎的我來說,DeepSeek-V3是合格的。盡管在一些總結(jié)歸納上與GPT-4o略有差距,考慮到后者的使用限制,我還是愿意將免費(fèi)的DeepSeek列為首選AI工具。
令人想不到的是,DeepSeek-V3整個(gè)模型的預(yù)訓(xùn)練成本花費(fèi)為557.6萬美元,僅需GPT-4o的二十分之一。“低廉”的成本給了DeepSeek砸穿行業(yè)底價(jià)的勇氣,開發(fā)者調(diào)用DeepSeek-V3的支出只要GPT-4o的十分之一,性價(jià)比爆棚。
更加難能可貴的是,DeepSeek-V3在訓(xùn)練時(shí)使用的GPU是英偉達(dá)的H800,一款在性能上被閹割的特供AI芯片。OpenAI手握上萬塊英偉達(dá)一流的AI芯片,愿意為其融資的投資者絡(luò)繹不絕,成本從來都不是他們考慮的第一要素。
后來者大部分以O(shè)penAI為標(biāo)桿,AI大模型只有砸錢、砸算力才能做出來的觀念在行業(yè)中深入人心。正因如此,花小錢辦大事的DeepSeek才讓一眾硅谷大佬們驚呼這是“來自東方的神秘力量”。
扎克伯格在談到DeepSeek時(shí),罕見地表示:“他們的技術(shù)真的很不錯(cuò),這個(gè)模型非常先進(jìn)。(在AI大模型領(lǐng)域)中國(guó)正在全力沖刺,我們當(dāng)然該支持美國(guó)的公司。實(shí)際上,這是一場(chǎng)差距很小的競(jìng)爭(zhēng)。”
02
早在去年5月,DeepSeek發(fā)布DeepSeek-V2模型時(shí),超低的價(jià)格就引起了AI大模型降價(jià)的血雨腥風(fēng)。彼時(shí)DeepSeek尚未推出面向消費(fèi)者的應(yīng)用,大眾知名度遠(yuǎn)沒有現(xiàn)在這么高。
直到去年12月26日,DeepSeek-V3推出網(wǎng)頁(yè)版后一夜爆火,月度訪問量迅速突破千萬。與大模型一同發(fā)布的,還有一篇53頁(yè)的論文,詳細(xì)介紹了DeepSeek-V3模型的技術(shù)細(xì)節(jié),將如何用有限資源進(jìn)行模型優(yōu)化的策略全部公之于眾。
DeepSeek采用的主要技術(shù)總結(jié)下來有三點(diǎn),創(chuàng)新的模型架構(gòu)、高效的訓(xùn)練技術(shù)以及優(yōu)化資源利用。我認(rèn)為,其中MLA(多頭潛在注意力機(jī)制)架構(gòu)最值得稱道。DeepSeek將用戶任務(wù)分解為多個(gè)子任務(wù),由不同的專家模型分別處理,再將各專家模型的結(jié)果匯總輸出結(jié)果。
這就意味著,大模型在接到用戶需求時(shí),不用調(diào)動(dòng)全部資源進(jìn)行處理。提升模型運(yùn)行效率的同時(shí),顯著降低了運(yùn)行成本,有種“專人專辦”的感覺。
如果仔細(xì)研究DeepSeek的解決方案,會(huì)發(fā)現(xiàn)DeepSeek更多是在進(jìn)行“工程創(chuàng)新”。它雖然沒有創(chuàng)造出一套全新的技術(shù),卻改進(jìn)了業(yè)內(nèi)原有的模型訓(xùn)練方式。
有人認(rèn)為業(yè)內(nèi)對(duì)于DeepSeek的評(píng)價(jià)有些過高,它只是對(duì)原有技術(shù)進(jìn)行了優(yōu)化。這樣的看法顯然過度關(guān)注技術(shù)層面,而忽略了AI行業(yè)無限光明前景的背后,是有些陰暗的現(xiàn)實(shí)。
過去一年中,全球科技公司幾乎都鉚足了勁在AI項(xiàng)目上發(fā)力,全球AI初創(chuàng)公司如雨后春筍般冒出,“用AI重塑所有行業(yè)”的口號(hào)喊得震天響。然而,擺在所有企業(yè)面前的窘境是,AI商業(yè)化路徑并沒有被完全打通。
對(duì)于傳統(tǒng)企業(yè)而言,如果需要AI大模型為業(yè)務(wù)賦能,選擇開源模型進(jìn)行微調(diào),定制專屬大模型試錯(cuò)成本更低。廣大消費(fèi)者為AI功能付費(fèi)的意愿也不高,大部分用戶都是“白嫖黨”,尚且屬于培養(yǎng)用戶習(xí)慣的階段。
就連作為AI行業(yè)的領(lǐng)軍企業(yè)OpenAI至今都尚未實(shí)現(xiàn)盈利,很大一部分原因在于尖端AI模型的訓(xùn)練耗資驚人,運(yùn)行成本也十分高昂。據(jù)測(cè)算,僅維持ChatGPT的運(yùn)營(yíng),每天成本就高達(dá)70萬美元。OpenAI首席執(zhí)行官山姆·奧特曼則表示,未來的AI模型成本預(yù)計(jì)將超過10億美元。
《紐約時(shí)報(bào)》獲得的融資文件顯示,OpenAI 2024年預(yù)計(jì)收入達(dá)到37億美元,但預(yù)計(jì)虧損也將達(dá)到50億美元,而2026年虧損可能會(huì)高達(dá)140億美元,這一估算還不包括給員工的股票激勵(lì)兌現(xiàn)。
可以說,高度依賴融資的OpenAI在破產(chǎn)的邊緣反復(fù)搖擺。如果明天投資界厭倦了看不到盈利希望的AI行業(yè),OpenAI僅憑自身的造血能力,恐怕難以為繼,其他AI初創(chuàng)企業(yè)更是如此。
這樣的擔(dān)憂并非空穴來風(fēng),知名數(shù)據(jù)分析機(jī)構(gòu) CB Insights 發(fā)布的《2024年第三季度全球人工智能投融資報(bào)告》顯示,2024年第三季度生成式AI領(lǐng)域的投資額環(huán)比下降了29%,10億美元以上的大額融資量環(huán)比下降77%。
任何生意的核心都是成本與收入的平衡,DeepSeek為AI行業(yè)提供了一種嶄新的思路,既然收入端暫時(shí)難以大規(guī)模提升,不妨先從成本端發(fā)力。或許DeepSeek在技術(shù)上沒有多么驚天動(dòng)地的創(chuàng)新,卻讓國(guó)內(nèi)AI行業(yè)看到了一絲在夾縫中生存的可能性,也為全球AI行業(yè)長(zhǎng)久存續(xù)提供了新范式。
DeepSeek的成功離不開前輩們技術(shù)開源的支持,DeepSeek也愿意將自己的成果以開源的方式反哺整個(gè)行業(yè)。在通往AGI(通用人工智能)的漫漫石階中,DeepSeek刻下了屬于自己的名字。
03
降低成本這件事并不是什么精妙的點(diǎn)子,更是中國(guó)企業(yè)最擅長(zhǎng)的事情。為什么從百度、騰訊、阿里這些互聯(lián)網(wǎng)大廠,到月之暗面、智譜AI、零一萬物等號(hào)稱中國(guó)大模型領(lǐng)域“六小虎”的創(chuàng)業(yè)公司,沒有一家能夠提早想到呢?
如果深入了解DeepSeek這家公司后,就會(huì)發(fā)現(xiàn)這絕非偶然。
DeepSeek在V3模型發(fā)布前相當(dāng)?shù)驼{(diào),模型發(fā)布后也沒有如國(guó)內(nèi)同行一樣,鋪天蓋地地打廣告,知名度更多來自于用戶們口口相傳。但如果說到它的全資母公司幻方量化,股民朋友們肯定十分熟悉。
幻方量化,迄今為止國(guó)內(nèi)唯一規(guī)模曾經(jīng)超過千億元大關(guān)的量化私募。根據(jù)私募排排網(wǎng)數(shù)據(jù)顯示,幻方量化的代表產(chǎn)品九章幻方中證500量化多策略1號(hào),從2017年1月19日成立至今(2025年1月10日),累計(jì)收益率超過300%,年化收益率達(dá)到19%,與巴菲特年化收益率的20%十分相近。
ChatGPT 3.5問世時(shí),業(yè)內(nèi)測(cè)算想要做出這種級(jí)別的大模型,至少需要1萬張英偉達(dá)A100芯片。彼時(shí)全球算力競(jìng)賽尚未正式開啟,國(guó)內(nèi)擁有萬卡算力的公司,滿打滿算也就6家,百度、騰訊、字節(jié)、阿里、商湯,還有一位手握入場(chǎng)券的正是幻方量化。
DeepSeek由幻方量化創(chuàng)始人梁文峰一手創(chuàng)辦,雖然公司成立時(shí)間是在2023年7月,但DeepSeek項(xiàng)目在幻方內(nèi)部已經(jīng)孵化很久。
2021年幻方量化私募規(guī)模破千億元時(shí),梁文峰選擇主動(dòng)降低管理規(guī)模,暫停旗下所有產(chǎn)品的申購(gòu),并免除所有基金的贖回費(fèi)用。目前,幻方量化的管理規(guī)模已降至200億-300億元。
彼時(shí)外界幾乎沒有任何人能理解梁文峰的決定。主動(dòng)降低管理規(guī)模固然有行業(yè)監(jiān)管趨嚴(yán)、市場(chǎng)風(fēng)險(xiǎn)等客觀因素,但很少有私募基金會(huì)和送上門的錢過不去。以幻方量化當(dāng)時(shí)的體量和名氣,不說業(yè)績(jī)提成,單是管理費(fèi)每年都能躺賺數(shù)十億元。
現(xiàn)在看來,或許梁文峰早就看到了AI技術(shù)爆發(fā)的曙光。梁文峰在接受采訪時(shí)提到:“我們的出發(fā)點(diǎn),就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展。中國(guó)也要逐步成為貢獻(xiàn)者,而不是一直搭便車。”
04
DeepSeek這家公司的企業(yè)文化也十分獨(dú)特。其他國(guó)內(nèi)科技企業(yè)習(xí)慣重金聘請(qǐng)行業(yè)大佬,DeepSeek的團(tuán)隊(duì)則十分年輕化。
據(jù)梁文峰自己透露:“我們的核心技術(shù)崗位,基本以應(yīng)屆和畢業(yè)一兩年的人為主。”就連公司的管理層,也都是一些畢業(yè)5年左右的年輕人。當(dāng)然,這些年輕人沒有很深厚的工作背景,卻也都是國(guó)內(nèi)一流院校的天之驕子。
DeepSeek內(nèi)部采用扁平化管理模式,每一位員工的想法都會(huì)得到充分尊重。只要有新點(diǎn)子,不論職級(jí),在經(jīng)過內(nèi)部討論后,都可以調(diào)動(dòng)公司資源進(jìn)行項(xiàng)目研究。DeepSeek-V3的MLA架構(gòu),最初正是由一位年輕研究員的個(gè)人興趣所誕生。
除此之外,背靠幻方的DeepSeek是業(yè)內(nèi)罕見的不依靠外部融資生存的初創(chuàng)公司。沒有投資人給的壓力,商業(yè)化自然也不是DeepSeek的首要任務(wù)。所以直到V3模型之前,DeepSeek都沒有選擇上線面向大眾的產(chǎn)品。或許是巧合,OpenAI的ChatGPT也是迭代到3.5版本,才選擇公之于眾。
成員年輕化,組織結(jié)構(gòu)扁平化,不以商業(yè)化為首要目標(biāo),這一切組合在一起,使得DeepSeek在行業(yè)中顯得格格不入。梁文峰主動(dòng)跳出私募行業(yè)的舒適圈,帶領(lǐng)一群壓根沒有找到自己舒適圈的年輕員工,開辟出了一條未曾設(shè)想的道路。
有人說,DeepSeek閃亮登場(chǎng),用少量算力資源訓(xùn)練出超強(qiáng)大模型,英偉達(dá)慌了,芯片要賣不動(dòng)了。然而,DeepSeek提供的是一種現(xiàn)有大模型訓(xùn)練的優(yōu)化方案,要想達(dá)成AGI光憑現(xiàn)有技術(shù)肯定是不夠的,下一代大模型還是要仰仗算力堆砌。
真正應(yīng)該慌的,是那些AI初創(chuàng)企業(yè)們。
正如小米造車前,雷軍計(jì)劃5年投入1000億元。沒想到研發(fā)、建廠、營(yíng)銷一系列開支下來,僅花費(fèi)300億元,第一款車型小米SU7就火爆全國(guó)。國(guó)內(nèi)投資圈這才明白過來,那些砸進(jìn)去大幾百億連年虧損,毛利率轉(zhuǎn)正都難的造車新勢(shì)力們有多無能。
DeepSeek同樣用實(shí)例給風(fēng)投們上了一課,不用高薪聘請(qǐng)擁有浮夸頭銜的資深從業(yè)者,以免費(fèi)的AI開源項(xiàng)目為基礎(chǔ),利用有限資源同樣能夠做出一流的AI大模型。
沒有對(duì)比就沒有傷害,其余AI初創(chuàng)公司的精美PPT中,究竟有多少是高管給投資人畫的大餅,無數(shù)輪募資中拿到的錢是不是用在了刀把上?DeepSeek論文發(fā)布后,不知道有多少AI初創(chuàng)公司的高管正在連夜開會(huì),琢磨新的說辭。
在中美AI競(jìng)賽中,DeepSeek以業(yè)界黑馬的形象出現(xiàn),給硅谷帶來了一點(diǎn)小小的中國(guó)震撼。作為一家以量化交易起家的中國(guó)公司,DeepSeek并不被視為技術(shù)引領(lǐng)者,但他在有限的算力資源條件下,卻依然能夠做出令整個(gè)AI行業(yè)為之側(cè)目的技術(shù)創(chuàng)新。
這也讓世人看到,在這場(chǎng)前途未卜的AI大競(jìng)賽當(dāng)中,中國(guó)公司仍然有很大機(jī)會(huì),結(jié)合自身優(yōu)勢(shì),在先進(jìn)AI領(lǐng)域擁有自己的話語權(quán),進(jìn)而迸發(fā)出改變世界的力量。
*本文為冰川思想庫(kù)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載,否則追究相關(guān)法律責(zé)任
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.