作者|Hayward
原創(chuàng)首發(fā)|藍(lán)字計(jì)劃
一身皮衣黃仁勛,GTC 2025上意氣風(fēng)發(fā)。
雖然最近英偉達(dá)的股票跌得比較狠,甚至來(lái)到了10年來(lái)的最低點(diǎn),但這不影響老黃,對(duì)最新的GPU們信心滿(mǎn)滿(mǎn)。
時(shí)間回?fù)艿?月初,DeepSeek的發(fā)布在AI領(lǐng)域掀起巨浪。一個(gè)中國(guó)團(tuán)隊(duì)的產(chǎn)品,僅用了少量的低端GPU(以A100為主)蒸餾現(xiàn)有超大模型就實(shí)現(xiàn)了高端GPU(以H100為代表)才有的性能。
高端GPU并非剛需,誰(shuí)還成噸地采購(gòu)你老黃的Hopper、Blackwell 核彈?過(guò)去在AI行業(yè)被奉為金科玉律的“Scaling Law”(規(guī)模定律),也就是“模型參數(shù)量、數(shù)據(jù)集、訓(xùn)練成本越多越好”的觀念也被嚴(yán)重沖擊。
這幾年谷歌、Meta、微軟等互聯(lián)網(wǎng)大廠成噸地采購(gòu)H100芯片以維持規(guī)模,正是想以算力分勝負(fù)、定生死?,F(xiàn)在根本不需要如此恐怖的規(guī)模,也能讓大模型擁有媲美 OpenAI o1的性能。
一時(shí)間,宣稱(chēng)DeepSeek能讓英偉達(dá)走上末路的聲音此起彼伏,特別是海外的社媒平臺(tái)發(fā)酵最快、傳播最兇。有X網(wǎng)友更坦言“英偉達(dá)的一切都將開(kāi)始瓦解”,這段時(shí)間里英偉達(dá)的股票一天下跌13%、17%都成了常態(tài)。
不過(guò),也有另一種聲音稱(chēng),從長(zhǎng)期來(lái)看DeepSeek的成功反而利好英偉達(dá)。
DeepSeek揭示了可以通過(guò)“蒸餾現(xiàn)有超大模型”的方法訓(xùn)練性能出色的大模型,但只是不需要用到H100芯片這等性能怪獸而已,并非完全不依賴(lài)計(jì)算卡。A100計(jì)算卡,也是英偉達(dá)家的產(chǎn)品。
玩家的門(mén)檻降低了,入場(chǎng)的玩家自然會(huì)越來(lái)越多,從市場(chǎng)總量來(lái)說(shuō),對(duì)算力的需求還是會(huì)上升的。英偉達(dá)又是全世界最大的卡販子,總會(huì)賣(mài)出更多的計(jì)算卡。
再說(shuō)了要蒸餾現(xiàn)有的超大模型,也得先有性能出色的超大模型存在才行,到底還是需要H100這樣的計(jì)算卡集群來(lái)訓(xùn)練超大模型,這似乎是個(gè)“先有雞還是有蛋”的問(wèn)題。
只能說(shuō)兩種聲音都有道理,不過(guò)大家最想知道的還是老黃本人的聲音。
這次GTC 2025,我們終于等到老黃的親自回應(yīng)。
還是那個(gè)GPU霸主
按照慣例,我們先來(lái)回顧一下這場(chǎng)光門(mén)票就要價(jià)1萬(wàn)美元的“科技盛宴”。
簡(jiǎn)單來(lái)說(shuō),英偉達(dá)主要發(fā)布了四款芯片架構(gòu)、兩款A(yù)I電腦、一款A(yù)I訓(xùn)練底層軟件和展示了具身機(jī)器人相關(guān)的進(jìn)展,其他內(nèi)容就不贅述了。
· 4款A(yù)I芯片架構(gòu),分別是將在2025下半年發(fā)布的Blackwell Ultra、2026下半年發(fā)布的Vera Rubin、2027下半年發(fā)布的Vera Rubin Ultra,和2028年的Feynman。
全新的超級(jí)芯片產(chǎn)品方面,基于Blackwell Ultra架構(gòu)的GB300 NVL72芯片是上代最強(qiáng)芯片GB200的繼任者,推理是GB200 NVL72的1.5倍,提升幅度不算大,甚至在大會(huì)上GB300的直接對(duì)比對(duì)象還是2年前的H100。
從市場(chǎng)的反應(yīng)來(lái)看大部分人對(duì)GB300不太買(mǎi)賬,它沒(méi)有上一代GB200的那種“橫空出世”的驚喜感,要說(shuō)最大的升級(jí)點(diǎn),可能是HBMe內(nèi)存提升至288GB,就是有點(diǎn)“蘋(píng)果今年發(fā)布的新機(jī)是2TB版本的iPhone 16 Pro Max”的味道了。
重頭戲是英偉達(dá)未來(lái)的芯片架構(gòu)規(guī)劃,下代超級(jí)芯片Rubin NVL144,比GB300 NVL72 強(qiáng)了3.3倍;下下代的Rubin Ultra NVL576性能是GB300 NVL72的14倍,從畫(huà)餅給出的性能來(lái)看,未來(lái)大概率還是會(huì)由英偉達(dá)掌握GPU算力王座。
· 兩款全新的AI電腦,分別是搭載了GB10 Grace Blackwell超級(jí)芯片的DGX Spark,每秒可提供高達(dá) 1000 萬(wàn)億次 AI 運(yùn)算;搭載了GB300 Grace Blackwell Ultra的DGX Station,可以提供每秒可提供高達(dá)2000 萬(wàn)億次 AI 運(yùn)算。目前DGX Spark已經(jīng)開(kāi)始預(yù)售,要價(jià)3000美元。
· 開(kāi)源軟件NVIDIA Dyamo,可以簡(jiǎn)單理解為一款A(yù)I工廠(數(shù)據(jù)中心)的操作系統(tǒng),英偉達(dá)說(shuō)在NVIDIA Blackwell上使用Dynamo優(yōu)化推理,能讓DeepSeek-R1的吞吐量提升30倍。
· 具身機(jī)器人的技術(shù)儲(chǔ)備,包括機(jī)器人通用基礎(chǔ)模型Isaac GR00T N1、一款配備了GR00T N1模型的機(jī)器人:Blue,和Google Mind、迪士尼合作的最新成果。
從發(fā)布的產(chǎn)品來(lái)看,英偉達(dá)還是那個(gè)GPU領(lǐng)域的霸主,甚至領(lǐng)導(dǎo)地位已經(jīng)開(kāi)始向AI拓展。它們不僅將產(chǎn)品技術(shù)路線圖更新至一年一更,未來(lái)三年的產(chǎn)品堪稱(chēng)“超級(jí)大餅”,圍繞AI相關(guān)的軟件建設(shè)也在飛速推進(jìn),NVIDIA Dyamo很可能會(huì)是未來(lái)數(shù)據(jù)中心的標(biāo)配。
對(duì)于DeepSeek的沖擊,英偉達(dá)似乎也有了解決的辦法。
進(jìn)入“token時(shí)代”
終于,黃仁勛首次在公開(kāi)場(chǎng)合,正面回應(yīng)了DeepSeek誕生以來(lái)對(duì)公司造成的沖擊。
首先他把DeepSeek從頭到腳吹了一遍,說(shuō)DeepSeek R1模型是“卓越的創(chuàng)新”和“世界級(jí)的開(kāi)源推理模型”,而且他淡定地表示,不理解為什么大家會(huì)把DeepSeek當(dāng)成英偉達(dá)的末日。
至于因DeepSeek而起的關(guān)于Scaling Law撞墻的討論,老黃在會(huì)上給出了自己的理解。
首先,他在大會(huì)上對(duì)Scaling Law進(jìn)行了一次迭代更新:
現(xiàn)在他將Scaling Law細(xì)化為PRE-TRAINING SCALING、POST-TRAINING SCALING、TEST-TIME SCALING三個(gè)部分。老黃的意思是,隨著AI進(jìn)入到不同階段,對(duì)Scaling的需求是不斷提高的。
這里要提一下,老黃認(rèn)為AI的發(fā)展分為四個(gè)階段:感知人工智能(Perception AI)、生成式人工智能(Generative AI)、代理人工智能(Agentic AI)和未來(lái)的物理 AI(Physical AI)。而現(xiàn)在我們正處于代理人工智能階段。
現(xiàn)階段由于推理模型、AI代理的爆發(fā),實(shí)際上更加需要Scaling,更加需要算力。
其背后的關(guān)鍵是token。
以推理模型為例子,模型進(jìn)行推理時(shí),token的消耗猛漲。用老黃的話,我們不僅需要讓token的吞吐量提升十倍,還需要過(guò)去10倍的算力來(lái)提升token的輸出速度,最終,需要的算力是之前的100倍。
從技術(shù)上來(lái)說(shuō),這不無(wú)道理。相比傳統(tǒng)的生成式模型,比如ChatGPT,我們觀察到它沒(méi)有列舉推理步驟。輸入問(wèn)題 → 提供答案,沒(méi)中間商差價(jià),答案所呈現(xiàn)的就是最終消耗的token數(shù)。
而擁有思維鏈的推理式模型,比如大家熟知的DeepSeek R1,會(huì)有一連串的推理過(guò)程,有些時(shí)候可能推理過(guò)程的字?jǐn)?shù)比答案還要多。
R1模型能夠?qū)崿F(xiàn)推理,是因?yàn)闀?huì)將輸出的token返回上級(jí)重新思考、推理,正如比喻大師老黃所說(shuō)的“每個(gè)token都會(huì)自我懷疑”,在不斷的懷疑-論證中,形成了推理的過(guò)程。但這也會(huì)更多地消耗算力和token,推理模型要比傳統(tǒng)生成式模型多消耗的token不是2倍,而是20倍。
所以,我們用推理模型時(shí),一大串的思考、推理過(guò)程要在前臺(tái)展示出來(lái),不僅因?yàn)橛脩?hù)可以從大模型的推理過(guò)程介入修正答案,還因?yàn)樗鼈儾皇前姿偷?,不是免費(fèi)的,而是在消耗一個(gè)個(gè)token,都是真金白銀,花了錢(qián)的地方肯定得讓你看到。
而且市面上的推理模型越來(lái)越多,更多的傳統(tǒng)模型也陸續(xù)開(kāi)始加入推理過(guò)程,比如谷歌的Gemini,最終token的消耗會(huì)呈指數(shù)級(jí)增長(zhǎng)。
這就是老黃堅(jiān)信Scaling Law沒(méi)有失效的底氣。在會(huì)上,老黃用傳統(tǒng)模型Llama 3.3 70B與DeepSeek R1 671B進(jìn)行了對(duì)比,統(tǒng)一回答一個(gè)復(fù)雜問(wèn)題。最終前者消耗了400多個(gè)token但結(jié)果不可用,后者的結(jié)果堪稱(chēng)完美,但足足消耗了8559個(gè)token。
或許從蒸餾大模型的點(diǎn)子中節(jié)約的算力,又會(huì)消耗到推理的過(guò)程中,說(shuō)不準(zhǔn)這就是AI算力中的能量守恒呢。
DeepSeek讓英偉達(dá)GPU賣(mài)得更好
除了黃仁勛的激情論證,一個(gè)事實(shí)是,在這個(gè)高token消耗時(shí)代,英偉達(dá)的GPU的確賣(mài)得更猛了。
彭博社報(bào)道,OpenAI 預(yù)計(jì)在「星際之門(mén)」首期計(jì)劃中,建立一個(gè)可以容納40萬(wàn)個(gè)英偉達(dá)的 AI 芯片的數(shù)據(jù)中心綜合體。全部裝滿(mǎn)的話,這會(huì)是世界最大的AI算力集群之一。
還有對(duì)算力推崇至極的馬斯克,旗下的 xAI 已與戴爾達(dá)成 50 億美元協(xié)議,用于在孟菲斯建設(shè)超級(jí)計(jì)算機(jī)的 AI 服務(wù)器;Meta也宣布計(jì)劃要擁有相當(dāng)于 600,000 塊英偉達(dá) H100 芯片的算力。
還有國(guó)內(nèi)的阿里、小米、騰訊等公司,也將部署海量算力作為主要目標(biāo)。這背后的顯卡供應(yīng)商,毫無(wú)疑問(wèn)都主要來(lái)自英偉達(dá)。推理模型鋪開(kāi)后大公司們對(duì)計(jì)算卡、算力的熱情絲毫不減,看來(lái)至少大公司們?nèi)韵嘈盼磥?lái)是算力的時(shí)代。
在個(gè)人本地部署領(lǐng)域,DeepSeek R1也沒(méi)有真正地減輕個(gè)人用戶(hù)的算力負(fù)擔(dān)。
2月中,全網(wǎng)掀起了一陣本地部署DeepSeek R1蒸餾模型的熱潮,但從個(gè)人的經(jīng)驗(yàn)來(lái)看,想要得到較好的模型性能,對(duì)電腦配置,也就是算力的要求一點(diǎn)都不低。
以RTX 4080 16GB顯卡為例,擁有9728個(gè)CUDA核心,16GB GDDR6X的顯存帶寬為736 GB/s,在顯卡中已經(jīng)算高端。
但用它在本地部署14B的DeepSeek R1蒸餾模型時(shí),大部分的推理速度只有20-30 tokens/s,需要分析深度問(wèn)題往往需要等待超過(guò)10分鐘。
如果更進(jìn)一步用它來(lái)部署32B的蒸餾模型,推理速度會(huì)進(jìn)一步下降到5-15 tokens/s,生成同樣的回答,就需要等待超過(guò)30分鐘。
這樣的效率顯然是不行的。如果想要提高推理速度,有兩個(gè)辦法:
選擇更小參數(shù)的蒸餾模型部署,但推理的精度、答案的可靠性會(huì)明顯下降;
選擇更高配置的硬件,比如RTX 5080/5090,用5090部署32B的蒸餾模型,推理速度也能達(dá)到50-60 tokens/s,效率明顯提升,但又讓老黃賣(mài)卡的計(jì)劃通了。
也許大多數(shù)人的算力條件,本地部署的大模型還不如直接打開(kāi)騰訊元寶高效。
因此,從DeepSeek R1引申出來(lái)的“蒸餾模型節(jié)省訓(xùn)練算力”已經(jīng)被“推理模型消耗算力”抵消,這給了英偉達(dá)全新的機(jī)遇,可以說(shuō)DeepSeek的出現(xiàn)為英偉達(dá)關(guān)上了一扇門(mén),又打開(kāi)了一扇窗。
最終,我們不得不承認(rèn)長(zhǎng)遠(yuǎn)來(lái)看算力的需求還會(huì)不斷增加,還是利好英偉達(dá)。雖說(shuō)今年Blackwell Ultra擠牙膏,但后面幾年的芯片架構(gòu)都會(huì)有明顯的算力提升。當(dāng)各大廠的算力吃緊時(shí),老黃的核彈們,又有大展拳腳的機(jī)會(huì)了。
販賣(mài)token焦慮?
縱觀GTC 2025,只要是涉及AI、GPU、算力的部分,老黃都離不開(kāi)token,甚至有好事的媒體專(zhuān)門(mén)統(tǒng)計(jì)了他在會(huì)上提到“token”的次數(shù),還怪幽默的。
在新Scaling Law時(shí)代,token仿佛成了英偉達(dá)的救命稻草。雖然從邏輯上看老黃的觀點(diǎn)說(shuō)得通,但如此頻繁地重復(fù)一種邏輯,就像我們?cè)谖恼轮羞B續(xù)寫(xiě)100次“token”,多少會(huì)有人覺(jué)得,英偉達(dá)有點(diǎn)歇斯底里。
自農(nóng)歷新年以來(lái),英偉達(dá)的市值已經(jīng)跌去了將近30%,這次發(fā)布會(huì)的黃仁勛不再像一個(gè)技術(shù)大拿,不像是那個(gè)“全世界最聰明的科學(xué)家”、“全球最牛公司的CEO”,而像一個(gè)絮絮叨叨的金牌銷(xiāo)售,通過(guò)販賣(mài)token焦慮的方式,讓大家堅(jiān)信英偉達(dá)仍掌握著未來(lái)。
不過(guò)投資者的信心不來(lái)自推銷(xiāo)和布道,而來(lái)自產(chǎn)品。事實(shí)就是今年下半年面世的GB300確實(shí)沒(méi)有太多亮點(diǎn),畫(huà)的大餅又比較遙遠(yuǎn)。反映到股價(jià)上,發(fā)布會(huì)結(jié)束后英偉達(dá)的股價(jià)依然下跌了3.4%。
其實(shí)更令我哭笑不得的是價(jià)值3000美元的DGX Spark,根據(jù)官網(wǎng)披露的信息這款產(chǎn)品的128GB內(nèi)存,帶寬只有273GB/s。
盡管老黃將它定義為“可用于本地部署”的AI電腦,但這性能真不敢恭維。不說(shuō)滿(mǎn)血版671B的DeepSeek R1,跑大部分32B的模型可能也只能實(shí)現(xiàn)2-5 tokens/s的輸出效率。用它來(lái)跑傳統(tǒng)的模型應(yīng)該還不賴(lài),但推理模型估計(jì)是很困難了。
或許它存在的意義,停留在“讓大家買(mǎi)更強(qiáng)的DGX Station”上罷了。只是如果你一直在販賣(mài)token焦慮,最好能拿出更多能解決token焦慮的產(chǎn)品來(lái)。
英偉達(dá)現(xiàn)在缺乏的不是技術(shù)和產(chǎn)品,在GPU領(lǐng)域一騎絕塵,第二名都看不到車(chē)尾燈;真正缺乏的,是對(duì)消費(fèi)者的誠(chéng)意。
參考資料:
APPSO 《剛剛,黃仁勛甩出三代核彈AI芯片!個(gè)人超算每秒運(yùn)算1000萬(wàn)億次,DeepSeek成最大贏家》
第一財(cái)經(jīng) 《凌晨,黃仁勛重大宣布!》
圖片來(lái)源:GTC March 2025 Keynote with NVIDIA CEO Jensen Huang
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.