作者|袁榭
原創(chuàng)首發(fā)|藍字計劃
全文字?jǐn)?shù)|約6425
1990年代中期,黃仁勛30出頭,他創(chuàng)辦的英偉達還沒完全站穩(wěn)腳跟,他希望如日中天的臺積電能代工英偉達的顯卡,他打電話過去,沒人搭理。
多年后,他還在向張忠謀抱怨這段往事:“當(dāng)年給你打電話打不通也沒人回,是不是我電話號碼記錯了?給你公司在美國的銷售部門打電話也沒人接。”
今天,全球科技界恐怕沒有幾個人敢不接黃仁勛的電話,這個當(dāng)年求人代工顯卡的小伙子被稱為“教主”,在3月21日的英偉達GTC大會上,他穿著標(biāo)志性的黑色皮衣出現(xiàn)臺上,說出了石破天驚的一番話:我們正處于AI的“iPhone時刻”。
2022年11月,大語言模型ChatGPT問世,預(yù)示著能生成自然文章和圖像的“生成式AI”將在社會普及,給世界帶來顛覆性的改變。而支撐這幅圖景的,有英偉達的GPU——AI時代最重要的基礎(chǔ)設(shè)施之一,GPU提供算力,猶如AI時代的原油。
2020年,全世界跑AI的云計算與數(shù)據(jù)中心,80.6%都在用英偉達的GPU驅(qū)動。2021年,英偉達稱全球前五百個超算中,七成由它家的芯片驅(qū)動,在最新的超算系統(tǒng)中此比例是九成。運行ChatGPT的微軟數(shù)據(jù)中心用了上萬塊英偉達H100 GPU。后續(xù),預(yù)計需要超過3萬塊英偉達的GPU來維持更高版本的GPT模型運轉(zhuǎn)。
如同1970年代的歐派克一限產(chǎn),全世界的汽車都缺油。現(xiàn)在只要英偉達一斷供芯片,管你天高股價、地大營收,全球前十大企業(yè)里,至少有一半要地震。
黃仁勛和他的算力帝國,已經(jīng)能扼住時代命脈。這其中,有著通往未來30年的秘密。
十年前悄然發(fā)生的革命
2023年英偉達GTC的主題演講中,黃仁勛專門提到了生成式AI的飛躍:
“十年間,我們從自動判讀貓圖,進步到能自動生成‘穿太空服的貓在月球漫步’的圖片。”
皮衣老黃真不忘本。無論是“AI的iPhone時刻”,還是英偉達成為“算力油田”,都是蓄力于前,發(fā)端于自家的“貓片”。
2010年的一天,加州帕羅奧圖市的瓊安咖啡館里,剛做上英偉達首席科學(xué)家的比爾·戴利(Bill Dally)和當(dāng)時在谷歌大腦供職的AI界宗師吳恩達(Andrew Ng)聚餐。
十余年過去后他們會發(fā)現(xiàn),正是這場會面,無意地打開了一道通往AI新世界的大門。
兩個老友在席間聊起了吳恩達當(dāng)時課題面臨的障礙:訓(xùn)練神經(jīng)網(wǎng)絡(luò)AI的算力不夠了。
具言之,谷歌要用數(shù)千萬條YouTube視頻來訓(xùn)練神經(jīng)網(wǎng)絡(luò)AI分辨貓與人的不同。而當(dāng)時AI界的領(lǐng)軍人物們?nèi)匀涣?xí)慣串聯(lián)CPU來執(zhí)行此類任務(wù)。吳恩達預(yù)計,要完成課題得用1.6萬塊CPU。
就算是從不缺錢的谷歌,也不會給公司內(nèi)任一研發(fā)項目組輕松批下買1.6萬塊CPU的預(yù)算。AI宗師當(dāng)年也被難住了。
戴利聽完老友訴苦,認為自己有現(xiàn)成解決方案:不就是在線尋貓片么,何必整1.6萬塊CPU,用我們英偉達公司的顯卡產(chǎn)品,幾十塊就搞定,你信不信?
當(dāng)時英偉達雖已制霸世界獨立顯卡業(yè),但名聲還只局限在極客、硬核游戲玩家、圖形設(shè)計師等非普羅用戶中。誰也不知道,這將是英偉達公司與人工智能行業(yè)雙向奔赴、雙雙出圈的起點。
隨后,戴利找上剛從加大伯克利分校招到英偉達的非正職研究員布萊恩· 卡坦扎羅(Bryan Catanzaro),請他幫忙。卡坦扎羅很快找到了解決方案:并聯(lián)12塊英偉達GPU成功驅(qū)動了吳恩達的神經(jīng)網(wǎng)絡(luò)模型,并聯(lián)48塊GPU就能獲取預(yù)計要用1.6萬塊CPU才有的理想效果。
論文一出,學(xué)界響震:居然有這種好事?
兩年后,AI界泰斗辛頓(Geoffrey Hinton)和學(xué)生克里澤夫斯基(Alex Krizhevsky)、薩茨克維爾(Ilya Suskever)效仿此舉,用英偉達的GeForce GTX 580顯卡訓(xùn)練由克里澤夫斯基提出的神經(jīng)網(wǎng)絡(luò)模型AlexNet,奪得ImageNet圖像分類競賽冠軍,成為AI技術(shù)飛躍的奇點。
從此,英偉達在深度學(xué)習(xí)芯片市場上撒腿狂奔。2013年內(nèi),英偉達在全球深度學(xué)習(xí)芯片市場占有率是100%。在上個世紀(jì)能源是石油,在這個世紀(jì)能源是算力。以后的新時代里,黃仁勛的黑皮衣,如同上個世紀(jì)海灣國家顯貴們的白罩袍,都是唯我獨尊的霸主象征。
十余年過去,泰斗和宗師地位更高,年輕人也成了行業(yè)大佬。卡坦扎羅現(xiàn)在是英偉達副總裁、深度學(xué)習(xí)應(yīng)用研究部負責(zé)人,薩茨克維爾現(xiàn)在是OpenAI的首席科學(xué)家、聯(lián)合創(chuàng)始人、GPT系列大模型集合之父。
|左為黃仁勛,右為薩茨克維爾
ChatGPT面世后,意外風(fēng)靡世界,被稱為AI技術(shù)革命的開始。然而即使這個大模型集合如OpenAI一開始預(yù)期的,作為GPT3到GPT4之間的過渡實驗版本簡單飄過,AI技術(shù)革命的下一個出圈爆點,鑰匙還是會掌握在英偉達高層的朋友圈里。
因為算力的擴張與通用、技術(shù)的開發(fā)與布局,是英偉達成功的因由。
一炮打啞,老黃吃癟
大人物功成名就后,一般會支楞起來。
2018年初,《財富》雜志舉辦的活動中,有人問黃仁勛:你何時知道英偉達公司將會改變世界的?黃仁勛答:1993年2月17日,我成立公司的日子。不改變世界,我創(chuàng)個什么業(yè)?
皮衣哥自己說得響,但1990年代中,英偉達的運營低谷時賬面上曾只有6個星期的資金,離關(guān)門一步之遙。
人盡皆知,英偉達靠開發(fā)顯卡起家。然而黃仁勛創(chuàng)業(yè)的初心,與其說是做顯卡,不如說一直都是求索算力提高的途徑。
在1990年代,多媒體猶如近年的元宇宙、數(shù)據(jù)可視化猶如當(dāng)下的生成式AI,都是從投資者到消費者都追捧的熱門技術(shù)話題。多媒體與可視化數(shù)據(jù)在當(dāng)年的輿論浪潮中,被夸到小可以養(yǎng)妻活兒、提高工作娛樂效率,大可以改天換地、重寫行業(yè)經(jīng)濟版圖。
這些技術(shù)的基礎(chǔ),是圖像數(shù)據(jù)處理的更佳質(zhì)量與速度。如果游戲、視頻、PPT們始終停留在1992年的粗糲畫質(zhì),啥都無從說起。
| 世界首款大賣FPS游戲1992年《重返德軍總部3D》與2001、2019年系列續(xù)作的畫質(zhì)對比
1995年,全球有三十家大公司在顯卡市場上競爭。
然而追逐時尚比想象中要難。創(chuàng)業(yè)公司得決斷:是專注個人電腦(PC)端的業(yè)務(wù)呢,還是專注特定公司的娛樂主機業(yè)務(wù)呢?是只做圖像呢,還是做多媒體通抓音畫呢?
盡管當(dāng)時沒有“賽道”的商業(yè)新話,企業(yè)家抉擇的難度并不低于現(xiàn)在。
英偉達的創(chuàng)始概念是加速計算,即用特制設(shè)備來為CPU的運算工作減負提速,最簡潔的落地方案,自然是堆算力造顯卡處理圖像。
籌到250萬美元后,于1995年5月推出第一款產(chǎn)品:NV1。以現(xiàn)在的后見之明看,NV1的最大作用是給黃仁勛提供了反面經(jīng)驗:這種產(chǎn)品做得很好,以后千萬不能做了。
出于為當(dāng)時的游戲主機巨頭世嘉公司服務(wù)的考量,NV1最突出的特色,是兼容世嘉游戲在PC上的運行,與業(yè)內(nèi)既有和將出現(xiàn)的其他PC端3D圖像程序基礎(chǔ)架構(gòu)的兼容性不夠出色。
當(dāng)時世嘉公司有意將游戲業(yè)務(wù)從街機、主機端擴展到PC端,NV1的努力迎合了主要合作商的需要,但局限了自己的市場潛力。而且NV1兼具顯卡和聲卡功能,偏離了加速計算基于圖像落地的初衷,產(chǎn)品定位有欠清晰。
NV1沒有一鳴驚人,英偉達公司卻非一無所獲。黃仁勛藉此從風(fēng)投機構(gòu)融了650萬美元的第二輪投資。
不過在1997年8月推出新產(chǎn)品Riva 128前,英偉達已經(jīng)裁員過半,銀行賬戶只剩不到6周的流動資金。辦公室既窄小,地段又不佳。剩余的員工們不僅要在乒乓球桌上吃飯,連停車場也只能蹭旁邊富國銀行的,而這家網(wǎng)點已經(jīng)被搶劫過兩三回了。
|英偉達現(xiàn)在的公司總部
頭炮打啞,只要教訓(xùn)真記住,對創(chuàng)業(yè)企業(yè)家來說并不完全是絕路。
雖然黃仁勛在各種活動上說創(chuàng)業(yè)首年的雇律師、訂辦公室早飯等各種經(jīng)驗非常寶貴,但從1997-1999年上半年的英偉達三款產(chǎn)品看,他記住的顯然不止這些。
英偉達的過往,映照著它的未來。
把摩爾定律“卷”到極致
英偉達此后的轉(zhuǎn)向,一是主業(yè)放棄多媒體,專做PC端的顯卡。
1990年代中期,游戲業(yè)的熱門話題是從主機/街機走向PC,而不被注意的潛流是游戲同時在從PC單機走向PC端多人在線。關(guān)于圖形渲染的硬件性能需求因此與日俱增。只滿足這個缺口,已經(jīng)足以養(yǎng)活整個行業(yè)。
二是垂直整合顯卡的配套軟件,自行開發(fā)顯卡驅(qū)動程序和拓展軟件開發(fā)工具包(SDK,software development kit)。
過去的慣例是,英偉達這些顯卡研發(fā)公司把設(shè)計交付主板芯片生產(chǎn)商之后,由生產(chǎn)商自己分包給另外的承包者寫顯卡驅(qū)動。至于用顯卡做圖形設(shè)計等專門工作的終端用戶、PC運行系統(tǒng)的開發(fā)商,與顯卡研發(fā)者沒有直接配合。凡此種種,局限了顯卡的性能潛力和用戶體驗。
1996年,英偉達專為配合微軟當(dāng)時剛推出的Direct3D圖形渲染插件,寫了自家顯卡驅(qū)動程序。1998年開始,英偉達公司會定期即時更新自家的通用顯卡驅(qū)動程序。此舉持續(xù)至今。
三是全力秉持和實現(xiàn)摩爾定律。這是英偉達現(xiàn)在成為全球算力第一供應(yīng)商的基礎(chǔ)。
不久前去世的英特爾聯(lián)合創(chuàng)始人戈登·摩爾(Gordon Moore),在1965年提出了摩爾定律:集成電路上可容納的晶體管數(shù)目,約每隔兩年便會增加一倍。衍生的推論,是每隔18個月,芯片的性能就會因此提高一倍。
英偉達公司的決策層,立志要將摩爾定律永續(xù)實現(xiàn)。
從1990年代后半葉開始,英偉達的產(chǎn)品設(shè)計與研發(fā)部門一直有三個部分同時工作:一部分負責(zé)本年度新品的設(shè)計,一部分負責(zé)去年出品的翻新挖潛設(shè)計,一部分負責(zé)明年新品的設(shè)計。每款產(chǎn)品之間,基本要有一倍的性能提高,如果顯存沒有漲一倍,那么核心頻率就得快一倍,如果都不行,那么至少制程要明顯縮小。
如此的結(jié)果,是英偉達每半年至一年就會推出性能換代的新品,1999年之前的產(chǎn)品內(nèi)部代碼全叫NV,即“下一版”(Next Version)的首字母縮寫。其他同業(yè)公司跟不上如此搏命的步伐,紛紛退出競爭。
1995年的三十家顯卡設(shè)計大公司,到1999年末只剩下三家。英偉達與之后被AMD收購的ATI,并肩收割游戲玩家、專業(yè)設(shè)計師等高性能顯卡用戶的市場份額。英特爾依靠PC主板的壟斷生產(chǎn)商地位,包攬主板集成顯卡的低性能用戶市場。
1999年10月,英偉達推出GeForce 256,在營銷中稱“這是世界上第一款GPU”。同年,過去占據(jù)顯卡市場龍頭的3dfx公司破產(chǎn),被英偉達收購。顯卡業(yè)告別創(chuàng)業(yè)者紛紛崛起的時代,進入了“紅綠藍三國戰(zhàn)爭”的時代(按商標(biāo)顏色不同的消費者昵稱,“紅廠”為AMD、“綠廠”為英偉達、“藍廠”為英特爾)。
在20世紀(jì)的末尾,沒人知道這場競逐的結(jié)果,會決定之后由誰主宰世界算力的供應(yīng)。
干翻英特爾和AMD
經(jīng)過20年,紅綠藍三廠競爭顯卡市場霸主地位的結(jié)果揭曉:“綠廠”英偉達勝出了。
這場“三國演義”里,“藍廠”英特爾一直是配角。憑借全球PC主板市場的壟斷地位,英特爾的注意力一直放在CPU而非GPU。在英特爾眼中,要提高性能,得整個主板的整全性能一起提升,只提升圖像處理的速度,那是偏門小道。
所以英特爾做顯卡只是占位,表示這個市場的錢自己還是要賺點,沒有完全放棄。這個策略的結(jié)果,現(xiàn)在已經(jīng)被人做成了搞笑哏圖。
究其原因,是CPU要負責(zé)整個電腦主板的序時性復(fù)雜運算,而GPU在成為通用類芯片前只需負責(zé)圖像處理的并時性簡單運算。如下圖所示,單個CPU的控制元件、基礎(chǔ)運算單元(ALU)、緩存(Cache)等,都比單個GPU數(shù)量少而負重大,因此提升性能的設(shè)計與制造難度都遠更高。
黃仁勛多次說過,以CPU而言,摩爾定律已經(jīng)過氣,英特爾CPU性能翻倍的最快時限是每五年。然而他家的GPU嘛,還是每一至兩年內(nèi)性能翻倍的哦。
真正的激烈競爭,發(fā)生在英偉達和ATI/AMD之間。
這場角逐的早期,英偉達并不顯操勝算。在2006年被AMD收購前,ATI出品的顯卡,無論更新速度還是單個性能,都屢有明顯優(yōu)于英偉達競品的佳作。高端顯卡的世界第一,在2000年代前半段看不出究竟屬誰。
但ATI在這場競爭中已經(jīng)后續(xù)乏力,英偉達的產(chǎn)品更新與性能提升速度,始終達到了摩爾定律的金標(biāo)準(zhǔn)。而ATI的產(chǎn)品更新目標(biāo),從勝過英偉達競品,逐漸變成了趕上英偉達競品。
ATI/AMD因應(yīng)此形勢的對策,是改作中端顯卡:比英特爾的集顯性能強,比英偉達的高端顯卡更便宜。并且在營銷中攻擊英偉達的競品又貴又耗電:顧客大爺你們千萬不要被它越來越嚇人的性能參數(shù)騙了,不是物超所值的哦。
2006年,ATI被AMD收購,英偉達少了一個強對手,勝算增加。
唯一的變數(shù)在于芯片代工廠。
顯卡業(yè)的過往通則,是ATI、英偉達等品牌企業(yè)管設(shè)計,然后將設(shè)計方案交付給芯片廠,委托它們制作成品。
當(dāng)然,不是沒有公司想囊括從設(shè)計到生產(chǎn)的全鏈條,但此舉一般會給自己帶來雙倍的麻煩:以前承接你生意的芯片廠合作伙伴,以后就是要搶你生意的競爭對手。1990年代從顯卡龍頭到被英偉達收購的3dfx,就是如此把自己玩破產(chǎn)的。
在被收購前,ATI是臺積電的大客戶。但收購之后,2009年AMD與半導(dǎo)體大廠格芯簽約,所有芯片都交由格芯制造。而格芯在芯片制程縮小的技術(shù)革新中逐漸落后于臺積電,帶累了AMD的所有產(chǎn)品,包括顯卡。
與之相對的,是英偉達與臺積電1997年敲定的合作關(guān)系合作越發(fā)緊密。
而這兩家公司的牽手之路,頗有戲劇性。
1990年代中期,臺積電已經(jīng)是市值近60億美元的大公司,英偉達沒有上市,年營收2700萬美元,兩者體量差距不小。正如本文開頭所述,黃仁勛給張忠謀本人和臺積電美國辦公室打電話,沒人接。
最后,黃仁勛做出了科技史上的著名舉動:給張忠謀寫紙信。1997年,人在新竹的張忠謀收到來自美國的黃仁勛的信函后,大感興趣,如信中所邀,給英偉達公司辦公室回了電話。
在張忠謀的回憶中,黃仁勛接電話時,辦公室背景音嘈雜。在互相通名介紹后,皮衣哥不得不在公司里怒叱:“都閉嘴!悄聲些!電話那頭是張忠謀!”等到兩人第一次見面,黃仁勛先講了半天圖像加速運算的產(chǎn)品理念,張老板表示非常認同,反手遞來宣傳單。黃仁勛本以為輪到臺積電介紹自己的技術(shù)與產(chǎn)能了,結(jié)果打開一看,是講公司價值觀的。
英偉達在這段合作關(guān)系的初期如此伏低做小,越往后收獲越大。臺積電的芯片制程每年都在縮小,集成電路上的元器件現(xiàn)在已經(jīng)微縮到物理極限,無法比原子更小。芯片的精密度與日俱增,算力也跟著有數(shù)量級的飛躍。
“顯卡戰(zhàn)爭”的結(jié)果,是英偉達勝勢如潮涌,成為顯卡業(yè)的世界第一。制霸高端顯卡市場的英偉達,有足夠的營收來打中端顯卡、低端集顯的價格戰(zhàn),產(chǎn)品與技術(shù)研發(fā)也有更充足的預(yù)算。
|今年奧斯卡頒獎禮前,英偉達公司官網(wǎng)稱:競爭“最佳視效”獎項的五部電影,視效都是用我司的芯片和基礎(chǔ)技術(shù)做出來的
英偉達的技術(shù)優(yōu)勢,從一步領(lǐng)先,到一騎絕塵。生成式AI爆火之后,2023年2月英特爾和AMD的CEO也在疾呼:我司有廣泛的產(chǎn)品門類適合此行業(yè),明年生成式AI將會更加主流普羅化、更有意義。
這簡直是在哀求:時代的腳步啊,你等一等,別讓姓黃的把這份錢都賺完了。
通用算力,一統(tǒng)江湖
勝出后,英偉達的顯卡研發(fā)沒有放緩,算力持續(xù)增強。在2000年代后半葉,英偉達就開始著眼未來,研究這些算力的未來用途。
2006年,英偉達推出CUDA開發(fā)平臺,軟件開發(fā)者可以通過這一平臺,使用C語言編寫GPU片上程序,來完成復(fù)雜的計算。GPU從此實際脫離圖像處理的單一用途,成為了真正的GPGPU(通用GPU)。
強大的算力一旦能通用,成為其他行業(yè)的驅(qū)動力就是遲早的事。英偉達本身最先想通了這點,在AI領(lǐng)域的布局遠比公眾想象的早,技術(shù)領(lǐng)軍人早就和英偉達關(guān)系密切。
2010年的吳恩達尋貓片典故之前,2008年卡坦扎羅加入公司,他當(dāng)時在加州大學(xué)伯克利分校做研究生時,就將注意力集中在為AI開發(fā)GPU上。2009年,AI界泰斗辛頓在學(xué)術(shù)會議上,勸上千名研究者趕快買GPU,那是深度學(xué)習(xí)的未來之光。2016年,微軟技術(shù)大拿黃學(xué)東創(chuàng)下了語音識別AI錯誤率與專業(yè)人類速記員持平的紀(jì)錄后,得獎開香檳的地點,是黃仁勛的大別墅。
2010-2012年的深度學(xué)習(xí)飛躍開始后,英偉達已經(jīng)是穩(wěn)贏不輸?shù)氖澜纭八懔τ吞铩保盐諗?shù)據(jù)量與運算速度的世界巔峰。之后所有挑戰(zhàn)都能克服,所有阻難都是表象。
英偉達把自己強大的GPU拓展到其他行業(yè)的嘗試并不是次次得手。Tegra芯片最終沒有成功進入手機市場,挖礦芯片隨著加密貨幣潮的褪熱前景黯淡,與特斯拉在自動駕駛系統(tǒng)的合作無疾而終,2022年黃仁勛“元宇宙將挺過任何經(jīng)濟下行”的預(yù)言現(xiàn)在像個玩笑話。
然而這些不成功嘗試是力不虛擲、功不唐捐的。Tegra芯片裝不進手機,那就賣給馬斯克裝進特斯拉車?yán)铩樵钪骈_發(fā)的Omniverse平臺,用來合成訓(xùn)練AI的物理數(shù)據(jù),多樣性與過擬合規(guī)避還勝過了真實世界數(shù)據(jù)。扎克伯格做不動元宇宙,但黃仁勛的Omniverse卻是長做長有。
|英偉達的數(shù)字孿生體技術(shù),已經(jīng)足以為地球物理的機器學(xué)習(xí)模型提供高置信度模擬運算
即使有意競爭者的挑戰(zhàn),最后也成了給英偉達捧場。
2016年,谷歌宣布專門為AI研究開發(fā)了機器學(xué)習(xí)的專屬芯片TPU(張量處理單元),并設(shè)計了基準(zhǔn)測試工具MLPerf。然而在大多數(shù)年度的MLPerf測試中,按英偉達員工的自述,“黃總說,我們每次運行MLPerf基準(zhǔn)測試時,都要向谷歌證明我們的GPU比TPU運算速度快,哪怕只快一點點就好。”
今年谷歌的TPUv4終于在MLPerf基準(zhǔn)測試測試中贏了英偉達的A100芯片,成為業(yè)界大新聞:居然有芯片強過了英偉達產(chǎn)品!
蓄勢強勁,橫絕宇內(nèi)。從現(xiàn)在到可預(yù)見未來的英偉達,如同1970年代至今的迪拜和利雅得:前30年是世界經(jīng)濟的不起眼齒輪,以后就是世界經(jīng)濟的動力艙。一直主宰能源驅(qū)動的上游,不管下游行業(yè)如何變動,自己都是八風(fēng)不動。
不管福特和豐田誰贏了家用車競爭,顧客最后都要找海灣土豪買油。不管元宇宙還是生成式AI誰是真正的未來數(shù)字產(chǎn)業(yè)走向,跑模型的數(shù)據(jù)中心都要找英偉達買芯片。共生雙贏,的確是英偉達贏兩次。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.