(關注公眾號設為標,獲取AI深度洞察)
全文 3,000字 | 閱讀約12分鐘
在人工智能蓬勃興起的時代,GPU(圖形處理器)已經不僅僅是游戲畫面的幕后功臣,也成為驅動深度學習、科學計算乃至各種新興技術的核心引擎。
作為全球 GPU 領域的引領者,英偉達(Nvidia)在首席執行官兼聯合創始人黃仁勛(Jensen Huang)的帶領下,為我們打開了一個更廣闊的計算世界。從最初的個人電腦與簡單游戲,到如今轟轟烈烈的 AI 模型競賽,黃仁勛在最近的一次訪談中深入分享了他對于 GPU 演進、AI 并行處理以及未來前景的獨到見解。
本文基于訪談內容加以整合,帶領讀者從“第一臺電腦”的回憶出發,逐步走進這位行業領袖的前瞻思維。
一、我的第一臺電腦
在訪談剛開始,黃仁勛先回憶起自己與計算機的“緣分”:
“我第一臺真正屬于自己的電腦應該是 Apple II,但其實在那之前,我還用過一臺 Teletype 電傳打字機,它是連在大型主機上的。”
當被問到最喜歡的鍵盤快捷鍵時,黃仁勛笑言:
“我猜是 WASD。是的,算是一個玩家的標配吧。”
至于對編程風格的選擇,他表示:
“我更喜歡用 Tab,而不是空格。”
當話題轉到編程語言時,黃仁勛談到自己歷史上用得最多的是 Fortran 和 Pascal,但若談到日常最常用、最喜歡的語言,答案卻是:
“AWK,日常工作里我常常用 AWK,一旦需要規模更大的東西,就會用 Python。”
他打趣說,對 C++ 反而沒那么感冒:
“我最不喜歡的編程語言可能是 C++。不過,也正因如此,那些把 C++ 做得特別好的人,真的是非常厲害。”
此外,他的第一款電腦游戲是經典的《Asteroid》(小行星),而在“茶還是咖啡”這個問題上,他也坦言:
“以前偏愛咖啡,但現在越來越傾向于茶。”
二、閱讀存檔論文與 ChatGPT 的結合
黃仁勛的一個特殊興趣,是去瀏覽各種存檔論文(archived papers)。他笑稱:
“很多論文都非常深奧,但我就算只是略讀,也能學到不少東西。我最近看了一篇 DeepSea-R1 的論文,講的是如何在沒有監督式微調的情況下使用強化學習,結果還挺不錯。”
他指出,如今我們已經不需要“硬著頭皮”通讀所有論文:
“我常常會把論文直接丟到 ChatGPT,讓它幫我讀、幫我總結。更妙的是,你還可以不停地提問,就像和作者本人對話一樣。”
這讓黃仁勛意識到一個重要現象:
“很多人還沒意識到,其實當你用 AI 來做文獻調研、總結時,你最后相當于擁有了一個在該領域頗有研究的專家。研究完成后,你還可以繼續和它互動,去討論與該領域相關的各種問題。”三、從 Quadro 到 GeForce:GPU 的分化與融合
回顧以往,視頻編輯使用 Quadro,游戲則使用 GeForce,兩者在底層架構上有何區別?黃仁勛解釋道,這些產品雖然名稱和定位不同,但它們共同的根基是 CUDA。之所以存在不同產品線,主要是由于產品特性與資源分配的不同:
“有的 GPU 需要更多的紋理單元(texturing unit),有的 GPU 則在光柵操作單元(ROP)上更強大;有的使用 HBM 高帶寬顯存,有的使用更通用的圖形顯存。在科學計算領域,FP64(雙精度浮點)很重要,就得特別加強;但在圖形計算里,FP32(單精度浮點)就夠了。”
然而,Tensor Core 的引入改變了這一切:
“無論是計算機圖形、AI,還是物理模擬,現在都離不開 AI。張量核心(Tensor Core)在各類 GPU 中的地位越來越重要。”
在圖形渲染中,Tensor Core 讓 GPU 只需渲染“一小部分像素”,再由 AI 推斷出其余像素,既提高分辨率,又保證視覺質量。他強調:
“AI 并非只是近似,而是極大地拓寬了物理模擬和其他計算領域的邊界。”四、GPU 的第二次“分叉”:為何向 Tensor Core 傾斜
黃仁勛認為,GPU 的“分叉”過程大致經歷了兩個階段:
1、雙精度與圖形計算的分化
為科學計算設計的 GPU,大幅強化了 FP64 性能;
為游戲圖形設計的 GPU,FP64 則相對更弱,主要依賴 FP32。
2、Tensor Core 帶來的新變革
數據中心對 AI 推理與訓練的需求陡增;
在晶體管面積有限的情況下,更多地轉向對 Tensor Core 的強化;
FP64 并非不重要,但可以通過“模擬”的方式去支持,一方面照顧科學計算需求,一方面為 AI 留出更大空間。
隨著 Tensor Core 逐漸在數據中心中站穩腳跟,英偉達又把它帶回到消費端 GPU,使得游戲圖形渲染同樣受益于 AI 算法。
“當年 GeForce 把 CUDA 推向了全世界,讓所有做 AI 的人獲得了在 PC 上的超級計算機。如今,AI 又回過頭來‘反哺’了 GeForce,使計算機圖形進入真正的 AI 驅動時代。”五、硬件如何跟上這股 AI 浪潮
談到最近幾個月 AI 領域的種種飛躍(如 DeepSea 等模型),黃仁勛指出,模型速度正以每 7 個月翻一番的驚人速度增長,而數據規模也在迅猛擴大。這意味著:
“我們每年對計算量的需求,可能會上升 10 倍。”
為理解如何跟上這種指數級增長,黃仁勛回顧了計算史上幾個關鍵節點:
1 、軟件打包時代
軟件編譯打包到 CD-ROM 中出售;
只能靠摩爾定律和 CPU 架構來提升性能。
2、加速計算與 CUDA 的崛起
可替換底層算法并配合 GPU 架構的迭代;
實現全棧優化,擺脫了單純依靠 CPU 主頻提升的束縛;
使性能增長遠超摩爾定律。
3、AI 精度調整與并行
AI 算法對高精度要求相對寬容;
可將 FP32“降級”到 FP16、FP8,獲得倍數級能效提升;
同時,可將更多計算負載并行化,延展到多 GPU、多節點乃至多機架。
綜合來看,黃仁勛形容,過去 10 年,計算規模已經提升了上百萬倍。而摩爾定律在同樣時長里,理論上只能提升 100 倍左右。
“更關鍵的是,神經網絡本質是軟件,它可以被無限重寫、改進。在硬件層面加速的同時,新型網絡架構也在快速涌現,比如 Transformer 及其變體。二者相互促進,更新換代非常迅速。”六、“Scale Up” 與 “Scale Out”
黃仁勛指出,在談到計算擴展時,需要區分“縱向擴展”(Scale Up)和“橫向擴展”(Scale Out):
Scale Up:
讓一臺機器本身變得更強大;
盡量不大改軟件的情況下,大幅提升計算能力;
受限于半導體物理、內存帶寬等瓶頸。
Scale Out:
把任務拆分成許多獨立部分,分配到不同節點協同工作;
典型例子是谷歌的 MapReduce,以及后來的 Hadoop;
更容易受到通信、調度和“人月神話”等因素的影響。
英偉達通過 NVLink 把多塊 GPU 串成一個“近似統一”的大 GPU,然后再將這些大 GPU 通過機架間的連接做橫向擴展。這種方式結合了縱向與橫向的優勢。
另外,黃仁勛強調了CPU 的不可或缺:
“根據阿姆達爾定律,總會有一部分計算必須串行。如果說有 10% 的部分不能并行,那么你把那 90% 的并行部分加速到無限快,也還是被那 10% 卡住。對于并行體系來說,單線程的性能其實至關重要,所以我們才自己做 CPU,讓它單線程性能更好,再把多線程部分交給 GPU 和 CUDA 來做。”七、GPU 的“意外之用”
最后,黃仁勛被問到是否有一些最初沒預料到,卻又讓他頗感興趣的 GPU 用途。他回答說,最讓他驚喜的往往是實時性要求高但又計算量巨大的領域。例如,5G 基站:
“傳統做法會用專門的芯片來處理無線電基帶,但我們把它放在 CUDA 上,用軟件定義的方式來實現。這樣做的好處是,可以在各種環節中整合或替換成 AI 算法,比如深度學習基帶處理、大規模 MIMO(Massive MIMO)、多基站之間的流量調度等等。”
一旦把無線電網絡視作一個“機器人網絡”,就能用強化學習讓系統自適應與自我優化,既能節省能耗,又能提高頻譜效率。他還提出,AI 在通信網絡層面可以給帶寬帶來驚人的“壓縮”效果:
“比如在視頻通話里,前幾幀傳了畫面后,后續可以只依賴音頻信號來預測說話人的表情、口型,用神經網絡在本地重建;如此一來,帶寬需求就可能減少上千倍。”
加之人類先驗,完全可以靠終端側生成模型來重構畫面,大幅度用“計算”替代“網絡傳輸”。
從最初的 Apple II、喜愛的游戲《Asteroid》,到對 C++ 的“復雜情感”;從 “CUDA 讓 AI 研究者擁有超級計算機” 的過往,到 “AI 又反過來革命了 GeForce” 的現在;從 “降精度帶來算力倍增” 到 “算力提升推動新網絡架構誕生”,黃仁勛在訪談中娓娓道來,展現了 GPU 技術在人工智能時代的全新高度與無限潛力。
可以預見,未來的 GPU 將越來越多地與 AI、并行計算、“邊緣實時”應用深度融合,從而創造出更多“意想不到”的新場景與新可能。隨著硬件與軟件持續迭代,整個行業的創新也將繼續高歌猛進,或許在不久的將來,我們會看到更多令人驚嘆的成果。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
原文鏈接:https://www.youtube.com/watch?v=G6R7UOFx1bw&t=994s
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編:圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.