(關注公眾號設為標,獲取AI深度洞察)
全文 5,000字 | 閱讀約16分鐘
昨天,在Beyond Artificial大會上,英偉達CEO黃仁勛首次就近期引發全球AI圈熱議的中國企業DeepSeek發表了他的看法。這來得特別及時——過去一個月,由于市場擔憂開源推理模型可能影響行業格局,英偉達股價一度承壓。而黃仁勛的觀點,卻給市場帶來了意外的驚喜。
在與數據存儲巨頭DDN公司的深度對話中,黃仁勛不僅高度肯定了DeepSeek在推理模型領域的突破性進展,更重要的是,他系統性地闡述了一個被市場普遍誤解的觀點:AI的價值并不僅僅在于預訓練階段。
"不知道是誰先提出這種模式,但顯然它并不準確。"黃仁勛直言。在他看來,真正的AI應用應該包含三個同等重要的階段:預訓練、后訓練(推理能力學習)以及實際推理過程。而DeepSeek的開源推理模型,恰恰切中了這一關鍵環節。
文稿整理
主持人(Alex):歡迎來到《Beyond Artificial》大會,Jensen,謝謝你能來。
嘉賓黃仁勛(Jensen Huang):能來到這里真是太好了,Alex,非常感謝。很高興見到你。
一、DDN的Infinia產品起源
主持人:好的,我必須先講講 Infinia 這個新產品是怎么開始的。2017 年,NVIDIA 說:“我們想要搭建一個參考架構(reference architecture)的超級計算平臺,需要數據部分來支撐。” 我們離開那次會議后,我就想:如果 Jensen 對未來十年甚至更長遠的人工智能愿景變成現實,那么需要一種完全不同的架構。它必須在訓練階段可以高效擴展,必須非常低延遲,必須是分布式的,同時能在本地數據中心和多云環境中運行。而且數據本身不能到處移動,因為成本太高,比如圖像、視頻等等都很昂貴。所以只能用元數據和標簽之類的東西。這就是它的起點。當時我把它畫在白板上,說:“這才是面向 AI 的架構。”所有人都看著我,說:“你完全瘋了,你在談論一些無法實現的東西?!蔽艺f:“好吧,讓我們換個角度看問題。跳出過去的經驗,從我們真正想解決的問題來思考。先別管過去,也別管文件系統之類的?!焙髞砘似吣陼r間才實現了。當兩個工程師出身的 CEO 在一起時,常常就會發生這種事。
黃仁勛:我覺得你描述的這個非凡歷程非常精彩。當然,從訓練一個模型到現在利用這些不可思議的前沿 AI 模型,并把它們帶到推理(inference)和大型應用上,這是一條很漫長的道路。人們常常忽視的一點,就是在實際應用階段(而不只是訓練階段)對數據的需求非常關鍵。因此,你不僅要對海量數據進行預訓練,而且在實際使用時,AI 也需要訪問信息。AI 希望訪問到的并不只是原始數據,而是信息本身——更加“理解化”的數據。所以,這也是為什么要把存儲從簡單的對象和原始數據升級到“數據智能(Data Intelligence)”。對于 DDN公司的產品來說,為全世界的企業提供這樣一種數據智能,讓 AI 在這個信息層之上去運轉,這是一個對計算和存儲關系的全新定義,也是對我們所能提供產品類型的全新定義。
主持人:所以,你可以把它看作是重新思考計算和存儲的一次重大機遇。我們都認為,這背后的驅動力是你的遠見卓識。你幾乎創造了這個產業,并且讓它能真正結出碩果。它在以各種方式改變我們的工作、娛樂、休閑、健康、安全……它的影響如此深遠,并且在全球范圍內都是一種轉折。要想讓這一切發生,企業必須去采用 AI,并且以更快的速度采用,這就要求投資回報率(ROI)能夠成立。而 ROI 的實現,需要應用層得到加速,同時基礎設施(無論在本地數據中心還是云中)都要具備更高的效率。我們已經做到這一點。而現在我認為最大的催化劑與加速器在于:“如何讓應用層獲得超級加速?” 你們在這方面做得非常出色,比如 CUDA 等生態。
黃仁勛:我非常喜歡你使用“加速(accelerate)”這個詞。在計算機科學領域,或者說在計算領域,你和我都經歷并見證了摩爾定律的好處:計算性能越來越強,價格和功耗卻不斷降低。在我們職業生涯的最初 30 年里,我們都享受到了這種“摩爾定律的紅利”??墒窃谶^去的 15 年里,我們看到摩爾定律漸漸放緩甚至趨于結束。在此之上,NVIDIA 做出的首要重要貢獻是通過一種完全不同的體系結構和算法重構,把序列處理變成了極致的并行加速處理?,F在我們在極端地加速計算,讓計算重新變得高效、經濟,同時也降低能耗,并且極大地加速了各種工作負載。在這個基礎之上,我們使得機器學習和人工智能成為可能。因為我們現在能以非常高的能效和極快的速度進行計算,所以我們可以把計算推向極限,讓計算機去發現洞察。所以在底層,NVIDIA 和 DDN 新的產品線合作正是基于這種加速計算和 AI 技術,把你存儲的大量原始數據轉化成數據智能。你把這些數據內在的價值抽取到模型里,挖掘其中的語義和信息,而不再只是存儲原始數據。這樣,你服務的就不再是原始數據,而是元數據、知識、洞察。非常令人驚嘆的是,元數據和語義層的數據往往高度壓縮。
二、AI與數據的新關系
主持人:對,對,對,壓縮率是驚人的,這讓我們可以在全球范圍內快速傳輸這些信息。必須要有這種方式,多模態(multimodal)也成為企業想真正從 AI 中獲益的必要條件。通過多模態的元數據標注,以及移動這些元數據,才能實現更好的經濟效益,否則成本也無法承受。數據中心也沒有足夠的空間,世界也沒有那么多電力,去按照過去那種方式處理。所以對元數據的標注非常重要。當我們開始 Infinia 這個項目時,就重點關注了它:必須成為一個元數據豐富、低延遲的基礎設施,能夠不斷對這些對象進行轉換,從而得到洞察。 畢竟,最終的目標是數據智能。如果你把所有數據都導入環境中去訓練模型,但卻沒從中得到任何洞察或商業價值,對消費者的娛樂、健康也沒有任何幫助,那就毫無意義。所以它必須發揮效益,能夠帶來好處。
黃仁勛:是,這也是一種企業與自身數據交互的新方式——不僅僅是存取數據,而是“理解”數據、可能還要對數據做修改,再存回去。你實際上是在“對話”自己的數據,你提出問題,你的數據會回答你,告訴你你所需的信息。也可能隱藏在原始數據中的洞察,已經變成了語義化的信息。然后你可以讓不同的 AI 代理和模型,針對公司不同部門的數據進行交互,查詢并生成報告,再由另一個 AI 代理去讀取、理解,然后與其他數據或情報結合,最終給出某種結論。 基本上,這就像是多個領域專家組成的團隊,每個 AI 代理都在某個特定專業領域里是行家,他們成了某種“顧問團”,讓組織能更好地競爭,更快地開發出更好的產品,給客戶帶來更多價值,可能是產品也可能是服務。然后你再把這種能力與 Omniverse 結合起來。我覺得這才是最驚艷的部分:與其在物理世界去做所有研發,你可以用數字孿生(digital twin)的方式來模擬,比如開發一種新藥需要花費數十億美元,耗時很多年,還要通過 FDA 審批,而且還不一定成功,可能有好幾條研發路徑要并行或試錯。如果你把這些研發路徑都放到 Omniverse 中的數字孿生去模擬,系統就可能告訴你:“如果把研發路徑一的一些屬性和路徑四的其他屬性結合起來,能最大化成功率,最有效地壓縮上市時間,并帶來最大的好處?!?/p>
主持人:對于在座的觀眾來說,這的確很有意思。我們一開始是在高性能計算(HPC)領域結緣的。訓練基礎模型和前沿模型是 HPC 最極致的形態。因此,NVIDIA 與 DDN 在這個領域建立了友誼與長期合作。
黃仁勛:但現在,我們的目標是把這些訓練好的模型用到企業里,把原始數據轉化為數據智能。這意味著我們正走向企業市場。所以從 HPC 到企業市場,從公共云到現在私有云和公有云并行,在那里,企業最終希望進入數字世界。因為一旦到了數字世界,就可以更快地完成一切——這正是 Omniverse 的愿景,讓每家公司都擁有它們自己的數字孿生。這太深刻了,真是不可思議。我不確定大家有沒有真正理解它的重要性和影響力。這正是我們要向下一個階段邁進的過程。從超級計算到企業,再到把企業數字化為數字孿生世界。要做到這一點,就必須獲取各自領域的數據,無論是 3D、蛋白質、化學物質、各類信息或者時間序列數據,甚至可能是物理仿真數據。我們要做的,就是把它們所蘊含的含義和表征抽取出來,再在 Omniverse 中進行數字化。這樣,全世界所有的公司就都能在數字世界擁有自己的“數字鏡像”。進入數字世界后,我們可以一次性做數千次實驗,而且都是并行進行的。于是,就相當于我們在 Omniverse 中擁有平行宇宙的能力,可以同時進行各種試驗,一次就能嘗試無數條路徑。這就像“同時活了無數次人生”,然后從中找出最優的一條或某幾條組合。
三、DeepSeek開源突出貢獻
主持人:這適用于企業組織,也適用于政府的“主權 AI”,為廣大民眾提供好處,也適用于個人、消費層面的健康等領域。你可以把它擴展到任何地方,它能幫你做各種最優解。當我第一次聽你談到 Omniverse 的時候,我就覺得這太震撼了,這就是 AI 讓我們走到的地方,爆發力極其強大。
黃仁勛:是的,沒有 AI,無法把世界上所有的原始數據提取出意義,然后用數字孿生的形式呈現。因為我們需要壓縮時間和降低經濟成本,只能更快、更便宜地進行實驗,而數字孿生是唯一的途徑。我們要做的就是把一切都數字孿生化。這就是企業加速采用 AI 的背景,他們想在這個過程中縮短周期,從而獲得巨大的益處。這就是我們現在所處的時刻。我們已經在“數據層”構建了“智能層”,也就是你說的數據智能之上,再往上就是代理層(Agentic Layer)。在信息世界里,我們稱之為 Agentic AI;在物理世界里,會是融入機器人形態的物理 AI。現在,我們又往上多加了一層。你或許已經注意到最近 DeepSeek 的一些進展——世界上首個開源的“推理(reasoning)模型”,反響極其強烈,全世界都在關注。
主持人:為什么有些人會認為這是個壞事?我反而覺得是好事。
黃仁勛:從投資者的角度來看,以前可能有一種“只做預訓練,再做推理”的簡單思維:預訓練需要很多計算量,然后推理就一瞬間給出答案。我不知道是誰先提出這種模式,但顯然它并不準確。
真正的模式應該是:
1、預訓練(Pre-training):用大量多模態數據(語言、圖像、視頻、音頻……)去學習基礎知識。
2、后訓練(Post-training):學習如何解決問題。也就是在基礎知識之上,做強化學習、人工反饋、或者 AI 間互相教練等各種方式,讓模型學會推理、不斷迭代。
預訓練會一直很繁重,但后訓練對于智能來說才是最重要的部分,因為那是把學來的知識用于解決問題的過程。人們過去可能以為預訓練占大頭,可實際上后訓練也非常消耗計算。
第三個層面是推理過程中的“思考”本身,也需要大量計算。因為智能體在回答問題前會進行推理,并行試驗,甚至要分步推理(Chain-of-Thought),再不斷修正。所以“推理”是相當計算密集的。
主持人:DeepSeek的出現讓大家意識到,有很多新方法可以讓模型比原來設想得更高效。這實際上會加速 AI 的應用擴展,而不是讓它停止。所以,這只是讓整個 AI 的生態進一步擴大和加速。
黃仁勛:現在,我們有了像 R1 這樣的模型,還有 Infinia 這樣的數據智能層。二者結合,就能讓模型與“智能化數據”對話,一起解決問題。我還想提到很重要的一點就是你提到的 CUDA 生態系統(Cuda Obj 等),這是非常巨大的推動力。人們可以利用這個生態,結合 CUDA、Nims、以及專業行業的推理庫,覆蓋特定領域比如生命科學、金融服務、自動駕駛等等,把這一切結合起來,再加上模型的進化,就能進一步加速 AI 的應用。這對 NVIDIA 來說是一件好事,對 DDN 也是好事,但從本質上說,所有的核心點都在于“應用層”的加速。
四、企業AI應用策略
主持人:最讓人感到神奇的地方在于,所有這些說到底都是“軟件”??晌覀儸F在對軟件的表述方式,和十年前已經完全不一樣了。
黃仁勛:很多人會問:“企業應該自己構建 AI 呢?還是直接用公有云上的 AI?” 我覺得答案是:都可以而且都需要。如果公有云上有現成的 AI 可以用,那么非常適合先用起來,因為它能快速給出通用的智能服務,而且會以指數級速度變得更好。但是,企業內部通常有很多不同的專業領域,比如我們在英偉達做芯片設計、編寫 CUDA 軟件、編寫 Verilog 代碼、供應鏈管理……在這些地方,我們有深厚的專業知識。在這種情況下,我們就會基于開源模型和工具(如 NVIDIA Nemo、Nims,以及像 DDN Infinia 這樣的數據智能平臺)自己來訓練專有 AI。因此,企業最終會擁有自研 AI、與第三方平臺合作的 AI、以及公有云 AI,多種并存。公司內部會有“AI 的 AI”,而在每個 AI 內部又是一個“模型系統”。它們彼此協作,共同解決大型問題,坐落在企業的數據智能層之上。
主持人:對每一個企業來說,都需要想清楚:“我們的使命和價值是什么?” 然后,“如何差異化?” 這種差異化只能來自于將 AI 專門應用于自身組織的獨特目標上。是的,你可以直接“使用”AI,但那只是消費層面的用法。真正帶來價值的是,在你是生命科學企業或金融服務企業的場景下,怎么利用 AI 去做更具針對性和獨特性的事。這才是專業化的地方,也正是 NVIDIA 提供的專業能力所發揮的作用,比如 Nemo,再比如 DDN 的 Infinia,都能幫助你更好地放大自身的差異化。所以我非常感謝你成為我們的卓越合作伙伴,為我們指明方向,也非常感激你們把我們的技術廣泛應用在 NVIDIA 內部。未來將由 DDN 來驅動。
黃仁勛:跟你們合作真的很棒,你們的技術也非常出色。如果沒有 DDN,就不可能有現在 NVIDIA 的超級計算平臺。所以,我也十分感激。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
參考資料:https://www.youtube.com/watch?v=F3NJ5TwTaTI
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.