網易首頁 > 網易號 > 正文申請入駐

專訪谷歌傳奇師徒：改變世界的Jeff Dean與創造Transformer的Noam Shazeer

2025-02-17 12:00:01　來源: 學術頭條

北京舉報

分享至

內容來自：AI 科技大本營（ID：rgznai100）

整理：王啟隆

https://www.dwarkeshpatel.com/p/jeff-dean-and-noam-shazeer

最近由 Dwarkesh Patel 主持的播客節目 Dwarkesh Podcast 發布了一場重磅節目：Jeff Dean 對話 Noam Shazeer。這兩位嘉賓都是相當有梗的科技大咖，兩位的關系本身也相當深厚。

Jeff Dean，谷歌首席科學家，在他在公司的 25 年里，他基本上參與了現代計算領域最具變革性的系統：從 MapReduce、BigTable、Tensorflow、AlphaChip，到如今的 Gemini 大模型。可以說，在“谷歌”和“Meta”這兩家科技巨頭的對比中，這位就是對標 AI 教父楊立昆的“真·大神”。

Noam Shazeer，則是當前這場人工智能革命的最主要功臣之一。他是現代大語言模型使用的所有主要架構和技術的發明者或共同發明者：從 Transformer 本身，到 MoE，到 Mesh Tensorflow，以及許多其他技術。

此外，Noam Shazeer 曾離職谷歌，創辦了社交軟件 Character.AI，讓 1600 萬美國青少年集體熱衷于和 AI 虛擬角色談戀愛，然后又因為模型閹割導致 1600 萬美國青少年“失聯”，最后這家公司由老東家谷歌收購，Noam 自己也再次回歸了谷歌。

本次對話相當輕松幽默，有不少“師徒敘舊”的場景，以下為全文：

谷歌的有趣靈魂

主持人：第一個問題。兩位都在谷歌工作了 25 年，或者接近 25 年。在公司早期的某個時候，你們可能都了解一切是如何運作的。從什么時候開始情況不再是這樣了？你們覺得有一個明確的時刻嗎？

Noam Shazeer：我加入公司的時候，大概是 2000 年底，他們有這么一個制度，每個人都會得到一位導師。我當時什么都不懂，所以我遇到的每一個問題都得問我的導師，而我的導師似乎什么都懂。

后來發現，只是因為我的導師是 Jeff Dean——原來并不是當時谷歌的每個人都懂一切，只是 Jeff 懂一切，因為基本上谷歌的所有東西都是他寫的。

Jeff Dean：你太客氣了。我覺得公司發展到一定規模，都會經歷這些階段。

我剛加入公司時，大概也就二三十人吧。那時候大家名字都叫得上來，就算公司不斷擴張，新來的人也都能記住。

但慢慢地，人越來越多，你開始記不住所有人的名字了，不過還是都認識搞軟件工程的那些人。

再后來，連軟件工程團隊的人也記不全了，但起碼還知道大家都在負責哪些項目。

等到公司再大一些，你可能就會收到郵件，說“鴨嘴獸項目”這周五要啟動了，然后你心里就犯嘀咕：“‘鴨嘴獸項目’是啥玩意兒？”

Noam Shazeer：哈哈，通常這還真是個驚喜。你會想，“哇，‘鴨嘴獸項目’！”我都不知道我們還在搞這個項目。

Jeff Dean：但我認為，即使不了解每個細節，也要在非常高的層面上了解公司正在發生的事情，這仍然是件好事。而且最好認識公司里的很多人，這樣你就可以找人詢問更多細節，或者弄清楚該和誰交談。通過一層或幾層關系，如果你建立了良好的人脈網絡，通常就能在公司里找到合適的人。

主持人：順便問一下，谷歌是如何招募到你們的？

Jeff Dean：實際上，是我主動聯系他們的。

主持人：Noam，你是怎么被招募的？

Noam Shazeer：1999 年我在招聘會上看到了谷歌，當時就覺得，哇，這家公司肯定已經很大規模了，現在加入估計也沒啥意思，因為我認識的人都在用 Google 搜索了——我猜這可能跟我當時是伯克利的研究生有關——我還從研究生項目里退學過好幾次。

不過后來才知道，（在大眾的視角里）其實谷歌那時候并沒有我想象的那么大。

2000 年，我順手給他們投了份簡歷，因為當時覺得谷歌是我最喜歡的搜索引擎，而且也想著多申請幾個工作機會。結果去了之后發現，谷歌內部真的挺有意思的，感覺就像一群聰明人在一塊兒做有意義的事兒。他們墻上還貼著一張挺好看的蠟筆畫，記錄每天的搜索量，一直有人在更新維護。那個增長勢頭看起來真是猛。

我當時就想，“這幫人肯定能成，而且他們好像有很多有意思的問題要解決。”

所以我就想著，“行吧，也許可以先去那兒干一段時間，賺點錢，以后就能有足夠的資金去搞自己的人工智能研究了?！?/p>

主持人：從某種程度上來說，你確實實現了自己的目標，不是嗎？

Noam Shazeer：是啊，完全按計劃來的。

主持人：你 1999 年就開始考慮人工智能了？

Noam Shazeer：嗯，差不多 2000 年那會兒吧。我記得讀研究生的時候，有個朋友跟我說，他 2000 年的新年愿望是活到 3000 年，而且他打算通過發明人工智能來實現這個目標。我當時就覺得，“哦，這聽起來好像挺有意思的?！?/p>

我那時候真沒想過可以在大公司里搞人工智能。當時的想法是，“好像很多人在創業公司賺了不少錢。也許我可以先去賺點錢，這樣以后就有足夠的錢生活，然后就能長時間專心研究人工智能了?！辈贿^，后來發現谷歌還真是個搞人工智能研究的好地方。

Jeff Dean：我喜歡谷歌的一點是，我們的目標一直都是需要非常先進的人工智能才能實現的。因為我認為組織世界信息并使其普遍可訪問和有用，實際上包含了一個非常廣泛的任務。這家公司不是只打算做一件小事就止步于此。而且你也能看到，我們最初所做的事情是在朝著這個方向發展，但實際上你可以朝著這個方向做更多的事情。

一頓飯的蝴蝶效應

主持人：在過去的二三十年里，摩爾定律如何改變了你們在設計新系統、確定哪些項目是可行時必須考慮的因素？現在仍然有哪些限制？現在你們能做哪些以前顯然做不到的事情？

Jeff Dean：我認為在過去的幾十年里，情況變化很大。二十年前到十年前，情況很棒，因為你只需要等待，大概 18 個月后，你就能得到速度快得多的硬件，而且你什么都不用做。

但最近，我覺得通用 CPU 機器的性能提升沒有那么明顯了，比如制造工藝的改進現在需要三年，而不是每兩年一次。多核處理器的架構改進等，并沒有像 20 年到 10 年前那樣給你帶來同樣的提升。但我也認為，我們看到了更多專門的計算設備，比如機器學習加速器，TPU，以及最近更多面向機器學習的 GPU，這些設備使得我們實際上可以從更現代的計算類型中獲得非常高的性能和良好的效率，這與試圖運行 Microsoft Office 或其他類似軟件的復雜 C++ 代碼不同。

Noam Shazeer：感覺算法似乎是在追隨硬件的發展?；旧希F在的情況是，算術運算非常非常便宜，而移動數據相對來說要昂貴得多。深度學習的興起大致就是因為這個原因。你可以用矩陣乘法來構建它，這基本上是 N 立方的運算量和 N 平方字節的數據通信量。

Jeff Dean：轉向以硬件為導向是很重要的轉變，因為在此之前，我們擁有的 CPU 和 GPU 并不特別適合深度學習。然后我們開始在谷歌內部構建 TPU，它實際上只是降低精度的線性代數機器，一旦你有了它，你就會想充分利用它。

Noam Shazeer：這似乎都是關于識別機會成本。比如，Larry Page 過去總是說：“我們的第二大成本是稅收，而最大的成本是機會成本?！比绻麤]說過這話，那我就多年來一直誤引他的話了。

但基本上是說，你錯失了什么機會？在這種情況下，我想機會就是你擁有所有這些芯片面積，但你只在上面放置了非常少量的算術單元。把芯片填滿算術單元吧！你可以完成數量級更大的算術運算。

現在，還需要改變什么？好吧，算法、數據流以及其他所有東西都需要改變。

Jeff Dean：而且，順便說一句，算術運算的精度可以非常低，這樣你就可以塞進更多的乘法器單元。

主持人：Noam，我想繼續你剛才說的話題，即算法一直在追隨硬件的發展。如果你設想一個反事實的世界，假設內存成本下降的速度超過了算術運算，或者只是反轉你看到的這種動態。

Noam Shazeer：好的，數據流動極其廉價，而算術運算則不然。

主持人：那么今天的人工智能會是什么樣子？

Jeff Dean：你會看到更多對超大內存的查找操作。

Noam Shazeer：是的，它可能更像 20 年前的人工智能，但方向相反。我不確定。我是在 2012 年加入 Google Brain 團隊的。我當時已經離開了谷歌幾年，有一次回去和妻子共進午餐，我們碰巧坐在 Jeff 和早期的 Google Brain 團隊旁邊。我想，“哇，那是一群聰明人?！?/p>

Jeff Dean：我記得我當時好像跟你說，“你應該考慮一下深度神經網絡。我們在那個方向取得了一些不錯的進展。”

Noam Shazeer：我想的是“聽起來很有趣?！?/p>

Jeff Dean：然后我就把他勸回來了。太棒了。

Noam Shazeer：那是 2012 年。我似乎每 12 年加入一次谷歌：我分別在 2000 年、2012 年和 2024 年重新加入谷歌。

主持人：2036 年會發生什么？

Noam Shazeer：我不知道。我想我們拭目以待吧。

主持人：為了整合你們對算法的思考，你們正在考慮改變未來版本的 TPU 的哪些權衡？

Jeff Dean：我認為一個總體趨勢是，我們越來越擅長模型量化，或者說使用精度更低的模型。最早做 TPUv1 時，我們甚至不太確定用 8 位整數量化模型是否能行得通。但當時我們有一些初步的證據表明這可能是可行的。所以我們就決定，“太好了，那我們就圍繞 8 位量化來設計整個芯片吧。”

然后隨著時間推移，大家也看到，用更低的精度進行模型訓練也逐漸成為可能。推理精度也提高了?，F在人們開始用 INT4 甚至 FP4 精度了。如果 20 年前，你跟一個超算浮點數專家說我們要用 FP4 精度，他們肯定會說，“啥？太瘋狂了吧。我們都喜歡用 64 位浮點數！”

現在甚至更低的精度，有些人正在嘗試將模型量化到兩位甚至一位。我認為這絕對是一個趨勢。

主持人：一位？就像 0 或 1 這樣？

Jeff Dean：是的，只有 0 和 1。然后再用一位來表示正負號或者其他信息。

Noam Shazeer：這真的需要算法和硬件協同設計才行。因為如果算法設計者沒有意識到，通過降低精度可以大幅提升性能和吞吐量，他們肯定會說，“我當然不想要低精度，那會有風險的?！边@樣就會增加溝通成本和麻煩。

反過來，如果你問芯片設計師，“好的，你們想造什么樣的芯片？”他們又會去問寫算法的人，算法工程師又會說，“不，我不喜歡量化，太麻煩了。”所以，實際上你需要從全局角度來看問題，搞清楚，“等等，通過量化，我們可以大幅提高性價比??！”

Jeff Dean：然后你就會意識到，沒錯，量化確實挺麻煩，但模型速度能快三倍，所以你必須接受它。

Jeff Dean 改變世界的幾篇論文

主持人：在你們的職業生涯中，在不同的階段，你們都做過一些工作，那些技術和我們現在用于生成式 AI 的技術有著驚人的相似之處。1990 年，Jeff，你的畢業論文就是關于反向傳播算法的。此外，你們在 2007 年訓練了一個兩萬億 token 的 N-gram 模型，用于語言模型。

能不能請你回顧一下開發那個模型的過程？當時你腦海里有現在這種大語言模型的概念嗎？你認為自己當時在做什么？

Jeff Dean：先說說我的本科畢業論文吧。我大四選修了一門并行計算課程，其中一個章節講到了神經網絡。我需要寫一篇畢業論文，一篇榮譽論文。我就去找教授，跟他說，“做一些關于神經網絡的東西肯定挺有意思的?！?/p>

然后，教授就和我一起決定，我來實現幾種不同的并行化反向傳播算法，用于訓練神經網絡。那是 1990 年。我在論文里給這些方法起了一些有趣的名字，像“模式分割”之類的。但實際上，我是在一臺 32 處理器的 Hypercube 機器上實現了模型并行和數據并行。

其中一種方法是將所有訓練樣本分成不同批次，每個 CPU 跑一個模型副本。另一種方法是將一批樣本以流水線方式，送到負責模型不同部分的處理器上。我比較和對比了這些方法，挺有意思的。

我當時對神經網絡這種抽象概念感到非常興奮，因為感覺神經網絡是正確的方向。它們可以解決當時其他方法解決不了的一些小玩具問題。我那時很天真地認為，32 個處理器就能訓練出非常厲害的神經網絡。

但事實證明，我們需要大概百萬倍的計算能力，神經網絡才能真正開始在實際問題上發揮作用。不過從 2008 年末、2009 年、2010 年開始，隨著摩爾定律的持續發展，我們開始擁有足夠的算力，讓神經網絡真正應用于實際場景。那大概就是我重新開始關注神經網絡的時候。

主持人：我可以先問一下關于 2007 年那篇論文的事情嗎？首先，和很多學術論文不一樣，那篇論文實際上只有四頁，而且讀起來很流暢。

Jeff Dean：論文正文是四頁，后面還附了 30 頁 C 代碼。

主持人：但那確實是一篇很棒的成果。能講講 2007 年那篇論文是怎么做出來的嗎？

Jeff Dean：哦，好的。當時我們在谷歌有個機器翻譯研究團隊，負責人是 Franz Och，團隊里還有其他人。他們每年都會參加 DARPA 的機器翻譯比賽，把幾種不同的語言翻譯成英語，我記得是中文譯成英語和阿拉伯語譯成英語。

谷歌團隊提交了一個參賽作品。比賽規則是，周一收到 500 個句子，必須在周五前提交翻譯結果。我看了比賽結果，我們隊以相當大的優勢贏得了比賽，評判標準是 BLEU 分數，一種衡量機器翻譯質量的指標。

然后我就聯系了 Franz。我說，“太棒了，我們什么時候能發布這個系統？”他說，“哦，我們不能發布。這東西實際上不太實用，因為翻譯一句話要 12 個小時?！蔽艺f，“嗯，這時間也太長了吧。我們怎么才能解決這個問題？”

后來發現，他們顯然沒有把系統設計成高吞吐量的。系統在處理翻譯時，需要在一個大型語言模型上進行 10 萬次磁盤尋道，為了翻譯每個詞，他們要在這個模型上計算一些統計數據，我不太好說是“訓練”。

顯然，進行 10 萬次磁盤尋道速度肯定快不了。我就說，“好吧，我們深入研究一下?！比缓笪揖秃退麄円黄鸹舜蟾艃扇齻€月時間，設計了一種 N-gram 數據的內存壓縮表示方法。

我們當時用的是 N-gram 模型，它本質上是統計每個 N 詞序列在大型語料庫中出現的頻率。當時我們的語料庫規模是 2 萬億詞。那時候大多數 N-gram 模型都用二元語法或者三元語法，但我們決定用五元語法。

所以，我們統計了每個五詞序列，在我們那天能夠處理的最大規模的網絡內容中出現的頻率。然后我們構建了一個數據結構，它可以記錄，“好的，‘我真的很喜歡這家餐廳’ 這句話在網絡上出現了 17 次”，或者類似的信息。

我構建的這個數據結構，可以將所有這些數據都存儲在 200 臺機器的內存里。然后我們做了一個批處理 API，你可以說，“這里有 10 萬個詞組需要查找，用于這一輪的翻譯，”我們會并行地把結果全部返回給你。這樣一來，就把翻譯一個句子的時間，從一個晚上縮短到了 100 毫秒左右。

主持人：網上流傳著一份“Jeff Dean 語錄”的清單，比如，其中一條是“對 Jeff Dean 來說，NP 問題等于 ‘no problemo’（小菜一碟）?！?/p>

還有一條也很有意思，現在聽你講這些經歷，感覺有點像真的。那條語錄是，“在 Jeff Dean 決定用一個周末優化光速之前，光速是每小時 35 英里?！?/p>

僅僅是從 12 小時到 100 毫秒，我得好好算算這中間差了多少個數量級。

Jeff Dean：那些語錄都是大家太抬舉我了。挺有趣的，都是我的同事們開的愚人節玩笑，結果就傳開了。

主持人：現在回過頭看，這種通過研究詞語之間的關系，來構建整個互聯網潛在表示的想法，感覺就像是：沒錯，這就是大語言模型，這就是 Gemini 的雛形。當時，這僅僅是一個翻譯方面的想法，還是說你們已經意識到，這是一種全新范式的開端？

Jeff Dean：我覺得，自從我們為翻譯構建了這個模型之后，大語言模型就開始被應用于其他方面了，比如搜索補全。你開始輸入搜索詞，它會智能推薦一些有意義的補全建議。

所以，這絕對是語言模型在谷歌各種應用場景的開端。Noam 在谷歌也做過很多其他相關的工作，比如用語言模型來做拼寫糾錯系統。

Noam Shazeer：那是大概 2000 年、2001 年左右的事情，我記得那個拼寫糾錯模型完全是在一臺機器的內存里跑的。

Jeff Dean：是的，我記得是一臺機器。他在 2001 年開發的拼寫糾錯系統非常厲害。他還給全公司發了演示鏈接。

我試著用各種我能想到的錯誤拼寫來搜索一些詞組，比如“scrumbled uggs Bundict”。

Noam Shazeer：對，我記得這個。

Jeff Dean：想搜“scrambled eggs benedict”（班尼迪克蛋），結果每次它都能完美糾正。

Noam Shazeer：是的，我覺得那就是語言模型的早期應用。

主持人：但當時，當你們開發這些系統的時候，你們有沒有一種感覺，“你看，如果我們把這些東西做得越來越復雜，不只是考慮五個詞，而是考慮 100 個詞，1000 個詞，那么最終得到的表示形式可能就是智能本身”？基本上，這種洞察是什么時候出現的？

Noam Shazeer：其實并沒有真正出現過這種想法。我不覺得我曾經認為 N-gram 模型會......

Jeff Dean：統治世界。

Noam Shazeer：對，成為“人工智能”。我記得當時很多人對貝葉斯網絡很感興趣，那看起來也很令人興奮。

當然，當我們看到早期的神經語言模型時，既能感受到它的魔力，“哇，這東西真能做一些很酷的事情”，而且，它給我最深的印象是，它提出的問題是世界上最棒的問題，因為它非常非常容易定義：給我預測下一個詞的概率分布。而且，訓練數據幾乎是無限的。互聯網上有海量的文本數據；我們有數萬億的無監督數據訓練樣本。

Jeff Dean：是的，或者說是自監督的。

Noam Shazeer：自監督，沒錯。

Jeff Dean：這很棒，因為你天然就有了正確答案。你可以用除了當前詞之外的所有詞來訓練模型，讓它嘗試預測當前詞。這是一種驚人的能力，僅僅通過觀察世界就能學習。

Noam Shazeer：然后，它就逐漸演變成一個通用人工智能問題。如果你能在這方面做得足夠好，那你幾乎可以做任何事情。

主持人：在科學史上，有一個有趣的討論，關于偉大的思想究竟是憑空出現的，還是說它們是某種必然趨勢，又或者它們是從一些邊緣領域被挖掘出來的。就目前的情況來看，我們現在對人工智能的理解已經非常系統化和邏輯化了，這是否意味著，這種發展路徑在很大程度上是不可避免的……

Noam Shazeer：感覺人工智能的很多想法確實像是“存在于空氣中”一樣。肯定有一些先驅性的想法，比如神經圖靈機，還有關于注意力機制的一些早期構想，比如利用鍵值存儲這種結構，讓神經網絡可以關注輸入信息中的不同部分。我認為在某種程度上，好的想法是早就存在的，但在另一方面，也需要有團隊去實際實現它們。

Jeff Dean：我更傾向于認為，很多想法都像是已經部分存在于那里了。當你嘗試解決一個新問題時，你會注意到一些不同的、可能彼此獨立的研究思路。你從這些思路中汲取靈感，然后會發現有些方面還沒有被解決，需要你去想辦法。將已有的東西進行一些改造，再結合一些新的創新，就可能產生一些前所未有的突破或新的研究成果。

Jeff Dean 的“Holy Shit”時刻

主持人：有沒有哪個“Holy Shit”時刻讓你印象特別深刻？當你在研究某個領域時，突然冒出一個想法，然后你抱著試一試的心態去驗證，結果發現，“天哪，我簡直不敢相信這特么竟然成功了？”

Jeff Dean：我記得在 Google Brain 團隊早期，有件事讓我印象很深。我們當時專注于“看看我們能不能構建一些基礎設施，讓我們能夠訓練非常非常大的神經網絡”。那時，我們的數據中心還沒有 GPU，只有 CPU。但我們知道如何讓大量的 CPU 協同工作。

所以我們構建了一個系統，能夠通過模型并行和數據并行的方式，訓練相當大規模的神經網絡。我們用這個系統，在 1000 萬張隨機挑選的 YouTube 視頻幀上進行了無監督學習。它學習的是一種空間局部化的特征表示，所以它會嘗試從高層特征中重建原始輸入，以此來構建無監督的特征表示。

我們讓這個模型在 2000 臺計算機上，用 16000 個 CPU 核心進行訓練，并且成功運行起來了。訓練了一段時間后，模型實際上在最高層構建出了一些有趣的特征表示。其中一個神經元，會對貓的圖像特別興奮。模型從未被明確告知“什么是貓”，但它在訓練數據中看到了足夠多的貓的正面照片，結果這個神經元就學會了對貓的圖像激活，但對其他東西就不會。

類似地，模型中也有其他神經元學會了識別人的臉、行人的背影，以及諸如此類的東西。這挺酷的，因為它是完全基于無監督學習的原理，自主構建出了這些非常高層的特征表示。之后，我們又用這個模型在有監督的 ImageNet 20000 類別圖像分類挑戰賽上取得了非常好的成績，相對于之前的技術水平，準確率提升了 60%，這在當時是非常了不起的進步。

那個神經網絡，可能比之前訓練過的神經網絡大了 50 倍，而且效果非常好。這件事讓我意識到，“看來擴大神經網絡的規模真的是個好方向，而且確實有效，我們應該繼續在這個方向上努力?！?/p>

主持人：這些例子很好地說明了 AI 系統是如何融入你們剛才提到的谷歌核心使命的：谷歌從根本上來說是一家組織信息的公司。從這個角度看，AI 的作用就是在信息和概念之間找到關聯，幫助更快地將想法傳遞給用戶，更快地把他們需要的信息送到他們面前。

現在我們正在使用的這些 AI 模型，像 BERT，顯然已經應用在谷歌搜索里了，你可以用它們來提問。它們仍然擅長信息檢索，但更重要的是，它們還可以為你編寫完整的代碼庫，完成實際的工作，這已經超越了單純的信息檢索范疇。

那么，你是怎么看待這種變化的？如果說谷歌正在構建通用人工智能 (AGI)，那么它還是一家信息檢索公司嗎？AGI 當然可以做信息檢索，但它能做的遠不止于此。

Jeff Dean：我覺得我們是一家“組織世界信息”的公司，這個定義比“信息檢索公司”的范圍更廣。也許更準確的說法是：“組織信息，并根據你給出的指令創造新的信息”。

比如，“你能幫我給獸醫寫一封關于我家狗狗的信嗎？它最近出現了這些癥狀”，然后 AI 就能幫你起草這封信?；蛘撸澳隳芊治鲆幌逻@個視頻，然后生成一個摘要，概括視頻里每隔幾分鐘發生了什么事情嗎？”

我認為我們的多模態能力表明，AI 的應用不只是文本處理。它是關于理解世界上以各種不同形式存在的信息，包括人類交流的方式，也包括非人類產生的信息，比如自動駕駛汽車上的激光雷達傳感器數據，或者基因組信息、健康醫療信息等等。

然后，你需要思考如何提取這些信息，將它們轉化為對人們有用的洞見，并在用戶想完成各種任務時，利用這些洞見來提供幫助。有時候用戶只是想“和聊天機器人聊聊天，娛樂一下”。有時候用戶想“解決一個非常復雜的問題，這個問題沒有單一的信息來源可以檢索”。這時，AI 需要從 100 個網頁中提取信息，理解它們的內容，然后生成一個有條理、綜合性的答案。

還有處理多模態信息，或者與編程相關的問題。我認為這些模型的能力非常令人興奮，而且它們還在快速進步，我很期待看到它們未來會發展到什么程度。

Noam Shazeer：我也非常期待看到 AI 的未來發展。我認為“組織信息”絕對是一個價值萬億美元的市場機會，但現在萬億美元已經不算什么了?，F在流行的是萬萬億美元級別的市場。

當然，我們的目標不只是積累一大堆錢，而是要為世界創造價值。當這些系統真的能為你做事，能幫你寫代碼，或者解決你自己解決不了的問題時，就能創造更大的價值。

為了大規模地實現這個目標，隨著模型能力的不斷提升，我們必須變得非常非常靈活和動態。

Jeff Dean：是的，我非常期待解決那些基礎研究問題。這些問題的出現，是因為我們看到，如果我們嘗試某種方法，或者大致朝著某個方向努力，某些方面可能會得到顯著改進。也許會成功，也許不成功，但都值得探索。

但我也認為，看到我們能為終端用戶實現什么，然后從用戶需求出發，反向思考如何構建能夠實現這些功能的系統，這是非常重要的。舉個例子，“組織信息”這個目標，應該意味著世界上的任何信息，都應該能被任何人使用，無論他們說什么語言。

我認為我們在這方面已經做了一些工作，但離“無論你使用哪種語言，我們都能讓你從數千種語言中獲取任何信息，并加以利用。任何視頻都能用任何語言觀看”這個愿景，還差得很遠。但我認為那將是非常棒的。我們還沒有完全實現，但這絕對是我在未來幾年內看到有可能實現的目標。

在上下文中搜索

主持人：說到你們可能嘗試的不同架構，我知道你們現在研究的一個方向是更長的上下文。如果想到谷歌搜索，它的上下文包含了整個互聯網的索引，但只是一種非常淺層的搜索。而現在的語言模型，雖然上下文長度有限制，但它們真的可以“思考”。上下文學習就像是魔法一樣，模型可以真正理解它看到的內容。

你們認為，將谷歌搜索和上下文學習這樣的技術融合在一起，會是什么樣的景象？

Jeff Dean：好的，我先來試著回答一下，因為我對這個問題思考了一段時間。你在這些模型中看到的一個現象是，它們非常強大，但有時也會產生“幻覺”，出現事實性錯誤。部分原因是在訓練時，你使用了數萬億的 token，并將所有這些 token 都混雜在模型的數千億參數中。

這就像是把所有知識都揉成了一團，有點模糊不清。模型對數據有一個整體的印象，但有時會混淆細節，給出錯誤的日期之類的。

而上下文窗口中的信息，也就是模型的輸入，則非常清晰明確。因為我們在 Transformer 架構中使用了注意力機制。模型可以精確地“關注”輸入信息，它清楚地知道自己正在處理的文本、視頻幀、音頻，或者其他任何內容。

目前，我們的一些模型已經可以處理數百萬 token 的上下文，這已經相當多了。相當于幾百頁 PDF 文檔，或者 50 篇研究論文，或者好幾個小時的視頻，或者幾十個小時的音頻，或者這些內容的一些組合，這已經非常厲害了。但如果模型能夠關注數萬億 token 的上下文，那就更棒了。

它可以“關注”整個互聯網，然后為你找到最相關的內容嗎？它可以“關注”你的所有個人信息嗎？我希望有一個模型，可以訪問我的所有郵件、所有文檔和所有照片。

當我需要它幫忙做事時，它可以經過我的授權，使用這些信息來輔助解決問題。但這將是一個巨大的計算挑戰，因為樸素的注意力算法復雜度是平方級的。勉強可以讓它在相當多的硬件上處理數百萬 token，但如果天真地把它擴展到數萬億 token，那是完全不可能的。

所以，我們需要探索很多有趣的算法近似方法，來實現我們真正想要的目標：一種讓模型在概念上能夠“關注”更多 token（比如數萬億）的方法。也許我們可以把所有谷歌的代碼庫都放在每個谷歌開發者的上下文里，把世界上所有的開源代碼都放在每個開源開發者的上下文里。那將會非常驚人。

Noam Shazeer：那簡直難以想象。模型參數的妙處在于，它們在記憶事實方面非常節省空間。你可能可以用每個模型參數記住大約一個事實或者其他什么。

但如果要在上下文中存儲 token，那么每一層都會有很多鍵 (key) 和值 (value) 需要存儲。每個 token 可能需要幾千字節甚至幾兆字節的內存。

Jeff Dean：你輸入一個詞，然后把它擴展成 10 千字節或者更大的向量。

Noam Shazeer：是的。所以，現在有很多創新都圍繞這兩個問題展開：“A，如何最大限度地減少內存占用？”和“B，上下文中應該放哪些詞才最有效？”有沒有更好的方法來訪問這些信息片段？

Jeff 看起來是解決這些問題的最佳人選。畢竟，從 SRAM 緩存，一直到全球數據中心級別，我們對內存層級結構的設計和優化已經非常成熟了。

主持人：我想更深入地探討一下你剛才提到的那一點：谷歌是一家擁有海量代碼和大量數據例子的公司。如果只考慮代碼這個應用場景，以及它所蘊含的潛力，你們有谷歌的單體代碼倉庫。也許你們能解決長上下文的問題，就可以把整個代碼倉庫都放到模型的上下文窗口里，或者可以對模型進行微調。為什么現在還沒實現呢？

你可以想象一下，如果谷歌內部能用上這些代碼，即使只是在內部使用，也能大幅提高開發者的效率和生產力。

Jeff Dean：需要澄清一下，我們實際上已經在我們的內部代碼庫上，對 Gemini 模型進行了額外的訓練，供我們內部的開發者使用。但這和把整個代碼庫都放到上下文里是不一樣的，因為微調只是把代碼庫的信息融入到了模型參數中。而把代碼庫放到上下文里，模型能更清晰地“看到”代碼的結構和細節。

即使是現在這種內部微調的模型，也已經非常有用。Sundar (Pichai) 好像說過，我們現在提交到代碼庫的字符中，有 25% 是由我們基于 AI 的代碼生成模型生成的，當然，最終還是需要人工審核。

未來的谷歌

主持人：根據你們對未來 AI 能力的預測，你們如何想象未來一兩年內，你們個人的工作會是什么樣子？在谷歌做研究員會是什么感覺？當你們有一個新想法時，或者在你們與這些模型互動的方式上，一年后會發生什么變化？

Noam Shazeer：嗯，我猜我們肯定會用上更好的模型，并且希望能顯著提高工作效率。

Jeff Dean：是的，除了研究工作之外，在任何需要用到模型的地方，我認為它們都能提高軟件開發者的生產力。因為模型可以接受一個高層次的需求描述，或者一句話的需求，然后給出一個相當合理的初步方案。從研究角度來看，也許你可以這樣用模型：“我希望你研究一下這篇論文里提到的思路，但也許我們可以嘗試把它改成卷積結構，或者其他形式?！?/p>

如果你能做到這一點，讓系統自動生成一大堆實驗代碼，然后你再 review 一下，覺得“看起來不錯，跑起來試試吧?！边@似乎是一個很好的發展方向。

看起來在未來一兩年內，我們很可能在這方面取得很大進展。

主持人：這似乎還是被低估了。因為你可以擁有數百萬“AI 員工”，而且你可以立即檢查它們的輸出，員工之間也可以互相檢查輸出，token 可以實時流式傳輸。

Jeff Dean：抱歉，我不是想低估它的潛力。我認為這非常令人興奮。我只是不喜歡過度炒作還沒實現的事情。

主持人：我想更深入地探討一下這個想法，因為它意義非常重大。如果真的能擁有某種類似“自主軟件工程師”的 AI，特別是從研究人員的角度來看，他們可能會想，“我想構建這個系統?！焙?，那我們就來深入探討這個想法。作為一位在職業生涯中開發過 MapReduce、Tensorflow 這樣變革性系統的人，如果以后你不需要自己編寫類似 MapReduce 或 Tensorflow 的代碼，而是可以直接說，“這是我希望的分布式 AI 庫的樣子，幫我寫出來”，你覺得你的生產力能提高多少？10 倍？100 倍？

Jeff Dean：我對此印象非常深刻。我好像在 Reddit 上看到，我們有一個新的實驗性代碼生成模型，它在代碼編寫和數學方面都更出色。一位外部用戶試用了一下，他給模型的 prompt 大概是，“我希望你用 C 語言實現一個不依賴任何外部庫的 SQL 處理數據庫系統?！?/p>

據這位用戶說，模型實際完成得相當不錯。它生成了 SQL 解析器、token 解析器、查詢規劃系統，以及一些用于存儲磁盤數據的格式，而且真的能夠處理簡單的 SQL 查詢。從一個簡單的文字描述開始，到獲得初步可用的方案，這對于軟件開發者的生產力來說，提升是非常巨大的。

我認為未來可能會出現其他類型的 AI 系統，它們可能不會嘗試在單一的、半交互式的、“40 秒內給出響應”的模式下完成所有任務，而是可能會運行 10 分鐘，甚至可能在 5 分鐘后就打斷你，說，“我已經完成了很多工作，但現在需要一些輸入。你更關注處理視頻，還是只處理圖像，或者其他類型的數據？”如果有很多這樣的后臺 AI 任務在同時運行，那么你就需要一些方法來管理這些工作流程。

主持人：能詳細說說嗎？如果真的可以擁有數百萬可以隨時啟動的“AI 員工”，或者說幾十萬也可以，它們能以驚人的速度“打字”，而且——這幾乎就像是從 1930 年代的手工交易票據，變成了現在像 Jane Street 這樣的現代化金融公司。你需要一些界面來跟蹤所有正在進行的事情，讓 AI 系統融入到龐大的單體代碼倉庫中，并利用 AI 的優勢，讓人類能有效地跟蹤和管理正在發生的事情?；旧希旰?，像 Jeff 或 Noam 這樣的研究人員的日常工作會是什么樣的？

Noam Shazeer：可能和我們現在的情況有些相似，因為“并行化”一直是個核心問題。我們有很多非常優秀的機器學習研究人員，我們希望他們能共同努力構建更強大的 AI。

所以，實際上，人與人之間的并行協作，可能類似于機器之間的并行計算。我認為這種模式對于需要大量探索性嘗試的任務非常有效，比如“提出下一個突破性技術”。

如果你有一個非常棒的想法，覺得它肯定能在機器學習領域取得突破，但即使你很聰明，這個想法成功的概率可能也只有 2%。大多數想法都會失敗，但如果你嘗試 100 個、1000 個，甚至 100 萬個不同的想法，那你就有可能撞上一些真正驚人的成果。我們現在有足夠的計算能力來支撐這種“并行探索”。像現在頂尖實驗室擁有的算力，可能比當初訓練 Transformer 模型所需的算力高出一百萬倍。

主持人：是的，這確實是一個很有趣的想法。假設在當今世界，大約有 1 萬名 AI 研究人員，在這個領域不斷提出各種突破性想法。

Jeff Dean：可能不止這個數字。2025 年 NeurIPS 大會上有 1.5 萬人參會。

主持人：甚至 10 萬人，我也說不準。假設現在這個研究群體，每年提出一個 Transformer 量級突破性成果的概率是 10%?，F在假設這個群體擴大一千倍，而且在某種程度上，這就像是對更好架構、更好技術的一種并行搜索。我們是否會迎來......

Jeff Dean：每天都有突破？

主持人：我其實只敢想每年都有突破？

Noam Shazeer：也許吧。聽起來好像挺有道理的。

主持人：但這感覺像是機器學習研究未來的發展方向嗎？如果能夠同時嘗試所有這些實驗……

Noam Shazeer：這確實是個好問題，因為我不確定現在大家是不是都在這么做。我們肯定有很多很棒的想法不斷涌現。每個人似乎都想用盡可能大的規模來運行實驗，但我認為現在限制因素可能是“人”。

Jeff Dean：如果能用千分之一的算力規模，先快速驗證 10 萬個不同的想法，然后再把那些看起來有潛力的想法，擴展到更大規模去深入研究，這會非常有幫助。

主持人：所以，大家可能還沒意識到一個事兒：模型規模擴大一百倍，難度是指數級往上漲的。這就得要一百倍的算力，對吧？所以有人擔心，像 Gemini 2 升級到 3，再到更高版本，難度會越來越大，像坐火箭一樣。

但可能大家沒注意到，Gemini 3 這邊，各種新奇的模型架構設計理念層出不窮，大家都在試，看哪個好使。而且算法也在進步，訓練新一代模型也變得更輕松了。這種正向循環能一直轉下去嗎？

Jeff Dean：我覺得大家得明白，模型一代比一代強，一部分確實是靠硬件升級和規模擴大頂上去的，但同樣重要，甚至可能更重要的是，算法上有了大突破，還有模型架構、訓練數據搭配這些方面的創新。這些改進能讓模型在同樣的算力下，表現得更好。我覺得這點很重要。而且，我覺得要是能把探索新想法這個過程自動化，我們就能評估更多方案，然后把有用的用到下一代模型的實際訓練里。

這肯定特有幫助，因為我們現在就是這么干的，和很多優秀的機器學習研究員一塊兒：先看一大堆想法，挑出小規模測試里表現好的，再看看它們在中等規模下還行不行，最后才放到更大規模的實驗里。最后，我們會決定把一堆新的、有意思的東西加到最終的模型配置里。要是能用機器學習研究員來引導更自動化的搜索過程，代替人工手動做大量實驗，把這個過程加速一百倍，那就太棒了。

Noam Shazeer：但有一樣東西是加速不了的，那就是超大規模的實驗。我們還是得做 N=1 實驗。說白了，就是得把一幫聰明人聚一塊兒，讓他們盯著問題，搞清楚哪些路子走得通，哪些不行。

Jeff Dean：碰到這種情況，多點更好的硬件肯定管用。

Noam Shazeer：是啊，就看你的（TPU）了。

自動化芯片和智能爆炸

主持人：所以，簡單來說，未來的 AI 進步，軟件和算法優化也能出一份力。光靠軟件，就能在幾周或幾個月內設計出更厲害的芯片，而且更強的 AI 應該也能反過來加速這個過程，那這種正向循環會不會讓 Gemini 3 花了兩年研發，Gemini 4 可能只要半年，再下一代也許三個月，再往后一個月？靠軟件和算法雙管齊下，達到超越人類智能的速度，會不會比原先想的快得多？

Jeff Dean：最近我一直在琢磨怎么大幅度加快芯片設計流程，這事兒讓我挺興奮的。就像我們之前聊的，現在設計一塊芯片，從立項說“我們要造一塊芯片”，到最后交給臺積電，大概要一年半。然后臺積電還得花四個月生產出來，最后我們才能拿到芯片，部署到數據中心。

所以，這個周期是真的長，而且現在芯片制造的時間占比其實不算大。但要是我們能讓制造時間變成主要耗時環節，比如把芯片設計時間從 150 個人花 12-18 個月，縮短到幾個人通過更自動化的搜索流程搞定，去探索芯片設計的各種可能性，并且從芯片設計的各個環節拿到反饋，針對系統在高層想探索的各種選擇進行優化，那我覺著我們就能更充分地探索，更快地設計出真正想量產的芯片。

那肯定特棒，因為這樣既能縮短制造時間，又能通過合理的硬件設計縮短部署時間。我們拿到芯片就能直接插到系統里用。這能促進更專業的硬件設計，縮短硬件設計周期，讓我們不用太長遠地考慮未來機器學習算法的發展方向。而是可以更關注未來六到九個月的需求，而不是兩三年之后。

那會非?？帷Ｎ矣X得，要是制造時間也能納入快速迭代的改進循環里，效果肯定驚人……

主持人：現在制造周期要多久？

Jeff Dean：最先進的制程工藝，比較麻煩的是，時間越來越長，因為跟以前的老工藝比，它們金屬層更多了。所以，現在大概要三到五個月。

主持人：但反正模型訓練也得這么久，對吧？這樣我們就能芯片設計和模型訓練一塊兒搞了。

Jeff Dean：理論上是這樣。

主持人：好吧，看來起碼也得三到五個月。但要是能做到……而且，對，你們也在快馬加鞭搞新的算法理念。

Noam Shazeer：算法迭代是很快的。

Jeff Dean：沒錯，算法迭代很快，而且可以在現有芯片上跑，探索很多新點子。

主持人：所以，這樣一來，會不會出現這種情況……我感覺很多人可能覺得，AI 的發展會像 S 型曲線那樣。當然，這只是瞎猜。但有沒有可能出現這種情況？AI 能力會在快接近人類智能的時候，突然爆發式增長，而且速度越來越快？

Noam Shazeer：很有可能。

Jeff Dean：是啊，我也是這么看的。現在，我們的模型能處理挺復雜的問題，在模型內部把問題拆成好幾步，然后把每一步的答案拼起來，最后給出整個問題的答案。但可靠性還不太行，模型擅長處理拆成五到十步的問題，對于拆成 100 到 1000 步的問題就有點吃力了。要是我們能從現在 80% 的概率完美解決十步問題，提高到 90% 的概率完美解決 100 到 1000 步的復雜問題，那模型能力就直接上一個臺階了。我們還沒到那個水平，但這正是我們努力的方向。

Noam Shazeer：要實現這個目標，不一定非得要新硬件，但要是有，我們肯定歡迎。

Jeff Dean：永遠別嫌硬件多。

Noam Shazeer：最近一個重要的改進方向是在推理的時候多用點算力，也就是推理時間計算。我是這么理解的，就算超大型語言模型，就算每次 token 推理要進行萬億次運算（這已經遠超大多數模型的水平了），每次運算的成本也才大概 10 的負 18 美元。也就是說，一美元能處理一百萬個 token。對比一下，我們花錢買本紙質書看，一美元大概只能看 1 萬個 token。跟大語言模型對話，比看紙質書便宜一百倍。

所以，這里頭提升空間巨大。我們可以想想，要是能讓模型更聰明，就算成本稍微漲點也是值得的。因為跟看紙質書比，我們便宜一百倍；跟客服人員溝通比，我們便宜一萬倍；跟請軟件工程師或者咨詢醫生律師比，我們甚至能便宜一百萬倍以上。我們能不能通過增加計算量，讓模型變得更聰明呢？

我覺得，未來 AI 能力的爆發式增長，很大程度上會來自這個方向。過去我們一直在大力投入和改進預訓練和后訓練技術，這些方向還會繼續進步。但在推理階段，利用更多算力讓模型“更努力思考”，將會帶來巨大的飛躍。

Jeff Dean：對，說到推理時間，我覺得關鍵一點是，我們希望系統能主動探索多種可能的解決方案。比如，它可以自己去搜索，找信息，消化信息，然后判斷，“哦，我現在需要更多了解這方面的信息”。這樣，它就能迭代地探索，找到解決用戶提出的高層次問題的最佳方案。

而且，我覺得要是能有個“算力調節旋鈕”，用戶可以通過加大推理算力來獲得更好的答案，那就太理想了。就像我們現在的一些技術能實現的，旋鈕擰得越高，算力成本越高，但答案質量也越高。這看起來是個挺好的平衡，因為有些時候我們需要模型好好想想，解決特別重要的問題。但有些時候，我們可能不想為了算“1+1 等于幾”這種簡單問題，也用掉一大堆算力?；蛟S系統應該......

主持人：不應該為了算 1+1，就重新發明集合論公理吧？

Jeff Dean：應該聰明地選擇用計算器工具，而不是動用大型語言模型。

推理擴展的未來

主持人：在推理時間這塊，有沒有什么障礙？比如，有沒有辦法能線性增加推理算力？還是說，這基本上已經不是問題了？我們可以直接投 100 倍、1000 倍的算力，就能得到相應的性能提升嗎？

Noam Shazeer：我們正在加緊搞相關的算法。我相信，靠著一萬多名研究人員（這里面不少是谷歌的）一塊兒努力，我們會找到越來越好的辦法。

Jeff Dean：我覺得，在我們自己的實驗里，已經看到一些例子，增加推理算力確實能提高答案質量，而且效果比線性增加算力還要好。這挺有意思的。但我們期待的是，投入十倍算力，答案質量的提升幅度能遠遠超過現在的水平。這就得我們設計新的算法，嘗試新的方法，想想怎么更有效地利用這十倍算力，而不是簡單地線性增加。

主持人：這種算力提升，更像是通過搜索實現的，還是僅僅是讓模型進行更長時間的線性運算？

Jeff Dean：我特別認同 Rich Sutton 的那篇《苦澀的教訓》。這篇文章就一頁紙，但精髓在于，雖然我們可以試各種方法，但真正管用的方法就兩種：學習和搜索。我們可以通過算法或者算力來擴展和應用這兩種方法，通常都比其他方法更能有效地解決各種問題。搜索肯定是提升推理算力的關鍵。我們可以讓模型探索幾種不同的問題解決方案，要是哪個方案不太行，就換個更好的方案試試，然后深入研究。

主持人：這會對你們未來的數據中心規劃產生什么影響？這種搜索可以在哪兒異步進行？必須在線還是離線？這會對數據中心規模和相關考慮產生什么影響？

Jeff Dean：一個總的趨勢是，推理時間計算越來越重要了。特別是對于已經訓練好的模型，推理會變成越來越重要的一類計算任務?？赡芪覀冃枰鼘I的硬件來支持推理。實際上，第一代 TPU 就是專門為推理設計的，不是用來訓練的。后面的 TPU 雖然更多地側重于訓練，但也兼顧了推理。但可以預見，未來要是需要在推理時大幅度提升算力，更專業的硬件解決方案肯定大有可為。

主持人：這意思是不是可以更多地用異步訓練？

Jeff Dean：訓練？還是推理？

主持人：或者說，不同的數據中心可以各自獨立運行，不用互相通信，各自干一部分活兒……

Jeff Dean：我更傾向于從延遲敏感性來區分推理任務。你要做的推理是需要用戶馬上要結果的嗎？還是可以放后臺慢慢跑？有些推理任務，比如處理批量數據，可能不是針對特定用戶的，只是為了從里邊提取信息。這類應用我們現在還不多見，但最近我們發布了一個深度研究工具，你可能已經看到點苗頭了。你可以給它一個特別復雜、高層次的任務，比如“幫我研究一下可再生能源的歷史，還有風能、太陽能這些技術的成本趨勢，整理成表格，生成一份八頁的報告”。它就能生成一份八頁的報告，還帶了大概 50 條參考文獻。相當厲害。但用戶不用馬上拿到結果，可能要等個一兩分鐘才能完成。

我覺得未來這類計算需求會相當大。這也引出了一些用戶界面設計上的問題。比如，要是用戶同時在后臺跑 20 個這樣的異步任務，而且每個任務可能都需要用戶再給點信息，比如，“我找到飛柏林的航班了，但沒有直飛的，轉機行不行？”當系統需要更多信息的時候，怎么跟用戶互動，然后在拿到信息后，又把任務放回后臺繼續跑，比如繼續搜柏林的酒店等等？我覺得這會非常有意思，異步推理肯定大有作為。

Noam Shazeer：推理確實會很有用。而且，推理在計算效率方面，也跟訓練不太一樣。一般來講，Transformer 在訓練的時候可以把序列長度當成批次處理，但在推理的時候就不行，因為推理通常是一個 token 一個 token 往外蹦的。所以，我們可能得設計不同的硬件和推理算法，來提高推理效率。

Jeff Dean：對，算法改進有個好例子就是“草稿模型”的應用。我們可以先用一個小一點的語言模型，在解碼的時候一個 token 一個 token 地生成，讓它一次預測四個 token。然后把這四個 token 交給大模型，讓它來驗證，“這四個 token 里，你覺得哪個靠譜？”要是大模型覺得前三個 token 行，那我們就可以直接用。這樣，原本大模型一次只能處理一個 token，現在就相當于可以并行處理四個 token 了。這類技術就是為了提高推理效率，避免單 token 解碼變成瓶頸。

Noam Shazeer：對，本質上就是把大模型當成質檢員來用。

Jeff Dean：比如，小模型生成一個結果，大模型驗證后覺得“聽著不錯，沒毛病”，就可以直接用了。

主持人：現在有個挺大的討論，就是單個數據中心的電力供應都快趕上核電站上限了。我們是不是只能把算力集中在少數幾個超大型數據中心，比如兩吉瓦、五吉瓦？還是可以更分散一點，也能支持模型訓練？這種新的推理擴展模式，會不會改變我們對數據中心布局的考慮？你們現在怎么看多數據中心訓練？

Jeff Dean：我們已經在實際用多數據中心訓練了。我們是支持這種模式的。我記得在 Gemini 1.5 的技術報告里，我們提過，我們用了好幾個城市區域的數據中心來訓練，每個區域都貢獻了一部分算力。這些數據中心之間雖然延遲比較高，但帶寬很大，訓練效果很好。

訓練過程挺有意思的，因為對于大型模型來說，每個訓練步驟通常至少要幾秒甚至更長時間。所以，50 毫秒的延遲其實影響不大。

Noam Shazeer：關鍵是帶寬。只要能在完成一個訓練步驟的時間內，把模型的所有參數在不同數據中心之間同步，并且累積梯度，效果就很好。

Jeff Dean：而且，我們在這方面研究挺多的，甚至可以追溯到早期的“谷歌大腦”項目。那時候我們用 CPU 機器，速度慢，為了擴大規模，我們用了異步訓練。每個模型副本都在本地算，然后把梯度更新發到中央系統，再異步地應用這些更新。其他模型副本也干著同樣的事兒。這種方式會讓模型參數有點波動，理論上可能沒那么完美，但實際效果好像還不錯。

Noam Shazeer：從異步訓練轉到同步訓練真是太好了，因為現在實驗結果能復現了，不會再受“同一臺機器上是不是跑著網絡爬蟲”這種因素的影響。所以，我更喜歡在 TPU 集群上訓練。

Jeff Dean：我個人更喜歡異步訓練，它能讓我們更好地擴展規模。

Noam Shazeer：就像用兩部 iPhone 和一臺 Xbox 就能訓練模型一樣。

Jeff Dean：是啊，要是我們能實現異步訓練，但同時保證結果的可重復性呢？一種可能的方案是，記錄下操作序列，比如哪個梯度更新在啥時候、在哪個數據批次上發生的。不一定非得記實際的梯度更新值，但可以回放這些操作日志，這樣就能實現結果的可重復性。要是能做到這樣，我想你就會滿意了。

Noam Shazeer：也許吧。起碼能方便調試問題，但可能還是沒法直接比較兩次訓練的結果。因為，比如我只改了一個超參數，但同時還受到一些其他因素的影響，比如網絡爬蟲的干擾，或者很多人同時在看超級碗直播，占用了網絡帶寬。

Jeff Dean：促使我們從 CPU 上的異步訓練轉到完全同步訓練的關鍵，是我們有了超快的 TPU 硬件芯片和集群 (Pod)，它們在集群內部芯片之間有極高的帶寬。而且，隨著規模進一步擴大，我們還有非常棒的數據中心網絡，甚至是跨城市區域的網絡，這讓我們能把訓練擴展到多個城市區域的多個 TPU 集群，進行大規模的同步訓練。正如 Noam 說的，只要梯度累積和跨區域的參數通信速度，相對于訓練步長夠快，同步訓練就完全沒問題。但我覺著，隨著規模繼續擴大，系統可能需要更多異步性。因為異步訓練也是可行的，而且同步訓練更容易理解，機器學習研究員也喜歡，他們對同步訓練能達到的效果很滿意。同步訓練的挑戰主要來自算法本身，而異步訓練的挑戰就既有異步機制也有算法。

Noam Shazeer：規模越大，挑戰也越多。這就是擴展的難題，你經常搞不清楚問題出在哪兒。是不是在哪個環節過度量化了？還是數據本身有問題？這些因素可能只會讓模型性能稍微降一點點，你甚至都察覺不到問題在哪兒。

Jeff Dean：這其實是神經網絡的一個特點，它們對噪聲的容忍度特別強。就算你在很多地方設置得不太對，它們也能找到辦法繞過問題，或者從錯誤里學習。

Noam Shazeer：代碼里甚至可能有 bug。大部分時候，bug 可能沒啥影響。有時候會讓模型變差，有時候甚至會讓模型變得更好。然后，你可能因為這個 bug，意外地發現了一些新東西，因為你之前沒財力做這么大規模的實驗，也就沒機會發現這個 bug 的“妙用”。

怎么調試？

主持人：實際工作中，怎么調試和排查問題呢？好多因素都在影響模型，有些讓模型變好，有些讓模型變差。明天上班后，你們會怎么找出最關鍵的影響因素呢？

Noam Shazeer：在小規模實驗階段，我們會做大量的嘗試。研究工作的一部分就是，在隔離的環境下，驗證新的改進或者突破。這就需要代碼庫干凈利索，方便我們快速修改和實驗，并且建一些基線模型做參考。我理想的狀態是，早上醒來，想到個新點子，花一天時間實現，然后跑一些實驗，當天就能看到初步結果。看看哪些方法好使，哪些不行，哪些方向有潛力。我覺得這完全可以實現，因為在小規模下，只要代碼庫維護得好。實驗跑起來可能只要一兩個小時，不用兩周那么久。這效率很高。所以，研究一部分是小規模實驗，另一部分是規模擴展。還有一部分是集成，我們需要把所有有希望的改進疊一塊兒，看看它們在大規模下還行不行，以及它們之間能不能好好配合。

Jeff Dean：對，它們之間怎么互相影響？你可能以為它們是獨立的，但實際上，改進視頻數據輸入方式，和更新模型參數的方式之間，可能有一些意想不到的聯系。比如，這種聯系在處理視頻數據的時候可能更明顯。各種各樣的交互作用都有可能發生，甚至是我們想不到的。所以，我們需要做集成實驗，把各種改進方案組合起來，定期看看它們能不能好好地一塊兒工作。要是不行，就得分析原因，找到問題在哪兒。

主持人：我有兩個問題。第一，各種改進方案疊一塊兒后，最后效果不好的情況常見嗎？是偶爾發生還是經常發生？

Noam Shazeer：大概一半一半吧。

Jeff Dean：是啊，我的意思是，大部分效果不好的方案，在初期實驗階段就被刷掉了，根本進不了集成階段。因為它們要么效果不明顯，要么跟基線模型比沒啥優勢。只有那些初步看來有戲的方案，我們才會考慮單獨做規模擴展。要是擴展效果不錯，我們會覺得，“嗯，這些方案確實有點東西”。然后再把它們跟其他有潛力的方案組合起來，做集成實驗，看看最后效果。要是集成效果不理想，我們會再回頭看看，分析問題，調試調試。

Noam Shazeer：而且，這里頭也有個權衡。我們希望集成后的系統盡量簡潔，因為復雜性......

Jeff Dean：代碼庫方面......

Noam Shazeer：——對，包括代碼庫和算法。復雜性會帶來負面影響，降低效率，增加風險。但同時，我們又希望系統性能盡可能強。而且，每個研究員都希望自己的成果能被用上。所以，這確實是個挑戰，但我們團隊一直合作得挺好的。

預測 AI 加速的時間

主持人：回到我們之前聊的“算法不斷改進，模型性能持續提升”這個話題，就算不考慮硬件的因素。世界是不是應該更重視這個問題？你們是不是也在認真思考？一種可能是，AI 的發展是個長期的、慢慢來的過程，可能要二十年才能慢慢提升，我們可以一步一步改進。就算犯點錯，也能及時改過來，影響不大。就像新版本只是比老版本稍微好一點。

另一種可能是，存在一個強大的正向循環，這意味著 Gemini 4 到 Gemini 5 這兩年時間，可能是人類歷史上最重要的兩年。因為在這種正向循環的作用下，AI 有可能從優秀的機器學習研究者，迅速進化到超越人類智能的水平。

如果你們覺得第二種可能性是存在的，那么這種加速發展的前景，會怎么影響你們應對未來更高水平 AI 的策略？

Noam Shazeer：我已經懶得打掃車庫了，因為我在等機器人來干。所以，我個人更傾向于第二種觀點，AI 發展會加速。

Jeff Dean：是啊，我覺得非常重要的一點是，要理解現在 AI 發展的趨勢和動向。我認為目前的趨勢是，模型性能正在一代代地顯著提升，而且這種趨勢在未來幾代模型里不太可能慢下來。這意味著，未來兩三代模型的能力，可能會有質的飛躍。比如，從現在 80% 概率解決十步問題，提高到 90% 概率解決 100 到 1000 步的復雜問題。這將是模型能力的一次重大飛躍。所以，我覺得讓大家了解 AI 領域的進展非常重要。這些模型未來會被應用到各行各業。我覺得，確保我們整個社會，能最大限度地利用 AI 的優勢來改善生活，非常重要。我對 AI 在教育、醫療這些領域的應用前景特別興奮，比如讓信息更容易獲取。

但我們也意識到，AI 也可能被用來傳播假消息，或者搞自動化黑客攻擊。所以，我們希望盡可能多地采取安全措施和應對方案，并且深入理解模型的能力邊界。我覺得谷歌在怎么應對這些挑戰方面，有個挺好的整體思路。我們的“負責任的 AI 原則”提供了一個很好的框架，幫助我們在不同場景下推廣更強大的 AI 系統時，權衡利弊，同時確保 AI 系統的安全性，避免搞出有害內容等等。

主持人：我個人比較關注的是，如果我們站在人類歷史的高度來看現在這個階段，假設我們犯了個錯誤，比如 Gemini 3 的后訓練沒做好，導致模型搞出一些假消息。但我們可以通過改進后訓練來修正這個問題。這雖然是個錯誤，但起碼是能修好的，對吧？

但要是有我們之前說的正向循環，情況就不一樣了。要是導致智能爆發的關鍵環節出了偏差，比如 AI 的目標不是我們期望的代碼編寫，而是優化一些其他目標。那么，在這個快速發展的過程中，可能只要幾年甚至更短的時間，AI 的能力就會達到甚至超過 Jeff Dean 或者 Noam Shazeer 的水平。到時候，我們可能就有幾百萬 Jeff Dean 級別的程序員了。這種情況下，一旦出了偏差，后果可能就不好收拾了。

Noam Shazeer：隨著 AI 系統變得越來越厲害，我們必須更小心。

Jeff Dean：我想說的是，現在對 AI 的看法有兩種極端。一種極端觀點覺得，“天啊，AI 要在所有方面超越人類了，我們會讓 AI 給徹底壓垮”。另一種極端觀點則覺得，“AI 挺厲害，但我們完全不用擔心它”。我個人覺得，應該走中間路線。我之前參與寫過一篇叫《塑造 AI》的論文。這兩種極端觀點，都傾向于覺得我們對 AI 的發展應該“放任自流”，讓 AI 順著現在的路子發展就行了。但我覺著，更合理的觀點是，我們應該積極地塑造和引導 AI 的發展和應用，讓它在教育、醫療這些領域發揮最大的積極作用，造福人類。同時，通過政策引導、技術手段和安全措施，盡可能地避免 AI 失控，防止“電腦統治世界”這種極端情況發生。我覺得，怎么設計安全的 AI 系統，是個工程問題，需要我們認真對待。

我覺得這有點像現代版的傳統軟件開發，比如飛機軟件開發。飛機軟件開發在安全性和可靠性方面有非常嚴格的標準和流程，目的就是確保在高風險情況下系統的安全運行。這也許能給我們一些啟發。

主持人：困難的地方在于，像737飛機這樣的復雜系統，它本身沒有一套“反饋回路”。這意味著，你沒法把它放到一個計算資源充足的環境里，讓它自己跑幾年，就能自動迭代升級到1000版本。

Noam Shazeer：我認為有個好消息是，分析文本內容好像比生成文本內容要容易一些。所以，我比較樂觀地認為，大型語言模型自己分析自己輸出結果的能力，并且能找出里面的問題或者潛在的危險，實際上會成為解決很多控制方面難題的關鍵。

我們肯定在研究這些。谷歌在這方面有很多頂尖人才。而且我認為，無論是從“為社會大眾做好事”的理念出發，還是從商業角度來看，這件事都變得越來越重要。很多時候，你能最終應用什么技術，會受到安全性的嚴格限制。因此，在這個安全性方面做到極致就變得至關重要。

一百萬個黑化 Jeff Dean？

主持人：我認為谷歌已經推出了非常多的應用，都在利用這些模型來改進我們剛才討論的各個領域。我再強調一下，如果真的存在某種快速的反饋迭代過程，最終我們可能會得到一個模型，它能達到甚至超越 Noam Shazeer、Jeff Dean 這樣的水平。

但如果出現一個邪惡版本的你，并且到處都是，假設有一百萬個“邪惡 Jeff Dean”在網絡上游蕩，我認為那真的會非常糟糕。那種情況可能比其他任何風險都更可怕，也許僅次于核戰爭的威脅。想象一下，一百萬個邪惡的 Jeff Dean，或者類似的場景。

Jeff Dean：我們從哪里搞到那么多訓練數據來訓練一百萬個“邪惡 Jeff Dean”呢？（笑）

主持人：（笑）我是說，如果你們也認為這種快速反饋迭代的過程，最終可能會產生像我剛才說的那種可怕結果，那么你們有什么應對計劃嗎？比如說，假設我們現在有了 Gemini 3 或者 Gemini 4，我們相信它們可以幫助我們更好地訓練未來的版本，它們現在就在幫我們編寫大量的訓練代碼。目前，我們只是大致瀏覽一下，做一些驗證。甚至你剛才提到的那些用來檢查模型輸出的驗證工具，最終也可能會由你們自己開發的 AI 智能體來訓練，或者說，將來會有大量的代碼是由 AI 智能體編寫的。在真正放手讓 Gemini 4 幫助我們進行 AI 研究之前，你們最想確認的事情是什么？我們肯定想確保，在讓 AI 來幫我們寫 AI 代碼之前，要對它進行充分的測試。

Jeff Dean：我的意思是，我認為讓 AI 系統去探索算法研究的想法，目前仍然是在人類的控制之下的。比如，系統探索各種可能性，然后會生成一系列結果，之后我們會來做決定，例如，我們是否應該把某個特定的學習算法或者系統改進，吸納到我們核心的代碼庫里？所以，我認為我們可以設置這樣的安全措施，確保我們能享受到 AI 系統帶來的好處，同時又能保證這些系統的改進或者某種程度上的自我提升是在人類監督下進行的，而不是完全放任 AI 系統在沒有任何監督的情況下完全自主進化，對吧？這就是我說的工程安全措施。我們需要關注我們部署的這些系統的特性，不要去部署那些在某些方面可能造成危害的系統，并且要充分了解它們的能力，以及在特定情況下可能會做出什么。所以，你知道，我認為這絕對不是一個簡單的問題，但我確實相信，我們有可能確保這些系統的安全性。

Noam Shazeer：是的。我的意思是，我也認為我們會大量使用這些系統來檢查它們自身，也會用它們來檢查其他的 AI 系統。即使對我們人類來說，識別事物也比創造事物要容易。

Jeff Dean：我想補充一點，如果你通過 API 接口或者用戶界面，把模型的能力開放出來，讓人們可以和它互動，我認為你就可以在一定程度上監控和了解模型是如何被使用的，并且可以對模型的行為設定一些限制。我認為這是確保模型行為符合我們預設標準的一種有效方法。

Noam Shazeer：是的。我的意思是，我認為我們的目標是賦能大眾，讓每個人都能利用 AI 的力量。但在大多數情況下，我們應該主要引導人們用這些系統來做有意義的事情，并且盡可能減少對使用場景的限制。但是，是的，如果有人拿走你的技術，然后創造出一百萬個邪惡的軟件工程師，那肯定不是在賦能大眾，因為他們會用這一百萬個邪惡的軟件工程師去傷害別人。所以我堅決反對那樣做。

Jeff Dean：我也是。我們繼續下一個話題吧。

谷歌的快樂時光

主持人：好的，我們來聊一些更有趣的話題，輕松一下。在過去的 25 年里，你們職業生涯中最有趣的時光是什么？你最懷念哪個階段？

Jeff Dean：你是說在工作上嗎？我認為在谷歌最初的四五年，當時我還是最開始做搜索、網頁抓取和索引系統的少數幾個人之一，那時候我們的用戶流量增長速度真的非?？臁Ｎ覀兡菚r努力擴展索引的規模，并且嘗試讓索引更新頻率達到每分鐘一次，而不是像之前那樣，每月甚至每兩個月才更新一次（如果系統沒出問題的話）?？吹轿覀儤嫿ǖ南到y被越來越多的人使用，真的讓我個人感到非常有成就感。能構建出一個每天被 20 億人使用的產品，簡直太不可思議了。但我也想說，同樣讓我感到興奮的，是今天能和 Gemini 團隊的同事們一起工作。我認為在過去一年半的時間里，我們在 AI 模型能力方面取得的進展真的非常有趣。大家都很投入，對我們正在做的事情感到無比興奮。我認為現在的這些模型在處理一些非常復雜的任務時，已經變得越來越出色了。比如，如果你把現在 AI 模型的能力展示給 20 年前使用電腦的人看，他們肯定不會相信。甚至 5 年前，他們可能也不敢相信。這真的非常令人振奮。我相信，未來我們也會看到這些 AI 模型的應用規模和對世界的影響力，也會迎來類似的爆發式增長。

Noam Shazeer：是的，我同意 Jeff 的看法。早期確實非常有趣。一部分原因是那時候公司規模小，大家彼此都認識，人際關系很緊密，還有就是你正在構建的產品，很快就被成千上萬，甚至數百萬的人使用。今天也是一樣。我們現在有個很棒的“迷你廚房區”，很多人都喜歡在那里聚會交流。我很享受能和一群優秀的人一起工作，共同打造一些可以幫助數百萬甚至數十億人的產品。還有什么比這更棒的呢？

主持人：“迷你廚房區”是什么？

Jeff Dean：哦，在我們辦公的這棟樓里，有一個特別的公共區域，我們叫它“迷你廚房區”。它最近被重新命名為“Gradient Canopy”（梯度頂篷）。以前它叫“查爾斯頓東區”，后來我們覺得需要一個更酷炫的名字，因為這里聚集了很多機器學習研究人員，很多頂尖的 AI 研究項目都在這里進行。“迷你廚房區”一般來說就是放一臺意式咖啡機和一些小零食，但我們這個特別的“迷你廚房”空間很大。我們在那里擺放了大約 50 張桌子，方便大家在那里碰面交流。

那里有點吵，因為大家總是在磨咖啡豆、煮咖啡，但你也能在那里獲得很多面對面的思想碰撞，比如，“哦，我試過你說的那個方法，你有沒有考慮過在你的想法里試試這個？”或者，“哦，我們下周要發布一個新東西，負載測試結果怎么樣了？”大家在那里有很多即時的反饋交流。

然后我們還有“Gemini 聊天室”，方便那些不在“迷你廚房區”的同事們使用。我們有一個遍布全球的團隊，我個人參與了大約 120 個與 Gemini 相關的聊天室。在這些聊天室里，大家專注于非常具體的主題，比如我們有七個人專門研究某個問題，倫敦的同事會在聊天室里分享一些令人興奮的最新進展。當你早上醒來打開電腦，你就能看到昨晚發生了什么，或者看到一大群人正集中精力處理數據，各種各樣的問題都會被提出來討論。這種工作方式真的很有意思。

2030 年的計算需求

主持人：我發現谷歌在早期做出的一些預測非常了不起，比如你們很早就預見到了未來對計算資源的巨大需求，而當時這還不是一個顯而易見的事情。TPU 就是一個很好的例子，或者說第一代 TPU 就是一個例子。我記得你們在，我猜是 2013 年甚至更早的時候就有了 TPU 的想法。

如果你今天再用同樣的思路來預測一下，考慮到未來我們會全面普及這些 AI 模型，它們將成為我們各種服務的核心支柱，我們需要不斷地用它們進行推理計算，并且還要訓練未來更強大的版本。

你有沒有考慮過，到 2030 年，我們大概需要多少計算資源才能滿足所有這些應用場景？用費米估算的方法，大概會得出什么結果？

Jeff Dean：是的，我是覺得未來肯定需要海量的推理計算資源。計算資源只是一個比較粗略、比較宏觀的衡量標準，用來評估這些強大的 AI 模型的需求。因為如果未來提升模型能力的一個重要手段，就是不斷增加推理計算的消耗，那么突然之間，即使只是生成同樣數量的文本，現在的一個請求，其計算密集程度就可能會比過去高出 50 倍、100 倍甚至 1000 倍。而且你還會看到，這些 AI 服務的應用范圍正在急劇擴張。因為目前世界上還有很多人，可能還沒意識到這種基于對話的交互界面的巨大潛力，以及你可以用它們來做各種各樣令人驚嘆的事情。也許今天，全世界只有 10% 甚至 20% 的電腦用戶真正了解了這一點。當這個比例接近 100%，并且人們更頻繁地使用 AI 服務時，這又會帶來一到兩個數量級的需求增長。所以，單單從用戶普及率的提升，你現在就能看到兩到三個數量級的增長，再加上模型本身也可能會變得更大更復雜，這又會帶來一到兩個數量級的增長。所以，未來我們需要極其龐大的推理計算能力。因此，我們需要極其高效的硬件，專門用于我們關注的這些 AI 模型的推理計算。

主持人：如果用 flops （每秒浮點運算次數）來衡量，你估計到 2030 年，全球 AI 推理的總計算量會是多少？

Noam Shazeer：我認為肯定是越多越好。你可以這樣想，好吧，到那時候，人們會決定把世界 GDP 的多大比例投入到人工智能上？然后，比如，好吧，未來的人工智能系統會是什么樣子？嗯，也許它會是某種個人助理式的工具，就像在你戴的眼鏡里，可以實時看到你周圍的一切，并且可以訪問你所有的數字信息，甚至全世界的數字信息。也許就像你是美國總統喬·拜登，你在參加內閣會議時，戴著一個耳機，它可以實時為你提供任何方面的建議，幫你分析問題，并且給你一些有用的提示?；蛘吣憧梢灾苯雍退鼘υ?，它會分析它在你周圍看到的所有信息，來判斷這些信息可能對你產生的潛在價值。所以，我的意思是，我可以想象，未來的 AI 系統會像你的私人助理或者你的智囊團一樣，并且每次你在計算資源上多花一倍的錢，這個 AI 系統就會變得更聰明，比如智商提高 5 到 10 分，或者類似的情況。好吧，你是寧愿每天花 10 美元，雇傭一個普通的助手，還是每天花 20 美元，雇傭一個更聰明的助手呢？而且它不僅是你生活中的助手，也是你更好地完成工作的助手，因為它現在能讓你從一個“10 倍效率”的工程師，變成一個“100 倍”甚至“1000 萬倍”效率的超級工程師？好吧，讓我們從第一性原理來思考這個問題，對吧？所以人們肯定愿意把世界 GDP 的一部分投入到這里面。而且由于我們有這么多優秀的 AI 工程師，都在致力于改進這些技術，世界 GDP 幾乎肯定會大幅上升，甚至比今天高出幾個數量級。到那時，我們可能已經解決了無限能源和碳排放的問題。所以我們應該能夠擁有大量的能源供應。我們應該能夠擁有數百萬甚至數十億的機器人，幫我們建造數據中心。讓我們想想，太陽的功率是多少瓦？大概是 10 的 26 次方瓦，還是多少？我大膽猜測，未來用于人工智能，來幫助每個人的計算量，將會是一個天文數字。

Jeff Dean：我想補充一點。我不確定我完全同意 Noam 剛才說的所有內容，但這確實是一個非常有趣的“思想實驗”，值得我們朝著這個方向去思考。即使我們只實現了他所說的一部分，也肯定需要海量的計算資源。這就是為什么擁有盡可能廉價的硬件平臺，來運行這些 AI 模型，并將它們應用到 Noam 描述的各種場景中，顯得尤為重要。只有這樣，我們才能讓每個人都能以某種方式訪問 AI 服務，并且盡可能降低使用這些功能的成本。我認為通過專注于硬件和模型協同設計這類技術，這是完全可以實現的，我們應該能夠讓 AI 系統的效率比現在高得多。

主持人：考慮到你們預期的 AI 需求增長速度，谷歌未來幾年的數據中心擴建計劃，是否足夠激進？

Jeff Dean：我不會公開評論我們未來的資本支出計劃，因為我們的 CEO 和 CFO 可能不希望我這樣做。但我可以肯定地說，你可以看看我們過去幾年的資本支出報告，你會發現我們肯定在這個領域進行了大量的投資，因為我們認為這非常重要。我們正在持續不斷地研發新的、有趣的、創新性的硬件，我們相信這真的有助于我們在向全球更多用戶部署這些 AI 系統的競賽中，保持領先優勢，包括如何更高效地訓練模型，以及如何讓人們更便捷地使用它們進行推理計算？

未來的 AI 模型架構

主持人：我聽你多次提到“持續學習”(Continuous Learning) 的概念，這個想法是指，我們可以構建一個隨著時間推移不斷自我改進的 AI 模型，而不是每次都從頭開始訓練一個全新的模型。你認為“持續學習”在技術上有什么根本性的障礙嗎？因為從理論上講，我們應該可以不斷地對一個模型進行微調，讓它持續進化。在你看來，未來的 AI 模型發展方向會是什么樣的？

Jeff Dean：是的，我最近一直在越來越多地思考這個問題。我一直是稀疏模型的忠實擁護者，因為我認為我們...

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.