網易首頁 > 網易號 > 正文申請入駐

圖靈獎的獲獎者們，擔心成為 AI 界的奧本海默

2025-03-11 07:35:49　來源: 刺猬公社

北京舉報

分享至

曾經 AI 奠基者，如今是「反 AI」先鋒。

文｜Moonshot
編｜靖宇
文章來源 | 極客公園（ID：geekpark）

1947 年，艾倫·圖靈在一次演講中提到「我們想要的是一臺能夠從經驗中學習的機器」。

78 年后，以圖靈命名，有著「計算機界諾貝爾獎」之名的圖靈獎，頒給了兩位畢生致力于解決圖靈這一問題的科學家。

安德魯·巴托（Andrew Barto）與理查德·薩頓（Richard Sutton）共獲 2024 年度圖靈獎，二人是相差九歲的師徒，是 AlphaGo 和 ChatGPT 技術上的奠基人，亦是機器學習領域的技術先驅。

圖靈獎獲獎者安德魯·巴托（Andrew Barto）與理查德·薩頓（Richard Sutton）｜圖片來源：圖靈獎官網

谷歌首席科學家 Jeff Dean 在頒獎詞里寫道「由巴托和薩頓開創的強化學習技術，直接回答了圖靈的問題。他們的工作是過去幾十年 AI 進步的關鍵。他們開發的工具仍是 AI 繁榮的核心支柱……谷歌很榮幸贊助 ACM A.M. 圖靈獎。」

圖靈獎 100 萬美元獎金的唯一贊助方即是谷歌。

而在獲獎后，站在聚光燈下的兩位科學家卻劍指 AI 大公司，他們對媒體發出「獲獎感言」：現在的 AI 公司在「受到商業激勵」而非專注于技術研究，在社會上「架起一座未經測試的橋梁，讓人們過橋來測試。」

無獨有偶，圖靈獎上一次頒發給人工智能領域的科學家，是在 2018 屆，約書亞·本希奧、杰弗里·辛頓、楊立昆三位因在深度學習領域的貢獻而獲獎。

2018 年圖靈獎獲得者們｜圖片來源：eurekalert

其中，約書亞·本希奧和杰弗里·辛頓（亦是 2024 年諾貝爾物理學獎獲獎者）兩位「人工智能教父」在最近兩年的 AI 浪潮里，也頻繁呼吁全球社會和科學界警惕大公司對人工智能的濫用。

杰弗里·辛頓更是直接從谷歌辭了職，以便「暢所欲言」，這次獲獎的桑頓，在 2017 - 2023 年也曾任 DeepMind 的研究科學家。

當計算機界的最高榮譽一次次被授予給 AI 核心技術的奠基者們時，一個耐人尋味的現象逐漸浮現：

為何這些站上巔峰的科學家，總會在聚光燈下轉身敲響 AI 的警鐘？

人工智能的「造橋者」

如果說艾倫·圖靈是人工智能的引路人，那安德魯·巴托和理查德·薩頓就是這條道路上的「造橋者」。

在人工智能飛馳之時，在被授予禮贊之后，他們在重新審視自己搭建的橋梁，能否承載人類安全通行？

或許答案正藏在他們跨越半個世紀的學術生涯中——唯有回溯他們如何構建了「機器的學習」，才能理解他們為何警惕「技術的失控」。

圖片來源：卡耐基梅隆大學

1950 年，艾倫·圖靈在其著名論文《計算機器與智能》中，開篇就提出一個哲學和技術問題：

「機器能思考嗎？」

由此，圖靈設計出了「模仿游戲」即后世廣為人知的「圖靈測試」。

同時圖靈提出，機器智能可以通過學習獲得，而不是僅依賴事先編程。他設想了「兒童機器（Child Machine）」的概念，即通過訓練和經驗，讓機器像孩子一樣逐步學習。

人工智能的核心目標是構建出能感知、并采取更好行動的智能體，而衡量智能的標準，即智能體有判斷「某些行動比其他行動更好」的能力。

機器學習的目的就在于此，給予機器行動后相應的反饋，并且能讓機器自主地在反饋經驗中學習。換言之，圖靈構思出基于獎勵和懲罰的機器學習方法與巴普洛夫訓狗無異。

我在游戲里越玩越敗越強，也是一種「強化學習」｜圖片來源：zequance.ai

由圖靈引出的機器學習之路，在三十年后，才由一對師徒建出了橋——強化學習（Reinforcement Learning，RL）。

1977 年，安德魯·巴托受到心理學和神經科學的啟發，開始探索一種人類智能的新理論：神經元就像「享樂主義者」，人類大腦內數十億個神經元細胞，每個都試圖最大化快樂（獎勵）并最小化痛苦（懲罰）。而且神經元并不是機械地接收信號和傳遞信號，如果某個神經元的活動模式導致了正反饋，它就會傾向于重復這個模式，由此共同驅動了人類的學習過程。

到了 1980 年代，巴托帶上了他的博士生理查德·薩頓，想把這套「不斷嘗試、根據反饋調整連接，找到最優的行為模式」的神經元理論應用在人工智能上，強化學習就此誕生。

《強化學習：導論》成為經典教材，已被引用近 80000 次｜圖片來源：IEEE

師徒二人利用馬爾可夫決策過程的數學基礎，開發并編寫出了許多強化學習的核心算法，系統地構建出了強化學習的理論框架，還編寫了《強化學習：導論》教科書，讓數萬名研究人員得以進入強化學習領域，二者堪稱強化學習之父。

而他們研究強化學習的目的，是為了探尋出高效準確、回報最大化、行動最佳的機器學習方法。

強化學習的「神之一手」

如果說機器學習是「填鴨式」學習，那強化學習就是「放養式」學習。

傳統的機器學習，就是給模型被喂大量標注好的數據，建立輸入和輸出之間固定的映射關系。最經典的場景就是給電腦看一堆貓和狗的照片，告訴它哪張是貓、哪張是狗，只要投喂足夠多的圖，電腦就會辨認出貓狗。

而強化學習，是在沒有明確指導的情況下，機器通過不斷試錯和獎懲機制，逐漸調整行為來優化結果。就像一個機器人學走路，不需要人類一直告訴它「這步對，那步錯」，它只要嘗試、摔倒、調整，最終自己就會走路了，甚至走出自己獨特的步態。

顯而易見，強化學習的原理更接近人類的智能，就像每個幼童在跌倒里學會走路，在摸索中學會抓取，在咿呀里捕捉音節，學會語言。

爆火的「回旋踢機器人」背后也是強化學習的訓練｜圖片來源：宇樹科技

強化學習的「高光時刻」，正是 2016 年 AlphaGo 的「神之一手」。當時 AlphaGo 在與李世石的比賽中，第 37 手落下了一步令所有人類驚訝的白棋，一步棋逆轉敗勢，一舉贏下李世石。

圍棋界的頂級高手和解說員們，都沒有預料到 AlphaGo 會在該位落子，因為在人類棋手的經驗里，這步棋下的「莫名其妙」，賽后李世石也承認，自己完全沒有考慮過這個走法。

AlphaGo 不是靠背棋譜背出來的「神之一手」，而是在無數次自我對弈中，試錯、長遠規劃、優化策略后自主探索出來，這既是強化學習的本質。

被 AlphaGo「神之一手」打亂節奏的李世石｜圖片來源：AP

強化學習甚至反客為主影響人類智能，就像 AlphaGo 露出「神之一手」后，棋手開始學習和研究 AI 下圍棋的走法。科學家們也在利用強化學習的算法和原理，試圖理解人類大腦的學習機制，巴托和桑托的研究成果之一，即建立了一種計算模型，來解釋多巴胺在人類決策和學習中的作用。

而且強化學習特別擅長處理規則復雜、狀態多變的環境，并在其中找到最優解，比如圍棋、自動駕駛、機器人控制、與語焉不詳的人類談笑風生。

這些正是當下最前沿，最熱門的 AI 應用領域，尤其是在大語言模型上，幾乎所有領先的大語言模型都使用了 RLHF（從人類反饋中強化學習）的訓練方法，即讓人類對模型的回答進行評分，模型根據反饋改進。

但這正是巴托的擔憂所在：大公司建好橋后，用讓人們在橋上來回走的方法，來測試橋的安全性。

「在沒有任何保障措施的情況下，把軟件直接推給數百萬用戶，并不是負責任的做法，」巴托在獲獎后的采訪里說道。

「技術的發展本該伴隨著對潛在負面影響的控制和規避，但我并沒有看到這些 AI 公司真正做到這一點。」他補充道。

AI 頂流到底在擔心什么？

AI 威脅論沒完沒了，因為科學家最害怕親手締造的未來失控。

巴托和桑頓的「獲獎感言」里，并無對當前 AI 技術的苛責，而是充斥著對 AI 公司的不滿。

他們在采訪里都警告表示，目前人工智能的發展，是靠大公司爭相推出功能強大但容易犯錯的模型，他們借此籌集了大量資金，再繼續投入數十億美元，展開芯片和數據的軍備競賽。

各大投行都在重新估值 AI 行業｜圖片來源：高盛

的確如此，根據德意志銀行的研究，當前科技巨頭在 AI 領域的總投資約為 3400 億美元，這一規模已經超過希臘的年度 GDP。行業領頭羊 OpenAI，公司估值達到 2600 億美元，正準備展開新一輪 400 億美元的新融資。

實際上，許多 AI 專家都和巴托和桑頓的觀點不謀而合。

此前，微軟前高管史蒂芬·辛諾夫斯基就曾表示，AI 行業陷入了規模化的困境，靠燒錢換技術進步，這不符合技術發展史中，成本會逐漸下降而不是上升的趨勢。

就在 3 月 7 日，前谷歌 CEO 埃里克·施密特、Scale AI 創始人 Alex Wang、AI 安全中心主任丹·亨德里克斯三人聯名發表了一篇警示性論文。

三位科技圈頂流認為，如今人工智能前沿領域的發展形勢，與催生曼哈頓計劃的核武器競賽相似，AI 公司都在悄悄進行自己的「曼哈頓計劃」，過去近十年里，他們對 AI 的投資每年都在翻倍，如不再介入監管，AI 可能成為自核彈以來最不穩定的技術。

《超級智能戰略》及合著者｜圖片來源：nationalsecurity.ai

因深度學習在 2019 年獲得圖靈獎的約書亞·本希奧，也在博客中發長文警告，如今 AI 產業有數萬億美元的價值供資本追逐和搶奪，還有著足以嚴重破壞當前世界秩序的影響力。

諸多技術出身的科技人士，認為如今的 AI 行業，已經偏離了對技術的鉆研，對智能的審視，對科技濫用的警惕，而走向了一種砸錢堆芯片的大資本逐利模式。

「建起龐大的數據中心，收用戶的錢還讓他們用不一定安全的軟件，這不是我認同的動機。」巴托在獲獎后的采訪里說道。

而由 30 個國家，75 位 AI 專家共撰的第一版《先進人工智能安全國際科學報告》中寫道「管理通用人工智能風險的方法往往基于這樣一種假設：人工智能開發者和政策制定者，可以正確評估 AGI 模型和系統的能力和潛在影響。但是，對 AGI 的內部運作、能力和社會影響，科學理解其實非常有限。」

約書亞·本希奧的警示長文｜圖片來源：Yoshua Bengio

不難看出，如今的「AI 威脅論」，已經把矛頭從技術轉向了大公司。

專家們在警告大公司：你們燒錢，堆料，卷參數，但你們真正了解你們開發的產品嗎？這亦是巴托和桑頓借用「造橋」比喻的由來，因為科技屬于全人類，但資本只屬于大公司。

何況巴托和桑頓一直以來的研究領域：強化學習。它的原理更貼合人類智能，且具有「黑箱」特色，尤其是在深度強化學習中，AI 行為模式會變得復雜且難以解釋。

這也是人類科學家的擔憂所在：助力和見證了人工智能的成長，卻難以解讀它的意圖。

而開創了深度學習和強化學習技術的圖靈獎獲獎者們，也并不是在擔心 AGI（通用人工智能）的發展，而是擔心大公司之間的軍備競賽，在 AGI 領域造成了「智能爆炸」，一不小心制造出了 ASI（超級人工智能），兩者的分野不僅是技術問題，更關乎人類文明的未來命運。

超越人類智能的 ASI，掌握的信息量、決策速度、自我進化的水平，將遠超人類的理解范圍，如果不對 ASI 進行極為謹慎的設計和治理，它可能成為人類歷史上最后一個，也是最無法抗衡的技術奇點。

在 AI 狂熱的當下，這些科學家或許是最有資格「潑冷水」的人。畢竟五十年前，在電腦還是個龐然大物時，他們就已經開啟了人工智能領域的研究，他們從過去塑造了當下，也有立場去懷疑未來。

AI 領導者會迎來奧本海默式的結局嗎？｜圖片來源：經濟學人

在 2 月《經濟學人》的采訪里，DeepMind 和 Anthropic 的 CEO 表示：

會因擔心自己成為下一個奧本海默，而徹夜難眠。

媒介合作聯系微信號|ciweimeijiejun

如需和我們交流可后臺回復“進群”加社群

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.