網易首頁 > 網易號 > 正文申請入駐

清華學霸、OpenAI姚順雨：AI下半場開戰，評估將比訓練重要

2025-04-19 09:14:57　來源: 學術頭條

北京舉報

分享至

選自姚順雨博客

作者：姚順雨

機器之心編譯

最近新出的《黑鏡》第七季大家都看了嗎？

其中第三集聚焦一個叫 ReDream 的前沿技術，允許現代演員通過 AI 和虛擬現實與經典黑白電影中的虛擬角色互動，快速重拍經典影片。隨著故事發展，主角發現 AI 角色似乎擁有自我意識。

想象一下，未來的 AI 不僅能聽懂你的話，還能像你一樣思考、決策 —— 這正是思維樹（ToT）作者、OpenAI 研究員姚順雨正在探索的世界！

姚順雨畢業于清華姚班，普林斯頓大學計算機科學博士，2024 年 8 月加入 OpenAI。他以語言智能體領域的開創性工作聞名：ToT 使 AI 通過多路徑推理解決復雜問題，ReAct 讓 AI 在推理中動態行動，CoALA 則為 AI 智能體提供了模塊化的認知架構。

早在 GPT-2 剛興起時，他就預見了語言模型的潛力，率先研究如何將其轉化為「會思考的 Agent」，展現了驚人的學術前瞻性。如今，他的成果正推動 AI 在編程、教育、自動化等領域大放異彩。

近日，姚順雨發布了一篇新博客，探討 AI 發展的「下半場」。AI 的未來會是什么樣？讓我們跟隨他的腳步，一起揭開人工智能的下一幕！

博客地址：https://ysymyth.github.io/The-Second-Half/

上半場

簡而言之：我們正處在 AI 的中場休息時間。

幾十年來，AI 主要致力于開發新的訓練方法和模型，取得了顯著成就，如在國際象棋和圍棋中擊敗世界冠軍，以及在多個考試中超越人類。這些成就源于基礎性創新，如搜索、深度強化學習（Deep RL）和推理。

現在的不同之處在于：深度

強化學習終于開始泛化，找到了一種有效的方法來解決多種 RL 任務。曾經，研究人員不相信單一方法能夠應對軟件工程、創意寫作、復雜數學等多個領域的挑戰，但如今這種情況已經改變。

接下來，AI 的重點將從解決問題轉向定義問題。在這個新時代，評估的重要性將超過訓練。我們需要重新思考如何訓練 AI 以及如何衡量進展，這可能需要更接近產品經理的思維方式。

理解上半場的關鍵在于其贏家。影響力最大的 AI 論文如 Transformer、AlexNet 和 GPT-3 等，都是提出基礎性突破的訓練方法，而非基準測試。盡管 ImageNet 是一個重要的基準測試，但其引用量仍遠低于 AlexNet。這表明，方法與基準測試之間的關系在其他領域更為顯著。

AI 發展的上半場主要聚焦于模型和方法的創新，而非評估標準的建立。這是因為開發新的算法和模型架構（如反向傳播、AlexNet、Transformer 等）需要深刻的洞察力和工程能力，遠比將已有人類任務轉化為基準測試更具挑戰性和吸引力。

更重要的是，這些方法往往具有普適性和廣泛應用價值。典型如 Transformer 架構，從最初的機器翻譯擴展到計算機視覺、自然語言處理和強化學習等多個領域，產生了深遠影響。這種專注于方法創新的策略在過去幾十年證明是有效的，推動了 AI 在各個領域的突破性進展。而現在，隨著這些創新的累積達到臨界點，AI 的發展重心正在發生根本性轉變。

配方

這個配方是什么？其中的成分，不出所料，包括大規模語言預訓練、規模（數據和計算能力），以及推理和行動的理念。這些聽起來可能像是每天都能聽到的流行詞，但將它們稱為配方是有原因的。

通過強化學習（RL）的視角可以理解這一點，強化學習通常被認為是人工智能的「終極形態」—— 理論上強化學習保證能贏得游戲，而從經驗上看，很難想象沒有強化學習的超人類系統（例如 AlphaGo）。

在強化學習中，有三個關鍵組成部分：算法、環境和先驗知識。長期以來，強化學習研究人員主要關注算法（例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等）—— 智能體學習的智力核心 —— 同時將環境和先驗知識視為固定或最小化的因素。例如，Sutton 和 Barto 的經典教科書幾乎全部講述算法，幾乎不涉及環境或先驗知識。

然而，在深度強化學習時代，環境的重要性在實踐中變得愈發明顯：算法的性能通常高度依賴于其開發和測試的環境。如果忽視環境因素，研究者可能會構建出一個只在玩具場景中表現出色的「最優」算法。那么，為什么不先確定真正想要解決的環境，然后再尋找最適合該環境的算法呢？

這正是 OpenAI 最初的計劃。該公司構建了 gym，一個用于各種游戲的標準強化學習環境，隨后又推出了 World of Bits 和 Universe 項目，試圖將互聯網或計算機轉變為游戲環境。一旦將所有數字世界轉化為環境，并用智能強化學習算法解決它們，就能擁有數字通用人工智能（AGI）。

這是個不錯的計劃，但并未完全奏效。OpenAI 沿著這條路徑取得了巨大進展，使用強化學習解決了 Dota 游戲、機器人手部控制等問題。但該公司從未真正接近解決計算機使用或網頁導航的問題，而且在一個領域工作的強化學習智能體無法遷移到另一個領域。顯然還缺少了關鍵要素。

直到 GPT-2 或 GPT-3 出現后，研究人員才發現缺失的部分是先驗知識。需要強大的語言預訓練來將通用常識和語言知識提煉到模型中，然后這些模型才能被微調成為網頁智能體（WebGPT）或聊天智能體（ChatGPT）（并改變世界）。事實證明，強化學習中最重要的部分可能并不是強化學習算法或環境本身，而是先驗知識，而這些先驗知識可以通過與強化學習完全無關的方式獲得。

語言預訓練為聊天提供了良好的基礎，但在控制計算機或玩視頻游戲方面效果不佳，因為這些領域與互聯網文本的分布差異較大。監督微調（SFT）或強化學習（RL）在這些領域表現有限。

2019 年，作者嘗試通過 GPT-2 解決基于文本的游戲，但智能體需要進行數百萬步的強化學習才能達到一定水平，且難以遷移到新游戲。人類可以零樣本下玩新游戲并且表現更好，因為我們能夠進行抽象思考，例如「地下城是危險的，需要武器來對抗，可能需要在鎖住的箱子中尋找」。這種推理能力使我們能夠靈活應對新情況。

思考或推理是一種獨特的行動，它不直接改變外部世界，但其空間是開放和無限的。在經典強化學習中，這樣的無界組合會使決策復雜化。例如，如果從兩個盒子中選擇一個，其中一個有 100 萬美元，另一個為空，你的期望收益是 50 萬美元。若增加無限多的空盒子，期望收益變為零。然而，通過將推理引入強化學習環境的動作空間，我們能利用語言預訓練的先驗知識，實現泛化，并在決策時進行靈活的計算。讀者可以通過閱讀 ReAct 以了解智能體推理的初始故事。

論文地址：https://arxiv.org/pdf/2210.03629

目前，作者的直觀解釋是：即使你增加了無盡的空箱子，但在一生中你已經在各種游戲中看到了它們，選擇這些箱子準備你在任何給定游戲中更好地選擇裝錢的箱子。作者的抽象解釋是：語言通過智能體中的推理進行泛化。

一旦我們掌握了正確的強化學習先驗（語言預訓練）和適合的強化學習環境（將語言推理作為行動），就會發現實際上強化學習算法可能是最簡單的一部分。于是，我們推出了 o 系列、R1、深度研究、利用計算機的智能體，及其他將來的成果。這種變化多么諷刺！長期以來，強化學習研究者專注于算法，而忽視了環境和先驗知識 —— 所有的實驗都幾乎從零開始。我們耗費了幾十年才意識到，或許我們的優先級應該完全調整過來。

但正如 Steve Jobs 所說：你無法展望未來連接點，只能倒回來看時連接。

下半場

這個配方正在徹底改變游戲規則，回顧上半場的游戲：

我們開發新穎的訓練方法或模型，以提升基準測試的成績。
我們創建更困難的基準，并繼續這個循環。

這個游戲正在被破壞，因為：

這個配方基本上標準化并工業化了基準的提升，而不需要更多的新想法。隨著這個配方的擴展和良好的泛化，針對特定任務的新方法可能只會提高 5%，而下一個 o 系列模型可能在沒有明確針對的情況下提高 30%。
即使我們創建更困難的基準，很快（而且越來越快）它們也會被這個配方解決。我的同事 Jason Wei 制作了一個漂亮的圖來很好地可視化這個趨勢：

那么下半場剩下什么可以玩？如果不再需要新方法，而更難的基準測試將越來越快地被解決，我們該怎么辦？

作者認為我們應該從根本上重新思考評估。這不僅意味著創造新的和更難的基準測試，而是從根本上質疑現有的評估設置并創造新的，這樣我們就被迫發明超越現有食譜的新方法。這很難，因為人類有慣性，極少質疑基本假設 —— 你只是把它們當作理所當然，未意識到它們是假設而非法律。

為了解釋慣性，假設你在歷史上基于人類考試發明了最成功的評估之一。它在 2021 年是一個非常大膽的想法，但 3 年后它就飽和了。你會怎么做？最可能的是創建一個更難的考試。或者假設你解決了簡單的編碼任務。你會怎么做？最可能的是找更難的編碼任務來解決，直到達到 IOI 金牌水平。

慣性是自然的，但這是問題所在。AI 在國際象棋和圍棋中擊敗世界冠軍，在 SAT 和律考中超過大多數人類，并在 IOI 和 IMO 中達到了金牌水平。但世界沒有太大變化，至少從經濟和 GDP 角度來看如此。

作者稱之為效用問題，并將其視為 AI 最重要的問題之一。

也許我們很快就會解決效用問題，也許不會。無論如何，這個問題的根本原因可能看似簡單：我們的評估設置在許多基本方面與現實世界的設置不同。舉兩個例子：

評估「應該」自動運行，因此通常一個智能體接收任務輸入，獨立完成任務，然后獲得任務獎勵。但在現實中，智能體必須在整個任務過程中與人類互動 —— 你不會只是給客服發一條超級長的消息，等 10 分鐘，然后期待得到詳細的回復來解決所有問題。通過質疑這種設置，新的基準被發明出來，以便在循環中引入真實的人類（例如，聊天機器人競技場）或用戶模擬（例如，tau-bench）。

評估「應該」在獨立同分布（i.i.d.）的情況下進行。如果你有一個包含 500 個任務的測試集，你會獨立運行每個任務，平均任務指標，然后得到一個整體指標。但在現實中，你是順序解決任務，而不是并行進行。谷歌的軟件工程師（SWE）在解決 google3 問題時，隨著對代碼庫的熟悉程度逐漸提高，解決問題的能力也會越來越好，但一個軟件工程智能體在同一個代碼庫中解決許多問題時，并不會獲得這樣的熟悉度。顯然，我們需要長期記憶方法（并且確實存在），但學術界沒有適當的基準來證明這種需求，甚至缺乏質疑作為機器學習基礎的 i.i.d. 假設的勇氣。

這些假設「一直」都是這樣，在 AI 發展的前半段，在這些假設下開發基準測試是可行的，因為當智能水平較低時，提高智能通常會提高實用性。但現在，這種通用方法在這些假設下肯定能奏效。所以，在后半段的新游戲中，我們的方式是：

我們為現實世界的實用性開發新穎的評估設置或任務。
我們用通用方法解決這些任務，或者用新穎的組件增強這些方法。然后繼續循環。

這個過程既困難又令人興奮，因為它不再是我們熟悉的。前期的參與者專注于解決視頻游戲和考試，而后期的參與者通過利用智能開發有用的產品，創造了價值數十億甚至數萬億美元的公司。前期充滿了增量式的方法和模型，而后期從一定程度上篩選這些方法。通用方法可能會超越增量式方法，除非你能夠通過創造新的假設打破這種通用性。唯有如此，才能進行真正改變游戲規則的研究。

歡迎來到后半段！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.