還記得 AlphaGo 剛擊敗李世石時,全世界驚呼“人工智能時代來了”,轉(zhuǎn)眼不過幾年,ChatGPT、o?系列 模型已經(jīng)把“智能”從棋盤和試卷一路卷到代碼、創(chuàng)作甚至電腦屏幕背后的每一次點擊
清華姚班出身大牛,現(xiàn)任OpenAI 研究科學(xué)家姚順雨在最新長文《The Second Half》中拋出一個驚人判斷:
過去幾十年我們專注于“把模型訓(xùn)得更強(qiáng)”,如今游戲規(guī)則徹底反轉(zhuǎn)——接下來比拼的不是訓(xùn)練,而是“如何定義并評估真正有用的任務(wù)”。換言之,第一階段的看家法寶是 Transformer、深度強(qiáng)化學(xué)習(xí)和大規(guī)模預(yù)訓(xùn)練;而第二階段,你得像產(chǎn)品經(jīng)理一樣重新思考:AI 究竟該為誰解決什么問題、又該如何衡量“解決得好不好”。這一轉(zhuǎn)向,將決定誰只是“模型分?jǐn)?shù)更高”,誰能真正撬動萬億級經(jīng)濟(jì)價值
姚順雨在文中還提到:
Sutton(強(qiáng)化學(xué)習(xí)之父) & Barto 的經(jīng)典教材幾乎只談算法,幾乎不談環(huán)境與先驗,然而,在深度 RL時代,人們發(fā)現(xiàn)環(huán)境對經(jīng)驗結(jié)果影響巨大:一種算法的表現(xiàn)往往極度依賴其開發(fā)和測試的環(huán)境。如果忽略環(huán)境,你也許會造出只在玩具設(shè)置里無比優(yōu)越的“最優(yōu)”算法。那么為何不先確定真正想解決的環(huán)境,再找最適合的算法?
這段看法其實剛好和這兩天Sutton與谷歌RL副總裁寫的最新論文《Welcome to the Era of Experience》的觀點一致
關(guān)于《Welcome to the Era of Experience》可以看我昨天的文章:
以下是全文分享:
《The Second Half》全文翻譯
原作者:姚順雨(Shunyu Yao),OpenAI 研究科學(xué)家 原文標(biāo)題:The Second Half 原文摘要:We’re at AI’s halftime. 地址: https://ysymyth.github.io/The-Second-Half/
幾十年來,AI 主要關(guān)注于開發(fā)新的訓(xùn)練方法和模型。事實證明這條路行之有效:從擊敗世界冠軍的國際象棋和圍棋程序,到在 SAT 和律師資格考試上超過大多數(shù)人類,再到在 IMO 和 IOI 上摘金奪銀。寫進(jìn)教科書的里程碑——Deep Blue、AlphaGo、GPT?4 以及 o?series——背后都是 AI 方法上的根本性創(chuàng)新:搜索、深度強(qiáng)化學(xué)習(xí)、規(guī)模化和推理能力。隨著時間推移,一切都在變得更好。
那么,現(xiàn)在究竟發(fā)生了什么不同?
用三個詞概括:強(qiáng)化學(xué)習(xí)終于奏效了。更準(zhǔn)確地說:強(qiáng)化學(xué)習(xí)終于具備了泛化能力。經(jīng)歷多次重大彎路和里程碑的累積,我們終于找到了一套可行的配方,能用語言和推理解決各種 RL 任務(wù)。哪怕就在一年前,如果你告訴大多數(shù) AI 研究者一份單一的配方可以同時搞定軟件工程、創(chuàng)意寫作、IMO 級數(shù)學(xué)、鍵盤鼠標(biāo)操作以及長篇問答——他們肯定會笑你“幻覺”。這些任務(wù)各自極難,許多研究者整個博士階段可能只盯著其中一個小方向。
然而,它真的發(fā)生了。
接下來會怎樣?
AI 的下半場——從此刻開始——將把重心從“解決問題”轉(zhuǎn)向“定義問題”。在這個新時代,評價比訓(xùn)練更重要。我們不再僅僅問“能不能訓(xùn)練出解決 X 的模型?”,而是要問“我們應(yīng)該訓(xùn)練 AI 做什么?如何衡量真實的進(jìn)步?”要在下半場取得成功,我們必須及時轉(zhuǎn)變心態(tài)和技能,更像產(chǎn)品經(jīng)理那樣思考。
前半場回顧
要理解前半場,就看看哪些工作贏得了桂冠。你認(rèn)為迄今最具影響力的 AI 論文是哪幾篇?
我在斯坦福 224N 課堂上做過小測驗,答案并不意外:Transformer、AlexNet、GPT?3 等。這些論文的共同點是什么?它們提出了能訓(xùn)練出更好模型的根本性突破,并通過在某些基準(zhǔn)上顯著提升成績來發(fā)表。
還有一個潛在共性:這些“贏家”都是訓(xùn)練方法或模型,而不是基準(zhǔn)或任務(wù)。哪怕可以說是最具影響力的基準(zhǔn)數(shù)據(jù)集——ImageNet——其引用量也不到 AlexNet 的三分之一。模型 VS. 基準(zhǔn)的對比在其他地方更為懸殊:Transformer 的核心基準(zhǔn)是 WMT’14 翻譯,其研討會報告引用量約 1300,而 Transformer 論文則超過 160,000。
這說明了前半場的游戲規(guī)則:重點是構(gòu)建新模型和方法,而評估與基準(zhǔn)處于次要(但必要)地位。
為什么?因為在 AI 的前半場,提出新算法或模型架構(gòu)往往比定義任務(wù)更難、更令人興奮。與此相對,把已有的人類任務(wù)(翻譯、圖像識別、下棋)轉(zhuǎn)成基準(zhǔn)顯得簡單得多。更重要的是,好方法往往更通用:Transformer 最初在 WMT’14 翻譯任務(wù)上嶄露頭角,后來卻驅(qū)動了計算機(jī)視覺、自然語言處理、強(qiáng)化學(xué)習(xí)等眾多領(lǐng)域的進(jìn)步。一個偉大的新方法能爬過許多不同的基準(zhǔn),因此其影響通常超越單一任務(wù)。
這套游戲行之?dāng)?shù)十年,催生了改變世界的想法與突破,在各領(lǐng)域不斷刷新基準(zhǔn)成績。為何游戲要改變?因為所有這些突破的累積,帶來了能夠真正解決任務(wù)的“通用配方”。
配方是什么?
配方的原料并不意外:大規(guī)模語言預(yù)訓(xùn)練、數(shù)據(jù)與計算的規(guī)模化,以及“推理與行動”的理念。這些詞似乎成了舊金山每天都在喊的流行語,但為何稱之為“配方”?
可以用強(qiáng)化學(xué)習(xí) (RL) 的視角來理解——RL 常被視作 AI 的“終局”——理論上能贏下游戲,實際上也難以想象沒有 RL 的超人系統(tǒng)(如 AlphaGo)。RL 有三大關(guān)鍵組成:算法、環(huán)境與先驗。長期以來,RL 研究者幾乎把全部注意力放在算法(REINFORCE、DQN、PPO、TRPO 等)上,同時把環(huán)境和先驗視為固定或最小化條件。Sutton & Barto 的經(jīng)典教材幾乎只談算法,幾乎不談環(huán)境與先驗。
然而,在深度 RL時代,人們發(fā)現(xiàn)環(huán)境對經(jīng)驗結(jié)果影響巨大:一種算法的表現(xiàn)往往極度依賴其開發(fā)和測試的環(huán)境。如果忽略環(huán)境,你也許會造出只在玩具設(shè)置里無比優(yōu)越的“最優(yōu)”算法。那么為何不先確定真正想解決的環(huán)境,再找最適合的算法?
這正是 OpenAI 的初衷:他們構(gòu)建了 Gym、World of Bits、Universe 等一系列標(biāo)準(zhǔn) RL 環(huán)境,試圖把互聯(lián)網(wǎng)或電腦變成游戲環(huán)境。計劃聽上去完美:一旦把所有數(shù)字世界變成環(huán)境,再用聰明的 RL 算法解決它們,就能得到數(shù)字 AGI。
計劃很好,但并不完全奏效。OpenAI 在用 RL 解決 Dota、機(jī)械手等方向取得巨大進(jìn)展,卻始終無法搞定“用電腦”或“網(wǎng)頁導(dǎo)航”,而且一個領(lǐng)域的 RL 代理無法遷移到另一領(lǐng)域。缺了什么?
直到 GPT?2、GPT?3 出現(xiàn),人們才發(fā)現(xiàn)缺的原來是先驗。需要強(qiáng)大的語言預(yù)訓(xùn)練,把常識和語言知識蒸餾進(jìn)模型,再通過微調(diào)把它變成 WebGPT 或 ChatGPT(并改變世界)。事實證明,RL 最重要的部分可能并非算法或環(huán)境,而是先驗——而這些先驗可以通過與 RL 并不直接相關(guān)的方式獲得。
語言預(yù)訓(xùn)練為聊天提供了好先驗,卻不足以同樣出色地操控電腦或玩電子游戲。為何?因為這些領(lǐng)域與互聯(lián)網(wǎng)文本分布差得更遠(yuǎn),直接進(jìn)行監(jiān)督微調(diào)或 RL 效果不佳。2019 年 GPT?2 剛問世時,我曾在此之上做監(jiān)督微調(diào)/RL 來解決文本冒險游戲——CALM 是世界上第一個基于預(yù)訓(xùn)練語言模型的游戲代理。但它需要數(shù)百萬步 RL 才能爬過單個游戲,且無法泛化。雖然這正是典型 RL 的特征,但我覺得奇怪:人類卻能零樣本上手新游戲并表現(xiàn)更好。于是我迎來了人生第一次“頓悟”:我們之所以泛化,是因為我們可以選擇“思考”而不只是“行動”——例如先想到“地牢危險,需要武器,而箱子可能藏武器”,再規(guī)劃行動。
“思考”,或“推理”,是一種奇特動作:它不直接影響外部世界,但其空間開放、組合爆炸——你可以想一個詞、一句話、一段話,甚至隨機(jī)想 10000 個單詞,而周圍世界不會立即改變。在經(jīng)典 RL 理論中,這是交易極差、讓決策幾乎不可能:如果需要在兩個箱子中選一個,有一個有 100 萬美元,另一個空,你期望賺 50 萬;若我再加無限個空箱子,你期望收獲為零。但當(dāng)把推理加入 RL 中的動作空間時,我們借助語言預(yù)訓(xùn)練先驗來泛化,并能為不同決策靈活配置推理時長。這很神奇,恐怕我得另寫文章解釋;簡而言之:語言通過代理中的推理實現(xiàn)泛化。
當(dāng)我們擁有正確的 RL 先驗(語言預(yù)訓(xùn)練)和 RL 環(huán)境(把語言推理作為動作)后,RL 算法反而成了最瑣碎的部分。于是有了 o?series、R1、“deep research” 和面向電腦操作的代理,未來還會更多。諷刺的是:幾十年來 RL 研究者過分關(guān)注算法,幾乎沒人理會先驗——所有實驗幾乎都是從零開始。卻花了數(shù)十年彎路才發(fā)現(xiàn),也許我們該完全倒過來排優(yōu)先級。
正如 Steve Jobs 所說:“你無法預(yù)見地連接點點滴滴,只有回頭看時才能。”
下半場
這套配方正在徹底改寫游戲規(guī)則。回顧前半場的循環(huán):
1. 提出新訓(xùn)練方法或模型,刷基準(zhǔn)分?jǐn)?shù);
2. 創(chuàng)建更難的基準(zhǔn),繼續(xù)循環(huán)。
現(xiàn)在循環(huán)被破壞了,因為:
? 配方把“刷分”工業(yè)化且無需太多新點子。你琢磨半天提升 5%,下一代 o?series 隨手提升 30%。
? 即便造更難基準(zhǔn),配方很快(而且越來越快)就能解決。
接下來怎么玩?如果新方法不再稀缺,而更難基準(zhǔn)也會迅速被破,那我們該做什么?
我認(rèn)為必須從根本上重新思考“評估”。這不僅僅是再造新基準(zhǔn),更要質(zhì)疑現(xiàn)有評估設(shè)置,創(chuàng)造新的評估方式,迫使我們發(fā)明超越配方的新方法。這很難,因為人類有慣性,很少質(zhì)疑基本假設(shè)——許多假設(shè)被視為天經(jīng)地義。
舉兩例說明慣性:
1.評估“應(yīng)該”自動運行——通常代理收到一次任務(wù)輸入,就完全自主地做事,最后得到評分。但現(xiàn)實中,代理必須在任務(wù)過程中與人類交互——你不會給客服發(fā)一大段信息等 10 分鐘就指望一次性解決。于是出現(xiàn)了讓真人或仿真用戶在環(huán)的基準(zhǔn):如 Chatbot Arena、tau?bench。
2.評估“應(yīng)該”獨立同分布 (i.i.d.) 運行——如果測試集有 500 個任務(wù),你并行跑完取平均。但現(xiàn)實中任務(wù)是順序完成的:Google 軟件工程師越熟悉代碼庫,解決 bug 越快;而代理卻在同一倉庫里反復(fù)“首次見面”。我們顯然需要長期記憶,但學(xué)術(shù)界缺乏能證明需求的基準(zhǔn),也缺乏質(zhì)疑 i.i.d. 假設(shè)的勇氣。
這些假設(shè)在前半場無傷大雅,因為智能水平低時,只要智能提升,效用就會同步提升。但現(xiàn)在,通用配方已確保在這些假設(shè)下必勝。因此,下半場的新游戲是:
1.設(shè)計面向真實效用的新評估設(shè)置或任務(wù);
2.用配方或在其上增添新組件來解決它們,循環(huán)往復(fù)。
這場游戲難在陌生,卻也令人興奮。前半場玩家在電子游戲和考試?yán)锼⒎郑幌掳雸鐾婕覄t有機(jī)會把智能做成真正有用的產(chǎn)品,建立十億、萬億美元的公司。前半場充斥增量模型和方法;在下半場,它們被配方“過濾”——除非你創(chuàng)造新假設(shè)來打破配方,否則注定被碾壓。
歡迎來到下半場!
鳴謝
本文基于作者在 Stanford 224N 與 Columbia 的演講。初稿由 OpenAI “deep research” 讀取幻燈片并生成。
姚順雨
教育經(jīng)歷
美國普林斯頓大學(xué)—— 計算機(jī)科學(xué)博士(2019 – 2024)
清華大學(xué)—— 計算機(jī)科學(xué)學(xué)士(2015 – 2019) ,期間擔(dān)任“姚班”學(xué)生會主席,創(chuàng)建清華 Rap Club
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.