99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華姚班大牛,OpenAI姚順雨:AI的下半場要像產(chǎn)品經(jīng)理一樣思考,RL算法取決于環(huán)境

0
分享至


還記得 AlphaGo 剛擊敗李世石時,全世界驚呼“人工智能時代來了”,轉(zhuǎn)眼不過幾年,ChatGPT、o?系列 模型已經(jīng)把“智能”從棋盤和試卷一路卷到代碼、創(chuàng)作甚至電腦屏幕背后的每一次點擊

清華姚班出身大牛,現(xiàn)任OpenAI 研究科學(xué)家姚順雨在最新長文《The Second Half》中拋出一個驚人判斷:

過去幾十年我們專注于“把模型訓(xùn)得更強(qiáng)”,如今游戲規(guī)則徹底反轉(zhuǎn)——接下來比拼的不是訓(xùn)練,而是“如何定義并評估真正有用的任務(wù)”。換言之,第一階段的看家法寶是 Transformer、深度強(qiáng)化學(xué)習(xí)和大規(guī)模預(yù)訓(xùn)練;而第二階段,你得像產(chǎn)品經(jīng)理一樣重新思考:AI 究竟該為誰解決什么問題、又該如何衡量“解決得好不好”。這一轉(zhuǎn)向,將決定誰只是“模型分?jǐn)?shù)更高”,誰能真正撬動萬億級經(jīng)濟(jì)價值

姚順雨在文中還提到:

Sutton(強(qiáng)化學(xué)習(xí)之父) & Barto 的經(jīng)典教材幾乎只談算法,幾乎不談環(huán)境與先驗,然而,在深度 RL時代,人們發(fā)現(xiàn)環(huán)境對經(jīng)驗結(jié)果影響巨大:一種算法的表現(xiàn)往往極度依賴其開發(fā)和測試的環(huán)境。如果忽略環(huán)境,你也許會造出只在玩具設(shè)置里無比優(yōu)越的“最優(yōu)”算法。那么為何不先確定真正想解決的環(huán)境,再找最適合的算法?

這段看法其實剛好和這兩天Sutton與谷歌RL副總裁寫的最新論文《Welcome to the Era of Experience》的觀點一致

關(guān)于《Welcome to the Era of Experience》可以看我昨天的文章:

以下是全文分享:

《The Second Half》全文翻譯

原作者:姚順雨(Shunyu Yao),OpenAI 研究科學(xué)家 原文標(biāo)題:The Second Half 原文摘要:We’re at AI’s halftime. 地址: https://ysymyth.github.io/The-Second-Half/

幾十年來,AI 主要關(guān)注于開發(fā)新的訓(xùn)練方法和模型。事實證明這條路行之有效:從擊敗世界冠軍的國際象棋和圍棋程序,到在 SAT 和律師資格考試上超過大多數(shù)人類,再到在 IMO 和 IOI 上摘金奪銀。寫進(jìn)教科書的里程碑——Deep Blue、AlphaGo、GPT?4 以及 o?series——背后都是 AI 方法上的根本性創(chuàng)新:搜索、深度強(qiáng)化學(xué)習(xí)、規(guī)模化和推理能力。隨著時間推移,一切都在變得更好。

那么,現(xiàn)在究竟發(fā)生了什么不同?

用三個詞概括:強(qiáng)化學(xué)習(xí)終于奏效了。更準(zhǔn)確地說:強(qiáng)化學(xué)習(xí)終于具備了泛化能力。經(jīng)歷多次重大彎路和里程碑的累積,我們終于找到了一套可行的配方,能用語言和推理解決各種 RL 任務(wù)。哪怕就在一年前,如果你告訴大多數(shù) AI 研究者一份單一的配方可以同時搞定軟件工程、創(chuàng)意寫作、IMO 級數(shù)學(xué)、鍵盤鼠標(biāo)操作以及長篇問答——他們肯定會笑你“幻覺”。這些任務(wù)各自極難,許多研究者整個博士階段可能只盯著其中一個小方向。

然而,它真的發(fā)生了。

接下來會怎樣?

AI 的下半場——從此刻開始——將把重心從“解決問題”轉(zhuǎn)向“定義問題”。在這個新時代,評價訓(xùn)練更重要。我們不再僅僅問“能不能訓(xùn)練出解決 X 的模型?”,而是要問“我們應(yīng)該訓(xùn)練 AI 做什么?如何衡量真實的進(jìn)步?”要在下半場取得成功,我們必須及時轉(zhuǎn)變心態(tài)和技能,更像產(chǎn)品經(jīng)理那樣思考。

前半場回顧

要理解前半場,就看看哪些工作贏得了桂冠。你認(rèn)為迄今最具影響力的 AI 論文是哪幾篇?

我在斯坦福 224N 課堂上做過小測驗,答案并不意外:Transformer、AlexNet、GPT?3 等。這些論文的共同點是什么?它們提出了能訓(xùn)練出更好模型的根本性突破,并通過在某些基準(zhǔn)上顯著提升成績來發(fā)表。

還有一個潛在共性:這些“贏家”都是訓(xùn)練方法或模型,而不是基準(zhǔn)或任務(wù)。哪怕可以說是最具影響力的基準(zhǔn)數(shù)據(jù)集——ImageNet——其引用量也不到 AlexNet 的三分之一。模型 VS. 基準(zhǔn)的對比在其他地方更為懸殊:Transformer 的核心基準(zhǔn)是 WMT’14 翻譯,其研討會報告引用量約 1300,而 Transformer 論文則超過 160,000。


這說明了前半場的游戲規(guī)則:重點是構(gòu)建新模型和方法,而評估與基準(zhǔn)處于次要(但必要)地位。

為什么?因為在 AI 的前半場,提出新算法或模型架構(gòu)往往比定義任務(wù)更難、更令人興奮。與此相對,把已有的人類任務(wù)(翻譯、圖像識別、下棋)轉(zhuǎn)成基準(zhǔn)顯得簡單得多。更重要的是,好方法往往更通用:Transformer 最初在 WMT’14 翻譯任務(wù)上嶄露頭角,后來卻驅(qū)動了計算機(jī)視覺、自然語言處理、強(qiáng)化學(xué)習(xí)等眾多領(lǐng)域的進(jìn)步。一個偉大的新方法能爬過許多不同的基準(zhǔn),因此其影響通常超越單一任務(wù)。

這套游戲行之?dāng)?shù)十年,催生了改變世界的想法與突破,在各領(lǐng)域不斷刷新基準(zhǔn)成績。為何游戲要改變?因為所有這些突破的累積,帶來了能夠真正解決任務(wù)的“通用配方”

配方是什么?

配方的原料并不意外:大規(guī)模語言預(yù)訓(xùn)練、數(shù)據(jù)與計算的規(guī)模化,以及“推理與行動”的理念。這些詞似乎成了舊金山每天都在喊的流行語,但為何稱之為“配方”?

可以用強(qiáng)化學(xué)習(xí) (RL) 的視角來理解——RL 常被視作 AI 的“終局”——理論上能贏下游戲,實際上也難以想象沒有 RL 的超人系統(tǒng)(如 AlphaGo)。RL 有三大關(guān)鍵組成:算法、環(huán)境與先驗。長期以來,RL 研究者幾乎把全部注意力放在算法(REINFORCE、DQN、PPO、TRPO 等)上,同時把環(huán)境和先驗視為固定或最小化條件。Sutton & Barto 的經(jīng)典教材幾乎只談算法,幾乎不談環(huán)境與先驗。


然而,在深度 RL時代,人們發(fā)現(xiàn)環(huán)境對經(jīng)驗結(jié)果影響巨大:一種算法的表現(xiàn)往往極度依賴其開發(fā)和測試的環(huán)境。如果忽略環(huán)境,你也許會造出只在玩具設(shè)置里無比優(yōu)越的“最優(yōu)”算法。那么為何不先確定真正想解決的環(huán)境,再找最適合的算法?

這正是 OpenAI 的初衷:他們構(gòu)建了 Gym、World of Bits、Universe 等一系列標(biāo)準(zhǔn) RL 環(huán)境,試圖把互聯(lián)網(wǎng)或電腦變成游戲環(huán)境。計劃聽上去完美:一旦把所有數(shù)字世界變成環(huán)境,再用聰明的 RL 算法解決它們,就能得到數(shù)字 AGI。

計劃很好,但并不完全奏效。OpenAI 在用 RL 解決 Dota、機(jī)械手等方向取得巨大進(jìn)展,卻始終無法搞定“用電腦”或“網(wǎng)頁導(dǎo)航”,而且一個領(lǐng)域的 RL 代理無法遷移到另一領(lǐng)域。缺了什么?

直到 GPT?2、GPT?3 出現(xiàn),人們才發(fā)現(xiàn)缺的原來是先驗。需要強(qiáng)大的語言預(yù)訓(xùn)練,把常識和語言知識蒸餾進(jìn)模型,再通過微調(diào)把它變成 WebGPT 或 ChatGPT(并改變世界)。事實證明,RL 最重要的部分可能并非算法或環(huán)境,而是先驗——而這些先驗可以通過與 RL 并不直接相關(guān)的方式獲得。

語言預(yù)訓(xùn)練為聊天提供了好先驗,卻不足以同樣出色地操控電腦或玩電子游戲。為何?因為這些領(lǐng)域與互聯(lián)網(wǎng)文本分布差得更遠(yuǎn),直接進(jìn)行監(jiān)督微調(diào)或 RL 效果不佳。2019 年 GPT?2 剛問世時,我曾在此之上做監(jiān)督微調(diào)/RL 來解決文本冒險游戲——CALM 是世界上第一個基于預(yù)訓(xùn)練語言模型的游戲代理。但它需要數(shù)百萬步 RL 才能爬過單個游戲,且無法泛化。雖然這正是典型 RL 的特征,但我覺得奇怪:人類卻能零樣本上手新游戲并表現(xiàn)更好。于是我迎來了人生第一次“頓悟”:我們之所以泛化,是因為我們可以選擇“思考”而不只是“行動”——例如先想到“地牢危險,需要武器,而箱子可能藏武器”,再規(guī)劃行動。


“思考”,或“推理”,是一種奇特動作:它不直接影響外部世界,但其空間開放、組合爆炸——你可以想一個詞、一句話、一段話,甚至隨機(jī)想 10000 個單詞,而周圍世界不會立即改變。在經(jīng)典 RL 理論中,這是交易極差、讓決策幾乎不可能:如果需要在兩個箱子中選一個,有一個有 100 萬美元,另一個空,你期望賺 50 萬;若我再加無限個空箱子,你期望收獲為零。但當(dāng)把推理加入 RL 中的動作空間時,我們借助語言預(yù)訓(xùn)練先驗來泛化,并能為不同決策靈活配置推理時長。這很神奇,恐怕我得另寫文章解釋;簡而言之:語言通過代理中的推理實現(xiàn)泛化

當(dāng)我們擁有正確的 RL 先驗(語言預(yù)訓(xùn)練)和 RL 環(huán)境(把語言推理作為動作)后,RL 算法反而成了最瑣碎的部分。于是有了 o?series、R1、“deep research” 和面向電腦操作的代理,未來還會更多。諷刺的是:幾十年來 RL 研究者過分關(guān)注算法,幾乎沒人理會先驗——所有實驗幾乎都是從零開始。卻花了數(shù)十年彎路才發(fā)現(xiàn),也許我們該完全倒過來排優(yōu)先級。

正如 Steve Jobs 所說:“你無法預(yù)見地連接點點滴滴,只有回頭看時才能。”

下半場

這套配方正在徹底改寫游戲規(guī)則。回顧前半場的循環(huán):

  1. 1. 提出新訓(xùn)練方法或模型,刷基準(zhǔn)分?jǐn)?shù);

  2. 2. 創(chuàng)建更難的基準(zhǔn),繼續(xù)循環(huán)。

現(xiàn)在循環(huán)被破壞了,因為:

  • ? 配方把“刷分”工業(yè)化且無需太多新點子。你琢磨半天提升 5%,下一代 o?series 隨手提升 30%。

  • ? 即便造更難基準(zhǔn),配方很快(而且越來越快)就能解決。


接下來怎么玩?如果新方法不再稀缺,而更難基準(zhǔn)也會迅速被破,那我們該做什么?

我認(rèn)為必須從根本上重新思考“評估”。這不僅僅是再造新基準(zhǔn),更要質(zhì)疑現(xiàn)有評估設(shè)置,創(chuàng)造新的評估方式,迫使我們發(fā)明超越配方的新方法。這很難,因為人類有慣性,很少質(zhì)疑基本假設(shè)——許多假設(shè)被視為天經(jīng)地義。

舉兩例說明慣性:

  1. 1.評估“應(yīng)該”自動運行——通常代理收到一次任務(wù)輸入,就完全自主地做事,最后得到評分。但現(xiàn)實中,代理必須在任務(wù)過程中與人類交互——你不會給客服發(fā)一大段信息等 10 分鐘就指望一次性解決。于是出現(xiàn)了讓真人或仿真用戶在環(huán)的基準(zhǔn):如 Chatbot Arena、tau?bench。


  2. 2.評估“應(yīng)該”獨立同分布 (i.i.d.) 運行——如果測試集有 500 個任務(wù),你并行跑完取平均。但現(xiàn)實中任務(wù)是順序完成的:Google 軟件工程師越熟悉代碼庫,解決 bug 越快;而代理卻在同一倉庫里反復(fù)“首次見面”。我們顯然需要長期記憶,但學(xué)術(shù)界缺乏能證明需求的基準(zhǔn),也缺乏質(zhì)疑 i.i.d. 假設(shè)的勇氣。

這些假設(shè)在前半場無傷大雅,因為智能水平低時,只要智能提升,效用就會同步提升。但現(xiàn)在,通用配方已確保在這些假設(shè)下必勝。因此,下半場的新游戲是:

  1. 1.設(shè)計面向真實效用的新評估設(shè)置或任務(wù)

  2. 2.用配方或在其上增添新組件來解決它們,循環(huán)往復(fù)。

這場游戲難在陌生,卻也令人興奮。前半場玩家在電子游戲和考試?yán)锼⒎郑幌掳雸鐾婕覄t有機(jī)會把智能做成真正有用的產(chǎn)品,建立十億、萬億美元的公司。前半場充斥增量模型和方法;在下半場,它們被配方“過濾”——除非你創(chuàng)造新假設(shè)來打破配方,否則注定被碾壓。

歡迎來到下半場!

鳴謝

本文基于作者在 Stanford 224N 與 Columbia 的演講。初稿由 OpenAI “deep research” 讀取幻燈片并生成。

姚順雨

教育經(jīng)歷

美國普林斯頓大學(xué)—— 計算機(jī)科學(xué)博士(2019 – 2024)
清華大學(xué)—— 計算機(jī)科學(xué)學(xué)士(2015 – 2019) ,期間擔(dān)任“姚班”學(xué)生會主席,創(chuàng)建清華 Rap Club

?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
吃飯時謝振軒一個眼神讓弟弟放下手機(jī),網(wǎng)友:張柏芝立的家規(guī)太贊

吃飯時謝振軒一個眼神讓弟弟放下手機(jī),網(wǎng)友:張柏芝立的家規(guī)太贊

夢史
2025-04-28 17:29:20
3-1領(lǐng)先遭逆轉(zhuǎn),馬斯切拉諾:比賽中我犯了錯誤,我承擔(dān)責(zé)任

3-1領(lǐng)先遭逆轉(zhuǎn),馬斯切拉諾:比賽中我犯了錯誤,我承擔(dān)責(zé)任

懂球帝
2025-04-28 11:06:20
江西打人的外國留學(xué)生優(yōu)越待遇曝光:住兩人間,中國學(xué)生擠八人間

江西打人的外國留學(xué)生優(yōu)越待遇曝光:住兩人間,中國學(xué)生擠八人間

水晶的視界
2025-04-28 03:30:13
天生壞種?被判10年的李天一出獄后,最惡心的一幕還是出現(xiàn)了

天生壞種?被判10年的李天一出獄后,最惡心的一幕還是出現(xiàn)了

小啾咪侃侃史
2024-09-07 15:30:03
明確了:5月工資可以提前發(fā)

明確了:5月工資可以提前發(fā)

中國吉林網(wǎng)
2025-04-28 15:59:23
中年女人“默許發(fā)生關(guān)系”,往往會用以下“行為”來表示,很準(zhǔn)

中年女人“默許發(fā)生關(guān)系”,往往會用以下“行為”來表示,很準(zhǔn)

情感創(chuàng)作者無筆
2025-02-16 14:10:08
過安檢能讓多少人“身敗名裂”?網(wǎng)友分享太炸裂,一看一個不吱聲

過安檢能讓多少人“身敗名裂”?網(wǎng)友分享太炸裂,一看一個不吱聲

奇特短尾矮袋鼠
2024-06-26 20:24:41
不再使用中國制造?蘋果宣布決定,人民日報:放棄一切幻想

不再使用中國制造?蘋果宣布決定,人民日報:放棄一切幻想

小鬼頭體育
2025-04-27 23:15:36
0-5!中國女足輸太慘,全場崩盤連丟5球,球迷失望:一代不如一代

0-5!中國女足輸太慘,全場崩盤連丟5球,球迷失望:一代不如一代

侃球熊弟
2025-04-28 22:03:12
韓國人的一廂情愿毀了第30屆LG杯,新華社的大禮可能讓它成為絕唱

韓國人的一廂情愿毀了第30屆LG杯,新華社的大禮可能讓它成為絕唱

阿矗論古今
2025-04-28 09:52:56
美國開發(fā)病毒武器針對中國!200萬種RNA序列在手,美軍信心爆棚

美國開發(fā)病毒武器針對中國!200萬種RNA序列在手,美軍信心爆棚

說天說地說實事
2025-04-27 10:16:24
風(fēng)向突變!當(dāng)全美零售商集體反水,通知中企發(fā)貨,關(guān)稅戰(zhàn)功虧一簣

風(fēng)向突變!當(dāng)全美零售商集體反水,通知中企發(fā)貨,關(guān)稅戰(zhàn)功虧一簣

阿纂看事
2025-04-28 11:30:07
過去四十年,其實是我國五千年歷史上最好的四十年

過去四十年,其實是我國五千年歷史上最好的四十年

羅sir財話
2025-04-26 15:00:18
29歲葉詩文現(xiàn)狀:清華已畢業(yè),越來越美,財富自由,為退役鋪好路

29歲葉詩文現(xiàn)狀:清華已畢業(yè),越來越美,財富自由,為退役鋪好路

大西體育
2025-04-28 22:13:26
美媒扒詹姆斯和戈貝爾互噴垃圾話細(xì)節(jié)!老詹:我要把你打出翔來

美媒扒詹姆斯和戈貝爾互噴垃圾話細(xì)節(jié)!老詹:我要把你打出翔來

Emily說個球
2025-04-28 19:22:20
如果事情屬實,那就不是“荒唐”的問題了

如果事情屬實,那就不是“荒唐”的問題了

胖胖說他不胖
2025-04-23 16:40:53
俄絕密文件曝光,英媒:若俄與北約開戰(zhàn),普京先打中國的兩個鄰國

俄絕密文件曝光,英媒:若俄與北約開戰(zhàn),普京先打中國的兩個鄰國

削桐作琴
2025-04-28 22:58:01
董醫(yī)生家境顯赫,父母及家庭被扒了個底朝天,丟人丟到全網(wǎng)

董醫(yī)生家境顯赫,父母及家庭被扒了個底朝天,丟人丟到全網(wǎng)

魔都姐姐雜談
2025-04-28 09:09:24
三大龍脈被破壞的城市,廣州富而不王,南京貴而不尊,還有一個......

三大龍脈被破壞的城市,廣州富而不王,南京貴而不尊,還有一個......

神奇故事
2025-04-24 22:30:39
汪小菲高調(diào)為玥兒慶生,又捅了馬蜂窩了,跟S媽同天發(fā)文撞上了

汪小菲高調(diào)為玥兒慶生,又捅了馬蜂窩了,跟S媽同天發(fā)文撞上了

曉風(fēng)說
2025-04-28 17:20:09
2025-04-29 02:11:00
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
651文章數(shù) 259關(guān)注度
往期回顧 全部

科技要聞

傳騰訊阿里從字節(jié)搶購算力資源 字節(jié)否認(rèn)

頭條要聞

媒體:新央企中國雅江集團(tuán)正籌備

頭條要聞

媒體:新央企中國雅江集團(tuán)正籌備

體育要聞

“我們欠球迷一個冠軍慶典,現(xiàn)在可以狂歡了”

娛樂要聞

黃渤青島做東請客 桌上全人情世故

財經(jīng)要聞

外賣平臺陷入內(nèi)卷,傷害的是誰?

汽車要聞

東風(fēng)日產(chǎn),重新起跑

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
親子
家居
軍事航空

數(shù)碼要聞

傳蘋果高階版M5處理器將采用臺積電的SoIC封裝

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

推拿孩子的大拇指和食指,助長高

家居要聞

慢度設(shè)計 溫暖與沉靜的體驗

軍事要聞

普京宣布將停火72小時

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 两当县| 惠东县| 津市市| 云安县| 阿城市| 镇巴县| 浠水县| 崇左市| 宜州市| 容城县| 高唐县| 莲花县| 松江区| 九台市| 时尚| 松溪县| 尚志市| 五家渠市| 乡城县| 沁阳市| 鄂托克旗| 靖州| 东方市| 常州市| 定边县| 通山县| 平山县| 宁乡县| 囊谦县| 京山县| 平泉县| 石嘴山市| 桃源县| 天峻县| 桐梓县| 九江县| 宜宾市| 普陀区| 古浪县| 资溪县| 浮山县|