99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

清華學霸、OpenAI姚順雨:AI下半場開戰,評估將比訓練重要

0
分享至


選自姚順雨博客

作者:姚順雨

機器之心編譯

最近新出的《黑鏡》第七季大家都看了嗎?

其中第三集聚焦一個叫 ReDream 的前沿技術,允許現代演員通過 AI 和虛擬現實與經典黑白電影中的虛擬角色互動,快速重拍經典影片。隨著故事發展,主角發現 AI 角色似乎擁有自我意識。

想象一下,未來的 AI 不僅能聽懂你的話,還能像你一樣思考、決策 —— 這正是思維樹(ToT)作者、OpenAI 研究員姚順雨正在探索的世界!

姚順雨畢業于清華姚班,普林斯頓大學計算機科學博士,2024 年 8 月加入 OpenAI。他以語言智能體領域的開創性工作聞名:ToT 使 AI 通過多路徑推理解決復雜問題,ReAct 讓 AI 在推理中動態行動,CoALA 則為 AI 智能體提供了模塊化的認知架構。


早在 GPT-2 剛興起時,他就預見了語言模型的潛力,率先研究如何將其轉化為「會思考的 Agent」,展現了驚人的學術前瞻性。如今,他的成果正推動 AI 在編程、教育、自動化等領域大放異彩。

近日,姚順雨發布了一篇新博客,探討 AI 發展的「下半場」。AI 的未來會是什么樣?讓我們跟隨他的腳步,一起揭開人工智能的下一幕!


博客地址:https://ysymyth.github.io/The-Second-Half/

上半場

簡而言之:我們正處在 AI 的中場休息時間。

幾十年來,AI 主要致力于開發新的訓練方法和模型,取得了顯著成就,如在國際象棋和圍棋中擊敗世界冠軍,以及在多個考試中超越人類。這些成就源于基礎性創新,如搜索、深度強化學習(Deep RL)和推理。

現在的不同之處在于:深度

強化學習終于開始泛化,找到了一種有效的方法來解決多種 RL 任務。曾經,研究人員不相信單一方法能夠應對軟件工程、創意寫作、復雜數學等多個領域的挑戰,但如今這種情況已經改變。

接下來,AI 的重點將從解決問題轉向定義問題。在這個新時代,評估的重要性將超過訓練。我們需要重新思考如何訓練 AI 以及如何衡量進展,這可能需要更接近產品經理的思維方式。

理解上半場的關鍵在于其贏家。影響力最大的 AI 論文如 Transformer、AlexNet 和 GPT-3 等,都是提出基礎性突破的訓練方法,而非基準測試。盡管 ImageNet 是一個重要的基準測試,但其引用量仍遠低于 AlexNet。這表明,方法與基準測試之間的關系在其他領域更為顯著。


AI 發展的上半場主要聚焦于模型和方法的創新,而非評估標準的建立。這是因為開發新的算法和模型架構(如反向傳播、AlexNet、Transformer 等)需要深刻的洞察力和工程能力,遠比將已有人類任務轉化為基準測試更具挑戰性和吸引力。

更重要的是,這些方法往往具有普適性和廣泛應用價值。典型如 Transformer 架構,從最初的機器翻譯擴展到計算機視覺、自然語言處理和強化學習等多個領域,產生了深遠影響。這種專注于方法創新的策略在過去幾十年證明是有效的,推動了 AI 在各個領域的突破性進展。而現在,隨著這些創新的累積達到臨界點,AI 的發展重心正在發生根本性轉變。

配方

這個配方是什么?其中的成分,不出所料,包括大規模語言預訓練、規模(數據和計算能力),以及推理和行動的理念。這些聽起來可能像是每天都能聽到的流行詞,但將它們稱為配方是有原因的。

通過強化學習(RL)的視角可以理解這一點,強化學習通常被認為是人工智能的「終極形態」—— 理論上強化學習保證能贏得游戲,而從經驗上看,很難想象沒有強化學習的超人類系統(例如 AlphaGo)。

在強化學習中,有三個關鍵組成部分:算法、環境和先驗知識。長期以來,強化學習研究人員主要關注算法(例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等)—— 智能體學習的智力核心 —— 同時將環境和先驗知識視為固定或最小化的因素。例如,Sutton 和 Barto 的經典教科書幾乎全部講述算法,幾乎不涉及環境或先驗知識。


然而,在深度強化學習時代,環境的重要性在實踐中變得愈發明顯:算法的性能通常高度依賴于其開發和測試的環境。如果忽視環境因素,研究者可能會構建出一個只在玩具場景中表現出色的「最優」算法。那么,為什么不先確定真正想要解決的環境,然后再尋找最適合該環境的算法呢?

這正是 OpenAI 最初的計劃。該公司構建了 gym,一個用于各種游戲的標準強化學習環境,隨后又推出了 World of Bits 和 Universe 項目,試圖將互聯網或計算機轉變為游戲環境。一旦將所有數字世界轉化為環境,并用智能強化學習算法解決它們,就能擁有數字通用人工智能(AGI)。

這是個不錯的計劃,但并未完全奏效。OpenAI 沿著這條路徑取得了巨大進展,使用強化學習解決了 Dota 游戲、機器人手部控制等問題。但該公司從未真正接近解決計算機使用或網頁導航的問題,而且在一個領域工作的強化學習智能體無法遷移到另一個領域。顯然還缺少了關鍵要素。

直到 GPT-2 或 GPT-3 出現后,研究人員才發現缺失的部分是先驗知識。需要強大的語言預訓練來將通用常識和語言知識提煉到模型中,然后這些模型才能被微調成為網頁智能體(WebGPT)或聊天智能體(ChatGPT)(并改變世界)。事實證明,強化學習中最重要的部分可能并不是強化學習算法或環境本身,而是先驗知識,而這些先驗知識可以通過與強化學習完全無關的方式獲得。

語言預訓練為聊天提供了良好的基礎,但在控制計算機或玩視頻游戲方面效果不佳,因為這些領域與互聯網文本的分布差異較大。監督微調(SFT)或強化學習(RL)在這些領域表現有限。

2019 年,作者嘗試通過 GPT-2 解決基于文本的游戲,但智能體需要進行數百萬步的強化學習才能達到一定水平,且難以遷移到新游戲。人類可以零樣本下玩新游戲并且表現更好,因為我們能夠進行抽象思考,例如「地下城是危險的,需要武器來對抗,可能需要在鎖住的箱子中尋找」。這種推理能力使我們能夠靈活應對新情況。


思考或推理是一種獨特的行動,它不直接改變外部世界,但其空間是開放和無限的。在經典強化學習中,這樣的無界組合會使決策復雜化。例如,如果從兩個盒子中選擇一個,其中一個有 100 萬美元,另一個為空,你的期望收益是 50 萬美元。若增加無限多的空盒子,期望收益變為零。然而,通過將推理引入強化學習環境的動作空間,我們能利用語言預訓練的先驗知識,實現泛化,并在決策時進行靈活的計算。讀者可以通過閱讀 ReAct 以了解智能體推理的初始故事。

論文地址:https://arxiv.org/pdf/2210.03629

目前,作者的直觀解釋是:即使你增加了無盡的空箱子,但在一生中你已經在各種游戲中看到了它們,選擇這些箱子準備你在任何給定游戲中更好地選擇裝錢的箱子。作者的抽象解釋是:語言通過智能體中的推理進行泛化。

一旦我們掌握了正確的強化學習先驗(語言預訓練)和適合的強化學習環境(將語言推理作為行動),就會發現實際上強化學習算法可能是最簡單的一部分。于是,我們推出了 o 系列、R1、深度研究、利用計算機的智能體,及其他將來的成果。這種變化多么諷刺!長期以來,強化學習研究者專注于算法,而忽視了環境和先驗知識 —— 所有的實驗都幾乎從零開始。我們耗費了幾十年才意識到,或許我們的優先級應該完全調整過來。

但正如 Steve Jobs 所說:你無法展望未來連接點,只能倒回來看時連接。

下半場

這個配方正在徹底改變游戲規則,回顧上半場的游戲:

  • 我們開發新穎的訓練方法或模型,以提升基準測試的成績。

  • 我們創建更困難的基準,并繼續這個循環。

這個游戲正在被破壞,因為:

  • 這個配方基本上標準化并工業化了基準的提升,而不需要更多的新想法。隨著這個配方的擴展和良好的泛化,針對特定任務的新方法可能只會提高 5%,而下一個 o 系列模型可能在沒有明確針對的情況下提高 30%。

  • 即使我們創建更困難的基準,很快(而且越來越快)它們也會被這個配方解決。我的同事 Jason Wei 制作了一個漂亮的圖來很好地可視化這個趨勢:


那么下半場剩下什么可以玩?如果不再需要新方法,而更難的基準測試將越來越快地被解決,我們該怎么辦?

作者認為我們應該從根本上重新思考評估。這不僅意味著創造新的和更難的基準測試,而是從根本上質疑現有的評估設置并創造新的,這樣我們就被迫發明超越現有食譜的新方法。這很難,因為人類有慣性,極少質疑基本假設 —— 你只是把它們當作理所當然,未意識到它們是假設而非法律。

為了解釋慣性,假設你在歷史上基于人類考試發明了最成功的評估之一。它在 2021 年是一個非常大膽的想法,但 3 年后它就飽和了。你會怎么做?最可能的是創建一個更難的考試。或者假設你解決了簡單的編碼任務。你會怎么做?最可能的是找更難的編碼任務來解決,直到達到 IOI 金牌水平。

慣性是自然的,但這是問題所在。AI 在國際象棋和圍棋中擊敗世界冠軍,在 SAT 和律考中超過大多數人類,并在 IOI 和 IMO 中達到了金牌水平。但世界沒有太大變化,至少從經濟和 GDP 角度來看如此。

作者稱之為效用問題,并將其視為 AI 最重要的問題之一。

也許我們很快就會解決效用問題,也許不會。無論如何,這個問題的根本原因可能看似簡單:我們的評估設置在許多基本方面與現實世界的設置不同。舉兩個例子:

評估「應該」自動運行,因此通常一個智能體接收任務輸入,獨立完成任務,然后獲得任務獎勵。但在現實中,智能體必須在整個任務過程中與人類互動 —— 你不會只是給客服發一條超級長的消息,等 10 分鐘,然后期待得到詳細的回復來解決所有問題。通過質疑這種設置,新的基準被發明出來,以便在循環中引入真實的人類(例如,聊天機器人競技場)或用戶模擬(例如,tau-bench)。


評估「應該」在獨立同分布(i.i.d.)的情況下進行。如果你有一個包含 500 個任務的測試集,你會獨立運行每個任務,平均任務指標,然后得到一個整體指標。但在現實中,你是順序解決任務,而不是并行進行。谷歌的軟件工程師(SWE)在解決 google3 問題時,隨著對代碼庫的熟悉程度逐漸提高,解決問題的能力也會越來越好,但一個軟件工程智能體在同一個代碼庫中解決許多問題時,并不會獲得這樣的熟悉度。顯然,我們需要長期記憶方法(并且確實存在),但學術界沒有適當的基準來證明這種需求,甚至缺乏質疑作為機器學習基礎的 i.i.d. 假設的勇氣。

這些假設「一直」都是這樣,在 AI 發展的前半段,在這些假設下開發基準測試是可行的,因為當智能水平較低時,提高智能通常會提高實用性。但現在,這種通用方法在這些假設下肯定能奏效。所以,在后半段的新游戲中,我們的方式是:

  • 我們為現實世界的實用性開發新穎的評估設置或任務。

  • 我們用通用方法解決這些任務,或者用新穎的組件增強這些方法。然后繼續循環。

這個過程既困難又令人興奮,因為它不再是我們熟悉的。前期的參與者專注于解決視頻游戲和考試,而后期的參與者通過利用智能開發有用的產品,創造了價值數十億甚至數萬億美元的公司。前期充滿了增量式的方法和模型,而后期從一定程度上篩選這些方法。通用方法可能會超越增量式方法,除非你能夠通過創造新的假設打破這種通用性。唯有如此,才能進行真正改變游戲規則的研究。

歡迎來到后半段!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
84分鐘扳平+加時絕殺!巴薩賽季3殺皇馬,32次問鼎國王杯歷史第1

84分鐘扳平+加時絕殺!巴薩賽季3殺皇馬,32次問鼎國王杯歷史第1

我愛英超
2025-04-27 06:58:54
都是信仰耶穌,基督教和天主教有何區別?一文給你解釋清楚

都是信仰耶穌,基督教和天主教有何區別?一文給你解釋清楚

爆史君帶你讀歷史
2025-04-26 21:27:53
男子被打身亡后續!市長院長去年辭職,姐姐舉報,保護傘浮出水面

男子被打身亡后續!市長院長去年辭職,姐姐舉報,保護傘浮出水面

吭哧有力
2025-04-26 10:21:40
“最毒舌”黛玉的背后,藏著年輕人的興趣密碼

“最毒舌”黛玉的背后,藏著年輕人的興趣密碼

金錯刀
2025-04-25 13:27:16
開始施壓!船記提醒聯盟:按照相關規定,小波特G5應該被禁賽

開始施壓!船記提醒聯盟:按照相關規定,小波特G5應該被禁賽

雞丁侃球
2025-04-27 10:48:12
劉國梁卸任乒協主席不到三天,令人惡心的一幕還是出現了!

劉國梁卸任乒協主席不到三天,令人惡心的一幕還是出現了!

小嵩
2025-04-26 14:29:08
網友拼接出武漢猝死男孩的悲苦命運

網友拼接出武漢猝死男孩的悲苦命運

大張的自留地
2025-04-26 08:55:53
白宮剛撤關稅,中國立馬出牌!一場圍繞石英礦的芯片生死戰

白宮剛撤關稅,中國立馬出牌!一場圍繞石英礦的芯片生死戰

魏家東
2025-04-27 06:16:56
我去交社保發現自己名下有家公司,我二話沒說,直接行使法人權力

我去交社保發現自己名下有家公司,我二話沒說,直接行使法人權力

青青會講故事
2025-04-26 11:57:55
突發!三星等數千名高管更換SIM卡

突發!三星等數千名高管更換SIM卡

WitDisplay
2025-04-27 11:03:02
謝霆鋒演唱會跟王菲太甜,惹來不滿,網友:滿腦子是張柏芝和孩子

謝霆鋒演唱會跟王菲太甜,惹來不滿,網友:滿腦子是張柏芝和孩子

烏娛子醬
2025-04-26 23:15:56
銀川市長信箱被指已讀亂回,官方回應來了

銀川市長信箱被指已讀亂回,官方回應來了

現代快報
2025-04-27 10:50:44
兵馬俑也被韓國成功“偷”走了!還“正大光明”在國外展出!

兵馬俑也被韓國成功“偷”走了!還“正大光明”在國外展出!

阿矗論古今
2025-04-27 11:59:41
今天,超過20萬臺灣民眾走上凱道高喊“賴清德下臺”!

今天,超過20萬臺灣民眾走上凱道高喊“賴清德下臺”!

東南衛視
2025-04-26 21:10:39
昆明原市長劉佳晨,被免職

昆明原市長劉佳晨,被免職

魯中晨報
2025-04-27 13:04:03
966萬得主發文稱大獎已到手!一個月工資不要了,回貴州老家躺平

966萬得主發文稱大獎已到手!一個月工資不要了,回貴州老家躺平

火山詩話
2025-04-25 07:42:27
為了瞞住老公,老婆能編出多離譜的借口?看完網友分享,真是開了眼

為了瞞住老公,老婆能編出多離譜的借口?看完網友分享,真是開了眼

墻頭草
2025-04-27 09:43:57
水上城市威尼斯

水上城市威尼斯

喜之春
2025-04-27 07:35:13
俄羅斯已經吞下了一枚毒誘餌

俄羅斯已經吞下了一枚毒誘餌

魔幻故事
2025-04-26 15:58:56
路云:河南省鄭州市紀委書記、市監委主任

路云:河南省鄭州市紀委書記、市監委主任

阿天愛旅行
2025-04-27 12:41:43
2025-04-27 14:24:49
學術頭條
學術頭條
致力于學術傳播和科學普及,重點關注人工智能、生命科學等前沿科學進展。
1247文章數 5069關注度
往期回顧 全部

科技要聞

賈躍亭:FF市值到百億美元能基本還完債務

頭條要聞

媒體:特朗普欲"棄車保帥" 與馬斯克正在加速分道揚鑣

頭條要聞

媒體:特朗普欲"棄車保帥" 與馬斯克正在加速分道揚鑣

體育要聞

裝死一個賽季,卡皇掀翻了棺材板

娛樂要聞

24歲女星夏依丹離世!死因讓人心碎

財經要聞

商務部等6部門:下調離境退稅起退點

汽車要聞

上海車展采訪外國友人 他們最愛的都是什么車?

態度原創

健康
手機
房產
家居
公開課

唇皰疹和口腔潰瘍是"同伙"嗎?

手機要聞

三星Galaxy Z系列折疊屏大改 尺寸更薄電池更大

房產要聞

教育理念再進階!解碼新世界星輝如何構筑「家校社成長生態圈」!

家居要聞

明亮溫馨 質感且奢華

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 吐鲁番市| 阿瓦提县| 泊头市| 邯郸市| 黑龙江省| 上蔡县| 团风县| 贵南县| 翁牛特旗| 绵阳市| 东乌珠穆沁旗| 凤凰县| 花莲市| 万全县| 阜南县| 崇礼县| 师宗县| 聂荣县| 罗平县| 文登市| 梁平县| 孝昌县| 宁阳县| 偏关县| 无极县| 荃湾区| 波密县| 岳池县| 莱西市| 鞍山市| 漾濞| 理塘县| 益阳市| 鹤峰县| 章丘市| 呼玛县| 娱乐| 浦北县| 天门市| 班玛县| 乐安县|