99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Nature:DeepMind新一代Dreamer架構突破強化學習泛化瓶頸

0
分享至


摘要

開發一種能夠廣泛學習解決各類任務的通用算法,一直是人工智能領域的根本性挑戰。盡管現有強化學習算法可輕松應用于與其開發目標相似的任務,但要將其配置應用于新領域,仍需耗費大量專業人力進行調試和實驗。本文提出的第三代Dreamer算法,僅憑單一配置就在150多個不同任務中超越了專業算法。該算法通過構建環境模型,并借助對未來情景的推演來優化行為。基于歸一化、平衡和轉換的魯棒性技術,確保了跨領域學習的穩定性。據我們所知,Dreamer是首個無需人類數據或課程設計,僅憑像素輸入和開放世界中稀疏獎勵,就能從零開始采集《我的世界》鉆石的算法——這一成就曾被學術界視為檢驗人工智能能否實現長遠像素級探索的重要挑戰。我們的研究使得無需大量實驗即可解決復雜控制問題,極大拓展了強化學習的應用范圍。

關鍵詞:DeepMind、DreamerV3算法、通用強化學習(General RL)、世界模型(World Model)、《我的世界》(Minecraft)、無監督學習(Unsupervised Learning)、多任務泛化(Multi-task Generalization)

集智編輯部丨作者


論文題目:Mastering diverse control tasks through world models 發表時間:2025年4月2日 論文地址:https://www.nature.com/articles/s41586-025-08744-2 期刊名稱:Nature

在人工智能領域,開發一種無需調整超參數即可適應多樣化任務的通用強化學習(RL)算法,一直是研究者追逐的“圣杯”。傳統RL算法(如PPO)需針對不同任務進行繁瑣調參,而專用算法(如MuZero)雖性能卓越卻難以遷移。2025年4月,Google DeepMind在《Nature》發表第三代Dreamer算法(DreamerV3),以單一固定配置在8大領域、150余項任務中超越專用算法,更在無需人類數據的情況下,首次實現AI從零開始通關《我的世界》鉆石收集任務。這一突破標志著通用RL向現實應用邁出關鍵一步。

DreamerV3的核心架構

Dreamer的核心創新在于其獨特的“世界模型-評論者-行動者(World Model-Critic-Actor)”架構,由三個神經網絡協同工作,通過"想象未來"替代傳統RL的試錯學習:

1. 世界模型將高維感官輸入(如圖像)壓縮為低維表征(Latent Representation),并預測潛在行動的未來狀態和獎勵,其關鍵組件包括編碼器、序列模型和動態預測器。

2. 評論者(Critic):評估想象軌跡的長期價值,采用雙熱分布回歸(Two-hot Regression)處理多模態獎勵。

3. 行動者(Actor):根據世界模型的預測和評論者的評估,基于歸一化回報(Return Normalization)和熵正則化(Entropy Regularization)選擇最優行動以最大化收益。

與傳統RL算法不同,Dreamer完全依賴世界模型生成的抽象軌跡進行決策,而非直接與環境交互。這種設計能夠顯著降低計算成本,同時提高算法的通用性。


圖 1. Dreamer的訓練過程

關鍵技術:提升跨領域穩定性

為實現跨領域魯棒性,DreamerV3引入四項核心技術:

1. Symlog-Symexp變換對輸入和獎勵進行雙對稱對數壓縮,避免極端值干擾

2. KL平衡與自由比特動態調整世界模型的目標函數權重,防止表征崩塌(Collapse)

3. 百分位回報歸一化(Percentile Return Normalization)將回報縮放至[0,1]區間,平衡探索與利用

4. 雙熱損失(Two-hot Loss)將連續值預測轉化為分類問題,可解決多模態分布難題

這些技術共同作用,使DreamerV3在從Atari游戲到機器人控制的跨越中保持超參數不變。


圖 2. 世界模型的視頻預測。



性能驗證:碾壓專用算法

研究團隊從四個維度驗證了Dreamer的性能:

1. 基準測試:全面覆蓋多樣化任務

在包括連續控制(如機器人運動)、離散動作(如游戲操作)、視覺輸入(如像素級決策)等8個領域的150多項任務中,Dreamer的表現與專用算法相當甚至更優。例如,在Atari游戲和機器人控制任務中,Dreamer無需調整即可達到頂尖水平,證明了其泛化能力。


圖 3. 基準測試分數。

2.《我的世界》鉆石挑戰:無人類數據的突破

《我的世界》的鉆石收集任務需要智能體通過復雜的行為鏈(如資源采集、工具制作)達成目標,人類玩家通常需20分鐘完成。此前,AI算法需依賴人類數據(如視頻預訓練VPT)或課程學習,而Dreamer首次在無任何先驗知識的情況下,僅通過1億環境步數(約10小時)成功挖到鉆石,這一成果展示了無監督學習的巨大潛力。


圖 4. 《我的世界》鉆石挑戰的表現。

3. 消融實驗:魯棒性技術的關鍵作用

通過消融研究,團隊驗證了Dreamer各組件的重要性:

  • 世界模型的平衡性:庫爾巴克-萊伯勒(KL)平衡和自由比特技術對穩定訓練至關重要。

  • 無監督目標的主導性:即使屏蔽任務特定獎勵信號,Dreamer仍能通過世界模型的無監督學習實現高效表征。這表明未來可通過互聯網視頻等無監督數據進一步預訓練模型。

4. 擴展性:模型規模與性能的正相關

在Crafter和DMLab任務中,團隊測試了參數規模從1200萬到4億的6個模型。結果顯示,更大的模型和更高的梯度更新次數直接提升了任務性能,同時降低了數據需求。這一發現為通過計算資源擴展提升AI能力提供了明確路徑。


圖 5. 消融和穩健的 Dreamer 規模縮放。

未來方向:從通用模型到通用智能

Dreamer的成功為AI研究開辟了多條新路徑:

  • 跨領域世界模型:訓練單一模型掌握多領域知識,實現真正的通用智能。

  • 無監督預訓練:利用互聯網視頻等海量數據,進一步提升模型的初始能力。

  • 機器人應用:將Dreamer的魯棒性遷移至現實世界的機器人控制任務。

DeepMind的這項研究不僅解決了強化學習的脆性問題,更推動了AI從“專用工具”向“通用助手”的轉變。隨著計算資源的增長和數據利用效率的提升,Dreamer或將成為未來通用人工智能的基石之一。

「AI時代的學習:共探學習的復雜性」主題讀書會

在技術浪潮的沖擊下,智能時代對人才培養的需求正發生根本性轉變——學習已不再局限于簡單的知識傳遞與記憶,當機器能夠替代程式化技能,人類的創造力、批判性思維與跨界協作能力將成為核心競爭力;當知識更新周期以月甚至天為單位迭代,教育的使命不再是填鴨式灌輸,而是培養終身學習者的自適應能力。

在此背景下,集智俱樂部聯合江南大學教授王志軍,北京師范大學教授崔光佐,翼鷗教育創始人宋軍波,TalkingBrain 聯合創始人林思恩,清華大學講師方可,北京師范大學博士后郭玉娟,共同發起。希望通過匯聚教育學、系統科學、腦科學、計算機科學、社會學等多領域交叉視角,突破單一學科的局限,對人類社會未來學習發展形成更加全面深入的認識。


詳情請見:

1.

2.

3.

4.

5.

6.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
為何以前五一放7天,現在卻改成五天還得調休,原來都是他的建議

為何以前五一放7天,現在卻改成五天還得調休,原來都是他的建議

海豚女王
2025-04-27 16:07:50
美女系列 第257期

美女系列 第257期

情感大頭說說
2025-04-29 00:08:12
湖南一女護士與4名男牌友打麻將,深夜,丈夫接她回家,經過一座橋時,女子突然跳橋溺亡

湖南一女護士與4名男牌友打麻將,深夜,丈夫接她回家,經過一座橋時,女子突然跳橋溺亡

喬話
2025-03-18 20:52:55
江蘇省最大跨徑混合梁斜拉橋建成通車

江蘇省最大跨徑混合梁斜拉橋建成通車

環球網資訊
2025-04-28 16:32:03
為啥小公司要慎重用大公司高管?網友:30人以下公司不用人力部門

為啥小公司要慎重用大公司高管?網友:30人以下公司不用人力部門

娛樂圈人物大賞
2025-04-26 00:15:07
為何說他給了NBA的第二種可能?NBA上下近八十年 僅此一位

為何說他給了NBA的第二種可能?NBA上下近八十年 僅此一位

籃球小煙花
2025-04-28 08:00:03
為啥美國人識字率只有79%?網友:中式英語終有一天會成為主流

為啥美國人識字率只有79%?網友:中式英語終有一天會成為主流

娛樂圈人物大賞
2025-04-27 00:20:05
中國造重炮開赴印巴邊境,一眼望不到頭,霹靂15緊急交付巴鐵

中國造重炮開赴印巴邊境,一眼望不到頭,霹靂15緊急交付巴鐵

第一軍情
2025-04-28 15:48:28
24年來首次,新賽季中國圍棋甲級聯賽取消外援

24年來首次,新賽季中國圍棋甲級聯賽取消外援

新京報
2025-04-28 21:01:58
又一架飛機返美,中國開始暫停接收波音飛機,美國每年損失100億

又一架飛機返美,中國開始暫停接收波音飛機,美國每年損失100億

袁周院長
2025-04-27 10:43:11
短短2天,中國2大天才進世錦賽8強 斯佳輝3年2神跡+趙心童贏德比

短短2天,中國2大天才進世錦賽8強 斯佳輝3年2神跡+趙心童贏德比

風過鄉
2025-04-28 23:36:55
京東先人一步開售Dell Pro 16 國補優惠20%后到手3759元起

京東先人一步開售Dell Pro 16 國補優惠20%后到手3759元起

手機中國
2025-04-28 11:26:54
付政浩:遼寧遭遇更絕望潰敗 絕對是隊史最無力最絕望的場次之一

付政浩:遼寧遭遇更絕望潰敗 絕對是隊史最無力最絕望的場次之一

直播吧
2025-04-28 23:17:10
胡錫進曾勸司馬南:把美國的房子賣了吧,咱們一起投身中國股市

胡錫進曾勸司馬南:把美國的房子賣了吧,咱們一起投身中國股市

說歷史的老牢
2025-04-27 11:27:11
黃仁勛在華表態 中方回應:開放大門始終敞開!

黃仁勛在華表態 中方回應:開放大門始終敞開!

看看新聞Knews
2025-04-28 18:39:56
該死的傷病!去年季后賽場均31分,今年場均7分,他還能站起來嗎

該死的傷病!去年季后賽場均31分,今年場均7分,他還能站起來嗎

球毛鬼胎
2025-04-28 19:33:09
若我們這代人不收復臺灣,下代人統一時,或會直接將臺灣打成廢墟

若我們這代人不收復臺灣,下代人統一時,或會直接將臺灣打成廢墟

鳶飛九天
2025-04-03 22:50:06
老婆長得像蘇妲己是啥體驗?網友:毫無安全感,感覺要精神分裂

老婆長得像蘇妲己是啥體驗?網友:毫無安全感,感覺要精神分裂

解讀熱點事件
2025-03-29 00:20:03
樓市起風了,蘇州太燃了,二手房成交均價1.49萬元,環比下跌17%

樓市起風了,蘇州太燃了,二手房成交均價1.49萬元,環比下跌17%

樓市味道
2025-04-28 11:32:30
感謝中國雪中送炭!巴鐵盛贊鷹擊12導彈,已成印度洋“航母殺手”

感謝中國雪中送炭!巴鐵盛贊鷹擊12導彈,已成印度洋“航母殺手”

科羅廖夫
2025-04-28 17:11:33
2025-04-29 01:00:49
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關知識技能
5067文章數 4630關注度
往期回顧 全部

科技要聞

傳騰訊阿里從字節搶購算力資源 字節否認

頭條要聞

中國女子在馬爾代夫遭酒店管家性侵 當事人2年后發聲

頭條要聞

中國女子在馬爾代夫遭酒店管家性侵 當事人2年后發聲

體育要聞

“我們欠球迷一個冠軍慶典,現在可以狂歡了”

娛樂要聞

黃渤青島做東請客 桌上全人情世故

財經要聞

外賣平臺陷入內卷,傷害的是誰?

汽車要聞

東風日產,重新起跑

態度原創

游戲
本地
手機
公開課
軍事航空

國外大佬投稿黑神話妖精美圖未入展 官方補償門票

本地新聞

與重慶超合拍|取景框對準來福士,開機你的電影感之旅

手機要聞

1999 iQOO Z10 Turbo Pro開箱體驗 | 預定爆品?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京宣布將停火72小時

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 嘉兴市| 大丰市| 左权县| 淮阳县| 泽州县| 阿尔山市| 南平市| 清丰县| 海淀区| 乌审旗| 南陵县| 安义县| 许昌市| 武乡县| 镇沅| 老河口市| 资源县| 化州市| 蓝山县| 河南省| 昌邑市| 武义县| 中阳县| 琼中| 遂宁市| 曲松县| 石门县| 巨野县| 贺兰县| 横山县| 孝昌县| 淮安市| 嘉义市| 资中县| 台中市| 渝中区| 高青县| 宣武区| 常山县| 灵宝市| 罗江县|