網易首頁 > 網易號 > 正文申請入駐

Nature：DeepMind新一代Dreamer架構突破強化學習泛化瓶頸

2025-04-08 19:21:08　來源: 集智俱樂部

北京舉報

分享至

摘要

開發一種能夠廣泛學習解決各類任務的通用算法，一直是人工智能領域的根本性挑戰。盡管現有強化學習算法可輕松應用于與其開發目標相似的任務，但要將其配置應用于新領域，仍需耗費大量專業人力進行調試和實驗。本文提出的第三代Dreamer算法，僅憑單一配置就在150多個不同任務中超越了專業算法。該算法通過構建環境模型，并借助對未來情景的推演來優化行為。基于歸一化、平衡和轉換的魯棒性技術，確保了跨領域學習的穩定性。據我們所知，Dreamer是首個無需人類數據或課程設計，僅憑像素輸入和開放世界中稀疏獎勵，就能從零開始采集《我的世界》鉆石的算法——這一成就曾被學術界視為檢驗人工智能能否實現長遠像素級探索的重要挑戰。我們的研究使得無需大量實驗即可解決復雜控制問題，極大拓展了強化學習的應用范圍。

關鍵詞：DeepMind、DreamerV3算法、通用強化學習（General RL）、世界模型（World Model）、《我的世界》（Minecraft）、無監督學習（Unsupervised Learning）、多任務泛化（Multi-task Generalization）

集智編輯部丨作者

論文題目：Mastering diverse control tasks through world models 發表時間：2025年4月2日論文地址：https://www.nature.com/articles/s41586-025-08744-2 期刊名稱：Nature

在人工智能領域，開發一種無需調整超參數即可適應多樣化任務的通用強化學習（RL）算法，一直是研究者追逐的“圣杯”。傳統RL算法（如PPO）需針對不同任務進行繁瑣調參，而專用算法（如MuZero）雖性能卓越卻難以遷移。2025年4月，Google DeepMind在《Nature》發表第三代Dreamer算法（DreamerV3），以單一固定配置在8大領域、150余項任務中超越專用算法，更在無需人類數據的情況下，首次實現AI從零開始通關《我的世界》鉆石收集任務。這一突破標志著通用RL向現實應用邁出關鍵一步。

DreamerV3的核心架構

Dreamer的核心創新在于其獨特的“世界模型-評論者-行動者（World Model-Critic-Actor）”架構，由三個神經網絡協同工作，通過"想象未來"替代傳統RL的試錯學習：

1. 世界模型：將高維感官輸入（如圖像）壓縮為低維表征（Latent Representation），并預測潛在行動的未來狀態和獎勵，其關鍵組件包括編碼器、序列模型和動態預測器。

2. 評論者（Critic）：評估想象軌跡的長期價值，采用雙熱分布回歸（Two-hot Regression）處理多模態獎勵。

3. 行動者（Actor）：根據世界模型的預測和評論者的評估，基于歸一化回報（Return Normalization）和熵正則化（Entropy Regularization）選擇最優行動以最大化收益。

與傳統RL算法不同，Dreamer完全依賴世界模型生成的抽象軌跡進行決策，而非直接與環境交互。這種設計能夠顯著降低計算成本，同時提高算法的通用性。

圖 1. Dreamer的訓練過程

關鍵技術：提升跨領域穩定性

為實現跨領域魯棒性，DreamerV3引入四項核心技術：

1. Symlog-Symexp變換：對輸入和獎勵進行雙對稱對數壓縮，避免極端值干擾

2. KL平衡與自由比特：動態調整世界模型的目標函數權重，防止表征崩塌（Collapse）

3. 百分位回報歸一化（Percentile Return Normalization）：將回報縮放至[0,1]區間，平衡探索與利用

4. 雙熱損失（Two-hot Loss）：將連續值預測轉化為分類問題，可解決多模態分布難題

這些技術共同作用，使DreamerV3在從Atari游戲到機器人控制的跨越中保持超參數不變。

圖 2. 世界模型的視頻預測。

性能驗證：碾壓專用算法

研究團隊從四個維度驗證了Dreamer的性能：

1. 基準測試：全面覆蓋多樣化任務

在包括連續控制（如機器人運動）、離散動作（如游戲操作）、視覺輸入（如像素級決策）等8個領域的150多項任務中，Dreamer的表現與專用算法相當甚至更優。例如，在Atari游戲和機器人控制任務中，Dreamer無需調整即可達到頂尖水平，證明了其泛化能力。

圖 3. 基準測試分數。

2.《我的世界》鉆石挑戰：無人類數據的突破

《我的世界》的鉆石收集任務需要智能體通過復雜的行為鏈（如資源采集、工具制作）達成目標，人類玩家通常需20分鐘完成。此前，AI算法需依賴人類數據（如視頻預訓練VPT）或課程學習，而Dreamer首次在無任何先驗知識的情況下，僅通過1億環境步數（約10小時）成功挖到鉆石，這一成果展示了無監督學習的巨大潛力。

圖 4. 《我的世界》鉆石挑戰的表現。

3. 消融實驗：魯棒性技術的關鍵作用

通過消融研究，團隊驗證了Dreamer各組件的重要性：

世界模型的平衡性：庫爾巴克-萊伯勒（KL）平衡和自由比特技術對穩定訓練至關重要。
無監督目標的主導性：即使屏蔽任務特定獎勵信號，Dreamer仍能通過世界模型的無監督學習實現高效表征。這表明未來可通過互聯網視頻等無監督數據進一步預訓練模型。

4. 擴展性：模型規模與性能的正相關

在Crafter和DMLab任務中，團隊測試了參數規模從1200萬到4億的6個模型。結果顯示，更大的模型和更高的梯度更新次數直接提升了任務性能，同時降低了數據需求。這一發現為通過計算資源擴展提升AI能力提供了明確路徑。

圖 5. 消融和穩健的 Dreamer 規模縮放。

未來方向：從通用模型到通用智能

Dreamer的成功為AI研究開辟了多條新路徑：

跨領域世界模型：訓練單一模型掌握多領域知識，實現真正的通用智能。
無監督預訓練：利用互聯網視頻等海量數據，進一步提升模型的初始能力。
機器人應用：將Dreamer的魯棒性遷移至現實世界的機器人控制任務。

DeepMind的這項研究不僅解決了強化學習的脆性問題，更推動了AI從“專用工具”向“通用助手”的轉變。隨著計算資源的增長和數據利用效率的提升，Dreamer或將成為未來通用人工智能的基石之一。

「AI時代的學習：共探學習的復雜性」主題讀書會

在技術浪潮的沖擊下，智能時代對人才培養的需求正發生根本性轉變——學習已不再局限于簡單的知識傳遞與記憶，當機器能夠替代程式化技能，人類的創造力、批判性思維與跨界協作能力將成為核心競爭力；當知識更新周期以月甚至天為單位迭代，教育的使命不再是填鴨式灌輸，而是培養終身學習者的自適應能力。

在此背景下，集智俱樂部聯合江南大學教授王志軍，北京師范大學教授崔光佐，翼鷗教育創始人宋軍波，TalkingBrain 聯合創始人林思恩，清華大學講師方可，北京師范大學博士后郭玉娟，共同發起。希望通過匯聚教育學、系統科學、腦科學、計算機科學、社會學等多領域交叉視角，突破單一學科的局限，對人類社會未來學習發展形成更加全面深入的認識。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.