網易首頁 > 網易號 > 正文申請入駐

Nature重磅：DeepMind AI又一重大突破，1次配置解決150種多任務

2025-04-03 08:50:54　來源: 學術頭條

北京舉報

分享至

只需使用一種通用算法，就可以解決來自各個應用領域的各種任務，一直是人工智能（AI）行業的基本挑戰之一。

如今，Google DeepMind 在這一方向取得了新的突破。

他們開發的第三代 Dreamer 通用算法，只需一次配置，就能在 150 多種不同任務中勝過專用方法。

據介紹，Dreamer 是第一個在沒有人類數據或課程的情況下，從零開始在《我的世界》中收集鉆石的算法，可以在不進行大量實驗的情況下，解決具有挑戰性的控制問題，使強化學習具有更廣泛的適用性。

相關研究論文以

Mastering diverse control tasks through world models

為題，于今日發布在權威科學期刊

Nature

上。

Dreamer 是怎樣煉成的？

目前的強化學習算法可以很容易地應用于與之相似的任務，但將其應用于新的應用領域則需要大量的人類專業知識和實驗。更專業的算法通常用于實現更高的性能，針對不同應用領域提出的獨特挑戰，如連續控制、離散動作解析獎勵、圖像輸入、空間環境和棋盤游戲。

將強化學習算法應用于全新的任務，例如從視頻游戲轉向機器人任務需要大量的精力、專業知識和計算資源來調整算法的超參數。這種脆性成為將強化學習應用于新問題的瓶頸，同時也限制了強化學習在計算昂貴的模型或任務中的適用性。

創建一種無需重新配置就能掌握新領域的通用算法，一直是人工智能領域的核心挑戰，它將為強化學習帶來廣泛的實際應用。

Google DeepMind 提出的第三代 Dreamer 算法實現了這一突破。

據介紹，Dreamer 由 3 個神經網絡組成：世界模型預測潛在行動的結果，評論者判斷每個結果的價值，行動者選擇行動以達到最有價值的結果。

圖｜Dreamer 的訓練過程

當行動者與環境互動時，這 3 個部分會根據重放的經驗同時進行訓練。要在不同領域取得成功，3 個部分都需要適應不同的信號幅度，并在其目標中魯棒地平衡各項條件。

世界模型通過自動編碼學習感官輸入的緊湊表征，并通過預測潛在行動的未來表征和獎勵來實現規劃。行動者和評論者神經網絡純粹從世界模型預測的抽象軌跡表征中學習行為。行動者在探索過程中通過熵正則學習選擇收益最大化的行動。

Dreamer 使用 symlog 函數對編碼器輸入和解碼器目標進行向量觀測轉換，并對獎勵預測器和批評器采用 synexp 雙熱損失。這些技術可以在許多不同領域實現魯棒且快速的學習。

效果怎么樣？

在固定超參數下，研究團隊從基準、《我的世界》、消融、擴展性 4 個角度評估了Dreamer 在 8 個領域、超過 150 項任務的通用性。

他們首先進行了廣泛的實證研究來評估基準，包括連續和離散動作、視覺和低維輸入、密集和稀疏獎勵、不同獎勵尺度、二維和三維世界以及程序生成。

結果發現，在適用的領域中，Dreamer 可以和最好的專用算法相媲美，甚至表現更好，無論它們是否基于模型。

圖｜基準分數

《我的世界》是在一個獨特的隨機生成的無限三維世界中進行的。在此期間，玩家需要通過尋找資源和制作工具，從稀少的獎勵中發現一連串的 12 種物品。有經驗的人類玩家大約需要 20 分鐘才能獲得鉆石。

Dreamer 是第一個從零開始在《我的世界》中收集鉆石的算法，不像 VPT （視頻預訓練）或自適應課程要求使用人工數據，這實現了 AI 領域的一個重要突破。所有 Dreamer 智能體都在 1 億個環境步數內發現鉆石。

圖｜Dreamer在《我的世界》鉆石挑戰中的表現

在消融方面，他們在 14 個任務的不同集合上消融了魯棒性技術和學習信號，發現所有魯棒性技術都有助于提高性能，其中最顯著的是世界模型目標的庫爾巴克-萊伯勒平衡和自由比特，其次是返回歸一化和用于獎勵和價值預測的 symexp 雙熱回歸。

為了研究世界模型的影響，他們消除了 Dreamer 的學習信號，方法是阻止特定任務的獎勵和價值預測梯度或與任務無關的重構梯度塑造其表征。

以往的強化學習算法通常只依賴于特定任務的學習信號，而 Dreamer 則主要依賴于其世界模型的無監督目標。這為未來利用無監督數據進行預訓練的算法變體提供了可能。

圖｜Dreamer 的消融

在擴展性方面，他們在 Crafter 和 DMLab 任務上訓練了參數從 1200 萬到 4 億不等的 6 個模型，并采用了不同的重放比例，這會影響智能體執行梯度更新的次數。增加模型大小可直接轉化為更高的任務性能和更低的數據要求，梯度步數的增加進一步減少了學習成功行為所需的交互。

結果顯示，Dreamer 能在不同的模型大小和重放比例下穩健地學習，這為通過擴展計算資源來提高性能提供了一種可預測的方法。

圖｜Dreamer 的魯棒擴展

作為一種基于學習世界模型的高性能算法，Dreamer 為未來的研究方向鋪平了道路，包括從互聯網視頻中向智能體傳授世界知識，以及跨領域學習單一世界模型，讓智能體積累越來越多的通用知識和能力。

作者：與可

如需轉載或投稿，請直接在公眾號內留言

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.