99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Nature重磅:DeepMind AI又一重大突破,1次配置解決150種多任務

0
分享至


只需使用一種通用算法,就可以解決來自各個應用領域的各種任務,一直是人工智能(AI)行業的基本挑戰之一。

如今,Google DeepMind 在這一方向取得了新的突破。

他們開發的第三代 Dreamer 通用算法,只需一次配置,就能在 150 多種不同任務中勝過專用方法。

據介紹,Dreamer 是第一個在沒有人類數據或課程的情況下,從零開始在《我的世界》中收集鉆石的算法,可以在不進行大量實驗的情況下,解決具有挑戰性的控制問題,使強化學習具有更廣泛的適用性。

相關研究論文以

Mastering diverse control tasks through world models
為題,于今日發布在權威科學期刊
Nature
上。


Dreamer 是怎樣煉成的?

目前的強化學習算法可以很容易地應用于與之相似的任務,但將其應用于新的應用領域則需要大量的人類專業知識和實驗。更專業的算法通常用于實現更高的性能,針對不同應用領域提出的獨特挑戰,如連續控制、離散動作解析獎勵、圖像輸入、空間環境和棋盤游戲

將強化學習算法應用于全新的任務,例如從視頻游戲轉向機器人任務需要大量的精力、專業知識和計算資源來調整算法的超參數。這種脆性成為將強化學習應用于新問題的瓶頸,同時也限制了強化學習在計算昂貴的模型或任務中的適用性。

創建一種無需重新配置就能掌握新領域的通用算法,一直是人工智能領域的核心挑戰,它將為強化學習帶來廣泛的實際應用。

Google DeepMind 提出的第三代 Dreamer 算法實現了這一突破。

據介紹,Dreamer 由 3 個神經網絡組成:世界模型預測潛在行動的結果,評論者判斷每個結果的價值,行動者選擇行動以達到最有價值的結果。


圖|Dreamer 的訓練過程

行動者與環境互動時,這 3 個部分會根據重放的經驗同時進行訓練。要在不同領域取得成功,3 個部分都需要適應不同的信號幅度,并在其目標中魯棒地平衡各項條件。

世界模型通過自動編碼學習感官輸入的緊湊表征,并通過預測潛在行動的未來表征和獎勵來實現規劃。行動者評論者神經網絡純粹從世界模型預測的抽象軌跡表征中學習行為。行動在探索過程中通過熵正則學習選擇收益最大化的行動。

Dreamer 使用 symlog 函數對編碼器輸入和解碼器目標進行向量觀測轉換,并對獎勵預測器和批評器采用 synexp 雙熱損失。這些技術可以在許多不同領域實現魯棒且快速的學習。

效果怎么樣?

在固定超參數下,研究團隊從基準、《我的世界》、消融、擴展性 4 個角度評估了Dreamer 在 8 個領域、超過 150 項任務的通用性。

他們首先進行了廣泛的實證研究來評估基準,包括連續和離散動作、視覺和低維輸入、密集和稀疏獎勵、不同獎勵尺度、二維和三維世界以及程序生成。

結果發現,在適用的領域中,Dreamer 可以和最好的專用算法相媲美,甚至表現更好,無論它們是否基于模型。


圖|基準分數

《我的世界》是在一個獨特的隨機生成的無限三維世界中進行的。在此期間,玩家需要通過尋找資源和制作工具,從稀少的獎勵中發現一連串的 12 種物品。有經驗的人類玩家大約需要 20 分鐘才能獲得鉆石。

Dreamer 是第一個從零開始在《我的世界》中收集鉆石的算法,不像 VPT (視頻預訓練)或自適應課程要求使用人工數據,這實現了 AI 領域的一個重要突破。所有 Dreamer 智能體都在 1 億個環境步數內發現鉆石。


圖|Dreamer在《我的世界》鉆石挑戰中的表現

在消融方面,他們在 14 個任務的不同集合上消融了魯棒性技術和學習信號,發現所有魯棒性技術都有助于提高性能,其中最顯著的是世界模型目標的庫爾巴克-萊伯勒平衡和自由比特,其次是返回歸一化和用于獎勵和價值預測的 symexp 雙熱回歸。

為了研究世界模型的影響,他們消除了 Dreamer 的學習信號,方法是阻止特定任務的獎勵和價值預測梯度或與任務無關的重構梯度塑造其表征。

以往的強化學習算法通常只依賴于特定任務的學習信號,而 Dreamer 則主要依賴于其世界模型的無監督目標。這為未來利用無監督數據進行預訓練的算法變體提供了可能。


圖|Dreamer 的消融

在擴展性方面,他們在 CrafterDMLab 任務上訓練了參數從 1200 萬到 4 億不等的 6 個模型,并采用了不同的重放比例,這會影響智能體執行梯度更新的次數。增加模型大小可直接轉化為更高的任務性能和更低的數據要求,梯度步數的增加進一步減少了學習成功行為所需的交互。

結果顯示,Dreamer 能在不同的模型大小和重放比例下穩健地學習,這為通過擴展計算資源來提高性能提供了一種可預測的方法。


圖|Dreamer 的魯棒擴展

作為一種基于學習世界模型的高性能算法,Dreamer 為未來的研究方向鋪平了道路,包括從互聯網視頻中向智能體傳授世界知識,以及跨領域學習單一世界模型,讓智能體積累越來越多的通用知識和能力。

作者:與可

如需轉載或投稿,請直接在公眾號內留言

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今年最不景氣的行業是啥?網友:今年性病患者都減少了四成

今年最不景氣的行業是啥?網友:今年性病患者都減少了四成

解讀熱點事件
2025-04-27 00:15:05
李嫣現身謝霆鋒演唱會,還染了黃頭發超時尚,現場不停給繼父拍照

李嫣現身謝霆鋒演唱會,還染了黃頭發超時尚,現場不停給繼父拍照

點點細語
2025-04-26 10:30:48
女生穿瑜伽褲,到底是什么心理?原因太真實了!

女生穿瑜伽褲,到底是什么心理?原因太真實了!

健身S叔
2025-03-22 18:09:52
日本74歲大爺墜入道路塌陷深坑,至今89天未獲救,民眾已懷疑大爺是否真實存在

日本74歲大爺墜入道路塌陷深坑,至今89天未獲救,民眾已懷疑大爺是否真實存在

西游日記
2025-04-26 12:56:07
王勵勤上任!第一個離隊的教練曝光,王皓馬琳去留懸念揭曉

王勵勤上任!第一個離隊的教練曝光,王皓馬琳去留懸念揭曉

體育就你秀
2025-04-26 09:00:58
重口供輕證據其實就是法律的倒退!

重口供輕證據其實就是法律的倒退!

逍遙論經
2025-04-21 04:48:04
張維迎:關稅最終由誰買單?

張維迎:關稅最終由誰買單?

尚曦讀史
2025-04-26 07:59:15
痛心!廣東玩具廠老板娘去世,長相漂亮與丈夫打拼18年,育有2娃

痛心!廣東玩具廠老板娘去世,長相漂亮與丈夫打拼18年,育有2娃

博覽歷史
2025-04-26 13:17:10
東莞20年:玩具廠堪稱“女兒國”,遍地都是露水姻緣

東莞20年:玩具廠堪稱“女兒國”,遍地都是露水姻緣

農村情感故事
2025-04-10 21:16:17
太可惡了!印度未經事先通知突然泄洪,導致巴基斯坦下游爆發洪水

太可惡了!印度未經事先通知突然泄洪,導致巴基斯坦下游爆發洪水

頭條爆料007
2025-04-26 22:56:40
海關總署:4月22日起,允許符合相關要求的阿根廷牛黃進口

海關總署:4月22日起,允許符合相關要求的阿根廷牛黃進口

每日經濟新聞
2025-04-26 21:57:06
缺席奪冠戰?球迷熱議凱恩:魔咒太狠了,好萊塢編劇也寫不出這事

缺席奪冠戰?球迷熱議凱恩:魔咒太狠了,好萊塢編劇也寫不出這事

直播吧
2025-04-26 23:54:22
全球最大拉鏈制造商YKK研發自驅動拉鏈系統:內置電機,一鍵遙控

全球最大拉鏈制造商YKK研發自驅動拉鏈系統:內置電機,一鍵遙控

IT之家
2025-04-26 08:05:09
被放倒,孫銘徽鄢手騏沖突原因找到,慢鏡回放,誰注意楊鳴舉動

被放倒,孫銘徽鄢手騏沖突原因找到,慢鏡回放,誰注意楊鳴舉動

樂聊球
2025-04-26 21:06:11
1-0!9.2億豪門5輪不敗重返前4 英超歐冠席位戰:第3到第6只差2分

1-0!9.2億豪門5輪不敗重返前4 英超歐冠席位戰:第3到第6只差2分

狍子歪解體壇
2025-04-26 21:31:39
逾20萬人參與!示威群眾嗆賴清德下臺,人潮碾壓綠營“419游行”

逾20萬人參與!示威群眾嗆賴清德下臺,人潮碾壓綠營“419游行”

海峽導報社
2025-04-26 16:38:06
金掃帚獎出爐,包貝爾意外獲“影帝”,這次是否還會炮轟主辦方?

金掃帚獎出爐,包貝爾意外獲“影帝”,這次是否還會炮轟主辦方?

情感大頭說說
2025-04-26 01:22:05
22點和23點睡覺,差距到底有多大?

22點和23點睡覺,差距到底有多大?

環球網資訊
2025-04-08 21:33:09
水瀨放題回收食材重新利用?門店回應,天河區市場監管局介入

水瀨放題回收食材重新利用?門店回應,天河區市場監管局介入

南方都市報
2025-04-26 16:46:29
每體:皇馬vs巴薩半場4次爭議判罰,瓊阿梅尼剪刀腳鏟奧爾莫逃紅

每體:皇馬vs巴薩半場4次爭議判罰,瓊阿梅尼剪刀腳鏟奧爾莫逃紅

直播吧
2025-04-27 05:34:53
2025-04-27 07:51:01
學術頭條
學術頭條
致力于學術傳播和科學普及,重點關注人工智能、生命科學等前沿科學進展。
1247文章數 5069關注度
往期回顧 全部

科技要聞

賈躍亭:FF市值到百億美元能基本還完中國債務

頭條要聞

日本執政黨要員接連訪華 學者:對外釋放的信息很特殊

頭條要聞

日本執政黨要員接連訪華 學者:對外釋放的信息很特殊

體育要聞

84分鐘扳平+加時絕殺!巴薩賽季3殺皇馬,32次問鼎國王杯歷史第1

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

游戲
健康
數碼
旅游
軍事航空

夢幻西游:出了雙固傷玉魄卻難過,口袋版成刷80級環裝首選

唇皰疹和口腔潰瘍是"同伙"嗎?

數碼要聞

大疆 Mavic 4 Pro 無人機被曝5月13日發布,4/3一億像素哈蘇 CMOS

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

巴基斯坦總理:堅決反擊侵害巴水資源的行徑

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 讷河市| 巫溪县| 大渡口区| 南宁市| 和田市| 岑巩县| 吉林市| 宝应县| 喀喇沁旗| 微博| 贵定县| 那曲县| 奎屯市| 辽宁省| 凤台县| 淅川县| 田林县| 晴隆县| 青海省| 罗山县| 昌宁县| 南投县| 保德县| 永胜县| 贵州省| 昆明市| 万盛区| 东莞市| 宁乡县| 嘉鱼县| 自贡市| 长垣县| 太湖县| 博罗县| 安新县| 防城港市| 无棣县| 松阳县| 碌曲县| 图们市| 固阳县|