99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepMind閉關修煉「我的世界」,自學成才挖鉆登Nature!人類玩家瑟瑟發抖

0
分享至


新智元報道

編輯:定慧 英智

【新智元導讀】谷歌DeepMind研發的DreamerV3實現重大突破:無需任何人類數據,通過強化學習與「世界模型」,自主完成《我的世界》中極具挑戰的鉆石收集任務。該成果被視為通往AGI的一大步,并已登上Nature。

AI又進化了,在沒有任何人類數據的參與下,自己玩《我的世界》還能找到鉆石!

在剛剛登上Nature的論文中,谷歌DeepMind的智能體通過純·自我學習,順利完成了收集鉆石的任務。


論文鏈接:https://www.nature.com/articles/s41586-025-08744-2

對此,DeepMind的計算機科學家Danijar Hafner表示:「Dreamer是一個重要的里程碑,標志著AI又朝著通用人工智能前進了一大步。」

又是AI和《我的世界》,為何這次就成了邁向AGI的一大步

用AI來挑戰《我的世界》早已是AI界「喜聞樂見」的項目了。

作為世界上排名第一且月活超過1億的游戲,《我的世界》可以說是涵蓋了幾乎所有年齡段的人群。

早在兩三年前,包括OpenAI在內的各個模型都有挑戰《我的世界》的嘗試。


更早在2019年,研究人員就認為《我的世界》的開放式游戲環境可能非常適合AI研究。

比如一個七歲的小孩在觀看了10分鐘演示視頻后就能學會如何在游戲中找到稀有的鉆石,而當年的AI還遠遠做不到這一點。


AI從《我的世界》中的一個隨機位置開始,必須完成某些任務來找到鉆石

為何這次DeepMind就敢說是「通向AGI的一大步」呢?

這次的任務——在游戲內尋找鉆石——聽起來容易,但其實非常困難,「高玩」們也要花20-30分鐘才能找到一個鉆石。


給不熟悉游戲的朋友解釋下這個任務為什么這么困難:

1. 每一次的游戲場景都是隨機世界,包含各種地形的虛擬 3D 世界,包括森林、山脈、沙漠和沼澤,這讓AI無法只記住一種特定策略來作弊;

2. 想要獲得鉆石需要經過一系列復雜的前置流程,并不是隨機在地圖尋找,比如你需要:

  • 先找到樹木

  • 然后將樹木分解為木材,木材也僅僅是用來制作一個工作臺

  • 有了工作臺再加上更多的木材你才可以制作一個木頭鎬頭

  • 然后才能開始挖掘以尋找鉆石


鉆石恒久遠,AI不疲倦
AI研究人員專注于在《我的世界》中尋找鉆石,Hafner說因為這需要一系列復雜的步驟,是一個很長的里程碑鏈條,因此它需要非常深入的探索。


DeepMind的Dreamer AI在《我的世界》中進行了多次游戲學習如何收集鉆石

之前的嘗試讓AI系統收集鉆石依賴于使用人類游戲的視頻或研究人員引導系統完成各個步驟。

相比之下,Dreamer通過強化學習的試錯技術自行探索游戲的所有內容——它識別出可能帶來獎勵的動作,重復這些動作并放棄其他動作。

強化學習是一些重大AI進展的基礎,但之前的程序都是專家型的——它們無法從零開始在新領域應用知識。


成功的關鍵是構建「世界模型」

Dreamer成功的關鍵在于它構建了周圍環境的模型,并使用這個世界模型來「想象」未來的情景并指導決策。


就像我們自己的抽象思維一樣,世界模型并不是周圍環境的精確復制品。

世界模型允許Dreamer嘗試不同的事情,「世界模型真正賦予了人工智能系統想象未來的能力」Hafner 說。

這種能力還可能有助于創造能夠在現實世界中學習互動的機器人——在現實世界中,試錯的成本要比在視頻游戲中高得多。

研究團隊一開始并不是奔著「鉆石測試」去研究的,測試Dreamer在鉆石挑戰上的表現是一個事后的想法。

「在構建整個算法時并沒有考慮到這一點」,Hafner 說,但團隊意識到,這是測試其算法是否能夠開箱即用、處理不熟悉任務的理想方式。

在《我的世界》中,團隊使用了一種協議,每當Dreamer完成鉆石收集過程中涉及的12個逐步步驟之一時,就會獲得一個「+1」的獎勵——這些步驟包括制作木板和熔爐、開采鐵礦并鍛造鐵鎬。

這些中間獎勵促使 Dreamer 選擇了更有可能獲得鉆石的動作。團隊每 30 分鐘重置一次游戲,這樣Dreamer就不會適應某個特定的配置——而是學會了獲得更多獎勵的一般規則。

在這種設置下,Dreamer需要連續玩大約九天才能找到至少一顆鉆石。

而高手玩家找到一顆鉆石需要20到30分鐘,新手則需要更長的時間。


在Minecraft中進行鉆石挑戰
游戲中的每一次都設定在一個獨特的隨機生成且無限的三維世界中。 每一次持續到玩家死亡或達到36,000步(相當于30分鐘),根據MineRL競賽提供的動作形成了一個分類動作空間,其中包括抽象的制作動作。


據DeepMind宣稱,Dreamer是第一個在不使用人類數據的情況下從零開始在《我的世界》中收集鉆石的算法。

所有的Dreamer智能體都在一億次步驟內發現了鉆石。所有物品的成功率顯示在圖右擴展數據中。

盡管其他幾個強大的算法(例子中的PPO、Rainbow和IMPALA)進展到了諸如鐵鎬等高級物品,但沒有一個發現鉆石。

Dreamer算法核心原理

Dreamer算法的核心是學習一個世界模型。 這就像是智能體的大腦,讓智能體具備豐富的感知能力,通過想象未來場景來規劃行動。 算法由三個關鍵的神經網絡組成:世界模型、評論家網絡和行動者網絡。 世界模型通過自動編碼學習感官輸入的表示,并通過預測潛在動作的未來表示和獎勵來實現規劃。 將世界模型實現為遞歸狀態空間模型,如圖所示。


評論家網絡則對世界模型預測的每個結果進行價值判斷,評估這個結果對實現目標的幫助有多大。

行動者網絡根據評論家的判斷,選擇能達到最佳結果的行動。

這三個網絡相互協作,在智能體與環境交互的過程中,通過重放經驗同時進行訓練。

在訓練過程中,世界模型的學習至關重要。它要學習從感官輸入中提取有用信息,還要預測未來的狀態和獎勵。

為實現這一目標,世界模型需要最小化預測損失、動態損失和表示損失。


預測損失用于訓練解碼器和獎勵預測器,動態損失訓練序列模型預測下一個表示,表示損失則讓表示更具可預測性。

圖中可視化了世界模型的長期視頻預測。


實驗結果

DeepMind團隊在8個領域的150多個任務中評估Dreamer算法的通用性,包括連續和離散動作、視覺和低維輸入、密集和稀疏獎勵、不同的獎勵尺度、二維和三維世界以及程序生成。


圖中展示了基準測試結果,Dreamer在所有測試中均有更好的表現。


在Atari基準測試中,它能在使用少量計算資源的情況下,超越MuZero算法,也優于Rainbow和IQN算法。

在ProcGen基準測試中,面對隨機生成的關卡和視覺干擾,Dreamer算法在5000萬幀的預算內,超過了經過調優的PPG和Rainbow算法。

在DMLab基準測試里,它在1億幀訓練后,性能超過了IMPALA和R2D2+智能體,數據效率大幅提升。

在Atari100k基準測試中,盡管訓練預算僅為40萬幀,Dreamer算法依然能超越其他方法。

在BSuite基準測試中,它同樣表現出色,在尺度穩健性方面有很大改進。

研究人員進行了消融實驗,結果表明,所有的穩健性技術都有助于提高算法性能。


研究人員還對Dreamer算法的縮放屬性進行了研究。

他們訓練了不同規模的模型,參數從12M到4M。結果發現,擴大模型規模不僅能提高任務性能,還能減少數據需求。

更多的梯度步數也能減少學習成功行為所需的交互次數。這表明Dreamer算法在計算資源增加時,能夠穩健地提升性能,為實際應用提供了更靈活的選擇。

這篇論文是關于訓練一個單一算法,期望其能在多樣化的強化學習任務中表現出色。

在《我的游戲》中尋找鉆石也許僅僅通向AGI之路的第一關。

AI的下一個更大目標是《我的世界》玩家面臨的終極挑戰:擊殺末影龍,這個虛擬世界中最可怕的生物。


參考資料:

https://www.nature.com/articles/d41586-025-01019-w#ref-CR1

https://www.nature.com/articles/s41586-025-08744-2

https://x.com/danijarh/status/1907511182598222095

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一男子取到18萬假鈔,銀行避諱不認,男子的做法直接讓銀行傻眼

一男子取到18萬假鈔,銀行避諱不認,男子的做法直接讓銀行傻眼

秋風專欄
2025-04-07 16:09:02
網友:真是慶幸當初這120萬元,沒有買房,而是存了個定期存款…

網友:真是慶幸當初這120萬元,沒有買房,而是存了個定期存款…

火山詩話
2025-04-07 18:48:11
官方首次披露:周海琦被查,源于一條生活奢靡的問題線索

官方首次披露:周海琦被查,源于一條生活奢靡的問題線索

新京報
2025-04-08 11:12:38
張萌之“大”,榨出不少女人皮裙下面隱藏著的“小”來……

張萌之“大”,榨出不少女人皮裙下面隱藏著的“小”來……

印象逍遙子
2025-04-07 16:11:42
突然反轉了!蘋果開始做出改變,外媒:終究還是頂不住了!

突然反轉了!蘋果開始做出改變,外媒:終究還是頂不住了!

阿矗論古今
2025-04-07 09:35:23
“長期以來,為什么不把實情報告國內?”回答是:“不敢講”

“長期以來,為什么不把實情報告國內?”回答是:“不敢講”

小刀99
2025-04-05 14:57:20
吃著中國飯,詆毀中國文化!700萬網紅遭央視打碼,人設徹底崩塌

吃著中國飯,詆毀中國文化!700萬網紅遭央視打碼,人設徹底崩塌

簡讀視覺
2025-04-07 22:20:53
8毛錢寄一個快遞?人大教授聶輝華怒斥:應該把極兔罰到傾家蕩產

8毛錢寄一個快遞?人大教授聶輝華怒斥:應該把極兔罰到傾家蕩產

訪史
2025-04-07 11:14:48
美國能熬死蘇聯!同樣也能打敗中國?李顯龍說了句實在話,很中肯

美國能熬死蘇聯!同樣也能打敗中國?李顯龍說了句實在話,很中肯

世界風云錄
2024-12-03 22:22:17
窮人的富養是帶娃到處旅游,增長欲望;富人卻教孩子看透世界規則

窮人的富養是帶娃到處旅游,增長欲望;富人卻教孩子看透世界規則

豆芽媽媽育兒
2025-03-12 15:17:38
女演員突然復出多半是離婚了?滿臉憔悴的沈佳妮把朱亞文臉打腫了

女演員突然復出多半是離婚了?滿臉憔悴的沈佳妮把朱亞文臉打腫了

小娛樂悠悠
2025-04-08 10:23:34
男人失戀去西藏旅游,無意撞掉了藏族女孩帽子,導游:你回不去了

男人失戀去西藏旅游,無意撞掉了藏族女孩帽子,導游:你回不去了

城事錄主
2025-04-06 09:30:07
特朗普稱給中國1天時間取消反制!結果不到12小時,中方霸氣回應

特朗普稱給中國1天時間取消反制!結果不到12小時,中方霸氣回應

南南說娛
2025-04-08 11:39:57
貝弗利:詹姆斯可能是當前除奧巴馬外最有影響力的非裔美國人

貝弗利:詹姆斯可能是當前除奧巴馬外最有影響力的非裔美國人

直播吧
2025-04-08 08:00:10
毛新宇被攙扶著回韶山祭祖,高顏值妻女照片流出,一畫面信息量大

毛新宇被攙扶著回韶山祭祖,高顏值妻女照片流出,一畫面信息量大

博士觀察
2025-04-05 20:25:56
訪華請求被中國晾一邊,特朗普坐不住了,火速任命亞太“一把手”

訪華請求被中國晾一邊,特朗普坐不住了,火速任命亞太“一把手”

孜致博覽
2025-04-07 17:54:53
太拼了!錘娜麗莎從180斤狂瘦70斤,判若兩人 顏值比女團期還要高

太拼了!錘娜麗莎從180斤狂瘦70斤,判若兩人 顏值比女團期還要高

滑稽斑馬呀
2025-04-07 22:05:16
熱血!王上源中場喊話:把自己的心思都給我放下 這個家不能黃了

熱血!王上源中場喊話:把自己的心思都給我放下 這個家不能黃了

直播吧
2025-04-07 20:40:11
不可思議!網傳成都一家設計院,居然給法院“發函”指導工作了…

不可思議!網傳成都一家設計院,居然給法院“發函”指導工作了…

火山詩話
2025-04-08 07:43:49
051型驅逐艦退役了,為何海警不要了?退役不是實力衰減而是改變

051型驅逐艦退役了,為何海警不要了?退役不是實力衰減而是改變

Hi秒懂科普
2025-04-07 12:00:07
2025-04-08 13:39:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12489文章數 66006關注度
往期回顧 全部

科技要聞

iPhone在美會賣2萬元上嗎?在中國會漲價嗎

頭條要聞

牛彈琴:對美關稅反制我們得到最新消息 中方準備6大招

頭條要聞

牛彈琴:對美關稅反制我們得到最新消息 中方準備6大招

體育要聞

極限一穿四,他把韓國主場打到靜音

娛樂要聞

尷尬!甲亢哥想聯動大張偉,卻被迫錄節目

財經要聞

"中國版平準基金"橫空出世 央行表態

汽車要聞

一季度車企銷量:下沉與上行,覺醒與迷惘

態度原創

時尚
手機
健康
數碼
本地

別再披頭散發了!今春流行“奶奶發飾”,好看巨顯臉小

手機要聞

摩托羅拉 Edge 60新宣傳圖片曝光 更多細節泄露

在中國,到底哪些人在吃“偉哥”?

數碼要聞

華為FreeBuds 6體驗:舒適與音質齊升,鴻蒙用戶不二之選

本地新聞

我在新昌當女主|大佛寺氛圍感拉滿 古偶頂流機位GET

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 织金县| 卢氏县| 台中县| 祥云县| 磐安县| 恩平市| 石家庄市| 怀来县| 临湘市| 罗定市| 当阳市| 承德县| 永川市| 杭锦后旗| 汽车| 莱阳市| 额尔古纳市| 江山市| 汕头市| 新郑市| 保德县| 鸡泽县| 晋江市| 隆昌县| 大同市| 安乡县| 巢湖市| 绥棱县| 小金县| 怀宁县| 武定县| 秀山| 峡江县| 仙桃市| 湖南省| 综艺| 威宁| 富蕴县| 德昌县| 随州市| 罗山县|