如果你曾在夜幕降臨時,慌忙圍出一塊勉強能放下一張床的木屋,躲避午夜里徘徊的怪物;如果你曾在那片方塊拼接的世界里,復現從自家校園到逶迤阿房的一切建筑;如果你曾沿著蜿蜒的礦道深挖,只為追尋巖漿洞穴里那抹耀眼的藍綠色……那么,你一定懂得《我的世界》(Minecraft)的魅力!
AI能否找到鉆石?
Minecraft這款沙盒游戲是許多90、00后的共同記憶。它沒有炫目的光影渲染,也沒有峰回路轉的劇情,卻承載著無數玩家的冒險與創造。僅僅是方塊便堆砌起山川與河流,孕育出奇珍異寶,滋生了夜色中的怪物……
每個新開檔的世界都是一張白紙,等待著玩家盡情涂抹想象。在創造模式里,玩家可以在山谷里建起宏偉的城堡,也能挖通屬于自己的縱橫交錯的地鐵網絡;在生存模式里,從砍下第一棵樹開始,我們的“史蒂夫”便需要摸索出一條漫長的求生之旅,學會制作工具、搭建庇護所、獵取食物,找到最閃耀的鉆石。
這一切,似乎是再普通不過的沙盒游戲玩法。可如果換成一個AI,它真的能像人類一樣去學習、規劃、探索,建立起自己的世界地圖,最終找到鉆石嗎?
起初,人們并沒有把“玩好《我的世界》這樣的開放世界游戲”當作AI的目標。畢竟,AI在更“正經”的游戲里早已大放異彩——它能在圍棋中戰勝頂級棋手,也能在《Dota2》里讓職業高手潰不成軍。但這些策略型游戲的規則是相對固定的,目標也相對明確,AI只需要計算出最優解,就能輕松取勝。
《我的世界》卻不一樣——這里沒有清晰的游戲目標,也沒有固定的玩法,甚至地圖都是隨機種子生成的,每次進入都是全新的挑戰。在一個新世界里,熟悉《我的世界》的人類玩家可以憑借直覺、經驗和創造力去適應環境,那么AI呢?這些總是依賴于目標損失函數學習的家伙,真的能在這個無限開放的世界里“活下去”嗎?
早在2019年,就有人決定讓AI玩《我的世界》試試看。Facebook推出了CraftAssist Bot[1],讓AI能在游戲里執行人類指令,比如建造房屋、馴服動物、和村民交易。同年,CMU、微軟、DeepMind、OpenAI等機構也聯合發起了MineRL大賽[2],嘗試將互聯網視覺數據融入《我的世界》的技能學習中,探索超越傳統強化學習方法的路徑。
mineRL的目標很簡單——讓AI在游戲里成功挖到鉆石。聽起來好像沒什么難度?但現實狠狠地教育了研究人員:900多個頂尖團隊傾盡全力,竟沒有一個AI成功拿到鉆石。在實驗中,這些智能體(agent)不能像新手玩家那樣直接尋找攻略,而是得從最基礎的采集木頭、合成工具開始,深入黑暗的地底,一步步摸索通往鉆石的路徑。
然而,在沒有人類經驗可供借鑒的情況下,這些AI在比賽過程中冒出了許多令人哭笑不得的錯誤——有的砍樹砍得不亦樂乎,卻完全不懂得如何合成斧頭;有的好不容易造出了熔爐,卻壓根不知道要把礦石放進去;還有一些倒是學會了挖礦,但它們選擇了最“直截了當”的方法——垂直往下挖,結果一頭栽進了巖漿里,把可憐的史蒂夫活活燒死了。
這聽上去像是一場荒唐的鬧劇,但事實上,mineRL恰恰揭示了AI在面對開放世界時的困境——它不像人類那樣擁有豐富的常識和直覺,而是必須從零開始,一步步推導出世界的運行規則,并在其中尋找最優解。
這也正是《我的世界》與眾不同的地方:它不僅僅是一個游戲,更是一個濃縮了“真實世界”特質的小宇宙:考驗的不只是操作技巧,還有對環境的理解、對資源的管理、對長遠目標的規劃。這些能力,正是人類智慧的體現,也是通用人工智能(AGI)未來必須攻克的核心技能。
來自強化學習的外掛
在此過程中,強化學習(Reinforcement Learning,RL)逐漸成為成為AI在《我的世界》中取得突破的關鍵。
強化學習的原理并不復雜:AI就像一個真正的小白玩家,通過與環境不斷互動來獲得反饋。當AI做出正確決策時,它會得到獎勵;當決策不當,它也會受到懲罰。如此反復,它的策略會在試錯中不斷進化。就像新手玩家一邊挖礦、一邊拼湊著木棍和石塊,慢慢學會如何合成工具,如何規劃行動路線,如何應對潛伏在暗處的怪物。隨著時間的推移,AI逐漸能夠更有效地探索地圖,學會管理資源、打造裝備,乃至執行更復雜的長期任務。相比傳統“按部就班”的AI系統,強化學習賦予AI某種“適應”能力,讓它不再只會照本宣科,而是能根據環境做出靈活決策。
作為一款以第一人稱視角展開、具有高度自由度的開放式視頻游戲,《我的世界》憑借其獨特的游戲結構,成為了強化學習研究中的理想平臺。與傳統電子游戲相比,《我的世界》并沒有明確的通關目標或預設路線,而是鼓勵玩家在一個幾乎無限的虛擬世界中自主探索、建造和生存。
這種稀疏獎勵的機制——即,玩家只有在完成特定復雜任務或達成自定義目標時才會獲得明確反饋——更貼近現實環境中智能體所面臨的學習挑戰。其龐大的空間尺度和可持續發展的世界設定,為訓練智能體在長期任務中學習規劃、策略制定和適應性提供了豐富場景。正因為如此,《我的世界》不僅能模擬復雜的感知-行動循環,還能支持多層次、多階段的任務設計,使其在強化學習尤其是通用智能體訓練領域中具有非常廣泛的應用潛力。
自從Malmo模擬器發布以來,研究人員便嘗試了多種方法來訓練智能體在《我的世界》中完成各種任務。這些方法包括基于模型的強化學習、分層強化學習、基于目標的強化學習以及獎勵塑造等等。
當AI變成Steam牢玩家
隨著大語言模型(LLM)如GPT-4的出現,新的研究方向開始浮現。研究者發現,LLM能夠充當“游戲智囊團”:它們基于互聯網大數據所學習到的文本信息,能為AI在游戲世界中的行為提供更成熟的任務規劃和技能順序安排。換言之,如果說強化學習讓AI學會“怎么做”,那么LLM則能幫AI思考“為什么做”,以及“先做什么,再做什么”。在這些研究中,智能體從完全的游戲小白變成了Steam庫上百的牢玩家,既能統籌所需技能,又能反思游戲環境帶來的變化,從而一步步逼近最終目標(挖掘鉆石)。
然而,這些研究仍面臨一個棘手的問題——數據往往十分稀缺,尤其是在需要人類示范或注釋的情況下。為了解決這一瓶頸,MineCLIP項目提出了用來自YouTube的73萬個沒有動作標簽的旁白視頻作為額外資源,訓練視覺語言模型,為智能體提供輔助獎勵信號,讓它們可以汲取互聯網豐富的非結構化數據,將其轉化為有效的游戲知識庫。
在科學家們不斷改進AI模型的過程中,AI在《我的世界》里的表現也逐漸進化。2022年,騰訊AILab的“絕悟”[3]以絕對優勢拿下當時的MineRL冠軍,首次證明了AI能夠在這一開放世界游戲中取得“像模像樣”的成績。
緊接著,2023年,OpenAI用“視頻預訓練”(VPT)技術[4],通過投喂70,000小時的含標記的網絡視頻,使用逆動態模型進行訓練,進而進行行為克隆,讓它學會了人類玩家的復雜操作,比如高效采集資源、制作工具,甚至還能自己規劃行動。
2024年,DeepMind的DreamerV3[5]實現了近乎真正的自主探索——它沒有看任何人類數據,完全靠自己摸索,僅用17天就完成了MineRL挑戰,成了首個能“自力更生”挖到鉆石的AI。
AI在《我的世界》中的征程遠未結束。時間來到2025年2月,DeepMind2最新研究[6]又一次刷新了認知邊界,他們讓AI不僅能在游戲世界里生存下去,還能超越人類的操作水平。
總體來說,研究者在二維版《我的世界》——Craftax-classic環境——中打造的強化學習智能體,不僅能規劃、探索,還能在有限的交互數據下高效學習,并逐漸掌握高效的生存之道,最終超越了人類“牢玩家”的成績。
?Craftax example [7]
這背后的關鍵是基于模型的強化學習(MBRL)和Transformer世界模型(TWM)的結合。在以往的MBRL模型中,基于數據的策略性學習效率仍然是一個關鍵挑戰,特別是在需要大量交互的復雜環境中,往往需要海量的學習范例才能構建起一張內化的“認知地圖”。
只靠想象推演能行嗎?
近年來,像IRIS(Micheli, 2022)和DreamerV3(Hafner, 2023)這樣的MBRL方法,已經展示了在游戲和機器人等任務中的強大能力。但它們主要依賴于世界模型生成的想象軌跡(imagined trajectories)進行策略訓練,完全舍棄了真實環境中的數據。
不過,Deepmind Kevin Murphy團隊的最新研究卻給“純想象”的道路潑了一盆冷水。他們發現,如果完全放棄真實數據,AI可能會變得“閉門造車”,缺乏對真實世界的適應能力。因此他們提出了一種新型架構,將世界模型融合到強化學習,讓智能體像圍棋高手一樣,在正式“落子”前先在腦海中推演對局細節。如此一來,AI 不需要每一次都在真實環境里試錯,從而縮小了策略空間,也能預判未來的發展,并以更高效率做出決策。這意味著AI不再是單純的“試錯機器”,而是擁有了某種程度的“想象力”。
事實上,早在1990年,研究者就提出了Dyna 方法(ref),將世界模型引入強化學習[8]。其核心思想是:先讓智能體在真實環境中與環境交互并收集數據;再將這些數據用于更新策略和訓練世界模型,使世界模型能夠準確模擬環境的動態變化;最終讓智能體在世界模型生成的模擬環境中進行額外的策略訓練,從而減少對真實交互的需求,提高數據利用效率。
Dyna方法的提出,標志著強化學習從完全依賴真實數據(無模型強化學習)向利用模擬數據(基于模型的強化學習)邁出了重要的一步。然而,近些年來,一些MBRL方法(如IRIS和DreamerV3)過度依賴模擬軌跡,忽視了真實數據的珍貴價值,導致AI在虛擬中風光無限,卻在現實里頻頻失利。
如何超越人類,
在《我的世界》封神?
針對這一問題,DeepMind的最新突破,提出了一系列關鍵改進,通過一種結合真實數據和模擬數據的新方法,在多個方面對世界模型進行了優化。
(1)同時利用真實數據和想象軌跡
正如我們之前所說,許多MBRL方法僅在世界模型生成的想象軌跡上訓練策略,完全不使用真實環境數據。這種做法的問題在于,如果世界模型本身的誤差較大,策略就可能過度適應模擬環境,而在真實環境中的表現較差(即“模擬-現實差距”問題)。為了解決這一問題,Deepmind團隊的新方法回歸到Dyna框架,通過同時使用真實數據和模擬數據進行訓練,以提高策略的泛化能力。這種方法不僅能利用真實數據提高策略的可靠性,還能借助世界模型生成的數據提高訓練效率。
(2) 優化視覺信息的離散化編碼,提高世界模型的學習效率
在MBRL方法中,世界模型需要將環境的視覺信息(如游戲畫面)轉換為計算機可以處理的離散表示(discretere presentations),這一過程稱為令牌化(tokenization)。過去的方法,如IRIS和DART(Agarwaletal.,2024),主要采用矢量量化變分自編碼器(Vector Quantized Variational Autoencoder, VQ-VAE)。其過程如下:
先用卷積神經網絡(CNN)提取圖像特征;
再使用離散向量庫(codebook)將特征映射為固定數量的離散令牌;
最終,世界模型使用這些令牌來預測環境狀態的變化。
然而,VQ-VAE存在一個問題:離散向量庫的含義會隨著訓練不斷變化,導致世界模型的學習難度增加。為了解決這個問題,研究者提出了兩個改進:
基于圖像塊(patch-based)進行獨立令牌化:與其對整張圖像進行一次性量化,先將圖像劃分為多個小塊(patches),然后分別進行令牌化。這種方法使世界模型能夠更精細地理解局部信息,提高對復雜視覺輸入的建模能力。
采用最近鄰令牌化器(Nearest-Neighbor Tokenizer, NNT)替代VQ-VAE:NNT具有更穩定的離散向量庫,不會在訓練過程中動態變化,從而降低了世界模型的學習難度,提高建模精度。
這種優化使得世界模型在處理視覺信息時更加高效,減少了由于編碼不穩定帶來的誤差累積。
(3)更高效的訓練方法——塊式教師強制(BTF)
目前,大多數世界模型的訓練采用自回歸方法,即按照時間順序逐步預測環境的未來狀態。然而,這種方式存在兩個問題:(1)采樣效率低:每一步預測依賴于上一時刻的輸出,導致訓練速度較慢;(2)誤差累積:如果某一步預測出錯,后續所有預測都會受到影響。
為了解決這個問題,研究者提出了一種新的訓練方法,稱為塊式教師強制(Block Teacher Forcing, BTF)。其核心思想是:讓世界模型在生成令牌前,先整體推理所有可能的未來狀態,再并行采樣所有令牌,而不是逐步生成。這種方法類似于寫文章時,先想好整篇文章的大綱,再動筆寫每一部分,而不是逐句即興發揮。實驗表明,BTF使得訓練速度更快,生成的想象軌跡更準確,從而提升了策略優化的效率。
在Craftax-classic環境的實驗中,這些改進一步步帶來了顯著的分數攀升。起初的基線方法(MBRL)只拿到31.93%的獎勵值;基線方法+Dyna訓練,將真實環境與虛擬環境相結合,獎勵值提高至43.36%;再將輸入的圖像分割成多個小塊(patches),然后對每個小塊進行獨立處理,則達到了58.92%,在此基礎上,采用了NNT來替代傳統的VQ-VAE方法,獎勵值64.96%;最后集合所有技術,并利用上塊級教師強制,將獎勵值沖到67.42%。訓練時間還腰斬了一半。與其他高級MBRL或MFRL 方法相比,這套方案輕松拔得頭籌。
更重要的是,這款AI在多人評測對戰中戰勝了人類高手,成為首個超越人類表現的智能體(“人類表現”數據是基于5位專家玩家在100場游戲中的表現統計而得出的(Hafner,2021))。這個結果證明,RL AI不僅能自主學習,還能在高度復雜的環境中做出比人類更優的決策。
考慮到《我的世界》并非一個單純的游戲,而是一個近乎真實的虛擬生態系統。它就像一個微縮的真實世界,玩家要面對資源短缺、環境探索、目標規劃等重重挑戰。所以,當AI在這里闖出名堂時,它學到的絕不止是“挖鉆石”的小技巧,而是如何理解世界、制定策略、應對變化——真正的高層次智慧。
從最初連最基本的生存都難以維持,到如今能夠自主規劃行動,高效地挖掘鉆石;從模仿人類玩家的操作風格,到實現超越人類玩家的更優探索策略,這一連串令人驚嘆的進步讓人不禁遐想——或許有一天,AI真的可以像人類一樣,在這個無限廣闊的像素世界里自由探索、創造,成為某個數字宇宙里的創世神。
后記
我之所以寫下這個話題,源自哈佛BCS Neurolunch上聽到Kempner fellow Wilka Carvalho的talk。他基于preplay的RL方法在空間導航任務方面比目前的SOTA,Deepmind2025新發布的Dyna-based MBRL,更接近人類行為(由于是未發表工作,我在網絡上沒有找到具體的文章和細節)。身為一名《我的世界》牢玩家,感到非常有趣,遂整理成文。誰知道呢,在有生之年,也許我們真能在這片方塊大陸見證“血肉苦弱,機械飛升”。
[1] Gray, Jonathan, et al. "Craftassist: A framework for dialogue-enabled interactive agents." arXiv preprint arXiv:1907.08584 (2019).
[2] Guss, William H., et al. "Minerl: A large-scale dataset of minecraft demonstrations." arXiv preprint arXiv:1907.13440 (2019).
[3] Lin, Zichuan, et al. "Juewu-mc: Playing minecraft with sample-efficient hierarchical reinforcement learning." arXiv preprint arXiv:2112.04907 (2021).
[4] Baker, Bowen, et al. "Video pretraining (vpt): Learning to act by watching unlabeled online videos." Advances in Neural Information Processing Systems 35 (2022): 24639-24654.
[5] Hafner, Danijar, et al. "Mastering diverse domains through world models." arXiv preprint arXiv:2301.04104 (2023).
[6] Dedieu, Antoine, et al. "Improving Transformer World Models for Data-Efficient RL." arXiv preprint arXiv:2502.01591 (2025).
[7] https://github.com/wcarvalho/nicewebrl
[8] Sutton, Richard S. "Dyna, an integrated architecture for learning, planning, and reacting." ACM Sigart Bulletin 2.4 (1991): 160-163.
關于追問nextquestion
天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究人工智能與人類智能相互融合與促進,不斷探索科學的邊界。如果您有進一步想要討論的內容,歡迎評論區留言,或后臺留言“社群”即可加入社群與我們互動。
關于天橋腦科學研究院
天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。
Chen Institute與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天橋神經科學研究院。
Chen Institute建成了支持腦科學和人工智能領域研究的生態系統,項目遍布歐美、亞洲和大洋洲,包括、、、科研型臨床醫生獎勵計劃、、等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.