玩過(guò)《我的世界》的同學(xué)都知道,鉆石是這款游戲中最稀有的物品之一,產(chǎn)量低,找尋復(fù)雜,即使準(zhǔn)備充分,玩家更多的時(shí)候也得靠運(yùn)氣。
在搜索引擎中搜索“我的世界如何快速找到鉆石”,會(huì)發(fā)現(xiàn)有1000萬(wàn)+的內(nèi)容量,可見(jiàn)“找鉆石”應(yīng)該算是《我的世界》玩家的頭號(hào)大事了。
但就是這樣一個(gè)必須靠運(yùn)氣加成才能完成的事情,Google的Dreamer3在不利用任何數(shù)據(jù),僅憑強(qiáng)化學(xué)習(xí)就完成了。
其實(shí)不止《我的世界》中的鉆石任務(wù),Dreamer 3 算法在150余個(gè)不同類型控制任務(wù)中的表現(xiàn)都非常出色,不同于其他的強(qiáng)化學(xué)習(xí)算法,不同環(huán)境下都需要重新訓(xùn)練或大量人工干預(yù),Dreamer 3不需要調(diào)整數(shù)據(jù)和參數(shù),只需要一套固定的參數(shù)配置就可以完成不同環(huán)境下的不同類型任務(wù)。
計(jì)算機(jī)科學(xué)家楊立昆(LeCun Yann)前段時(shí)間在講世界模型時(shí)認(rèn)為,未來(lái)模型的基礎(chǔ)不是token,而是要像人一樣去理解世界。
人類之所以能夠掌握多種技能,很大程度上是因?yàn)槲覀冇心芰υ陬^腦中模擬動(dòng)作的結(jié)果,預(yù)測(cè)未來(lái)可能發(fā)生的情況,然后據(jù)此調(diào)整自己的行為。這種"在腦中預(yù)演"的能力是我們適應(yīng)性學(xué)習(xí)的關(guān)鍵。
Dreamer 3算法就是類似這樣的工作機(jī)制,在不利用任何先驗(yàn)數(shù)據(jù)的情況下,僅通過(guò)強(qiáng)化學(xué)習(xí)激勵(lì)就形成了世界模型,具備在不同環(huán)境下腦補(bǔ)“未來(lái)”,感知和適應(yīng)世界的能力。
研究背景:十年磨一劍的"世界模型"探索
Dreamer 3由Google DeepMind和多倫多大學(xué)的研究團(tuán)隊(duì)共同完成,論文于2025年4月2日在《自然》雜志上正式發(fā)表,并于2025年4月17日作為第640卷的一部分出版。
研究延續(xù)了團(tuán)隊(duì)在"世界模型"領(lǐng)域的長(zhǎng)期積累——從2019年第一代Dreamer專注機(jī)器人控制,到第二代征服雅達(dá)利游戲,再到如今第三代實(shí)現(xiàn)跨領(lǐng)域通用。
團(tuán)隊(duì)選擇《我的世界》作為終極試驗(yàn)場(chǎng)也絕非偶然。這款沙盒游戲被AI研究者稱為"數(shù)字版荒野求生":玩家需要在地下礦洞探索、合成工具、應(yīng)對(duì)突發(fā)危險(xiǎn),整個(gè)過(guò)程涉及長(zhǎng)鏈條決策和稀疏獎(jiǎng)勵(lì)。此前最接近成功的VPT算法需要觀看70000小時(shí)人類游玩視頻,而Dreamer3僅憑游戲畫面和基礎(chǔ)操作指令,就完成了從零開(kāi)始自主學(xué)習(xí)的過(guò)程。
核心成果:會(huì)"做夢(mèng)"的AI
Dreamer3算法的核心成果可以用一個(gè)簡(jiǎn)單的比喻來(lái)解釋:它就像是一個(gè)會(huì)"做白日夢(mèng)"的AI。當(dāng)我們?nèi)祟悓W(xué)習(xí)新技能時(shí),比如學(xué)習(xí)騎自行車,我們不僅僅是通過(guò)實(shí)際嘗試來(lái)學(xué)習(xí),還會(huì)在腦海中想象自己騎車的場(chǎng)景,預(yù)測(cè)可能的結(jié)果,然后據(jù)此調(diào)整自己的行為。
Dreamer3算法正是模擬了這種人類的學(xué)習(xí)方式。
Dreamer算法由三個(gè)關(guān)鍵組件組成:世界模型、“評(píng)論員”和“執(zhí)行者”。
世界模型負(fù)責(zé)預(yù)測(cè)未來(lái),理解眼前的場(chǎng)景并根據(jù)行動(dòng)預(yù)測(cè)未來(lái)畫面。就像是一個(gè)能夠想象"如果我這樣做會(huì)發(fā)生什么"的大腦。當(dāng)Dreamer看到一個(gè)場(chǎng)景時(shí),它不只是被動(dòng)地反應(yīng),而是主動(dòng)地預(yù)測(cè)接下來(lái)可能發(fā)生的事情。這個(gè)世界模型通過(guò)觀察環(huán)境的變化來(lái)學(xué)習(xí),逐漸建立起對(duì)世界運(yùn)作方式的理解。
“評(píng)論員”則像是一個(gè)內(nèi)部顧問(wèn),它的工作是評(píng)估不同行動(dòng)的價(jià)值,為每一種想象中的未來(lái)畫面打分。這幫助算法區(qū)分好的行動(dòng)和壞的行動(dòng)。
“執(zhí)行者”根據(jù)世界模型的預(yù)測(cè)和“評(píng)論員”的評(píng)分,選擇最有可能帶來(lái)好結(jié)果的行動(dòng)。
就像你在玩一款策略游戲時(shí),先預(yù)見(jiàn)下一步敵人可能出現(xiàn)的位置,再衡量哪一步能獲得最大優(yōu)勢(shì),最后才按下操作鍵。與以往需要在每個(gè)新任務(wù)上重新調(diào)參不同,Dreamer3 把“想象”與“評(píng)估”與“決策”三者融合到一起,并且通過(guò)一系列穩(wěn)健化技巧,讓這套流水線在各種不同的場(chǎng)景中都能保持穩(wěn)定的表現(xiàn)。
這三個(gè)組件協(xié)同工作,形成了一個(gè)強(qiáng)大的學(xué)習(xí)系統(tǒng),能夠在150多種不同的任務(wù)中表現(xiàn)出色,而且只需要一套固定的參數(shù)配置。這就像是一個(gè)人不需要為每項(xiàng)新技能重新調(diào)整自己的學(xué)習(xí)方法,而是用同一套學(xué)習(xí)策略掌握了彈鋼琴、騎自行車和游泳等完全不同的技能。
Dreamer3算法的一個(gè)突破性成就是在Minecraft游戲中收集鉆石。
在Minecraft中收集鉆石需要完成一系列復(fù)雜的子任務(wù):找到木頭、制作工具、挖掘石頭、尋找稀有礦物等等。每個(gè)子任務(wù)本身就很復(fù)雜,而且它們之間存在長(zhǎng)期的依賴關(guān)系——你必須先完成前面的任務(wù)才能進(jìn)行后面的任務(wù)。
Dreamer3完全是從像素輸入開(kāi)始學(xué)習(xí)的,沒(méi)有任何人類示范數(shù)據(jù)或預(yù)設(shè)課程。這就像是一個(gè)嬰兒被放在一個(gè)復(fù)雜的世界中,僅通過(guò)觀察屏幕上的像素變化,就學(xué)會(huì)了完成一系列復(fù)雜的任務(wù)。在100小時(shí)的訓(xùn)練后,Dreamer3能夠在Minecraft中找到鉆石,這在以前是無(wú)法想象的。
Dreamer3算法的另一個(gè)重要成就是它在各種基準(zhǔn)測(cè)試中的表現(xiàn)。
研究團(tuán)隊(duì)在8個(gè)不同領(lǐng)域的測(cè)試中評(píng)估了Dreamer3,包括Atari游戲、機(jī)器人控制、視覺(jué)控制等。結(jié)果顯示,Dreamer3不僅能夠匹配專門為這些領(lǐng)域設(shè)計(jì)的算法的表現(xiàn),在許多情況下還能超越它們。這就像是一個(gè)全能運(yùn)動(dòng)員,不僅能在自己擅長(zhǎng)的項(xiàng)目中獲勝,還能在各種不同的運(yùn)動(dòng)中擊敗專業(yè)選手。
Dreamer3實(shí)現(xiàn)了這些成就的方式非常高效。與其他需要大量計(jì)算資源的算法相比,Dreamer3能夠在有限的資源下取得優(yōu)異的結(jié)果。在某些基準(zhǔn)測(cè)試中,它的數(shù)據(jù)效率提高了1000%以上,這意味著它能夠用更少的嘗試次數(shù)學(xué)到更多的知識(shí)。
方法評(píng)析:穩(wěn)定學(xué)習(xí)的秘密配方
Dreamer3的世界模型是如何工作的?
想象你正在學(xué)習(xí)打籃球,你不會(huì)每次投籃都完全隨機(jī),而是會(huì)根據(jù)之前的經(jīng)驗(yàn)來(lái)調(diào)整姿勢(shì)。
Dreamer3的世界模型就像是一個(gè)內(nèi)部模擬器,它通過(guò)觀察環(huán)境的變化來(lái)學(xué)習(xí)"物理規(guī)則"。
這個(gè)模型由幾個(gè)關(guān)鍵部分組成:
序列模型就像是Dreamer3的記憶系統(tǒng),它記住了環(huán)境是如何隨時(shí)間變化的。就像你記得"如果我這樣投籃,球會(huì)沿這樣的軌跡運(yùn)動(dòng)"。
編碼器和解碼器則負(fù)責(zé)將復(fù)雜的感官輸入(如圖像)轉(zhuǎn)換為更簡(jiǎn)單的表示,再?gòu)倪@些表示重建原始輸入。這就像是你看到籃球場(chǎng)的復(fù)雜場(chǎng)景,但大腦會(huì)自動(dòng)提取關(guān)鍵信息:籃筐的位置、其他球員的站位等。
動(dòng)態(tài)預(yù)測(cè)器預(yù)測(cè)下一個(gè)狀態(tài),獎(jiǎng)勵(lì)預(yù)測(cè)器預(yù)測(cè)可能獲得的獎(jiǎng)勵(lì),而繼續(xù)預(yù)測(cè)器則預(yù)測(cè)任務(wù)是否結(jié)束。這三個(gè)組件共同工作,使Dreamer3能夠在腦海中"模擬"未來(lái)可能發(fā)生的情況。
Dreamer3的一個(gè)關(guān)鍵創(chuàng)新是它如何處理不同規(guī)模的信號(hào)。
在現(xiàn)實(shí)世界中,不同的信號(hào)有不同的重要性和規(guī)模。比如在駕駛時(shí),路上的行人比路邊的樹更重要;在烹飪時(shí),火候的控制比廚房的溫度更關(guān)鍵。Dreamer3使用了一種叫做"symlog"的技術(shù)來(lái)處理這個(gè)問(wèn)題。
想象你是一個(gè)音樂(lè)制作人,需要調(diào)整不同樂(lè)器的音量。有些樂(lè)器聲音很大,如鼓,有些則很輕,如三角鐵。如果你簡(jiǎn)單地放大所有聲音,鼓聲可能會(huì)過(guò)于震耳欲聾,而三角鐵的聲音可能仍然微不可聞。Dreamer3的symlog函數(shù)就像是一個(gè)智能音量調(diào)節(jié)器,它能夠適當(dāng)?shù)胤糯?小信號(hào),同時(shí)防止大信號(hào)過(guò)度放大,使得所有信號(hào)都能被合理地處理。
Dreamer3的另一個(gè)重要的技術(shù)是自由位(free bits)。這個(gè)概念可能聽(tīng)起來(lái)很抽象,但可以用一個(gè)簡(jiǎn)單的比喻來(lái)解釋:想象你正在學(xué)習(xí)一門新語(yǔ)言,有些單詞你已經(jīng)掌握得很好,而有些則還很陌生。自由位就像是允許你在學(xué)習(xí)過(guò)程中對(duì)那些陌生的單詞給予更多的注意力,而不是平均分配注意力到所有單詞上。這使得Dreamer3能夠更有效地學(xué)習(xí)那些它還不太了解的環(huán)境特征。
Dreamer3在“評(píng)論員”學(xué)習(xí)方面也有創(chuàng)新。傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法通常假設(shè)獎(jiǎng)勵(lì)是立即可見(jiàn)的,就像是你投籃后立刻知道是否得分。但在許多實(shí)際問(wèn)題中,獎(jiǎng)勵(lì)可能是延遲的,就像是你現(xiàn)在的學(xué)習(xí)可能要等到幾年后才能看到職業(yè)上的回報(bào)。Dreamer3通過(guò)想象未來(lái)可能的軌跡,計(jì)算長(zhǎng)期回報(bào),從而解決了這個(gè)問(wèn)題。
在“執(zhí)行者”學(xué)習(xí)方面,Dreamer3使用了一種固定的熵正則化器。這聽(tīng)起來(lái)很復(fù)雜,但實(shí)際上就像是在學(xué)習(xí)過(guò)程中保持一定程度的探索。想象你在一個(gè)新城市尋找最好的餐廳。如果你只去評(píng)分最高的餐廳,你可能會(huì)錯(cuò)過(guò)一些尚未被發(fā)現(xiàn)的美食。Dreamer3的熵正則化器就像是確保算法不會(huì)過(guò)早地固定在一種行為模式上,而是繼續(xù)探索新的可能性。
Dreamer3算法的一個(gè)顯著優(yōu)勢(shì)是它的穩(wěn)健性。在強(qiáng)化學(xué)習(xí)中,一個(gè)常見(jiàn)的問(wèn)題是算法可能在某些環(huán)境中表現(xiàn)良好,但在稍有變化的環(huán)境中就完全失效,Dreamer3通過(guò)一系列的正則化技術(shù),如歸一化、平衡和變換,使得算法能夠在各種不同的環(huán)境中穩(wěn)定學(xué)習(xí)。
當(dāng)然,Dreamer3也有其局限性。
它的世界模型需要足夠的數(shù)據(jù)來(lái)學(xué)習(xí)環(huán)境的動(dòng)態(tài)特性。在數(shù)據(jù)極其稀少的情況下,Dreamer3可能無(wú)法建立準(zhǔn)確的世界模型。
雖然Dreamer3在許多任務(wù)上表現(xiàn)出色,但在某些特定類型的問(wèn)題上,專門設(shè)計(jì)的算法可能仍然有優(yōu)勢(shì)。Dreamer3的計(jì)算復(fù)雜度相對(duì)較高,這可能限制它在資源受限的設(shè)備上的應(yīng)用。
但不可否認(rèn)Dreamer3提供了一種更加通用和穩(wěn)健的學(xué)習(xí)范式,使AI系統(tǒng)能夠更接近人類那樣靈活地學(xué)習(xí)和適應(yīng)新環(huán)境。
結(jié)論:通向通用人工智能的基石
Dreamer3的真正價(jià)值在于證明了"世界模型"的通用潛力。
通過(guò)將"想象"能力引入AI系統(tǒng),研究團(tuán)隊(duì)創(chuàng)造了一種能夠在多種不同任務(wù)中表現(xiàn)出色的通用算法。這項(xiàng)研究的意義遠(yuǎn)不止于解決特定的技術(shù)問(wèn)題,它為我們思考AI系統(tǒng)如何學(xué)習(xí)和適應(yīng)提供了新的視角。
Dreamer3算法大大提高了數(shù)據(jù)效率。傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法往往需要數(shù)百萬(wàn)次甚至數(shù)十億次的嘗試才能掌握復(fù)雜任務(wù),這在實(shí)際應(yīng)用中是不切實(shí)際的。想象一個(gè)機(jī)器人需要摔倒數(shù)百萬(wàn)次才能學(xué)會(huì)走路,或者一個(gè)自動(dòng)駕駛系統(tǒng)需要發(fā)生數(shù)百萬(wàn)次事故才能學(xué)會(huì)安全駕駛。Dreamer3通過(guò)在內(nèi)部模型中進(jìn)行想象性規(guī)劃,大大減少了與環(huán)境交互的需求,使得學(xué)習(xí)過(guò)程更加高效。
同時(shí)Dreamer3展示了跨領(lǐng)域泛化的能力。在AI研究中,一個(gè)常見(jiàn)的問(wèn)題是算法往往只在特定類型的任務(wù)上表現(xiàn)良好。就像是一個(gè)只會(huì)下圍棋的AI,換成國(guó)際象棋就完全不會(huì)玩。Dreamer3打破了這種局限,它能夠在從Atari游戲到機(jī)器人控制,再到Minecraft這樣復(fù)雜的3D環(huán)境中都表現(xiàn)出色。這種通用性對(duì)于構(gòu)建能夠在現(xiàn)實(shí)世界中適應(yīng)多種情況的AI系統(tǒng)至關(guān)重要。
Dreamer3的方式表明,模型驅(qū)動(dòng)的方法可能是解決復(fù)雜強(qiáng)化學(xué)習(xí)問(wèn)題的關(guān)鍵。
與直接從經(jīng)驗(yàn)中學(xué)習(xí)的方法相比,通過(guò)建立世界模型并在這個(gè)模型中進(jìn)行規(guī)劃的方法能夠更好地處理長(zhǎng)期依賴和稀疏獎(jiǎng)勵(lì)的問(wèn)題。這就像是人類學(xué)習(xí)復(fù)雜技能時(shí),不僅僅依靠試錯(cuò),還會(huì)在腦海中模擬和規(guī)劃。
從應(yīng)用場(chǎng)景來(lái)看,Dreamer3算法的潛力是巨大的。
在機(jī)器人領(lǐng)域,它可以幫助機(jī)器人更快地學(xué)習(xí)復(fù)雜的操作任務(wù),如抓取不規(guī)則物體或在復(fù)雜環(huán)境中導(dǎo)航。
在自動(dòng)駕駛領(lǐng)域,它可以使系統(tǒng)更好地預(yù)測(cè)其他道路使用者的行為,并做出更安全的決策。
在游戲和虛擬環(huán)境中,它可以創(chuàng)造出更智能、更適應(yīng)性強(qiáng)的AI角色。
在醫(yī)療領(lǐng)域,類似Dreamer3的算法可以幫助預(yù)測(cè)患者對(duì)不同治療方案的反應(yīng),從而制定個(gè)性化的治療計(jì)劃。
在氣候科學(xué)中,它可以用于模擬和預(yù)測(cè)復(fù)雜的氣候系統(tǒng),幫助我們更好地理解和應(yīng)對(duì)氣候變化。
至頂AI實(shí)驗(yàn)室洞見(jiàn)
Dreamer3在《我的世界》這樣復(fù)雜的環(huán)境中,能夠完成快速的找到并且收集鉆石的任務(wù),在我們看來(lái),這不僅是技術(shù)上的成功,更是概念上的勝利。
即使在高度復(fù)雜、長(zhǎng)期規(guī)劃和稀疏獎(jiǎng)勵(lì)的環(huán)境中,基于模型的方法也能取得成功。這打破了強(qiáng)化學(xué)習(xí)只適用于簡(jiǎn)單、即時(shí)反饋環(huán)境的刻板印象。
它改變了我們思考AI學(xué)習(xí)方式的角度,傳統(tǒng)的強(qiáng)化學(xué)習(xí)研究過(guò)于關(guān)注如何在特定環(huán)境中最大化獎(jiǎng)勵(lì),而忽視了學(xué)習(xí)過(guò)程的效率和通用性。這就像是我們教一個(gè)孩子下棋,只關(guān)注他能贏多少盤,而不關(guān)心他是否真正理解了游戲的策略,以及能否將這些策略應(yīng)用到其他游戲中。
Dreamer3算法通過(guò)引入世界模型和想象性規(guī)劃,將重點(diǎn)轉(zhuǎn)向了"理解環(huán)境"和"預(yù)測(cè)結(jié)果",這與人類學(xué)習(xí)新技能的方式更加接近。
未來(lái),我們期待看到更多"逆向思維"的創(chuàng)新:或許未來(lái)不是讓人工智能適應(yīng)人類預(yù)設(shè)的任務(wù),而是讓它們像生命體般自主定義目標(biāo)。今天的世界模型技術(shù),可能就是打開(kāi)通用智能之門的首把鑰匙。
論文地址:https://www.nature.com/articles/s41586-025-08744-2
本文來(lái)自至頂AI實(shí)驗(yàn)室,一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場(chǎng)景,為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.