新智元報道
編輯:定慧
【新智元導讀】還在用搜索和規則訓練AI游戲?現在直接「看回放」學打寶可夢了!德州大學奧斯汀分校的研究團隊用Transformer和離線強化學習打造出一個智能體,不靠規則、沒用啟發式算法,純靠47.5萬場人類對戰回放訓練出來,居然打上了Pokémon Showdown全球前10%!
AI 又有「新活」了!
德州大學奧斯汀分校的研究團隊用Transformers和離線強化學習訓練出了一個寶可夢對戰AI智能體,不但打法像人,還能在全球排名中殺進前 10%。
論文地址:https://metamon.tech/
是的,你沒看錯,這不是那種靠搜索和規則的AI,而是靠人類歷史對戰數據「喂出來」的智能體,能自己學著打。
這個寶可夢游戲(全稱Competitive Pokémon Singles)有多復雜呢?
在對戰平臺https://pokemonshowdown.com/上可以看到,即使不考慮策略,光是精靈、動作和物品的數量已經多到了非??鋸埖某潭龋ǜ痉煌辏?/p>
這意味著,AI要在信息不完全、策略博弈的環境中,把每一步出招、每一次換人,都當成下圍棋一樣來算。
寶可夢對戰融合了國際象棋般的長遠策略規劃、撲克牌那樣充滿未知信息和隨機性,再加上足以填滿一本百科全書的寶可夢、招式、特性和規則。玩家需要精心設計和操控自己的寶可夢隊伍,擊敗對手的所有寶可夢才能獲勝。這樣一個充滿不確定性、狀態空間極其龐大的游戲,對AI來說是絕佳又極具挑戰性的研究課題。
這種硬核程度,更像是寶可夢版的《星際爭霸》。
把「回放」喂給 AI,教它打寶可夢
研究團隊開發了一個名為Metamon的平臺,它使用來自Pokémon Showdown(以下簡稱PS)的人類游戲數據集來啟用離線RL工作流。
PS會創建一個日志(過程「回放」),記錄每場戰斗。
玩家保存日志以供日后研究、與朋友分享有趣的結果,或作為記錄官方錦標賽結果的證明。
PS的回放數據已經超過十年——足夠的時間積累數百萬個重放,比如下面的是10年前2014年的戰斗回放。
PS回放數據集是一個完全的、自然發生的人類數據集合,但這個數據集有個問題——這些數據是以第三方角度收集的,而不是第一人稱,訓練智能體需要用第一人稱視角。
研究團隊通過將觀眾視角分別轉換為每個玩家的視角來解鎖PS回放數據集。
最終,研究團隊搞出一個47.5萬局真實人類對戰組成的離線強化學習數據集,而且每天還在持續增長中。
在序列數據上使用離線強化學習算法訓練
寶可夢擁有一個非常復雜的狀態空間,因此在使用離線強化學習(offline RL)進行訓練時,策略模型可能需要具備較大的規模和復雜的結構。
為了使訓練過程更加穩定,將這個問題轉化為行為克隆(Behavior Cloning, BC)的角度來理解:預測一個人類玩家的動作,實際上是在嘗試推理模仿的這個玩家的策略,以及他們對對手的理解。
為了實現準確的預測,模型往往需要較長的上下文輸入。
強化學習(RL)在這種場景下的作用,是幫助我們從包含了不同水平玩家(包括競技和休閑玩家)決策的大規模數據中,篩選出有效信息。
采用的解決方案是actor-critic架構,其中critic的訓練方式是使用標準的一步時序差分(temporal difference, TD)更新來輸出Q值。至于actor的損失函數,其一般形式如下:
接下來,需要為CPS(Competitive Pokémon Simulator)定義觀測空間、動作空間和獎勵函數。
智能體需要獲取足夠的信息,以便能夠模擬人類玩家的決策,而PS網站的用戶界面是一個顯而易見的參考點。
不過,由于模型具備記憶能力,因此無需在每一個時間步都提供全部信息。
最終達成了一個折中方案:輸入由87個文本詞語和48個數值特征組成。
下圖展示了數據集中一場回放中的示例。觀測只包含對手當前上場的寶可夢。
僅僅依靠強化學習能打贏人類嗎?
傳統做法教AI玩游戲,通常會設計規則、模擬狀態、設計算法。
但這篇論文反其道而行之:直接喂數據,讓它「模仿」人類怎么打。
他們訓練了多個大小不同的智能體,從1500萬參數的小模型,到2億參數的大模型。
其中有的通過模仿學習訓練(IL),有的則用離線強化學習(RL)進一步優化,還有的則加上「自我對戰」的數據做微調。
可以在Pokémon Showdown上觀看各個模型的游戲重播。
最強AI打上全球天梯前 10%
說了這么多,這AI真的能打嗎?
研究者將多個版本的模型送上Pokémon Showdown的天梯服務器——這是全世界寶可夢高玩集中的地方。
結果模型居然排進了全球活躍玩家的前10%,并成功登上了排行榜。
在圖中展示了Glicko-1階梯分數及其評分偏差。柱狀圖標簽標注的是GXE(勝率期望)統計數據。
階梯分位數(Ladder Percentiles),在 2025年2月至3月期間下載的回放數據中,共識別出14,022個在第1到第4世代活躍的用戶名。
以第1世代(Gen1)為例,在這些用戶名中,有5,095個參與了 Gen1OU(標準對戰規則),其中有2,661個活躍度較高,達到了在最終結果統計時擁有有效 GXE(勝率期望)數據的標準。
這可能是你第一次聽說有人用Transformer打寶可夢,還打贏了人類。
但從技術視角看,這背后是強化學習、模仿學習、大模型訓練和數據重構的完整鏈路。
它不只是一個「有趣的實驗」,更像是一次對數據驅動游戲 AI 的深度演練。
下一步,或許可以不是打游戲,而是讓AI玩轉更復雜的現實任務。
此外,不同的訓練策略以及大規模自我對戰(self-play)技術,或許能夠讓智能體帶來超越人類表現的突破。
參考資料:
https://x.com/yukez/status/1909993963848622206
https://metamon.tech/
https://arxiv.org/abs/2504.04395
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.