作者 | Alex Zhang、Ofir Press
翻譯 | 蘇宓
出品 | CSDN(ID:CSDNnews)
讓 GPT-4o、Claude Sonnet 3.7、Gemini 2.5 Pro 和 Gemini 2.0 Flash 一起上陣挑戰《Doom II》(默認難度),會有什么樣的結果?它們能通關嗎?
誰能想到,所有模型都使用了相同的輸入提示,但結果嘛……只能說“各顯神通”,雖然大家都在努力“沖關”,但沒有一個能成功通過第一關。
這是 普林斯頓大學的研究人員最新發現的結果。該團隊近日發布了一個有趣的研究預覽項目:VideoGameBench——這是一個專門為視覺語言模型(VLM)設計的游戲挑戰基準,測試它們能否實時通關來自掌機和 PC 平臺的 20 款熱門游戲。
其中研究人員還引入了一個輕量版本VideoGameBench-Lite,它的特別之處在于:在模型“思考”時會自動暫停游戲,從而繞過了當前 VLM 推理延遲過高的瓶頸,為模型提供一個更公平的發揮空間。
與傳統游戲 AI 不同,VideoGameBench 不依賴模型對游戲規則的預訓練或硬編碼提示。研究人員強調,他們更關注的是:模型是否可以僅憑游戲畫面,就完成從零到通關的全過程。為此,他們在研究預覽中開源了相關代碼、評測框架,并分享了初步實驗結果。這個基準測試究竟是什么樣的,我們不妨來看看。
GitHub 地址:https://github.com/alexzhang13/VideoGameBench
視覺語言模型基準測試來了
研究人員指出,語言模型(LM)已經被證明能解決非常復雜的推理任務,比如數學題和編程問題。對普通人來說,這些任務都挺難的,因為它們需要很多預備知識和模式識別能力。但有趣的是,雖然人類可以玩通視頻游戲,我們至今還沒見過哪怕是最先進的語言模型或視覺語言模型能完整通關《Doom》或者《寶可夢》這種游戲。所以很多研究干脆就只關注一些比較簡單的小游戲,或者是自己寫的小型程序游戲。
要想真正通關一款真實的視頻游戲,模型不僅得能短期和長期推理,還得有空間理解能力和直覺(比如你要知道,找一把鑰匙去開門,這種“先找鑰匙再過門”的常識)。過去,AI 想在游戲中表現好,通常是專門針對某一款游戲訓練的,需要海量的探索時間或者專家操作記錄。相比之下,視覺語言模型是一種新思路:它們可能可以靠理解圖像+語言提示,在沒玩過的游戲中也取得不錯成績。
因此,在未來完整版的 VideoGameBench 中,研究人員還計劃加入一組“保密游戲”來作為評測套件,用來進一步測試模型在新游戲上的真實能力表現。
這是 VideoGameBench 中一部分示例游戲,VideoGameAgent 正在游玩這些游戲(思考過程和動作展示在畫面旁邊)。每款游戲的機制、玩法和畫面風格都各不相同。
VideoGameBench 框架和環境
在這次研究預覽中,VideoGameBench 提供了一個統一的測試平臺,允許 AI 智能體在一個環境中同時運行他們挑選的 20 款經典游戲,涵蓋了 Game Boy 和 MS-DOS 兩大平臺。
為了讓模型能順利地“玩游戲”,這個測試框架封裝了底層復雜的模擬器部分(目前支持通過 PyBoy 運行 Game Boy 游戲,通過 DOSBOX 運行 MS-DOS 游戲),讓使用者不用關心復雜的底層操作,而只需要專注于輸入和輸出的交互,就能控制智能體玩游戲:
1. 觀察內容:就是游戲畫面本身,作為一張圖片傳遞給模型。模型就像是人類玩家一樣,看著游戲畫面來判斷下一步要干什么。
2. 操作接口:框架提供了一個虛擬“手柄”,模型可以選擇按下一個鍵(比如“空格鍵”)、執行一串動作(比如連續按兩次“A”再按“開始”鍵),或者是“按住某個鍵一段時間再松開”,就像真實玩家那樣操作。
3. 游戲是否通關的反饋:系統會告訴模型它有沒有成功通關某個游戲。
需要特別說明的是,這個測試框架只給模型提供游戲畫面,不會額外提供像游戲內的文字提示、地圖信息、或者什么敵人在哪的“外掛式”信息。這和 DeepMind 訓練《星際爭霸2》的 AI(AlphaStar)那種方式不同,后者是靠讀取游戲的內部數據來操作的。而這里的模型則需要靠“看圖”來通關,挑戰更大。
目前,這只是一個早期版本的研究預覽,研究人員提供了一個簡化的基礎實現,方便開發者開箱即用,也可以自己修改、拓展測試自己的模型。此外,他們還在開發更多適配不同模型的高級功能,這些會在之后的正式論文發布時一并推出。
為了降低入門門檻,該研究團隊還貼心地提供了一個基礎版的“游戲AI代理(VideoGameAgent)”,這個代理支持基礎的“記憶能力”(比如記住之前畫面),還能和現在主流的大語言模型 API(比如 GPT、Claude、Gemini、DeepSeek 等)直接對接,借助 LiteLLM 實現無縫調用。
你可以在下圖中看到游戲畫面和用戶界面是并排顯示的:
測試環境配備了一些簡單的用戶界面代碼,用于在每一步中記錄智能體的思考過程、執行的動作以及記憶內容。
目前,該基準測試主要聚焦在早期的 Game Boy 和經典的 MS-DOS 游戲上,原因有兩點:一是這些游戲在視覺提示上相對現代游戲要簡單得多;二是它們涵蓋了手柄操作以及鼠標+鍵盤操作兩種模式,這對視覺語言模型(VLM)在空間理解能力上的挑戰,與基于文本或終端的游戲操作完全不同。
關于評估進度和游戲完成情況,由于模擬器和游戲引擎本身并不會提供“游戲是否通關”的專用反饋信號,研究團隊開發了一套機制,用于判斷智能體是否成功完成游戲任務。這套機制通過對比智能體當前畫面與預設的“通關參考截圖”來識別游戲是否完成。此外,這種方法還適用于檢測用戶自定義的“階段性目標完成情況”,比如在《魔獸爭霸 II》這類游戲中,僅評估某一特定戰役(如獸人戰役)的完成情況,這對于衡量智能體的階段性進展或部分任務通關表現非常有價值。
VideoGameBench:游戲列表
該研究團隊在挑選游戲時,綜合考慮了游戲的相對難度和玩法多樣性,并在下方列表中對這些特性進行了簡要標注。部分游戲要求智能體完成整個單人模式,例如《超級馬里奧大陸》和《塞爾達傳說:織夢島》;而另一些游戲由于流程較長,僅需完成其中一個戰役或單局游戲,例如《文明 1》。此外,出于世界探索元素足夠豐富的考慮,團隊還在某些游戲中納入了續作,以增強基準測試的多樣性和挑戰性。
以下是這 20 款游戲的完整名單,分為兩個平臺:MS-DOS(電腦游戲)和Game Boy(掌機游戲):
MS-DOS 平臺游戲:
Doom(毀滅戰士):3D 第一人稱射擊游戲
Doom II(毀滅戰士2):3D 第一人稱射擊游戲
Quake(雷神之錘):3D 第一人稱射擊游戲
文明1(Sid Meier’s Civilization 1):2D 策略類、回合制
魔獸爭霸2:黑潮(Warcraft II: Tides of Darkness):2.5D 策略類,這次只打“獸人戰役”
俄勒岡之旅豪華版(Oregon Trail Deluxe,1992年):2D 策略類、回合制
X-COM 外星人防御(X-COM UFO Defense):2D 策略類
不可思議的機器(The Incredible Machine,1993年):2D 解謎類
波斯王子(Prince of Persia):2D 橫版動作平臺
極品飛車初代(The Need for Speed):3D 賽車類
帝國時代1(Age of Empires,1997年):2D 策略類
Game Boy / Game Boy Color 掌機游戲:
Pokemon Red:2D 網格地圖、回合制戰斗
Pokemon Crystal:2D 網格地圖、回合制戰斗
塞爾達傳說:織夢島 DX 版(Legend of Zelda: Link’s Awakening DX):2D 開放世界冒險
超級馬里奧大陸(Super Mario Land):2D 橫版動作平臺
Kirby’s Dream Land DX Mod:2D 橫版動作平臺
Mega Man: Dr. Wily’s Revenge:2D 橫版動作平臺
Donkey Kong Land 2:2D 橫版動作平臺
Castlevania Adventure:2D 橫版動作平臺
Scooby-Doo! - Classic Creep Capers:2D 偵探冒險類
VideoGameBench-Lite:讓智能體有時間思考
據研究團隊觀察,目前最先進的視覺語言模型(VLM)在玩視頻游戲時面臨一個明顯的挑戰:推理延遲過高。具體來說,當智能體截取游戲畫面并向大模型詢問接下來的動作時,等模型返回結果時,游戲場景往往已經發生了顯著變化,導致原本建議的動作已不再適用。比如,截圖時一個敵人正向智能體開火,而等到模型給出回應時,這個敵人可能已經移動到了智能體正前方。
為了解決這一問題,研究人員在 VideoGameBench 的基礎上推出了輕量級版本 VideoGameBench-Lite。這個版本為模型“留出思考時間”,在游戲流程上做出適當調整,讓大模型有充足時間推理再做出反應。
研究團隊的智能體(基于 GPT-4o)在 VideoGameBench-Lite 中游玩《毀滅戰士 II》(最低難度)。為了讓智能體有時間思考,環境在其推理時會暫停游戲。該智能體成功擊敗了敵人,并能夠在關卡中自由移動。
VideoGameBench-Lite 所涵蓋的部分游戲如下:
Doom II:3D 射擊游戲
Quake:3D 射擊游戲
波斯王子(Prince of Persia):2D 平臺跳躍類游戲
塞爾達傳說:夢見島(Game Boy 彩色版 DX):2D 開放世界冒險
超級馬里奧大陸(Super Mario Land):2D 平臺跳躍游戲
星之卡比:夢之地(Game Boy 彩色 DX Mod):2D 平臺跳躍游戲
初步觀察:AI 想通關游戲,還差得遠
研究人員在跑完幾款經典游戲之后發現,目前的視覺語言大模型(VLM)扮演的游戲 AI 還遠遠沒有能力通關完整游戲,甚至連大多數游戲的第一關都打不過。雖然有些有趣的進展,比如 AI 在《星之卡比》中成功打到了第一個小 Boss,已經算是“了不起的進步”,但整體來看,大多數時候 AI 的表現還處在“嘗試理解游戲”的階段。
研究團隊在這一部分沒有進行非常嚴謹的量化實驗,而是通過一些“定性觀察”來分享現階段 AI 玩游戲時遇到的問題。所有測試使用的是一個基礎版的 VideoGameAgent,這個代理模型使用了 ReAct 思維鏈框架,能記住連續 5 到 10 幀的游戲畫面,并根據這些畫面發出一系列按鍵操作或鼠標動作。
思路混亂、目標感不強
在之前的一些研究中,確實有成功用大語言模型來做游戲規劃的案例,也有模型能玩文字類游戲。但在視覺+語言的組合場景下,AI 往往會錯誤解讀畫面中的信息,這就會導致它做出奇怪的行為,比如把已經死掉的敵人當成活的,然后一直對著他們開槍浪費子彈。
Claude Sonnet 3.7 在玩《毀滅戰士2》時,連續把死掉的敵人誤判為還活著的,導致子彈全打空,影響了后續的戰術決策。
什么叫“一次動作”?AI 搞不清楚
還有一個很現實的問題:大模型的“思考”速度跟不上游戲節奏。比如 GPT-4o 在玩《超級馬里奧大陸》時,每看一幀畫面就需要3 到 5 秒才能給出下一個動作。但等它給出決策時,游戲早已經繼續運行了幾秒,敵人早沖過來了,結果就是 AI 還沒反應過來就連續被同一個小怪干掉。
這就引發了一個值得研究的問題:對 AI 來說,“一個動作”到底是什么?是按一下鍵?還是連續按幾下?或者是執行一段簡單的程序?這會極大影響游戲表現。
鼠標和鍵盤的精度也成問題
目前所有主流模型(包括 GPT-4o、Claude Sonnet 3.7、Gemini 2.5 Pro)都普遍存在一個問題:控制鼠標的準確性太差。比如在玩《魔獸爭霸2》和《文明1》這種依賴鼠標操作的策略游戲時,AI 頻繁點錯位置。最離譜的是,它想點“新游戲”,結果老是點成“加載游戲”,一直卡在菜單界面。
GPT-4o 玩《魔獸爭霸2》時鼠標定位不準,總是點錯按鈕,無法順利開始游戲。
游戲機制太“反人類”,AI 不知道怎么玩
有些游戲機制對人類玩家來說再自然不過,但對 AI 來說如果沒有提前說明,它壓根不會自己發現。
比如在《星之卡比》里,卡比可以吞掉敵人的炸彈,然后變出特殊能力打 Boss——這是游戲的核心玩法之一。但 GPT-4o 完全不知道這回事,打到了小 Boss 也不會用技能,硬剛半天還打不過。
GPT-4o 在《星之卡比》中打到小 Boss,但不理解可以復制能力的機制,錯失擊敗敵人的最佳方式。
回顧以往研究:AI 玩游戲已經不是新鮮事,但難點還在
游戲中的 RL
盡管現在大模型(尤其是視覺語言模型 VLM)玩游戲還不夠聰明,但這事其實早在很久以前就有人研究過,特別是在強化學習(RL)領域。
強化學習早就把很多游戲“打通關”了。比如,RL 在十年前就能玩轉 Atari 街機游戲;DeepMind 的 AlphaGo 更是在圍棋上戰勝了人類世界冠軍,雖然圍棋的規則比較明確、操作也都是一步一步走棋,不是那種實時操作的復雜游戲。
很多人曾以為視頻游戲更復雜,AI 很難搞定,但 DeepMind 的 AlphaStar(打星際爭霸)和 OpenAI Five(打刀塔2)都證明了:只要游戲環境“特征化”得好,電子游戲也可以被 AI 玩得比人還強。即便是三維游戲這種特征提取很難的環境,像 Dreamer 這樣的項目也在努力用 RL 去玩 Minecraft。
最近一個更大的問題是,能不能解決語言密集型的游戲。這些方法通過使用語言模型來替代強化學習中的一些模塊,比如價值函數。一個很有意思的例子是,新的 AI 智能體在《精靈寶可夢對戰》這款回合制游戲中已經達到了和人類玩家競爭的水平。另一個例子是 CICERO 智能體,它用于多人策略游戲《外交》。
純視覺語言模型(VLMs)和語言模型(LMs)玩游戲
有一些視頻游戲非常難,強化學習方法和視覺語言模型(VLMs)都很難解決。這些游戲通常包含語言元素、需要長時間探索的目標,或者空間推理謎題。BALROG 基準測試就包含了這些類型的游戲,并為 VLMs 提供了進展指標。AI在游戲領域的經典案例之一是 NetHack,這是一款極其復雜的網格世界游戲,游戲里有復雜的戰斗、物品和地下城系統,還帶有隨機化,導致人類很難完成它。
VideoGameBench 跟 BALROG 那種“探索+解謎”的游戲測試稍微不一樣。它的核心是:選一批真實存在的、有代表性的經典游戲(比如《Pokemon Red》、《Doom》),讓大模型或 RL agent 來挑戰這些游戲。
為什么這些游戲能被用來測 AI?因為它們其實已經有 RL 解法了——比如口袋紅版已經多次被 RL 通關,《Doom》也有 RL 平臺可用。
但有個不同點:RL 方法是從頭訓練模型玩游戲;而 VLM 模型并不會專門訓練這些游戲,只是“順帶學”到了一點點相關知識。所以,兩者獲得的信息量完全不同,難度也不一樣。
最近,大家開始更多關注如何用新的前沿模型和智能體方法來解決這些游戲,比如 Claude 和 Gemini 玩寶可夢(Gemini 使用了一種更有意思的智能體方式)。另一個重大的項目是 Hao AI 實驗室,他們正在構建一個平臺,讓 VLM 智能體能夠實時玩《超級馬里奧》、《倉鼠迷宮》和《糖果傳奇》等游戲。
VideoGameBench和VideoGameBench-Lite專注于真實的視頻游戲,采用一組固定且有挑戰性的游戲(比如平臺游戲、射擊游戲、即時戰略、角色扮演游戲,2D、2.5D、3D等),并使用統一的接口。這些環境設計得也很靈活,未來可以很方便地插入各種模擬器。
最后的思考:為什么我們要讓 AI 玩游戲?
讓 AI 玩游戲這事,其實不僅是個“炫技”展示,也很有研究意義。它能很好地測量模型的綜合推理能力。
相比于復雜到離譜的數學題或奧賽題目,打游戲并不是“超人類”的任務,但現在的模型卻還是過不了第一關。
而且,大部分研究都集中在純文本的推理上,很少有人關注這種“圖像 + 操作 + 策略”的多模態任務,這正是 VLM 的短板。因此,VideoGameBench 不只是個游戲挑戰平臺,更是一種新型的 AI 測試基準,代表著大模型在多模態理解上的真實表現力。
對此感興趣的小伙伴可以通過 GitHub 項目地址了解更多:
https://github.com/alexzhang13/videogamebench
來源:https://www.vgbench.com/#ref-17
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.