99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI版本寶可夢沖榜上全球前10%!一次性「吃掉」10年47.5萬場人類對戰數據

0
分享至


新智元報道

編輯:定慧

【新智元導讀】還在用搜索和規則訓練AI游戲?現在直接「看回放」學打寶可夢了!德州大學奧斯汀分校的研究團隊用Transformer和離線強化學習打造出一個智能體,不靠規則、沒用啟發式算法,純靠47.5萬場人類對戰回放訓練出來,居然打上了Pokémon Showdown全球前10%!

AI 又有「新活」了!

德州大學奧斯汀分校的研究團隊用Transformers和離線強化學習訓練出了一個寶可夢對戰AI智能體,不但打法像人,還能在全球排名中殺進前 10%。


論文地址:https://metamon.tech/

是的,你沒看錯,這不是那種靠搜索和規則的AI,而是靠人類歷史對戰數據「喂出來」的智能體,能自己學著打。

這個寶可夢游戲(全稱Competitive Pokémon Singles)有多復雜呢?

在對戰平臺https://pokemonshowdown.com/上可以看到,即使不考慮策略,光是精靈、動作和物品的數量已經多到了非??鋸埖某潭龋ǜ痉煌辏?/p>


這意味著,AI要在信息不完全、策略博弈的環境中,把每一步出招、每一次換人,都當成下圍棋一樣來算。

寶可夢對戰融合了國際象棋般的長遠策略規劃、撲克牌那樣充滿未知信息和隨機性,再加上足以填滿一本百科全書的寶可夢、招式、特性和規則。玩家需要精心設計和操控自己的寶可夢隊伍,擊敗對手的所有寶可夢才能獲勝。這樣一個充滿不確定性、狀態空間極其龐大的游戲,對AI來說是絕佳又極具挑戰性的研究課題。

這種硬核程度,更像是寶可夢版的《星際爭霸》。

把「回放」喂給 AI,教它打寶可夢

研究團隊開發了一個名為Metamon的平臺,它使用來自Pokémon Showdown(以下簡稱PS)的人類游戲數據集來啟用離線RL工作流。


PS會創建一個日志(過程「回放」),記錄每場戰斗。

玩家保存日志以供日后研究、與朋友分享有趣的結果,或作為記錄官方錦標賽結果的證明。

PS的回放數據已經超過十年——足夠的時間積累數百萬個重放,比如下面的是10年前2014年的戰斗回放。


PS回放數據集是一個完全的、自然發生的人類數據集合,但這個數據集有個問題——這些數據是以第三方角度收集的,而不是第一人稱,訓練智能體需要用第一人稱視角。

研究團隊通過將觀眾視角分別轉換為每個玩家的視角來解鎖PS回放數據集。

最終,研究團隊搞出一個47.5萬局真實人類對戰組成的離線強化學習數據集,而且每天還在持續增長中。


在序列數據上使用離線強化學習算法訓練

寶可夢擁有一個非常復雜的狀態空間,因此在使用離線強化學習(offline RL)進行訓練時,策略模型可能需要具備較大的規模和復雜的結構。

為了使訓練過程更加穩定,將這個問題轉化為行為克隆(Behavior Cloning, BC)的角度來理解:預測一個人類玩家的動作,實際上是在嘗試推理模仿的這個玩家的策略,以及他們對對手的理解。

為了實現準確的預測,模型往往需要較長的上下文輸入。

強化學習(RL)在這種場景下的作用,是幫助我們從包含了不同水平玩家(包括競技和休閑玩家)決策的大規模數據中,篩選出有效信息。

采用的解決方案是actor-critic架構,其中critic的訓練方式是使用標準的一步時序差分(temporal difference, TD)更新來輸出Q值。至于actor的損失函數,其一般形式如下:



接下來,需要為CPS(Competitive Pokémon Simulator)定義觀測空間、動作空間和獎勵函數。

智能體需要獲取足夠的信息,以便能夠模擬人類玩家的決策,而PS網站的用戶界面是一個顯而易見的參考點。

不過,由于模型具備記憶能力,因此無需在每一個時間步都提供全部信息。

最終達成了一個折中方案:輸入由87個文本詞語和48個數值特征組成。

下圖展示了數據集中一場回放中的示例。觀測只包含對手當前上場的寶可夢。


僅僅依靠強化學習能打贏人類嗎?

傳統做法教AI玩游戲,通常會設計規則、模擬狀態、設計算法。

但這篇論文反其道而行之:直接喂數據,讓它「模仿」人類怎么打。

他們訓練了多個大小不同的智能體,從1500萬參數的小模型,到2億參數的大模型。

其中有的通過模仿學習訓練(IL),有的則用離線強化學習(RL)進一步優化,還有的則加上「自我對戰」的數據做微調。


可以在Pokémon Showdown上觀看各個模型的游戲重播。

最強AI打上全球天梯前 10%

說了這么多,這AI真的能打嗎?

研究者將多個版本的模型送上Pokémon Showdown的天梯服務器——這是全世界寶可夢高玩集中的地方。

結果模型居然排進了全球活躍玩家的前10%,并成功登上了排行榜。

在圖中展示了Glicko-1階梯分數及其評分偏差。柱狀圖標簽標注的是GXE(勝率期望)統計數據。


階梯分位數(Ladder Percentiles),在 2025年2月至3月期間下載的回放數據中,共識別出14,022個在第1到第4世代活躍的用戶名。

以第1世代(Gen1)為例,在這些用戶名中,有5,095個參與了 Gen1OU(標準對戰規則),其中有2,661個活躍度較高,達到了在最終結果統計時擁有有效 GXE(勝率期望)數據的標準。


這可能是你第一次聽說有人用Transformer打寶可夢,還打贏了人類。

但從技術視角看,這背后是強化學習、模仿學習、大模型訓練和數據重構的完整鏈路。

它不只是一個「有趣的實驗」,更像是一次對數據驅動游戲 AI 的深度演練。

下一步,或許可以不是打游戲,而是讓AI玩轉更復雜的現實任務。

此外,不同的訓練策略以及大規模自我對戰(self-play)技術,或許能夠讓智能體帶來超越人類表現的突破。

參考資料:

https://x.com/yukez/status/1909993963848622206

https://metamon.tech/

https://arxiv.org/abs/2504.04395

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
劉強東和王興坐不回同一張飯桌

劉強東和王興坐不回同一張飯桌

硅星人
2025-04-22 10:16:43
老年人都有老人味嗎?網友:過了七十五,活著都沒意思了

老年人都有老人味嗎?網友:過了七十五,活著都沒意思了

解讀熱點事件
2025-04-22 01:20:16
57歲游牧突發心梗離世,此前曾在雙匯、雨潤、春都任總裁

57歲游牧突發心梗離世,此前曾在雙匯、雨潤、春都任總裁

大象新聞
2025-04-22 07:11:02
18+3+7!哈登末節讓賢數據全掛零 小卡狂轟39分 快船融化丹佛金塊

18+3+7!哈登末節讓賢數據全掛零 小卡狂轟39分 快船融化丹佛金塊

狍子歪解體壇
2025-04-22 12:46:19
5月起,中國或將迎來“四大降價潮”!有人松口氣,卻有人更焦慮

5月起,中國或將迎來“四大降價潮”!有人松口氣,卻有人更焦慮

搬磚營Z
2025-04-22 01:33:32
蔡少芬、張晉現狀:一家蝸居80m2公寓,孩子睡上下鋪,背后的真相

蔡少芬、張晉現狀:一家蝸居80m2公寓,孩子睡上下鋪,背后的真相

華人星光
2025-04-21 12:10:59
廣州獵德大橋突發事件已處理完畢,交通恢復正常

廣州獵德大橋突發事件已處理完畢,交通恢復正常

深圳晚報
2025-04-22 11:58:59
中國奧委會官宣:周繼紅當選中國泳協主席 退休不到一個月就復出

中國奧委會官宣:周繼紅當選中國泳協主席 退休不到一個月就復出

醉臥浮生
2025-04-22 10:52:00
非洲小國一群婦女不滿采礦破壞環境,縱火焚毀中資采礦設施,設備全部被燒毀

非洲小國一群婦女不滿采礦破壞環境,縱火焚毀中資采礦設施,設備全部被燒毀

互聯網大觀
2025-04-21 13:56:35
網逃男子攜帶70多萬元現金“隱居”山洞,白天睡覺,晚上才敢上街購物

網逃男子攜帶70多萬元現金“隱居”山洞,白天睡覺,晚上才敢上街購物

大風新聞
2025-04-22 12:55:09
字母哥狂轟30+10統治內線!利拉德25+5助雄鹿大勝

字母哥狂轟30+10統治內線!利拉德25+5助雄鹿大勝

米老師說臺球
2025-04-22 08:53:56
【環時深度】面對美關稅大棒,日歐有哪些牌能打?

【環時深度】面對美關稅大棒,日歐有哪些牌能打?

環球網資訊
2025-04-22 06:41:12
無手換衛生巾女孩被開黃腔?不是所有人都是人

無手換衛生巾女孩被開黃腔?不是所有人都是人

姬鵬
2025-04-21 23:55:23
被當作反面典型的原省長,再被公開點名!

被當作反面典型的原省長,再被公開點名!

上觀新聞
2025-04-22 11:52:03
辣眼!成都一男女在母嬰室行不雅之事?路人拍下過程,視頻曝光!

辣眼!成都一男女在母嬰室行不雅之事?路人拍下過程,視頻曝光!

烏娛子醬
2025-04-22 09:25:00
早看霧晚看霞!湖南00后女生守水庫引熱議,當事人:喜好山水不覺苦悶,這是守家園

早看霧晚看霞!湖南00后女生守水庫引熱議,當事人:喜好山水不覺苦悶,這是守家園

瀟湘晨報
2025-04-21 19:40:12
看完宇樹科技的2條公告,我大驚失色

看完宇樹科技的2條公告,我大驚失色

桃溪讀書
2025-04-22 10:45:37
官宣,王哲林加盟新球隊,廣東大外簽新東家,郭艾倫示愛女神曝光

官宣,王哲林加盟新球隊,廣東大外簽新東家,郭艾倫示愛女神曝光

東球弟
2025-04-22 08:52:55
全員無視!掘金最后2投 威少方圓兩米一個人都沒有

全員無視!掘金最后2投 威少方圓兩米一個人都沒有

直播吧
2025-04-22 13:13:12
小卡王者歸來:39分全場最高關鍵攻防制勝 季后賽3000分里程碑

小卡王者歸來:39分全場最高關鍵攻防制勝 季后賽3000分里程碑

醉臥浮生
2025-04-22 12:39:03
2025-04-22 14:32:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12571文章數 66019關注度
往期回顧 全部

科技要聞

未脫離困境,分析師稱蘋果股價或再跌近30%

頭條要聞

胡塞武裝:美國航母、轟炸機不管用了

頭條要聞

胡塞武裝:美國航母、轟炸機不管用了

體育要聞

當今足壇最瘋的門將,能有多離譜?

娛樂要聞

關曉彤分手風波后首現身!甜美狀態好

財經要聞

沐邦高科危險信號:多筆交易存蹊蹺

汽車要聞

捷途山海T2加長版/山海L9等 捷途新車展前亮相

態度原創

健康
藝術
旅游
數碼
教育

唇皰疹和口腔潰瘍是"同伙"嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數碼要聞

真我首款AI翻譯耳機官宣:接入訊飛星火認知大模型4.0 Ultra

教育要聞

孩子早戀,3步教你正確引導,比任何說教都管用(建議收藏)

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 平安县| 固原市| 永泰县| 兰西县| 福海县| 五常市| 卢氏县| 盐池县| 阿拉尔市| 三河市| 兖州市| 道孚县| 广平县| 朝阳市| 灵丘县| 新竹县| 呼图壁县| 车险| 鄂温| 图木舒克市| 黔西县| 从江县| 浦北县| 延津县| 泰安市| 买车| 祁连县| 辉县市| 育儿| 莱芜市| 灵武市| 昭平县| 营口市| 合作市| 苍梧县| 泰来县| 康乐县| 集贤县| 资阳市| 万荣县| 阿坝县|