99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<ruby id="dat3r"></ruby>

<cite id="dat3r"></cite>

<nav id="dat3r"><fieldset id="dat3r"></fieldset></nav>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

AI版本寶可夢沖榜上全球前10%！一次性「吃掉」10年47.5萬場人類對戰數據

2025-04-20 12:38:46　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：定慧

【新智元導讀】還在用搜索和規則訓練AI游戲？現在直接「看回放」學打寶可夢了！德州大學奧斯汀分校的研究團隊用Transformer和離線強化學習打造出一個智能體，不靠規則、沒用啟發式算法，純靠47.5萬場人類對戰回放訓練出來，居然打上了Pokémon Showdown全球前10%！

AI 又有「新活」了！

德州大學奧斯汀分校的研究團隊用Transformers和離線強化學習訓練出了一個寶可夢對戰AI智能體，不但打法像人，還能在全球排名中殺進前 10%。

論文地址：https://metamon.tech/

是的，你沒看錯，這不是那種靠搜索和規則的AI，而是靠人類歷史對戰數據「喂出來」的智能體，能自己學著打。

這個寶可夢游戲（全稱Competitive Pokémon Singles）有多復雜呢？

在對戰平臺https://pokemonshowdown.com/上可以看到，即使不考慮策略，光是精靈、動作和物品的數量已經多到了非?？鋸埖某潭龋ǜ痉煌辏?/p>

這意味著，AI要在信息不完全、策略博弈的環境中，把每一步出招、每一次換人，都當成下圍棋一樣來算。

寶可夢對戰融合了國際象棋般的長遠策略規劃、撲克牌那樣充滿未知信息和隨機性，再加上足以填滿一本百科全書的寶可夢、招式、特性和規則。玩家需要精心設計和操控自己的寶可夢隊伍，擊敗對手的所有寶可夢才能獲勝。這樣一個充滿不確定性、狀態空間極其龐大的游戲，對AI來說是絕佳又極具挑戰性的研究課題。

這種硬核程度，更像是寶可夢版的《星際爭霸》。

把「回放」喂給 AI，教它打寶可夢

研究團隊開發了一個名為Metamon的平臺，它使用來自Pokémon Showdown（以下簡稱PS）的人類游戲數據集來啟用離線RL工作流。

PS會創建一個日志（過程「回放」），記錄每場戰斗。

玩家保存日志以供日后研究、與朋友分享有趣的結果，或作為記錄官方錦標賽結果的證明。

PS的回放數據已經超過十年——足夠的時間積累數百萬個重放，比如下面的是10年前2014年的戰斗回放。

PS回放數據集是一個完全的、自然發生的人類數據集合，但這個數據集有個問題——這些數據是以第三方角度收集的，而不是第一人稱，訓練智能體需要用第一人稱視角。

研究團隊通過將觀眾視角分別轉換為每個玩家的視角來解鎖PS回放數據集。

最終，研究團隊搞出一個47.5萬局真實人類對戰組成的離線強化學習數據集，而且每天還在持續增長中。

在序列數據上使用離線強化學習算法訓練

寶可夢擁有一個非常復雜的狀態空間，因此在使用離線強化學習（offline RL）進行訓練時，策略模型可能需要具備較大的規模和復雜的結構。

為了使訓練過程更加穩定，將這個問題轉化為行為克隆（Behavior Cloning, BC）的角度來理解：預測一個人類玩家的動作，實際上是在嘗試推理模仿的這個玩家的策略，以及他們對對手的理解。

為了實現準確的預測，模型往往需要較長的上下文輸入。

強化學習（RL）在這種場景下的作用，是幫助我們從包含了不同水平玩家（包括競技和休閑玩家）決策的大規模數據中，篩選出有效信息。

采用的解決方案是actor-critic架構，其中critic的訓練方式是使用標準的一步時序差分（temporal difference, TD）更新來輸出Q值。至于actor的損失函數，其一般形式如下：

接下來，需要為CPS（Competitive Pokémon Simulator）定義觀測空間、動作空間和獎勵函數。

智能體需要獲取足夠的信息，以便能夠模擬人類玩家的決策，而PS網站的用戶界面是一個顯而易見的參考點。

不過，由于模型具備記憶能力，因此無需在每一個時間步都提供全部信息。

最終達成了一個折中方案：輸入由87個文本詞語和48個數值特征組成。

下圖展示了數據集中一場回放中的示例。觀測只包含對手當前上場的寶可夢。

僅僅依靠強化學習能打贏人類嗎？

傳統做法教AI玩游戲，通常會設計規則、模擬狀態、設計算法。

但這篇論文反其道而行之：直接喂數據，讓它「模仿」人類怎么打。

他們訓練了多個大小不同的智能體，從1500萬參數的小模型，到2億參數的大模型。

其中有的通過模仿學習訓練（IL），有的則用離線強化學習（RL）進一步優化，還有的則加上「自我對戰」的數據做微調。

可以在Pokémon Showdown上觀看各個模型的游戲重播。

最強AI打上全球天梯前 10%

說了這么多，這AI真的能打嗎？

研究者將多個版本的模型送上Pokémon Showdown的天梯服務器——這是全世界寶可夢高玩集中的地方。

結果模型居然排進了全球活躍玩家的前10%，并成功登上了排行榜。

在圖中展示了Glicko-1階梯分數及其評分偏差。柱狀圖標簽標注的是GXE（勝率期望）統計數據。

階梯分位數（Ladder Percentiles），在 2025年2月至3月期間下載的回放數據中，共識別出14,022個在第1到第4世代活躍的用戶名。

以第1世代（Gen1）為例，在這些用戶名中，有5,095個參與了 Gen1OU（標準對戰規則），其中有2,661個活躍度較高，達到了在最終結果統計時擁有有效 GXE（勝率期望）數據的標準。

這可能是你第一次聽說有人用Transformer打寶可夢，還打贏了人類。

但從技術視角看，這背后是強化學習、模仿學習、大模型訓練和數據重構的完整鏈路。

它不只是一個「有趣的實驗」，更像是一次對數據驅動游戲 AI 的深度演練。

下一步，或許可以不是打游戲，而是讓AI玩轉更復雜的現實任務。

此外，不同的訓練策略以及大規模自我對戰（self-play）技術，或許能夠讓智能體帶來超越人類表現的突破。

參考資料：

https://x.com/yukez/status/1909993963848622206

https://metamon.tech/

https://arxiv.org/abs/2504.04395

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

宇樹宣布參加人形機器人格斗大賽，央視全網直播，呼叫胡一菲!

AI變革 2025-04-21 21:10:15
1544 跟貼 1544
選AI比選對象還難！起名黑洞OpenAI的新模型，到底怎么選？

新智元 2025-04-21 12:46:41
31 跟貼 31

垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0

谷歌DeepMind CEO展示Genie 2：機器人訓練新時代

智東西 2025-04-22 10:22:13
4 跟貼 4
百頁專業報告直出！Jürgen團隊開源框架WriteHERE，AI寫作天花板

機器之心Pro 2025-04-21 19:02:22
0 跟貼 0

142頁長文揭秘DeepSeek-R1「思維大腦」！開啟全新「思維鏈學」研究

新智元 2025-04-22 12:58:21
0 跟貼 0

首個融合重建-預測-規劃的生成式世界模型AETHER開源

機器之心Pro 2025-04-21 18:26:16
2 跟貼 2
高通公司AI產品技術中國區負責人萬衛星：下一代AI體驗的關鍵所在 | 2025 AI Partner大會

36氪 2025-04-22 11:47:20
0 跟貼 0

Claude竟藏著3307種「人格」？深扒70萬次對話，這個AI會看人下菜碟

新智元 2025-04-22 12:58:57
0 跟貼 0
具備逆向思維的人，才能看懂這個游戲！網友：反應好機靈的孩子

青島資訊 2025-04-20 16:08:41
6 跟貼 6
炸彈在手就是制勝法寶！地主連扔兩炮太威風，不服就是一頓炸！

澀會小阿敏 2025-04-18 15:34:24
0 跟貼 0
紅警威武戰艦遇譚雅+冷凍兵+密集小兵!施展不開!

澀會小阿敏 2025-04-21 12:35:41
0 跟貼 0
PocketPair駁斥任天堂訴訟《幻獸帕魯》律師認為塞爾達也存在抄襲

游戲之美 2025-04-22 00:17:56
8 跟貼 8
救命！這局斗地主直接把我 CPU 燒干！反轉太絕了誰懂啊

澀會小阿敏 2025-04-20 11:19:12
16 跟貼 16
男孩在游戲里談戀愛，沒想到對方竟是個大媽

聽風剪影 2025-04-21 20:28:28
1 跟貼 1
紅警一塊地心態爆炸的報仇!擺爛互相血拼到底!

澀會小阿敏 2025-04-20 11:39:46
0 跟貼 0
同學聚會玩游戲，女生做法玩不起，男生瞬間坐不住了！

歡樂制造家 2025-04-21 10:59:57
1 跟貼 1
你為什么要追我# 這個游戲很好玩

夢婷 2025-04-21 00:00:00
0 跟貼 0
紅警巨炮和火箭決斗!抓住敵人心思搶先一步!

澀會小阿敏 2025-04-21 12:44:14
0 跟貼 0
小兩口玩游戲，媽媽十月懷胎沒白養，爸爸成了兒子盡孝的冤大頭

搞笑杰瑞 2025-04-21 09:18:29
3 跟貼 3
叛逆外甥沉迷游戲打爹罵娘，舅舅強勢出手教育，卻讓網友憤怒不已

用耳朵聆聽 2025-04-21 13:52:47
1 跟貼 1
倆小人拿槍互相射擊，看誰的頭先被打爆，發明這游戲的人是天才！

幽默狂歡營 2025-04-18 09:51:36
111 跟貼 111
紅警唯一的希望 -譚雅突襲!能否翻盤就看你了!

澀會小阿敏 2025-04-21 09:38:13
0 跟貼 0
夫妻倆玩游戲，丈夫以為撿漏放水，結果實在斗不過老婆！

搞笑柒月 2025-04-21 13:16:46
1 跟貼 1
洪江單k打出上帝視角！

澀會小阿敏 2025-04-20 11:35:34
0 跟貼 0
老婆輔導孩子作業逐漸暴踝，玩游戲的老公察覺不對秒收玩具。老公：無緣無故躺著也中槍

城市大眼睛 2025-04-20 11:11:13
0 跟貼 0
一副天牌打個稀碎，必勝的牌輸三炸

澀會小阿敏 2025-04-22 10:17:34
0 跟貼 0
童年的游戲彈彈珠，一下就攤開了，非常的厲害

小姐姐愛搞笑 2025-04-19 16:43:59
1 跟貼 1
夫妻倆玩游戲，玩一天都不帶回去，都快來學學！

瀘州愛街拍 2025-04-21 08:55:59
0 跟貼 0
媳婦跟老公麥地里玩游戲，結果屢戰屢敗，媳婦差點被摔廢了

野外露營分享者 2025-04-20 09:10:42
0 跟貼 0
爸爸為了玩游戲把娃用膠帶粘了起來，網友：期待花開富貴的到來

重慶科教融媒體 2025-04-20 10:06:33
0 跟貼 0
斗地主規則中的 “進貢” 規則：牌局地位差異

澀會小阿敏 2025-04-20 11:31:40
0 跟貼 0
爸爸和小寶一起玩游戲，看得出來兩人誰也不讓誰，網友：小寶手速快的驚人

重慶熱點 2025-04-21 19:58:59
0 跟貼 0
打游戲養老，是臺灣省老人的夕陽紅

beebee 2025-02-28 11:13:07
1 跟貼 1
任天堂追查去年寶可夢大規模泄露事件幕后黑手

IT之家 2025-04-22 09:08:09
0 跟貼 0
圓規小子vs足球精靈！孰強孰劣？

奔跑的麥兜 2025-04-21 13:03:36
0 跟貼 0
媽媽和閨女玩游戲，把閨女的壓歲錢順走，閨女直接找爸爸訴苦

大婷廣眾 2025-04-18 09:17:48
0 跟貼 0
大哥用撲克牌變成大殺器，千萬別讓外國人看見，又解釋不清了

輕咪搞笑 2025-04-20 16:17:16
0 跟貼 0
與子探秘版納雨林，聽蕨芽私語，在綠野仙境尋訪山間精靈

辣木青青 2025-04-21 21:02:16
5 跟貼 5
第137屆廣交會一期到會境外采購商同比增長20.2%

投資快報 2025-04-21 16:13:12
5674 跟貼 5674

劉強東和王興坐不回同一張飯桌

硅星人

2025-04-22 10:16:43

老年人都有老人味嗎？網友：過了七十五，活著都沒意思了

老年人都有老人味嗎？網友：過了七十五，活著都沒意思了

解讀熱點事件

2025-04-22 01:20:16

57歲游牧突發心梗離世，此前曾在雙匯、雨潤、春都任總裁

57歲游牧突發心梗離世，此前曾在雙匯、雨潤、春都任總裁

大象新聞

2025-04-22 07:11:02

18+3+7！哈登末節讓賢數據全掛零小卡狂轟39分快船融化丹佛金塊

18+3+7！哈登末節讓賢數據全掛零小卡狂轟39分快船融化丹佛金塊

狍子歪解體壇

2025-04-22 12:46:19

5月起，中國或將迎來“四大降價潮”！有人松口氣，卻有人更焦慮

5月起，中國或將迎來“四大降價潮”！有人松口氣，卻有人更焦慮

搬磚營Z

2025-04-22 01:33:32

蔡少芬、張晉現狀：一家蝸居80m2公寓，孩子睡上下鋪，背后的真相

蔡少芬、張晉現狀：一家蝸居80m2公寓，孩子睡上下鋪，背后的真相

華人星光

2025-04-21 12:10:59

廣州獵德大橋突發事件已處理完畢，交通恢復正常

廣州獵德大橋突發事件已處理完畢，交通恢復正常

深圳晚報

2025-04-22 11:58:59

中國奧委會官宣：周繼紅當選中國泳協主席退休不到一個月就復出

中國奧委會官宣：周繼紅當選中國泳協主席退休不到一個月就復出

醉臥浮生

2025-04-22 10:52:00

非洲小國一群婦女不滿采礦破壞環境，縱火焚毀中資采礦設施，設備全部被燒毀

非洲小國一群婦女不滿采礦破壞環境，縱火焚毀中資采礦設施，設備全部被燒毀

互聯網大觀

2025-04-21 13:56:35

網逃男子攜帶70多萬元現金“隱居”山洞，白天睡覺，晚上才敢上街購物

網逃男子攜帶70多萬元現金“隱居”山洞，白天睡覺，晚上才敢上街購物

大風新聞

2025-04-22 12:55:09

字母哥狂轟30+10統治內線！利拉德25+5助雄鹿大勝

字母哥狂轟30+10統治內線！利拉德25+5助雄鹿大勝

米老師說臺球

2025-04-22 08:53:56

【環時深度】面對美關稅大棒，日歐有哪些牌能打？

【環時深度】面對美關稅大棒，日歐有哪些牌能打？

環球網資訊

2025-04-22 06:41:12

無手換衛生巾女孩被開黃腔？不是所有人都是人

無手換衛生巾女孩被開黃腔？不是所有人都是人

姬鵬

2025-04-21 23:55:23

被當作反面典型的原省長，再被公開點名！

被當作反面典型的原省長，再被公開點名！

上觀新聞

2025-04-22 11:52:03

辣眼！成都一男女在母嬰室行不雅之事？路人拍下過程，視頻曝光！

辣眼！成都一男女在母嬰室行不雅之事？路人拍下過程，視頻曝光！

烏娛子醬

2025-04-22 09:25:00

早看霧晚看霞！湖南00后女生守水庫引熱議，當事人：喜好山水不覺苦悶，這是守家園

早看霧晚看霞！湖南00后女生守水庫引熱議，當事人：喜好山水不覺苦悶，這是守家園

瀟湘晨報

2025-04-21 19:40:12

看完宇樹科技的2條公告，我大驚失色

看完宇樹科技的2條公告，我大驚失色

桃溪讀書

2025-04-22 10:45:37

官宣，王哲林加盟新球隊，廣東大外簽新東家，郭艾倫示愛女神曝光

官宣，王哲林加盟新球隊，廣東大外簽新東家，郭艾倫示愛女神曝光

東球弟

2025-04-22 08:52:55

全員無視！掘金最后2投威少方圓兩米一個人都沒有

全員無視！掘金最后2投威少方圓兩米一個人都沒有

直播吧

2025-04-22 13:13:12

小卡王者歸來：39分全場最高關鍵攻防制勝季后賽3000分里程碑

小卡王者歸來：39分全場最高關鍵攻防制勝季后賽3000分里程碑

醉臥浮生

2025-04-22 12:39:03

AI產業主平臺領航智能+時代

12571文章數 66019關注度

往期回顧全部

科技要聞

未脫離困境，分析師稱蘋果股價或再跌近30%

頭條要聞

胡塞武裝：美國航母、轟炸機不管用了

頭條要聞

胡塞武裝：美國航母、轟炸機不管用了

體育要聞

當今足壇最瘋的門將，能有多離譜？

娛樂要聞

關曉彤分手風波后首現身！甜美狀態好

財經要聞

沐邦高科危險信號：多筆交易存蹊蹺

汽車要聞

捷途山海T2加長版/山海L9等捷途新車展前亮相

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

藝術

旅游

數碼

教育

唇皰疹和口腔潰瘍是"同伙"嗎？

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

數碼要聞

真我首款AI翻譯耳機官宣：接入訊飛星火認知大模型4.0 Ultra

教育要聞

孩子早戀，3步教你正確引導，比任何說教都管用（建議收藏）

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：平安县| 固原市| 永泰县| 兰西县| 福海县| 五常市| 卢氏县| 盐池县| 阿拉尔市| 三河市| 兖州市| 道孚县| 广平县| 朝阳市| 灵丘县| 新竹县| 呼图壁县| 车险| 鄂温| 图木舒克市| 黔西县| 从江县| 浦北县| 延津县| 泰安市| 买车| 祁连县| 辉县市| 育儿| 莱芜市| 灵武市| 昭平县| 营口市| 合作市| 苍梧县| 泰来县| 康乐县| 集贤县| 资阳市| 万荣县| 阿坝县|

<blockquote id="9murx"></blockquote>

^{<blockquote id="9murx"></blockquote>}