æ–°æ™ºå…ƒå ±é“
編輯:定慧
ã€æ–°æ™ºå…ƒå°Žè®€ã€‘AIé »é »åˆ·æ–°åŸºæº–æ¸¬è©¦ç´€éŒ„ï¼Œå»ç®—ä¸æ¸…「strawberryã€é‡Œåˆ°åº•æœ‰å¹¾å€‹å—æ¯r,在人類看來很簡單的å•é¡Œå»é »é »å‡ºéŒ¯ã€‚這種å差促使創æ„測評興起,例如由一å高ä¸ç”Ÿé–‹ç™¼çš„MC-Bench,用Minecraftæ–¹å¡Šã€Œç«¶æŠ€å ´ã€æ¨¡å¼è©•åƒ¹AI能力。這種新的測評范å¼ï¼Œæˆ–許更貼åˆäººé¡žå°AI直觀ã€å‰µé€ 性能力的實際期待。
「strawberryä¸æœ‰å¤šå°‘個rã€å’Œã€Œåœ¨LSAT法å¸è€ƒè©¦ä¸ç²å¾—88分ã€å“ªå€‹æ›´é›£ï¼Ÿ
å°äºŽç¾å¦‚今的LMMs來說,通éŽå„種人類「è½è‘—å°±é 痛,看åˆçœ‹ä¸æ‡‚ã€çš„基準測試似乎已是家常便飯。
比如DeepSeek-R1發布時在6大基準測試(包å«AIMEã€MMLUã€MATH-500ç‰ï¼‰ä¸è¶…éŽo1å–å¾—é ˜å…ˆã€‚
但是å°äºŽäººé¡žä¾†èªªä¾é 直覺和下æ„è˜å°±èƒ½å›žç”çš„å•é¡Œï¼ŒLLM們似乎集體有點「發懵ã€ã€‚
很難ç†è§£OpenAIçš„GPT-4èƒ½å¤ åœ¨LSAT考試ä¸ç²å¾—第88百分ä½çš„æˆç¸¾ï¼Œä½†å»ç„¡æ³•æ•¸æ¸…楚「strawberryã€ä¸æœ‰å¤šå°‘r。
除了復雜的基準測試,å¦å¤–一種評價模型好壞的方å¼å°±æ˜¯ã€Œç«¶æŠ€å ´æ¨¡å¼ã€ã€‚
比如å¯ä»¥åœ¨Chatbot Arena進行上æå•æŠ•ç¥¨ï¼Œé¸å‡ºé¢å°ç›¸åŒå•é¡Œæ™‚的「最佳模型ã€ã€‚
但是這種ä¾é Chat模å¼çš„評測ä¾ç„¶ä¸å¤ªç›´è§€ï¼ŒäºŽæ˜¯å„種å„樣的創æ„評測就誕生了。
創æ„評測的é…力
Minecraft Benchmark(或 MC-Bench)åƒä¸€å€‹ç«¶æŠ€å ´ï¼Œåœ¨ä¸€å°ä¸€çš„挑戰ä¸é‡å°ç›¸åŒæ示生æˆMinecraft作å“。
「å°æ±ºé›™æ–¹ã€ç”±ç”¨æˆ¶æŠ•ç¥¨é¸æ“‡å“ªå€‹æ¨¡åž‹åšå¾—更好。
并且åªæœ‰åœ¨æŠ•ç¥¨åŽæ‰èƒ½çœ‹åˆ°æ¯å€‹Minecraft建ç‘是由哪個AI制作的。
ç›®å‰MC-Bench的榜單上,Claude3.7æš«æ™‚é ˜å…ˆï¼Œdeepseek-r1ä½åˆ—第5,但是考慮到DeepSeek-R1的發布時間,Claude3.7ã€GPT-4.5å’ŒGemini2.0都相當于是「新一代ã€çš„模型了,期待DeepSeek-R2出來åŽçš„榜單ï¼
åƒMC-Bench這樣的創æ„評測,優勢éžå¸¸æ˜Žé¡¯ï¼šæ™®é€šäººä¹Ÿèƒ½è¼•æ¾åƒèˆ‡ï¼Œåƒã€Œé¸ç¾Žã€ä¸€æ¨£ç°¡å–®ç›´æŽ¥ã€‚
å‰µé€ MC-Benché …ç›®çš„åƒ…åƒ…æ˜¯ä¸€å高ä¸ç”ŸAdi Singh,在將Minecraft用于AI評測這件事情上,Adi Singh覺得Minecraft的價值ä¸åœ¨æ¸¸æˆ²æœ¬èº«ã€‚
而是作為有å²ä»¥ä¾†æœ€æš¢éŠ·çš„é›»å游戲,å³ä½¿å°äºŽæ²’玩éŽMinecraft游戲的人來說,ä»ç„¶å¯ä»¥é¸æ“‡è‡ªå·±æ›´å–œæ¡çš„「方塊樣åã€ã€‚
MC-Bench是åˆä½œé–‹ç™¼çš„,除了Adi Singh外,貢ç»è€…還有7ä½ï¼ŒåŒ…括了「æ示詞創æ„官ã€ã€æŠ€è¡“主管和開發者們。
并ç²å¾—了Anthropicã€Google和阿里巴巴ç‰å…¬å¸çš„技術支æŒã€‚
傳統LLM評測:嚴肅èªçœŸä½†æœªå¿…管用
傳統的AI基準測試技術被è‰æ˜Žä¸è¶³ï¼Œä¸»è¦é«”ç¾åœ¨ä»¥ä¸‹å¹¾å€‹æ–¹é¢ï¼š
ä¸»å ´å„ªå‹¢ (Overfitting to benchmarks):傳統的 AI 基準測試往往基于特定類型的任務è¨è¨ˆï¼Œé€™äº›ä»»å‹™å° AI 模型來說相å°å›ºå®šä¸”簡單,這種éŽæ“¬åˆå°±åƒä¸€å「åªæœƒèƒŒé¡Œã€çš„å¸ç”Ÿã€‚
測試任務éŽäºŽç‹¹çª„:傳統的測試任務多集ä¸äºŽå–®ä¸€ç¶åº¦çš„能力評估,如語言ç†è§£ã€é‚輯推ç†ã€æ•¸å¸è¨ˆç®—。
缺ä¹çœŸå¯¦ç’°å¢ƒèˆ‡é–‹æ”¾æ€§ï¼šå‚³çµ±çš„基準測試通常使用高度抽象化或ç†è«–化的環境,而這些環境往往ä¸èƒ½åæ˜ ç¾å¯¦ä¸–ç•Œä¸å•é¡Œçš„開放性和ä¸ç¢ºå®šæ€§ã€‚
難以衡é‡é€šç”¨æ€§èˆ‡æ³›åŒ–能力:傳統 AI 基準測試往往無法有效衡é‡æ¨¡åž‹çš„通用性或泛化能力。
å› æ¤AI構建者æ£åœ¨è½‰å‘更有創æ„的方法來評估Gen-AI模型的能力。
AI開發者們表示,我們也想玩點「新鮮的ã€ã€‚
MC-Bench的本質是在測試AI模型的文本ç†è§£å’Œç·¨ç¢¼èƒ½åŠ›ã€‚
通éŽé¡žä¼¼Chatbot Arenaçš„æ–¹å¼ä¾†é€²è¡Œæ¨¡åž‹è©•æ¯”。
å°äºŽç‚ºä½•é¸æ“‡æ¸¸æˆ²ï¼Œé¸æ“‡Minecraft,Adi Singh覺得「游戲å¯èƒ½åªæ˜¯ä¸€ç¨®æ¸¬è©¦èƒ½å‹•æ€§æŽ¨ç†çš„媒介,比ç¾å¯¦ç”Ÿæ´»æ›´å®‰å…¨ï¼Œä¹Ÿæ›´é©åˆæ¸¬è©¦ç›®çš„ï¼Œå› æ¤åœ¨æˆ‘看來更為ç†æƒ³ã€ã€‚
從Adi Singh個人網站來看,他å°äºŽä½¿ç”¨Minecraft方塊進行AI評測應該是「蓄謀已久ã€ï¼ŒAdi Singh展示很多利用大模型生æˆMinecraft方塊的精彩案例。
比如,gpt-4.5æ ¹æ“šæ示「構建一艘在云層ä¸é£›è¡Œçš„è’¸æ±½æœ‹å…‹é¢¨æ ¼é£›è‰‡ã€ã€‚
å†æ¯”如,claude-3.7-sonnet有一個令人å°è±¡éžå¸¸æ·±åˆ»çš„Minecraftæ¨¡åž‹ï¼Œæ ¹æ“šæ示「韓國å‹èª¼ä¹‹é˜ã€ç”Ÿæˆã€‚
并且,社å€æˆå“¡å°MC-Bench的評價也很高。
比如目å‰å°±è·äºŽOpenAIçš„åŸºç¤Žç ”ç©¶å“¡Aidan McLaughlin,å°Minecraft Benchçµ¦äºˆäº†å¾ˆé«˜çš„è©•åƒ¹ï¼šä½ æ‡‰è©²å¯†åˆ‡é—œæ³¨MC-Benchï¼
Aid an McLaughlinåŒæ™‚給出了他èªç‚ºæœ€ä½³çš„人工智能基準應具有:
審計數據的樂趣 (與其他所有基準測試都ä¸åŒï¼‰
測試真æ£é—œå¿ƒçš„功能 (代碼ã€ç¾Žå¸ã€æ„è˜ï¼‰
甚至å¯ä»¥è¾¨åˆ¥é ‚級型號之間的性能差異
游戲測評AI似乎ä¾ç„¶æ˜¯ã€Œä¸»æµå‰µæ„ã€
在Claude 3.7 Sonnet發布時說éŽï¼Œæ¨¡åž‹é™ä½Žäº†åœ¨æ•¸å¸ã€ç«¶è³½å’Œç·¨ç¨‹æ–¹é¢çš„特化程度,有「更好ã€çš„æ€è€ƒèƒ½åŠ›ã€‚
那么如何評測新模型的「æ€è€ƒã€èƒ½åŠ›å‘¢ï¼Ÿ
ç”案就是游戲《寶å¯å¤¢ã€‹ï¼Œé€™ä¸æ˜¯é–‹çŽ©ç¬‘。
Claude通éŽé…備了é€éŽç¨‹åºä¾†æ“控游戲的特定「按鈕ã€ã€‚
甚至還在Twitch上直æ’了Claude玩游戲的全éŽç¨‹ï¼Œå¯ä»¥çœ‹åˆ°å®ƒå¦‚何å¸ç¿’ã€æ€è€ƒå¹¶é‡‡å–行動。
ä¸è«–是傳統的基準測試,還是類似MC-Bench的創æ„測試。
å°äºŽç”Ÿæˆå¼AI的能力評測,目å‰ä¾ç„¶æ²’有一個「一勞永逸ã€çš„標準。
傳統基準測試的評估çµæžœå¤šé‡‡ç”¨å–®ä¸€çš„客觀分數(如準確率),忽視了人類實際感å—和主觀評價的ç¶åº¦ã€‚
在生æˆå¼AIä¸ï¼Œç¾Žå¸æ„ŸçŸ¥ã€å‰µé€ 力ã€ç›´è§€æ€§å¾€å¾€æ›´åŠ é‡è¦ï¼Œä½†é€™äº›å› ç´ å¾ˆé›£åœ¨å‚³çµ±çš„æ¨™æº–åŒ–æ¸¬è©¦ä¸é«”ç¾å‡ºä¾†ã€‚
也許類似MC-Bench這樣的創æ„評測會給未來的AI評測帶來新的「范å¼ã€ã€‚
而新的AI評測「范å¼ã€ä¹Ÿè¨±æœƒåŠ 速推動AI的發展。
åƒè€ƒè³‡æ–™ï¼š
https://mcbench.ai/
https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/
https://finance.yahoo.com/news/high-schooler-built-website-lets-201110310.html
特別è²æ˜Žï¼šä»¥ä¸Šå…§å®¹(å¦‚æœ‰åœ–ç‰‡æˆ–è¦–é »äº¦åŒ…æ‹¬åœ¨å…§)為自媒體平臺“網易號â€ç”¨æˆ¶ä¸Šå‚³å¹¶ç™¼å¸ƒï¼Œæœ¬å¹³è‡ºåƒ…æ供信æ¯å˜å„²æœå‹™ã€‚
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.