ç¶²æ˜“é¦–é > ç¶²æ˜“è™Ÿ > æ£æ–‡ ç”³è«‹å…¥é§

é«˜ä¸ç”Ÿç”¨ã€Œæˆ‘çš„ä¸–ç•Œã€è©•æ¸¬SOTAæ¨¡åž‹ï¼Claudeæš«æ™‚é ˜å…ˆï¼ŒDeepSeekç·Šéš¨å…¶åŽ

2025-03-29 15:34:52ã€€ä¾†æº: æ–°æ™ºå…ƒ

åŒ—äº¬ èˆ‰å ±

åˆ†äº«è‡³

æ–°æ™ºå…ƒå ±é“

ç·¨è¼¯ï¼šå®šæ…§

ã€æ–°æ™ºå…ƒå°Žè®€ã€‘AIé »é »åˆ·æ–°åŸºæº–æ¸¬è©¦ç´€éŒ„ï¼Œå»ç®—ä¸æ¸…ã€Œstrawberryã€é‡Œåˆ°åº•æœ‰å¹¾å€‹å—æ¯rï¼Œåœ¨äººé¡žçœ‹ä¾†å¾ˆç°¡å–®çš„å•é¡Œå»é »é »å‡ºéŒ¯ã€‚é€™ç¨®åå·®ä¿ƒä½¿å‰µæ„æ¸¬è©•èˆˆèµ·ï¼Œä¾‹å¦‚ç”±ä¸€åé«˜ä¸ç”Ÿé–‹ç™¼çš„MC-Benchï¼Œç”¨Minecraftæ–¹å¡Šã€Œç«¶æŠ€å ´ã€æ¨¡å¼è©•åƒ¹AIèƒ½åŠ›ã€‚é€™ç¨®æ–°çš„æ¸¬è©•èŒƒå¼ï¼Œæˆ–è¨±æ›´è²¼åˆäººé¡žå°AIç›´è§€ã€å‰µé€ æ€§èƒ½åŠ›çš„å¯¦éš›æœŸå¾…ã€‚

ã€Œstrawberryä¸æœ‰å¤šå°‘å€‹rã€å’Œã€Œåœ¨LSATæ³•å¸è€ƒè©¦ä¸ç²å¾—88åˆ†ã€å“ªå€‹æ›´é›£ï¼Ÿ

å°äºŽç¾å¦‚ä»Šçš„LMMsä¾†èªªï¼Œé€šéŽå„ç¨®äººé¡žã€Œè½è‘—å°±é ç—›ï¼Œçœ‹åˆçœ‹ä¸æ‡‚ã€çš„åŸºæº–æ¸¬è©¦ä¼¼ä¹Žå·²æ˜¯å®¶å¸¸ä¾¿é£¯ã€‚

æ¯”å¦‚DeepSeek-R1ç™¼å¸ƒæ™‚åœ¨6å¤§åŸºæº–æ¸¬è©¦ï¼ˆåŒ…å«AIMEã€MMLUã€MATH-500ç‰ï¼‰ä¸è¶…éŽo1å–å¾—é ˜å…ˆã€‚

ä½†æ˜¯å°äºŽäººé¡žä¾†èªªä¾é ç›´è¦ºå’Œä¸‹æ„è˜å°±èƒ½å›žç”çš„å•é¡Œï¼ŒLLMå€‘ä¼¼ä¹Žé›†é«”æœ‰é»žã€Œç™¼æ‡µã€ã€‚

å¾ˆé›£ç†è§£OpenAIçš„GPT-4èƒ½å¤ åœ¨LSATè€ƒè©¦ä¸ç²å¾—ç¬¬88ç™¾åˆ†ä½çš„æˆç¸¾ï¼Œä½†å»ç„¡æ³•æ•¸æ¸…æ¥šã€Œstrawberryã€ä¸æœ‰å¤šå°‘rã€‚

é™¤äº†å¾©é›œçš„åŸºæº–æ¸¬è©¦ï¼Œå¦å¤–ä¸€ç¨®è©•åƒ¹æ¨¡åž‹å¥½å£žçš„æ–¹å¼å°±æ˜¯ã€Œç«¶æŠ€å ´æ¨¡å¼ã€ã€‚

æ¯”å¦‚å¯ä»¥åœ¨Chatbot Arenaé€²è¡Œä¸Šæå•æŠ•ç¥¨ï¼Œé¸å‡ºé¢å°ç›¸åŒå•é¡Œæ™‚çš„ã€Œæœ€ä½³æ¨¡åž‹ã€ã€‚

ä½†æ˜¯é€™ç¨®ä¾é Chatæ¨¡å¼çš„è©•æ¸¬ä¾ç„¶ä¸å¤ªç›´è§€ï¼ŒäºŽæ˜¯å„ç¨®å„æ¨£çš„å‰µæ„è©•æ¸¬å°±èª•ç”Ÿäº†ã€‚

å‰µæ„è©•æ¸¬çš„é…åŠ›

Minecraft Benchmarkï¼ˆæˆ– MC-Benchï¼‰åƒä¸€å€‹ç«¶æŠ€å ´ï¼Œåœ¨ä¸€å°ä¸€çš„æŒ‘æˆ°ä¸é‡å°ç›¸åŒæç¤ºç”ŸæˆMinecraftä½œå“ã€‚

ã€Œå°æ±ºé›™æ–¹ã€ç”±ç”¨æˆ¶æŠ•ç¥¨é¸æ“‡å“ªå€‹æ¨¡åž‹åšå¾—æ›´å¥½ã€‚

å¹¶ä¸”åªæœ‰åœ¨æŠ•ç¥¨åŽæ‰èƒ½çœ‹åˆ°æ¯å€‹Minecraftå»ºç‘æ˜¯ç”±å“ªå€‹AIåˆ¶ä½œçš„ã€‚

ç›®å‰MC-Benchçš„æ¦œå–®ä¸Šï¼ŒClaude3.7æš«æ™‚é ˜å…ˆï¼Œdeepseek-r1ä½åˆ—ç¬¬5ï¼Œä½†æ˜¯è€ƒæ…®åˆ°DeepSeek-R1çš„ç™¼å¸ƒæ™‚é–“ï¼ŒClaude3.7ã€GPT-4.5å’ŒGemini2.0éƒ½ç›¸ç•¶äºŽæ˜¯ã€Œæ–°ä¸€ä»£ã€çš„æ¨¡åž‹äº†ï¼ŒæœŸå¾…DeepSeek-R2å‡ºä¾†åŽçš„æ¦œå–®ï¼

åƒMC-Benché€™æ¨£çš„å‰µæ„è©•æ¸¬ï¼Œå„ªå‹¢éžå¸¸æ˜Žé¡¯ï¼šæ™®é€šäººä¹Ÿèƒ½è¼•æ¾åƒèˆ‡ï¼Œåƒã€Œé¸ç¾Žã€ä¸€æ¨£ç°¡å–®ç›´æŽ¥ã€‚

å‰µé€ MC-Benché …ç›®çš„åƒ…åƒ…æ˜¯ä¸€åé«˜ä¸ç”ŸAdi Singhï¼Œåœ¨å°‡Minecraftç”¨äºŽAIè©•æ¸¬é€™ä»¶äº‹æƒ…ä¸Šï¼ŒAdi Singhè¦ºå¾—Minecraftçš„åƒ¹å€¼ä¸åœ¨æ¸¸æˆ²æœ¬èº«ã€‚

è€Œæ˜¯ä½œç‚ºæœ‰å²ä»¥ä¾†æœ€æš¢éŠ·çš„é›»åæ¸¸æˆ²ï¼Œå³ä½¿å°äºŽæ²’çŽ©éŽMinecraftæ¸¸æˆ²çš„äººä¾†èªªï¼Œä»ç„¶å¯ä»¥é¸æ“‡è‡ªå·±æ›´å–œæ¡çš„ã€Œæ–¹å¡Šæ¨£åã€ã€‚

MC-Benchæ˜¯åˆä½œé–‹ç™¼çš„ï¼Œé™¤äº†Adi Singhå¤–ï¼Œè²¢ç»è€…é‚„æœ‰7ä½ï¼ŒåŒ…æ‹¬äº†ã€Œæç¤ºè©žå‰µæ„å®˜ã€ã€æŠ€è¡“ä¸»ç®¡å’Œé–‹ç™¼è€…å€‘ã€‚

å¹¶ç²å¾—äº†Anthropicã€Googleå’Œé˜¿é‡Œå·´å·´ç‰å…¬å¸çš„æŠ€è¡“æ”¯æŒã€‚

å‚³çµ±LLMè©•æ¸¬ï¼šåš´è‚…èªçœŸä½†æœªå¿…ç®¡ç”¨

å‚³çµ±çš„AIåŸºæº–æ¸¬è©¦æŠ€è¡“è¢«è‰æ˜Žä¸è¶³ï¼Œä¸»è¦é«”ç¾åœ¨ä»¥ä¸‹å¹¾å€‹æ–¹é¢ï¼š

ä¸»å ´å„ªå‹¢ (Overfitting to benchmarks)ï¼šå‚³çµ±çš„ AI åŸºæº–æ¸¬è©¦å¾€å¾€åŸºäºŽç‰¹å®šé¡žåž‹çš„ä»»å‹™è¨è¨ˆï¼Œé€™äº›ä»»å‹™å° AI æ¨¡åž‹ä¾†èªªç›¸å°å›ºå®šä¸”ç°¡å–®ï¼Œé€™ç¨®éŽæ“¬åˆå°±åƒä¸€åã€ŒåªæœƒèƒŒé¡Œã€çš„å¸ç”Ÿã€‚
æ¸¬è©¦ä»»å‹™éŽäºŽç‹¹çª„ï¼šå‚³çµ±çš„æ¸¬è©¦ä»»å‹™å¤šé›†ä¸äºŽå–®ä¸€ç¶åº¦çš„èƒ½åŠ›è©•ä¼°ï¼Œå¦‚èªžè¨€ç†è§£ã€é‚è¼¯æŽ¨ç†ã€æ•¸å¸è¨ˆç®—ã€‚
ç¼ºä¹çœŸå¯¦ç’°å¢ƒèˆ‡é–‹æ”¾æ€§ï¼šå‚³çµ±çš„åŸºæº–æ¸¬è©¦é€šå¸¸ä½¿ç”¨é«˜åº¦æŠ½è±¡åŒ–æˆ–ç†è«–åŒ–çš„ç’°å¢ƒï¼Œè€Œé€™äº›ç’°å¢ƒå¾€å¾€ä¸èƒ½åæ˜ ç¾å¯¦ä¸–ç•Œä¸å•é¡Œçš„é–‹æ”¾æ€§å’Œä¸ç¢ºå®šæ€§ã€‚
é›£ä»¥è¡¡é‡é€šç”¨æ€§èˆ‡æ³›åŒ–èƒ½åŠ›ï¼šå‚³çµ± AI åŸºæº–æ¸¬è©¦å¾€å¾€ç„¡æ³•æœ‰æ•ˆè¡¡é‡æ¨¡åž‹çš„é€šç”¨æ€§æˆ–æ³›åŒ–èƒ½åŠ›ã€‚

å› æ¤AIæ§‹å»ºè€…æ£åœ¨è½‰å‘æ›´æœ‰å‰µæ„çš„æ–¹æ³•ä¾†è©•ä¼°Gen-AIæ¨¡åž‹çš„èƒ½åŠ›ã€‚

AIé–‹ç™¼è€…å€‘è¡¨ç¤ºï¼Œæˆ‘å€‘ä¹Ÿæƒ³çŽ©é»žã€Œæ–°é®®çš„ã€ã€‚

MC-Benchçš„æœ¬è³ªæ˜¯åœ¨æ¸¬è©¦AIæ¨¡åž‹çš„æ–‡æœ¬ç†è§£å’Œç·¨ç¢¼èƒ½åŠ›ã€‚

é€šéŽé¡žä¼¼Chatbot Arenaçš„æ–¹å¼ä¾†é€²è¡Œæ¨¡åž‹è©•æ¯”ã€‚

å°äºŽç‚ºä½•é¸æ“‡æ¸¸æˆ²ï¼Œé¸æ“‡Minecraftï¼ŒAdi Singhè¦ºå¾—ã€Œæ¸¸æˆ²å¯èƒ½åªæ˜¯ä¸€ç¨®æ¸¬è©¦èƒ½å‹•æ€§æŽ¨ç†çš„åª’ä»‹ï¼Œæ¯”ç¾å¯¦ç”Ÿæ´»æ›´å®‰å…¨ï¼Œä¹Ÿæ›´é©åˆæ¸¬è©¦ç›®çš„ï¼Œå› æ¤åœ¨æˆ‘çœ‹ä¾†æ›´ç‚ºç†æƒ³ã€ã€‚

å¾žAdi Singhå€‹äººç¶²ç«™ä¾†çœ‹ï¼Œä»–å°äºŽä½¿ç”¨Minecraftæ–¹å¡Šé€²è¡ŒAIè©•æ¸¬æ‡‰è©²æ˜¯ã€Œè“„è¬€å·²ä¹…ã€ï¼ŒAdi Singhå±•ç¤ºå¾ˆå¤šåˆ©ç”¨å¤§æ¨¡åž‹ç”ŸæˆMinecraftæ–¹å¡Šçš„ç²¾å½©æ¡ˆä¾‹ã€‚

æ¯”å¦‚ï¼Œgpt-4.5æ ¹æ“šæç¤ºã€Œæ§‹å»ºä¸€è‰˜åœ¨äº‘å±¤ä¸é£›è¡Œçš„è’¸æ±½æœ‹å…‹é¢¨æ ¼é£›è‰‡ã€ã€‚

å†æ¯”å¦‚ï¼Œclaude-3.7-sonnetæœ‰ä¸€å€‹ä»¤äººå°è±¡éžå¸¸æ·±åˆ»çš„Minecraftæ¨¡åž‹ï¼Œæ ¹æ“šæç¤ºã€ŒéŸ“åœ‹å‹èª¼ä¹‹é˜ã€ç”Ÿæˆã€‚

å¹¶ä¸”ï¼Œç¤¾å€æˆå“¡å°MC-Benchçš„è©•åƒ¹ä¹Ÿå¾ˆé«˜ã€‚

æ¯”å¦‚ç›®å‰å°±è·äºŽOpenAIçš„åŸºç¤Žç ”ç©¶å“¡Aidan McLaughlinï¼Œå°Minecraft Benchçµ¦äºˆäº†å¾ˆé«˜çš„è©•åƒ¹ï¼šä½ æ‡‰è©²å¯†åˆ‡é—œæ³¨MC-Benchï¼

Aid an McLaughlinåŒæ™‚çµ¦å‡ºäº†ä»–èªç‚ºæœ€ä½³çš„äººå·¥æ™ºèƒ½åŸºæº–æ‡‰å…·æœ‰ï¼š

å¯©è¨ˆæ•¸æ“šçš„æ¨‚è¶£ ï¼ˆèˆ‡å…¶ä»–æ‰€æœ‰åŸºæº–æ¸¬è©¦éƒ½ä¸åŒï¼‰
æ¸¬è©¦çœŸæ£é—œå¿ƒçš„åŠŸèƒ½ ï¼ˆä»£ç¢¼ã€ç¾Žå¸ã€æ„è˜ï¼‰
ç”šè‡³å¯ä»¥è¾¨åˆ¥é ‚ç´šåž‹è™Ÿä¹‹é–“çš„æ€§èƒ½å·®ç•°

æ¸¸æˆ²æ¸¬è©•AIä¼¼ä¹Žä¾ç„¶æ˜¯ã€Œä¸»æµå‰µæ„ã€

åœ¨Claude 3.7 Sonnetç™¼å¸ƒæ™‚èªªéŽï¼Œæ¨¡åž‹é™ä½Žäº†åœ¨æ•¸å¸ã€ç«¶è³½å’Œç·¨ç¨‹æ–¹é¢çš„ç‰¹åŒ–ç¨‹åº¦ï¼Œæœ‰ã€Œæ›´å¥½ã€çš„æ€è€ƒèƒ½åŠ›ã€‚

é‚£ä¹ˆå¦‚ä½•è©•æ¸¬æ–°æ¨¡åž‹çš„ã€Œæ€è€ƒã€èƒ½åŠ›å‘¢ï¼Ÿ

ç”æ¡ˆå°±æ˜¯æ¸¸æˆ²ã€Šå¯¶å¯å¤¢ã€‹ï¼Œé€™ä¸æ˜¯é–‹çŽ©ç¬‘ã€‚

Claudeé€šéŽé…å‚™äº†é€éŽç¨‹åºä¾†æ“æŽ§æ¸¸æˆ²çš„ç‰¹å®šã€ŒæŒ‰éˆ•ã€ã€‚

ç”šè‡³é‚„åœ¨Twitchä¸Šç›´æ’äº†ClaudeçŽ©æ¸¸æˆ²çš„å…¨éŽç¨‹ï¼Œå¯ä»¥çœ‹åˆ°å®ƒå¦‚ä½•å¸ç¿’ã€æ€è€ƒå¹¶é‡‡å–è¡Œå‹•ã€‚

ä¸è«–æ˜¯å‚³çµ±çš„åŸºæº–æ¸¬è©¦ï¼Œé‚„æ˜¯é¡žä¼¼MC-Benchçš„å‰µæ„æ¸¬è©¦ã€‚

å°äºŽç”Ÿæˆå¼AIçš„èƒ½åŠ›è©•æ¸¬ï¼Œç›®å‰ä¾ç„¶æ²’æœ‰ä¸€å€‹ã€Œä¸€å‹žæ°¸é€¸ã€çš„æ¨™æº–ã€‚

å‚³çµ±åŸºæº–æ¸¬è©¦çš„è©•ä¼°çµæžœå¤šé‡‡ç”¨å–®ä¸€çš„å®¢è§€åˆ†æ•¸ï¼ˆå¦‚æº–ç¢ºçŽ‡ï¼‰ï¼Œå¿½è¦–äº†äººé¡žå¯¦éš›æ„Ÿå—å’Œä¸»è§€è©•åƒ¹çš„ç¶åº¦ã€‚

åœ¨ç”Ÿæˆå¼AIä¸ï¼Œç¾Žå¸æ„ŸçŸ¥ã€å‰µé€ åŠ›ã€ç›´è§€æ€§å¾€å¾€æ›´åŠ é‡è¦ï¼Œä½†é€™äº›å› ç´ å¾ˆé›£åœ¨å‚³çµ±çš„æ¨™æº–åŒ–æ¸¬è©¦ä¸é«”ç¾å‡ºä¾†ã€‚

ä¹Ÿè¨±é¡žä¼¼MC-Benché€™æ¨£çš„å‰µæ„è©•æ¸¬æœƒçµ¦æœªä¾†çš„AIè©•æ¸¬å¸¶ä¾†æ–°çš„ã€ŒèŒƒå¼ã€ã€‚

è€Œæ–°çš„AIè©•æ¸¬ã€ŒèŒƒå¼ã€ä¹Ÿè¨±æœƒåŠ é€ŸæŽ¨å‹•AIçš„ç™¼å±•ã€‚

åƒè€ƒè³‡æ–™ï¼š

https://mcbench.ai/

https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/

https://finance.yahoo.com/news/high-schooler-built-website-lets-201110310.html

ç‰¹åˆ¥è²æ˜Žï¼šä»¥ä¸Šå…§å®¹(å¦‚æœ‰åœ–ç‰‡æˆ–è¦–é »äº¦åŒ…æ‹¬åœ¨å…§)ç‚ºè‡ªåª’é«”å¹³è‡ºâ€œç¶²æ˜“è™Ÿâ€ç”¨æˆ¶ä¸Šå‚³å¹¶ç™¼å¸ƒï¼Œæœ¬å¹³è‡ºåƒ…æä¾›ä¿¡æ¯å˜å„²æœå‹™ã€‚

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.