網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一名高中生創(chuàng)建AI測(cè)試網(wǎng)站，能和模型在《我的世界》進(jìn)行建造比賽

2025-03-22 21:35:15　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

隨著傳統(tǒng)的 AI 基準(zhǔn)測(cè)試被證明存在不足之處，AI 開(kāi)發(fā)者們正在轉(zhuǎn)向更具創(chuàng)意的方法來(lái)評(píng)估生成式 AI 模型的能力。對(duì)于 12 年級(jí)的阿迪·辛格（Adi Singh）來(lái)說(shuō)，這個(gè)方法是《我的世界》（Minecraft），一款微軟旗下的沙盒建造游戲。

（來(lái)源：MINECRAFT）

Minecraft Benchmark（下稱(chēng)“MC-Bench”）網(wǎng)站是辛格和他人合作開(kāi)發(fā)的，目的是讓 AI 模型在挑戰(zhàn)中相互競(jìng)爭(zhēng)，應(yīng)對(duì)提示的方式則是直接用《我的世界》完成創(chuàng)作。用戶(hù)可以投票選出哪個(gè)模型做得更好，只有在投票后才能看到每個(gè)《我的世界》作品都是由哪個(gè) AI 完成的。

《我的世界》的價(jià)值并不在于游戲本身，而在于人們對(duì)它的熟悉程度。畢竟，它是有史以來(lái)最暢銷(xiāo)的電子游戲之一。

辛格表示，《我的世界》讓人們能更輕松地看到 AI 發(fā)展的進(jìn)展。人們熟悉《我的世界》，也習(xí)慣了它的畫(huà)面風(fēng)格和整體氛圍。

（來(lái)源：https://mcbench.ai/about）

MC-Bench 網(wǎng)站上目前列出了幾位貢獻(xiàn)者。根據(jù) MC-Bench 網(wǎng)站的信息，Anthropic、谷歌、OpenAI 和阿里巴巴已資助該項(xiàng)目使用它們的產(chǎn)品來(lái)運(yùn)行基準(zhǔn)測(cè)試提示，但這些公司并未以其他方式參與該項(xiàng)目。

辛格表示，目前他只是在進(jìn)行一些簡(jiǎn)單的構(gòu)建，以反思 AI 領(lǐng)域從 GPT-3 時(shí)代以來(lái)所取得的進(jìn)步，但他未來(lái)可能會(huì)考慮擴(kuò)展到更長(zhǎng)期的項(xiàng)目，以及其他以目標(biāo)為導(dǎo)向的任務(wù)。其表示，游戲可能只是一種測(cè)試代理推理的媒介，它比現(xiàn)實(shí)生活更安全，也更容易控制以用于測(cè)試目的。

其他游戲比如《精靈寶可夢(mèng)紅》《街頭霸王》和《你畫(huà)我猜》也被用作 AI 的實(shí)驗(yàn)基準(zhǔn)，這在一定程度上是因?yàn)閷?duì) AI 進(jìn)行基準(zhǔn)測(cè)試這門(mén)“藝術(shù)”向來(lái)極為棘手。

（來(lái)源：MINECRAFT BENCHMARK）

研究人員經(jīng)常在標(biāo)準(zhǔn)化評(píng)估中對(duì) AI 模型進(jìn)行測(cè)試，但許多此類(lèi)測(cè)試會(huì)讓 AI 具有天然優(yōu)勢(shì)。由于訓(xùn)練方式的原因，這些模型天生擅長(zhǎng)解決某些特定領(lǐng)域的難題，尤其是那些需要死記硬背或簡(jiǎn)單推理的問(wèn)題。

簡(jiǎn)而言之，我們看到 OpenAI 的 GPT-4 可以在法學(xué)院入學(xué)考試中取得 88% 的成績(jī)，但卻無(wú)法準(zhǔn)確說(shuō)出“strawberry”這個(gè)詞中有多少個(gè)“r”。Anthropic 的 Claude 3.7 Sonnet 在標(biāo)準(zhǔn)化軟件工程基準(zhǔn)測(cè)試中的分?jǐn)?shù)為 62.3%，但它在玩《寶可夢(mèng)》游戲時(shí)的表現(xiàn)卻比大多數(shù)五歲兒童還要差。

（來(lái)源：MINECRAFT BENCHMARK）

從技術(shù)上講，MC-Bench 是一個(gè)編程基準(zhǔn)測(cè)試，因?yàn)槟Ｐ捅灰缶帉?xiě)代碼（完成構(gòu)建）來(lái)回應(yīng)提示，例如創(chuàng)造“雪人 Frosty”或“原始沙灘上迷人的熱帶海灘小屋”。

但對(duì)于大多數(shù) MC-Bench 評(píng)判者來(lái)說(shuō)，評(píng)估一個(gè)雪人看起來(lái)是否更好，比深入研究代碼要容易得多，這使得該項(xiàng)目具有更廣泛的吸引力，并因此有可能獲得更多關(guān)于哪些模型持續(xù)得分更高的數(shù)據(jù)。

當(dāng)然，這些分?jǐn)?shù)是否對(duì) AI 的實(shí)用性有重大影響還有待商榷。不過(guò)，辛格堅(jiān)信這是一個(gè)強(qiáng)烈的信號(hào)。

其告訴媒體，目前 MC-Bench 的測(cè)試結(jié)果排行榜非常接近于他自己使用這些模型的經(jīng)驗(yàn)，這與許多純文本基準(zhǔn)測(cè)試是不同的，因此也許 MC Bench 對(duì)于相關(guān)公司是有用的，可以幫助這些公司了解自己是否正在朝著正確的方向前進(jìn)。

參考資料：

https://mcbench.ai/

https://x.com/_mcbench

https://github.com/mc-bench

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.