隨著傳統(tǒng)的 AI 基準(zhǔn)測(cè)試被證明存在不足之處,AI 開(kāi)發(fā)者們正在轉(zhuǎn)向更具創(chuàng)意的方法來(lái)評(píng)估生成式 AI 模型的能力。對(duì)于 12 年級(jí)的阿迪·辛格(Adi Singh)來(lái)說(shuō),這個(gè)方法是《我的世界》(Minecraft),一款微軟旗下的沙盒建造游戲。
(來(lái)源:MINECRAFT)
Minecraft Benchmark(下稱(chēng)“MC-Bench”)網(wǎng)站是辛格和他人合作開(kāi)發(fā)的,目的是讓 AI 模型在挑戰(zhàn)中相互競(jìng)爭(zhēng),應(yīng)對(duì)提示的方式則是直接用《我的世界》完成創(chuàng)作。用戶(hù)可以投票選出哪個(gè)模型做得更好,只有在投票后才能看到每個(gè)《我的世界》作品都是由哪個(gè) AI 完成的。
《我的世界》的價(jià)值并不在于游戲本身,而在于人們對(duì)它的熟悉程度。畢竟,它是有史以來(lái)最暢銷(xiāo)的電子游戲之一。
辛格表示,《我的世界》讓人們能更輕松地看到 AI 發(fā)展的進(jìn)展。人們熟悉《我的世界》,也習(xí)慣了它的畫(huà)面風(fēng)格和整體氛圍。
(來(lái)源:https://mcbench.ai/about)
MC-Bench 網(wǎng)站上目前列出了幾位貢獻(xiàn)者。根據(jù) MC-Bench 網(wǎng)站的信息,Anthropic、谷歌、OpenAI 和阿里巴巴已資助該項(xiàng)目使用它們的產(chǎn)品來(lái)運(yùn)行基準(zhǔn)測(cè)試提示,但這些公司并未以其他方式參與該項(xiàng)目。
辛格表示,目前他只是在進(jìn)行一些簡(jiǎn)單的構(gòu)建,以反思 AI 領(lǐng)域從 GPT-3 時(shí)代以來(lái)所取得的進(jìn)步,但他未來(lái)可能會(huì)考慮擴(kuò)展到更長(zhǎng)期的項(xiàng)目,以及其他以目標(biāo)為導(dǎo)向的任務(wù)。其表示,游戲可能只是一種測(cè)試代理推理的媒介,它比現(xiàn)實(shí)生活更安全,也更容易控制以用于測(cè)試目的。
其他游戲比如《精靈寶可夢(mèng)紅》《街頭霸王》和《你畫(huà)我猜》也被用作 AI 的實(shí)驗(yàn)基準(zhǔn),這在一定程度上是因?yàn)閷?duì) AI 進(jìn)行基準(zhǔn)測(cè)試這門(mén)“藝術(shù)”向來(lái)極為棘手。
(來(lái)源:MINECRAFT BENCHMARK)
研究人員經(jīng)常在標(biāo)準(zhǔn)化評(píng)估中對(duì) AI 模型進(jìn)行測(cè)試,但許多此類(lèi)測(cè)試會(huì)讓 AI 具有天然優(yōu)勢(shì)。由于訓(xùn)練方式的原因,這些模型天生擅長(zhǎng)解決某些特定領(lǐng)域的難題,尤其是那些需要死記硬背或簡(jiǎn)單推理的問(wèn)題。
簡(jiǎn)而言之,我們看到 OpenAI 的 GPT-4 可以在法學(xué)院入學(xué)考試中取得 88% 的成績(jī),但卻無(wú)法準(zhǔn)確說(shuō)出“strawberry”這個(gè)詞中有多少個(gè)“r”。Anthropic 的 Claude 3.7 Sonnet 在標(biāo)準(zhǔn)化軟件工程基準(zhǔn)測(cè)試中的分?jǐn)?shù)為 62.3%,但它在玩《寶可夢(mèng)》游戲時(shí)的表現(xiàn)卻比大多數(shù)五歲兒童還要差。
(來(lái)源:MINECRAFT BENCHMARK)
從技術(shù)上講,MC-Bench 是一個(gè)編程基準(zhǔn)測(cè)試,因?yàn)槟P捅灰缶帉?xiě)代碼(完成構(gòu)建)來(lái)回應(yīng)提示,例如創(chuàng)造“雪人 Frosty”或“原始沙灘上迷人的熱帶海灘小屋”。
但對(duì)于大多數(shù) MC-Bench 評(píng)判者來(lái)說(shuō),評(píng)估一個(gè)雪人看起來(lái)是否更好,比深入研究代碼要容易得多,這使得該項(xiàng)目具有更廣泛的吸引力,并因此有可能獲得更多關(guān)于哪些模型持續(xù)得分更高的數(shù)據(jù)。
當(dāng)然,這些分?jǐn)?shù)是否對(duì) AI 的實(shí)用性有重大影響還有待商榷。不過(guò),辛格堅(jiān)信這是一個(gè)強(qiáng)烈的信號(hào)。
其告訴媒體,目前 MC-Bench 的測(cè)試結(jié)果排行榜非常接近于他自己使用這些模型的經(jīng)驗(yàn),這與許多純文本基準(zhǔn)測(cè)試是不同的,因此也許 MC Bench 對(duì)于相關(guān)公司是有用的,可以幫助這些公司了解自己是否正在朝著正確的方向前進(jìn)。
參考資料:
https://mcbench.ai/
https://x.com/_mcbench
https://github.com/mc-bench
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.