99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

高中生用「我的世界」評測SOTA模型!Claude暫時領先,DeepSeek緊隨其后

0
分享至


新智元報道

編輯:定慧

【新智元導讀】AI頻頻刷新基準測試紀錄,卻算不清「strawberry」里到底有幾個字母r,在人類看來很簡單的問題卻頻頻出錯。這種反差促使創意測評興起,例如由一名高中生開發的MC-Bench,用Minecraft方塊「競技場」模式評價AI能力。這種新的測評范式,或許更貼合人類對AI直觀、創造性能力的實際期待。

「strawberry中有多少個r」和「在LSAT法學考試中獲得88分」哪個更難?

對于現如今的LMMs來說,通過各種人類「聽著就頭痛,看又看不懂」的基準測試似乎已是家常便飯。

比如DeepSeek-R1發布時在6大基準測試(包含AIME、MMLU、MATH-500等)中超過o1取得領先。


但是對于人類來說依靠直覺和下意識就能回答的問題,LLM們似乎集體有點「發懵」。

很難理解OpenAI的GPT-4能夠在LSAT考試中獲得第88百分位的成績,但卻無法數清楚「strawberry」中有多少r。

除了復雜的基準測試,另外一種評價模型好壞的方式就是「競技場模式」。

比如可以在Chatbot Arena進行上提問投票,選出面對相同問題時的「最佳模型」。


但是這種依靠Chat模式的評測依然不太直觀,于是各種各樣的創意評測就誕生了。

創意評測的魅力


Minecraft Benchmark(或 MC-Bench)像一個競技場,在一對一的挑戰中針對相同提示生成Minecraft作品。

「對決雙方」由用戶投票選擇哪個模型做得更好。

并且只有在投票后才能看到每個Minecraft建筑是由哪個AI制作的。

目前MC-Bench的榜單上,Claude3.7暫時領先,deepseek-r1位列第5,但是考慮到DeepSeek-R1的發布時間,Claude3.7、GPT-4.5和Gemini2.0都相當于是「新一代」的模型了,期待DeepSeek-R2出來后的榜單!


像MC-Bench這樣的創意評測,優勢非常明顯:普通人也能輕松參與,像「選美」一樣簡單直接。

創造MC-Bench項目的僅僅是一名高中生Adi Singh,在將Minecraft用于AI評測這件事情上,Adi Singh覺得Minecraft的價值不在游戲本身。

而是作為有史以來最暢銷的電子游戲,即使對于沒玩過Minecraft游戲的人來說,仍然可以選擇自己更喜歡的「方塊樣子」。

MC-Bench是合作開發的,除了Adi Singh外,貢獻者還有7位,包括了「提示詞創意官」、技術主管和開發者們。


并獲得了Anthropic、Google和阿里巴巴等公司的技術支持。


傳統LLM評測:嚴肅認真但未必管用

傳統的AI基準測試技術被證明不足,主要體現在以下幾個方面:

  • 主場優勢 (Overfitting to benchmarks):傳統的 AI 基準測試往往基于特定類型的任務設計,這些任務對 AI 模型來說相對固定且簡單,這種過擬合就像一名「只會背題」的學生。

  • 測試任務過于狹窄:傳統的測試任務多集中于單一維度的能力評估,如語言理解、邏輯推理、數學計算。

  • 缺乏真實環境與開放性:傳統的基準測試通常使用高度抽象化或理論化的環境,而這些環境往往不能反映現實世界中問題的開放性和不確定性。

  • 難以衡量通用性與泛化能力:傳統 AI 基準測試往往無法有效衡量模型的通用性或泛化能力。

因此AI構建者正在轉向更有創意的方法來評估Gen-AI模型的能力。

AI開發者們表示,我們也想玩點「新鮮的」。


MC-Bench的本質是在測試AI模型的文本理解和編碼能力。

通過類似Chatbot Arena的方式來進行模型評比。


對于為何選擇游戲,選擇Minecraft,Adi Singh覺得「游戲可能只是一種測試能動性推理的媒介,比現實生活更安全,也更適合測試目的,因此在我看來更為理想」。

從Adi Singh個人網站來看,他對于使用Minecraft方塊進行AI評測應該是「蓄謀已久」,Adi Singh展示很多利用大模型生成Minecraft方塊的精彩案例。

比如,gpt-4.5根據提示「構建一艘在云層中飛行的蒸汽朋克風格飛艇」。


再比如,claude-3.7-sonnet有一個令人印象非常深刻的Minecraft模型,根據提示「韓國友誼之鐘」生成。


并且,社區成員對MC-Bench的評價也很高。


比如目前就職于OpenAI的基礎研究員Aidan McLaughlin,對Minecraft Bench給予了很高的評價:你應該密切關注MC-Bench!

Aid an McLaughlin同時給出了他認為最佳的人工智能基準應具有:

  • 審計數據的樂趣 (與其他所有基準測試都不同)

  • 測試真正關心的功能 (代碼、美學、意識)

  • 甚至可以辨別頂級型號之間的性能差異


游戲測評AI似乎依然是「主流創意」

在Claude 3.7 Sonnet發布時說過,模型降低了在數學、競賽和編程方面的特化程度,有「更好」的思考能力。

那么如何評測新模型的「思考」能力呢?

答案就是游戲《寶可夢》,這不是開玩笑。

Claude通過配備了透過程序來操控游戲的特定「按鈕」。

甚至還在Twitch上直播了Claude玩游戲的全過程,可以看到它如何學習、思考并采取行動。


不論是傳統的基準測試,還是類似MC-Bench的創意測試。

對于生成式AI的能力評測,目前依然沒有一個「一勞永逸」的標準。

傳統基準測試的評估結果多采用單一的客觀分數(如準確率),忽視了人類實際感受和主觀評價的維度。

在生成式AI中,美學感知、創造力、直觀性往往更加重要,但這些因素很難在傳統的標準化測試中體現出來。

也許類似MC-Bench這樣的創意評測會給未來的AI評測帶來新的「范式」。

而新的AI評測「范式」也許會加速推動AI的發展。

參考資料:

https://mcbench.ai/

https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/

https://finance.yahoo.com/news/high-schooler-built-website-lets-201110310.html

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
毛新宇攜家人清明回鄉祭祖,旁邊形影不離的二級上士是誰?

毛新宇攜家人清明回鄉祭祖,旁邊形影不離的二級上士是誰?

風云觀察者
2025-04-08 06:31:46
搞破壞

搞破壞

參考消息
2025-04-11 12:03:09
十幾塊錢都買不起?成都蛋烘糕婆婆又兇人了,這東西到底好吃嗎

十幾塊錢都買不起?成都蛋烘糕婆婆又兇人了,這東西到底好吃嗎

深析古今
2025-04-10 17:22:38
汪小菲恐怕做夢都要笑醒了,兒子小小年紀已經是帶貨小王子了

汪小菲恐怕做夢都要笑醒了,兒子小小年紀已經是帶貨小王子了

逍遙史記
2025-04-10 14:59:33
美國開始頭疼了,因為中國可能不再過度依賴以下幾種了

美國開始頭疼了,因為中國可能不再過度依賴以下幾種了

玲子日記
2024-11-21 22:42:35
湖人選楊瀚森!美媒公布最新模擬選秀:爵士得弗拉格火箭獲9號秀

湖人選楊瀚森!美媒公布最新模擬選秀:爵士得弗拉格火箭獲9號秀

鍋子籃球
2025-04-10 23:11:18
天塌了!請把后腦勺還給山東孩子!網友:像一個被嘬過的芒果核..

天塌了!請把后腦勺還給山東孩子!網友:像一個被嘬過的芒果核..

娛樂圈見解說
2025-04-11 04:01:06
關閉!取消!暫停!延期!今天,北京提前下班?

關閉!取消!暫停!延期!今天,北京提前下班?

美麗大北京
2025-04-11 10:15:37
美媒:阿德爾曼將推翻馬龍的執教理念,威少上場時間會進一步縮減

美媒:阿德爾曼將推翻馬龍的執教理念,威少上場時間會進一步縮減

雞丁侃球
2025-04-10 16:36:57
特朗普沒意識到引火燒身,尚未與中國分出輸贏,就被抓住一個把柄

特朗普沒意識到引火燒身,尚未與中國分出輸贏,就被抓住一個把柄

布谷BuGuu
2025-04-11 10:41:29
網友偶遇馬筱梅,被吐槽本人個子不高,皮膚很黑穿衣不像豪門闊太

網友偶遇馬筱梅,被吐槽本人個子不高,皮膚很黑穿衣不像豪門闊太

漣漪讀史
2025-04-11 11:43:53
傅家俊成歷史第七人!世錦賽首場零封慘案誕生,趙心童贏下德比戰

傅家俊成歷史第七人!世錦賽首場零封慘案誕生,趙心童贏下德比戰

排球黃金眼
2025-04-11 11:41:12
如果戰爭真的來了,帶上這4樣東西,比什么都重要!

如果戰爭真的來了,帶上這4樣東西,比什么都重要!

搬磚營Z
2025-04-06 00:59:18
火箭明日戰湖人!申京&范弗里特&小賈巴里出戰成疑 泰特缺席

火箭明日戰湖人!申京&范弗里特&小賈巴里出戰成疑 泰特缺席

直播吧
2025-04-11 08:49:15
1950年,一國軍起義將領吞鴉片自殺,賀捷生悲痛:他畢竟照顧過我

1950年,一國軍起義將領吞鴉片自殺,賀捷生悲痛:他畢竟照顧過我

奇葩歷史觀
2025-04-10 09:42:22
商務部部長:中方愿與包括東盟在內的貿易伙伴一道,加強溝通協調

商務部部長:中方愿與包括東盟在內的貿易伙伴一道,加強溝通協調

新京報
2025-04-10 08:31:10
特朗普以違反供水協議為由威脅制裁墨西哥

特朗普以違反供水協議為由威脅制裁墨西哥

新京報
2025-04-11 10:25:04
我國從美國進口大豆均價為3837元每噸,那從俄羅斯、巴西進口呢?

我國從美國進口大豆均價為3837元每噸,那從俄羅斯、巴西進口呢?

二月侃史
2024-12-06 10:45:08
還剩最后2場比賽,西部4-8名最終排名大概率如下

還剩最后2場比賽,西部4-8名最終排名大概率如下

毒舌NBA
2025-04-10 13:22:00
高圓圓優雅老去,真實之美更動人

高圓圓優雅老去,真實之美更動人

松林侃世界
2025-04-10 08:57:35
2025-04-11 12:35:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12505文章數 66010關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

牛彈琴:特朗普對中國關稅提高至145% 美股市又暴跌了

體育要聞

球迷天天罵,但我們要進歐冠了

娛樂要聞

汪小菲馬筱梅婚禮又有了耐人尋味的新聞

財經要聞

專家提議重啟樓市應對美國關稅戰

汽車要聞

25款風云A8/T9/T10齊上市 多款車型發布一口價

態度原創

教育
手機
游戲
旅游
公開課

教育要聞

研究生,困在小論文里

手機要聞

技術改變拍照體驗 Find X8 Ultra人像夜拍體驗

《漫威爭鋒》白皇后模型提取完成:3D區作者該發力了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 龙川县| 景德镇市| 光泽县| 宜兰市| 荔浦县| 响水县| 崇信县| 环江| 三亚市| 禄劝| 青州市| 福贡县| 个旧市| 久治县| 乾安县| 漠河县| 浦县| 溧阳市| 会同县| 武冈市| 荣昌县| 贺兰县| 武穴市| 新兴县| 齐河县| 遂平县| 巨野县| 临沂市| 时尚| 吴桥县| 台北县| 海原县| 东明县| 桐乡市| 普洱| 申扎县| 桑植县| 建宁县| 永泰县| 长武县| 星子县|