網易首頁 > 網易號 > 正文申請入駐

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

2025-02-18 14:02:59　來源: 機器之心Pro

天津舉報

分享至

機器之心報道

編輯：蛋醬、佳琪

眼下最頂尖的一批 LMM 是哪些？你可能想到了無所不能的 GPT-4o、Gemini 2 Flash 等等……

但這些大模型，遇到一個名為「ZeroBench」的視覺基準之后，紛紛敗下陣來。

20 多個知名模型，首次作答成績如下，全部是零分：

震驚之后，我們仔細研究了這個 ZeroBench 基準里的問題。

對于大模型來說，許多現有的基準已經沒有任何挑戰性，也失去了作為衡量大模型真實視覺理解能力標準的價值。ZeroBench 的出現，顯然打破了這個局面。

ZeroBench 包含 100 個具有挑戰性的全新問題，具體多有挑戰性呢？請聽題：

第一題：不用優惠，菜單上每款點一個，總共需要多少港幣？

好家伙，這菜單上下顛倒就算了，還反光看不清字，讓在其中找到每道菜的價格，再做加法，這不是為難我胖虎嗎？

對于需要更多步驟才能得到答案的多模態模型來說，可能它也需要：「服務器繁忙，請稍后再試」。

問題 2：(i) 計算壺鈴的總重量？(ii) 計算重量在 5 至 15 磅之間（含 5 磅和 15 磅）的啞鈴總重量，單位為磅。(iii) 估計每個綠色壺鈴的重量，單位為磅。

知識面不夠寬，還真做不了這題。不光要算總重量，還得挑出綠色的，還得分類統計......

多模態模型見了這題都要暗地里蛐蛐：我連自己重多少斤都不知道，您這讓我數啞鈴？

問題 3：你正試圖破解一個保險箱，需要一個 6 位數密碼。根據失主留下的線索和物品，請推理出完整密碼。

這是在考眼力，考數學，還是在拍《達芬奇密碼》？

看來，ZeroBench 對多模態模型確實很高，不僅得明察秋毫，還得擁有福爾摩斯般的推理能力。

問題 4：在八方位指南針上，身體朝南的鵝占總數的百分比是多少？請精確到小數點后一位。

想要判斷鵝的身體是否朝南，首先得知道這張圖的南在哪邊？接下來還需要考慮冬季夏季，南北半球，上午下午？

停停，在高中畢業之后，我就停止如此深度地使用自己的大腦了。

GPT-4o 做了這道題，分析了半天，最后擺爛了，讓我們重新上傳圖片，「以便它從頭開始處理。」可能它也要停下來發一句：鵝太南（難）了。

問題 5：

（1）現在是英國牛津的傍晚，這個時鐘是根據物品使用方向來安裝的。距離正午大約過去了多少小時？

（2）這個時鐘是用一個八人賽艇隊員的裝備制成的，他的隊伍使用標準裝備。他可能坐在哪些座位？把座位號加起來等于多少？

（3）如果將圖像水平翻轉一次，垂直翻轉一次，然后順時針旋轉 90 度，時針最接近哪個整點？

（4）把前三個答案相乘等于多少？

「從這塊只有指針的表判斷距離正午的時間」、「表皮是由賽艇隊員的裝備做成的，他的座位號是多少？」，「水平翻轉一次，垂直翻轉一次，然后順時針旋轉 90 度......」

如果說前幾題查查資料，努努力還能寫出來，現在已經來到連題目都讀不懂的境地了。

看完這些題目，不難理解為什么它叫 ZeroBench —— 因為 AI 做完這些題后，自信可能就歸零了！

想來出題人也是頗費了一番心思才能琢磨出如此刁鉆的角度。ZeroBench 的研究團隊組織了一個 20 多人的專家出題組，每道題都是手工高定。

由于很難事先知道一個問題對多模態模型來說有多難，因此在開發過程中，出題人還會拿最新、最好的模型來「試水」。發現題目太簡單就加料，發現還能做出來就繼續加料，直到調節到「難度適中」。

ZeroBench 概述

項目主頁: https://zerobench.github.io/

論文地址: https://arxiv.org/pdf/2502.09696

數據集構建

伴隨著大模型能力的不斷進化，想要創建一個難度足夠高的問題集越來越難。

ZeroBench 中的每個問題是由 20 多位人類問題創建者手工定制的。為了增加問題的多樣性，對問題創建者的指導還是比較寬泛的：（1）包含對回答問題至關重要的困難視覺元素，（2）包含多步驟推理，（3）盡可能具有挑戰性。

由于很難事先知道一個問題對 LMM 來說有多難，因此在開發過程中，研究者鼓勵問題創建者在一些前沿模型上對候選問題進行評估，衡量其難度并相應地調整問題。

在獲得了 140 個候選問題后，研究者使用了以下由 4 個部分組成的篩選流程，最終選出了 100 個問題用于 ZeroBench：

反饋。對候選問題進行篩選，必要時通過反復審查和反饋進行改進。
初步評估。為了衡量難度，研究者使用 o1 pro（OpenAI，2024a）和 QVQ（Qwen-Team，2024）對問題進行了初步評估。
審查。在初步評估的基礎上，對每個候選問題都進行了全面審查，以確保這些問題可以回答、格式和注釋正確、難度足夠且簡明扼要。審查人員的分配確保了出題者不會審查到自己的試題。許多試題也被修改了，旨在增加難度。此外，為了降低正確答案被猜中的可能性，必要時還對問題進行了修改，以確保答案范圍足夠廣泛。這就排除了二進制、多項選擇或答案為小整數（即小于 10）的問題。不符合要求的問題都被過濾掉了，因此第一次就有了 106 個合適的問題。
對抗過濾。研究者使用貪婪解碼對每個 LMM 基線的剩余問題進行了評估，并刪除了任何一個模型都能正確回答的問題。每個模型能正確回答的問題差異很大，表現最好的模型也只能得到 4/106 分。有些問題只有一個相對較弱的模型能正確回答。研究者認為這是一種將問題分布與當前模型能力相聯系的有效方法。

經過反復推敲，研究者最終確定了共 100 個問題。為了在評估過程中區分模型性能，他們在審查過程中為每個問題創建了一個或多個子問題。子問題（圖 6）由明確的問題子部分、自然推理步驟或與得出最終答案相關的其他數量生成。

統計

表 1 顯示了 ZeroBench 的核心統計數據，其中包括 100 個主問題和 334 個子問題，在單幅和多幅圖像設置中包含自然圖像和合成圖像。

如圖 4 所示，主問題的文本長度分布廣泛，最長可達 2k 字符；在子問題中，短問題的比例明顯較高。問題中圖片的平均大小（圖 5）分布較為均勻。ZeroBench 中的問題以難度為優先考慮因素，大多數問題都包含多個步驟，需要不同的視覺能力。同樣，問題的背景也往往是混合的，需要不同領域的知識。因此，為每個問題或子問題指定不同的類別是不可行的。

評估

研究者在 ZeroBench 主問題和子問題上對 20 個 LMM 進行了評估，結果見表 2。從中可以得出幾個結論：

對于當下 LMM 的水準而言，ZeroBench 是不可能挑戰成功的。在可重現的環境中，研究者發現所有模型在該基準測試中都只有 0% 的及格率。

有些問題是可以回答的，大多數模型的得分都不是零。表現最好的模型是 Gemini 2 Flash Thinking，它的 pass@5 得分達到了 7%（正確回答 7 個問題）；QVQ、Gemini 2 Flash 和 Pixtral-Large 的表現也相對較好，正確回答了 3 個問題。

子問題區分開了模型的性能。這部分問題對模型的挑戰性較小，所有模型的得分都不為零。雖然與主問題相比，推理模型的難度要低得多，但總體而言，這些模型仍然難以正確回答這些小問題，其中絕大多數都太難了。推理模型在推理過程中通常會產生一個擴展的思維鏈，允許它們在得出最終解決方案之前探索多種路徑。然而，在 ZeroBench 上，此類模型與傳統模型相比似乎并無明顯優勢。

在主問題上，開放源代碼和封閉源代碼模型的表現仍然很差，沒有明顯的區別。不過，通過比較子問題的得分，可以發現兩者的性能差距很大，領先的開源模型（QVQ 19.78%）落后于 SOTA（Claude 3.5 Sonnet v2 24.30%）近 5 個百分點。

錯誤分析

圖 7 展示了在 ZeroBench 子問題中經常出現的視覺解讀錯誤，例如錯誤地計算物體數量、無法「看到」細微細節或準確提取信息，以及難以理解空間關系。更多例子可參考附錄。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.