99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

這屆出題太難了!新基準讓多模態模型集體自閉,GPT-4o都是零分

0
分享至



機器之心報道

編輯:蛋醬、佳琪

眼下最頂尖的一批 LMM 是哪些?你可能想到了無所不能的 GPT-4o、Gemini 2 Flash 等等……

但這些大模型,遇到一個名為「ZeroBench」的視覺基準之后,紛紛敗下陣來。

20 多個知名模型,首次作答成績如下,全部是零分:



震驚之后,我們仔細研究了這個 ZeroBench 基準里的問題。

對于大模型來說,許多現有的基準已經沒有任何挑戰性,也失去了作為衡量大模型真實視覺理解能力標準的價值。ZeroBench 的出現,顯然打破了這個局面。



ZeroBench 包含 100 個具有挑戰性的全新問題,具體多有挑戰性呢?請聽題:

第一題:不用優惠,菜單上每款點一個,總共需要多少港幣?



好家伙,這菜單上下顛倒就算了,還反光看不清字,讓在其中找到每道菜的價格,再做加法,這不是為難我胖虎嗎?

對于需要更多步驟才能得到答案的多模態模型來說,可能它也需要:「服務器繁忙,請稍后再試」。

問題 2:(i) 計算壺鈴的總重量?(ii) 計算重量在 5 至 15 磅之間(含 5 磅和 15 磅)的啞鈴總重量,單位為磅。(iii) 估計每個綠色壺鈴的重量,單位為磅。



知識面不夠寬,還真做不了這題。不光要算總重量,還得挑出綠色的,還得分類統計......



多模態模型見了這題都要暗地里蛐蛐:我連自己重多少斤都不知道,您這讓我數啞鈴?

問題 3:你正試圖破解一個保險箱,需要一個 6 位數密碼。根據失主留下的線索和物品,請推理出完整密碼。



這是在考眼力,考數學,還是在拍《達芬奇密碼》?

看來,ZeroBench 對多模態模型確實很高,不僅得明察秋毫,還得擁有福爾摩斯般的推理能力。

問題 4:在八方位指南針上,身體朝南的鵝占總數的百分比是多少?請精確到小數點后一位。



想要判斷鵝的身體是否朝南,首先得知道這張圖的南在哪邊?接下來還需要考慮冬季夏季,南北半球,上午下午?

停停,在高中畢業之后,我就停止如此深度地使用自己的大腦了。



GPT-4o 做了這道題,分析了半天,最后擺爛了,讓我們重新上傳圖片,「以便它從頭開始處理。」可能它也要停下來發一句:鵝太南(難)了。

問題 5:

(1)現在是英國牛津的傍晚,這個時鐘是根據物品使用方向來安裝的。距離正午大約過去了多少小時?

(2)這個時鐘是用一個八人賽艇隊員的裝備制成的,他的隊伍使用標準裝備。他可能坐在哪些座位?把座位號加起來等于多少?

(3)如果將圖像水平翻轉一次,垂直翻轉一次,然后順時針旋轉 90 度,時針最接近哪個整點?

(4)把前三個答案相乘等于多少?



「從這塊只有指針的表判斷距離正午的時間」、「表皮是由賽艇隊員的裝備做成的,他的座位號是多少?」,「水平翻轉一次,垂直翻轉一次,然后順時針旋轉 90 度......」

如果說前幾題查查資料,努努力還能寫出來,現在已經來到連題目都讀不懂的境地了。

看完這些題目,不難理解為什么它叫 ZeroBench —— 因為 AI 做完這些題后,自信可能就歸零了!

想來出題人也是頗費了一番心思才能琢磨出如此刁鉆的角度。ZeroBench 的研究團隊組織了一個 20 多人的專家出題組,每道題都是手工高定。

由于很難事先知道一個問題對多模態模型來說有多難,因此在開發過程中,出題人還會拿最新、最好的模型來「試水」。發現題目太簡單就加料,發現還能做出來就繼續加料,直到調節到「難度適中」。

ZeroBench 概述



項目主頁: https://zerobench.github.io/

論文地址: https://arxiv.org/pdf/2502.09696

數據集構建

伴隨著大模型能力的不斷進化,想要創建一個難度足夠高的問題集越來越難。

ZeroBench 中的每個問題是由 20 多位人類問題創建者手工定制的。為了增加問題的多樣性,對問題創建者的指導還是比較寬泛的:(1)包含對回答問題至關重要的困難視覺元素,(2)包含多步驟推理,(3)盡可能具有挑戰性。

由于很難事先知道一個問題對 LMM 來說有多難,因此在開發過程中,研究者鼓勵問題創建者在一些前沿模型上對候選問題進行評估,衡量其難度并相應地調整問題。

在獲得了 140 個候選問題后,研究者使用了以下由 4 個部分組成的篩選流程,最終選出了 100 個問題用于 ZeroBench:

  • 反饋。對候選問題進行篩選,必要時通過反復審查和反饋進行改進。
  • 初步評估。為了衡量難度,研究者使用 o1 pro(OpenAI,2024a)和 QVQ(Qwen-Team,2024)對問題進行了初步評估。
  • 審查。在初步評估的基礎上,對每個候選問題都進行了全面審查,以確保這些問題可以回答、格式和注釋正確、難度足夠且簡明扼要。審查人員的分配確保了出題者不會審查到自己的試題。許多試題也被修改了,旨在增加難度。此外,為了降低正確答案被猜中的可能性,必要時還對問題進行了修改,以確保答案范圍足夠廣泛。這就排除了二進制、多項選擇或答案為小整數(即小于 10)的問題。不符合要求的問題都被過濾掉了,因此第一次就有了 106 個合適的問題。
  • 對抗過濾。研究者使用貪婪解碼對每個 LMM 基線的剩余問題進行了評估,并刪除了任何一個模型都能正確回答的問題。每個模型能正確回答的問題差異很大,表現最好的模型也只能得到 4/106 分。有些問題只有一個相對較弱的模型能正確回答。研究者認為這是一種將問題分布與當前模型能力相聯系的有效方法。

經過反復推敲,研究者最終確定了共 100 個問題。為了在評估過程中區分模型性能,他們在審查過程中為每個問題創建了一個或多個子問題。子問題(圖 6)由明確的問題子部分、自然推理步驟或與得出最終答案相關的其他數量生成。



統計

表 1 顯示了 ZeroBench 的核心統計數據,其中包括 100 個主問題和 334 個子問題,在單幅和多幅圖像設置中包含自然圖像和合成圖像。



如圖 4 所示,主問題的文本長度分布廣泛,最長可達 2k 字符;在子問題中,短問題的比例明顯較高。問題中圖片的平均大小(圖 5)分布較為均勻。ZeroBench 中的問題以難度為優先考慮因素,大多數問題都包含多個步驟,需要不同的視覺能力。同樣,問題的背景也往往是混合的,需要不同領域的知識。因此,為每個問題或子問題指定不同的類別是不可行的。



評估

研究者在 ZeroBench 主問題和子問題上對 20 個 LMM 進行了評估,結果見表 2。從中可以得出幾個結論:

對于當下 LMM 的水準而言,ZeroBench 是不可能挑戰成功的。在可重現的環境中,研究者發現所有模型在該基準測試中都只有 0% 的及格率。



有些問題是可以回答的,大多數模型的得分都不是零。表現最好的模型是 Gemini 2 Flash Thinking,它的 pass@5 得分達到了 7%(正確回答 7 個問題);QVQ、Gemini 2 Flash 和 Pixtral-Large 的表現也相對較好,正確回答了 3 個問題。

子問題區分開了模型的性能。這部分問題對模型的挑戰性較小,所有模型的得分都不為零。雖然與主問題相比,推理模型的難度要低得多,但總體而言,這些模型仍然難以正確回答這些小問題,其中絕大多數都太難了。推理模型在推理過程中通常會產生一個擴展的思維鏈,允許它們在得出最終解決方案之前探索多種路徑。然而,在 ZeroBench 上,此類模型與傳統模型相比似乎并無明顯優勢。

在主問題上,開放源代碼和封閉源代碼模型的表現仍然很差,沒有明顯的區別。不過,通過比較子問題的得分,可以發現兩者的性能差距很大,領先的開源模型(QVQ 19.78%)落后于 SOTA(Claude 3.5 Sonnet v2 24.30%)近 5 個百分點。

錯誤分析

圖 7 展示了在 ZeroBench 子問題中經常出現的視覺解讀錯誤,例如錯誤地計算物體數量、無法「看到」細微細節或準確提取信息,以及難以理解空間關系。更多例子可參考附錄。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
0-3!48歲范尼慘遭9連敗 137年恥辱誕生 前英超冠軍必降級

0-3!48歲范尼慘遭9連敗 137年恥辱誕生 前英超冠軍必降級

念洲
2025-04-08 06:39:09
43歲余文樂在遼寧,在五星級酒店吃飯,眼凸嘴小,身上老人味好重

43歲余文樂在遼寧,在五星級酒店吃飯,眼凸嘴小,身上老人味好重

涵豆說娛
2025-04-06 17:53:14
陳奕迅連發11個感嘆號!熱搜第一,真的不得了

陳奕迅連發11個感嘆號!熱搜第一,真的不得了

大象新聞
2025-04-07 07:53:05
東方衛視播出,2集直沖收視第一,劇情精彩讓人越看越上癮

東方衛視播出,2集直沖收視第一,劇情精彩讓人越看越上癮

樂楓電影
2025-04-08 10:52:07
全紅嬋成年后首戰摘銀后續:央視發聲,背后原因其實全紅嬋早看透

全紅嬋成年后首戰摘銀后續:央視發聲,背后原因其實全紅嬋早看透

溫讀史
2025-04-08 17:03:40
男子殺害情人后藏尸行李箱,逃亡23年后落網,為躲追捕從不照相

男子殺害情人后藏尸行李箱,逃亡23年后落網,為躲追捕從不照相

環球網資訊
2025-04-08 17:28:22
體壇:若武漢女足奪得亞冠冠軍,將有機會出戰首屆女足世俱杯

體壇:若武漢女足奪得亞冠冠軍,將有機會出戰首屆女足世俱杯

懂球帝
2025-04-08 17:24:09
最新消息!四川中小學校,將全面推行

最新消息!四川中小學校,將全面推行

尋美南部
2025-04-08 15:53:51
冰箱里的3個東西,是白血病的致病原因之一,要盡早丟掉!

冰箱里的3個東西,是白血病的致病原因之一,要盡早丟掉!

小兔子發現大事情
2025-03-26 20:05:09
美國集結全國三分之一B-2轟炸機,原以為要空襲伊朗,卻打了胡塞

美國集結全國三分之一B-2轟炸機,原以為要空襲伊朗,卻打了胡塞

亞太科技談
2025-04-08 12:47:16
明日復牌!600903,重組出爐!

明日復牌!600903,重組出爐!

證券時報e公司
2025-04-08 20:40:50
隱藏身份?美媒:當對陣火箭時 追夢就換上了這身皮膚

隱藏身份?美媒:當對陣火箭時 追夢就換上了這身皮膚

直播吧
2025-04-08 11:44:13
上海一姑娘,養7年的蘆薈,斷頭8個月后,竟然開花了,不可思議!

上海一姑娘,養7年的蘆薈,斷頭8個月后,竟然開花了,不可思議!

三農老歷
2025-04-06 12:06:20
CCTV5直播!中國女足VS泰國隊爭冠,孫雯督戰,贏球=第7次奪冠

CCTV5直播!中國女足VS泰國隊爭冠,孫雯督戰,贏球=第7次奪冠

何老師呀
2025-04-07 23:36:39
中國最大車企即將誕生,規模將超過比亞迪

中國最大車企即將誕生,規模將超過比亞迪

二的十次方
2025-04-07 17:42:56
同曦為何干凈利落地被淘汰出局?一人喂的“毒奶”麻痹了全隊的心

同曦為何干凈利落地被淘汰出局?一人喂的“毒奶”麻痹了全隊的心

南海浪花
2025-04-08 09:02:40
中年女人“正式場合”穿搭切記:衣要收背+襪隱形,首飾過2要配套

中年女人“正式場合”穿搭切記:衣要收背+襪隱形,首飾過2要配套

小陳聊搭配
2025-04-08 19:34:11
臺灣統一方式可能出人意料:77年前毛主席的奇謀,是最佳解決方案

臺灣統一方式可能出人意料:77年前毛主席的奇謀,是最佳解決方案

紅色鑒史官
2025-04-08 20:20:03
太適合廣東隊!CBA冠軍中鋒可能離隊,或被朱芳雨出手撿漏?

太適合廣東隊!CBA冠軍中鋒可能離隊,或被朱芳雨出手撿漏?

緋雨兒
2025-04-08 15:20:35
7號收評:預判全對!所有人都注意了,匯金公司再度出手護盤!

7號收評:預判全對!所有人都注意了,匯金公司再度出手護盤!

春江財富
2025-04-07 15:47:27
2025-04-08 20:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10332文章數 142286關注度
往期回顧 全部

科技要聞

iPhone在美會賣2萬元上嗎?在中國會漲價嗎

頭條要聞

男子自稱同濟博導"隱居"同里當木匠:每天能賺幾萬塊

頭條要聞

男子自稱同濟博導"隱居"同里當木匠:每天能賺幾萬塊

體育要聞

100%當選狀元,但弗拉格不想進NBA?

娛樂要聞

尷尬!甲亢哥想聯動大張偉,卻被迫錄節目

財經要聞

"中國版平準基金"橫空出世 央行表態

汽車要聞

一季度車企銷量:下沉與上行,覺醒與迷惘

態度原創

手機
房產
本地
游戲
公開課

手機要聞

酷賽科技旗下產品登頂紅點獎 中國智造再獲國際設計界權威認證

房產要聞

廣州樓市迎來小陽春!一二手市場全線飄紅,釋放哪些信號?

本地新聞

云游中國|更好濰坊,更好的家

《馬車世界》大量新情報:相比前作的大規模升級

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 泽库县| 利川市| 穆棱市| 治县。| 孟州市| 原平市| 渝北区| 甘孜县| 山西省| 忻城县| 北流市| 罗甸县| 贵定县| 新泰市| 交城县| 怀仁县| 崇礼县| 凌源市| 金乡县| 如东县| 阿克陶县| 锡林郭勒盟| 乐至县| 广灵县| 武宣县| 海原县| 宿松县| 长沙县| 澄江县| 玉环县| 娄底市| 甘南县| 通州市| 化德县| 山东省| 乌鲁木齐市| 福建省| 沂水县| 德州市| 庆云县| 鲁甸县|