網易首頁 > 網易號 > 正文申請入駐

中科院自動化所推出多圖數學推理新基準，已被CVPR 2025錄用

2025-03-11 20:16:04　來源: 人工智能研究

貴州舉報

分享至

MV-MATH團隊投稿
來源 | 量子位

挑戰多圖數學推理新基準，大模型直接全軍覆沒？！

事情是這樣的。

近日，中國科學院自動化研究所推出多圖數學推理全新基準MV-MATH（該工作已被CVPR 2025錄用），這是一個精心策劃的多圖數學推理數據集，旨在全面評估MLLM（多模態大語言模型）在多視覺場景中的數學推理能力。

結果評估下來發現，GPT-4o僅得分32.1，類o1模型QvQ得分29.3，所有模型均不及格。

具體咋回事，下面接著看。

給大模型數學推理上難度

截止目前，多模態大模型在數學推理領域展現出了巨大的潛力。

然而，現有的多模態數學基準測試大多局限于單一視覺場景（單圖推理），這與現實世界中復雜的多視覺數學應用（多圖推理）相去甚遠。

基于這一情況，多圖數學推理數據集MV-MATH應運而生。

MV-MATH介紹

MV-MATH包含2009個高質量數學問題，涵蓋了從K-12教育場景中提取的真實問題。

每個問題都結合了多個圖像和文本，形成了圖文交錯的多視覺場景。

這些問題分為選擇題、填空題和多步問答題三種類型，覆蓋了11個數學領域，包括解析幾何、代數、度量幾何、組合學、變換幾何、邏輯、立體幾何、算術、組合幾何、描述性幾何和統計學，并分為三個難度級別。

下圖展示了MV-MATH與現有數據集的對比以及分布情況：

（a）與現有數學基準的比較（圓圈大小代表圖片數量）；（b）每個問題的長度分布；（c）每個問題的圖像數量分布。

數據集特點

（1）多視覺場景

MV-MATH數據集中的每個問題都包含多個圖像（2-8個圖片），這些圖像與文本交織在一起，形成了復雜的多視覺場景。

MV-MATH中的每個問題都是從真實的K-12場景中收集而來，這種設計更接近于現實世界中的數學問題，能夠更好地評估MLLM在處理多視覺信息時的推理能力。

（2）豐富的標注

為了確保數據集的質量和可靠性，每個樣本都經過了至少兩名標注者的交叉驗證。標注內容包括問題、答案、詳細分析以及圖像關聯性，為模型評估提供了詳細的信息。

（3）多樣化的數學領域

MV-MATH涵蓋了從基礎算術到高級幾何的11個數學領域，并根據詳細答案的長度劃分為3個難度等級，能夠全面評估MLLM在不同數學領域的推理能力。

（4）圖像關聯性

MV-MATH首次引入圖像相關性這一特征標簽，根據據圖像是否相關，數據集被分為兩個子集：相互依賴集（Mutually Dependent Set，MD）和獨立集（Independent Set，ID）。

在MD子集中，圖像之間相互關聯，理解一個圖像需要參考其他圖像；而在ID子集中，圖像之間相互獨立，可以單獨解釋。

例如，下圖中前兩個題目屬于相互依賴集，最后一個為題目屬于獨立集。

多圖推理綜合評估

研究團隊在MV-MATH上進行了廣泛的實驗，評測了24個主流開源和閉源多模態大模型。

實驗結果表明，即使是最先進的MLLM在多視覺數學任務中也面臨著巨大的挑戰，其表現與人類能力之間存在顯著差距。

從模型總體表現來看，在MV-MATH數據集上，表現最好的模型是Claude-3.5，其整體準確率為33.9%，遠低于人類水平（76.5%）。

其他表現較好的模型還包括GPT-4o（32.1%）、Gemini-1.5-Pro（29.1%）和Qwen-vl-max（26.9%）。

值得注意的是，開源模型LLaVA-OneVision-Chat-72B取得了26.2%的準確率，僅次于Qwen-vl-max。類o1模型QVQ-72B-Preview性能為29.3%，僅次于GPT-4o，這說明慢思考系統在多圖推理任務上同樣有效。

此外，模型在不同領域的表現也存在差異。

在算術領域，Claude-3.5的準確率最高，達到54.2%；而在組合幾何領域，其準確率僅為27.0%。

這表明MLLM在處理需要復雜圖像理解和推理的領域時存在較大困難。

與此同時，團隊針對題目難度、模型提示、圖像關聯性以及圖像輸入方式四個維度對實驗結果進行了更細粒度的分析。

具體而言，如圖中（a）所示，在不同難度級別上，模型的表現也有所不同。

在簡單問題上，GPT-4o的準確率最高，達到40.3%；而在中等難度問題上，Claude-3.5的準確率最高，為37.5%。在困難問題上，所有模型的表現都大幅下降，Claude-3.5的準確率僅為26.6%。

而圖（b）表明，對于閉源模型，CoT和few-shot對MV-MATH多圖推理并不一定有效。對于所有的開源模型，CoT和few-shot都會降點。

在圖像關聯性上，MD子集包含相互依賴的圖像，需要更高水平的跨圖像理解。

如圖中（c）所示，絕大多數模型在MD子集上的性能均低于ID子集，其中Gemini-1.5-pro的性能差距最大，達到 7.8%。

這一觀察結果表明，大多數模型在處理數學場景中的相互依賴圖像任務上面臨挑戰，凸顯了MLLM在處理數學多視覺環境中跨圖像相互依賴關系的潛在局限性。

至于圖像輸入方式，如圖中（d）所示，結果一致表明，在所有測試模型中，圖像序列輸入的表現都優于合并輸入，這表明保留圖像的位置和順序信息對于多圖推理至關重要。

序列輸入的高性能凸顯了結構化視覺信息在增強模型解釋和處理復雜數學場景的能力方面的重要性。

小結

隨著最近OpenAI o1，DeepSeek-R1等模型的爆火，大家看到了慢思考模型在文本推理上的強大性能。然而目前視覺大模型的慢推理仍然沒有一個固定的范式。

本研究通過大量實驗證實了MLLM在復雜多視覺感知與圖像交叉理解上仍然存在困難，在多圖數學推理上存在極大的改進空間。

本研究旨在全面評估MLLM在多視覺場景中的數學推理能力，推動多圖數學推理的進一步發展。

論文鏈接：
https://arxiv.org/abs/2502.20808
主頁鏈接：
https://eternal8080.github.io/MV-MATH.github.io/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

基輔市長：烏克蘭或不得不放棄領土

參考消息 2025-04-25 20:21:15
10699 跟貼 10699
知道長頭發女生洗頭有多麻煩嗎？

有態度的網友005 2025-04-26 02:59:09
1459 跟貼 1459

準“90后”山西壺關縣委常委、副縣長高雅亭赴北京密云掛職

澎湃新聞 2025-04-26 10:28:26
76 跟貼 76

上海車展男子用3D掃描儀對大眾展車采集發生沖突遭巨型黑布遮擋

爆料視頻 2025-04-26 12:33:31
1511 跟貼 1511
美國政府瘋狂刪除科研數據，科學家連夜保存研究心血：我們必須爭分奪秒

紅星新聞 2025-04-25 15:47:11
2589 跟貼 2589

一男子街頭被刀捅后躺在地上不動，目擊男子稱：直接捅到心臟了！

爆料視頻 2025-04-26 11:02:29
1457 跟貼 1457

“五一花100塊買票回家”引全網群嘲：貧窮，是父母最失敗的教育

熙熙說教 2025-04-25 20:40:56
11 跟貼 11
董明珠，讓一幫牛鬼蛇神蹦了出來

阿鳧愛吐槽 2025-04-26 08:03:35
2605 跟貼 2605

產婦出院回家不方便爬樓老公預訂吊車直接送回家

星辰視頻 2025-04-25 16:47:26
1790 跟貼 1790
補至103分鐘！VAR兩次長時間介入暗助海港，名記：惡心！水準堪憂

我愛英超 2025-04-25 22:36:47
1860 跟貼 1860
海港再獲利！中超VAR現大Bug：把不越位畫成越位，太明目張膽

足球大腕 2025-04-26 01:13:12
27 跟貼 27
多地宣布發錢獎勵結婚，浙江優化完善高校在校學生婚育相關制度

第一財經資訊 2025-04-25 23:46:56
1211 跟貼 1211
無語！泡了幾年的中藥酒海龍海馬全部都是塑料

薪火視點 2025-04-25 07:53:00
1285 跟貼 1285
蘇教授→蘇院長！蘇炳添擔任暨南大學體育學院院長

南方都市報 2025-04-25 16:40:31
598 跟貼 598
WTA1000馬德里站：鄭欽文0-2不敵波塔波娃，紅土首秀落敗

懂球帝 2025-04-25 23:01:06
2230 跟貼 2230
朝鮮發布國產智能手機廣告，年輕人戴著耳機打電話！

老趙觀天下 2025-04-26 14:05:59
30 跟貼 30
受關稅影響，蘇州港堆滿集裝箱不發貨？當地已辟謠

網易號社區管理員 2025-04-25 18:00:12
2794 跟貼 2794
森林狼掀翻湖人2-1 勒布朗38+10東契奇17+7+8

網易體育 2025-04-26 12:31:03
2497 跟貼 2497
蘋果擬在2026年實現美版iPhone“印度造”

財聯社 2025-04-25 18:58:07
1798 跟貼 1798
百度李彥宏：DeepSeek又慢又貴，處理形式單一，幻覺率較高

紅星新聞 2025-04-25 17:24:11
4 跟貼 4
中方：美對特定國家外交人員拒發簽證違反國際法義務

央視新聞客戶端 2025-04-26 07:23:21
66 跟貼 66
兒子從國企辭職“二戰”考上北大研究生母親被驚成靜止畫面

封面新聞 2025-04-26 12:42:07
0 跟貼 0
造謠“比亞迪充電爆炸”，一網民被行拘

21世紀經濟報道 2025-04-26 15:09:06
0 跟貼 0
最新：70歲北京大媽偷快遞，7天偷100個，稱為解悶，鍛煉身體

明月聊史 2025-04-26 15:08:42
0 跟貼 0
老板家中閑坐一輪胎突然闖進來

閃電新聞 2025-04-26 15:07:36
0 跟貼 0
廁所去世能找公園賠錢？街道辦：非刑事案件！三招顛覆你的認知！

振華觀史 2025-04-26 15:06:03
0 跟貼 0

人工智能研究

分享深度學習、CV、NLP

258文章數 125關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

旅游

藝術

時尚

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
全球十大恐怖禁區有哪些？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

中科院自動化所推出多圖數學推理新基準 ，已被CVPR 2025錄用

李斌：對蔚來公司四季度盈利非常有信心

巴基斯坦防長：我們曾給西方"干臟活" 為此付出了代價

巴基斯坦防長：我們曾給西方"干臟活" 為此付出了代價

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

金掃帚獎出爐，包貝爾意外獲“影帝”

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

CounterPoint 報告 2024 全球手機攝像頭出貨量：索尼領銜

熱聞|清明假期將至，熱門目的地有哪些?

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

今夏流行“不穿褲子”！洋氣顯瘦顯腿長，誰穿誰好看！

中科院自動化所推出多圖數學推理新基準，已被CVPR 2025錄用

去更大的舞臺追夢專訪中國男籃國手楊瀚森

充電5分鐘續航100公里探訪華為兆瓦超充站