99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

中科院自動化所推出多圖數學推理新基準 ,已被CVPR 2025錄用

0
分享至

MV-MATH團隊 投稿
來源 | 量子位

挑戰多圖數學推理新基準,大模型直接全軍覆沒?!

事情是這樣的。

近日,中國科學院自動化研究所推出多圖數學推理全新基準MV-MATH(該工作已被CVPR 2025錄用),這是一個精心策劃的多圖數學推理數據集,旨在全面評估MLLM(多模態大語言模型)在多視覺場景中的數學推理能力。


結果評估下來發現,GPT-4o僅得分32.1,類o1模型QvQ得分29.3,所有模型均不及格。

具體咋回事,下面接著看。

給大模型數學推理上難度

截止目前,多模態大模型在數學推理領域展現出了巨大的潛力。

然而,現有的多模態數學基準測試大多局限于單一視覺場景(單圖推理),這與現實世界中復雜的多視覺數學應用(多圖推理)相去甚遠。

基于這一情況,多圖數學推理數據集MV-MATH應運而生。

MV-MATH介紹

MV-MATH包含2009個高質量數學問題,涵蓋了從K-12教育場景中提取的真實問題。

每個問題都結合了多個圖像和文本,形成了圖文交錯的多視覺場景。

這些問題分為選擇題、填空題和多步問答題三種類型,覆蓋了11個數學領域,包括解析幾何、代數、度量幾何、組合學、變換幾何、邏輯、立體幾何、算術、組合幾何、描述性幾何和統計學,并分為三個難度級別。


下圖展示了MV-MATH與現有數據集的對比以及分布情況:

(a)與現有數學基準的比較(圓圈大小代表圖片數量);(b)每個問題的長度分布;(c)每個問題的圖像數量分布。


數據集特點

(1)多視覺場景

MV-MATH數據集中的每個問題都包含多個圖像(2-8個圖片),這些圖像與文本交織在一起,形成了復雜的多視覺場景。

MV-MATH中的每個問題都是從真實的K-12場景中收集而來,這種設計更接近于現實世界中的數學問題,能夠更好地評估MLLM在處理多視覺信息時的推理能力。

(2)豐富的標注

為了確保數據集的質量和可靠性,每個樣本都經過了至少兩名標注者的交叉驗證。標注內容包括問題、答案、詳細分析以及圖像關聯性,為模型評估提供了詳細的信息。

(3)多樣化的數學領域

MV-MATH涵蓋了從基礎算術到高級幾何的11個數學領域,并根據詳細答案的長度劃分為3個難度等級,能夠全面評估MLLM在不同數學領域的推理能力。

(4)圖像關聯性

MV-MATH首次引入圖像相關性這一特征標簽,根據據圖像是否相關,數據集被分為兩個子集:相互依賴集(Mutually Dependent Set,MD)和獨立集(Independent Set,ID)。

在MD子集中,圖像之間相互關聯,理解一個圖像需要參考其他圖像;而在ID子集中,圖像之間相互獨立,可以單獨解釋。

例如,下圖中前兩個題目屬于相互依賴集,最后一個為題目屬于獨立集。


多圖推理綜合評估

研究團隊在MV-MATH上進行了廣泛的實驗,評測了24個主流開源和閉源多模態大模型。

實驗結果表明,即使是最先進的MLLM在多視覺數學任務中也面臨著巨大的挑戰,其表現與人類能力之間存在顯著差距。


從模型總體表現來看,在MV-MATH數據集上,表現最好的模型是Claude-3.5,其整體準確率為33.9%,遠低于人類水平(76.5%)。

其他表現較好的模型還包括GPT-4o(32.1%)、Gemini-1.5-Pro(29.1%)和Qwen-vl-max(26.9%)。

值得注意的是,開源模型LLaVA-OneVision-Chat-72B取得了26.2%的準確率,僅次于Qwen-vl-max。類o1模型QVQ-72B-Preview性能為29.3%,僅次于GPT-4o,這說明慢思考系統在多圖推理任務上同樣有效。

此外,模型在不同領域的表現也存在差異

在算術領域,Claude-3.5的準確率最高,達到54.2%;而在組合幾何領域,其準確率僅為27.0%。

這表明MLLM在處理需要復雜圖像理解和推理的領域時存在較大困難。

與此同時,團隊針對題目難度模型提示圖像關聯性以及圖像輸入方式四個維度對實驗結果進行了更細粒度的分析。


具體而言,如圖中(a)所示,在不同難度級別上,模型的表現也有所不同

在簡單問題上,GPT-4o的準確率最高,達到40.3%;而在中等難度問題上,Claude-3.5的準確率最高,為37.5%。在困難問題上,所有模型的表現都大幅下降,Claude-3.5的準確率僅為26.6%。

而圖(b)表明,對于閉源模型,CoT和few-shot對MV-MATH多圖推理并不一定有效。對于所有的開源模型,CoT和few-shot都會降點

在圖像關聯性上,MD子集包含相互依賴的圖像,需要更高水平的跨圖像理解。

如圖中(c)所示,絕大多數模型在MD子集上的性能均低于ID子集,其中Gemini-1.5-pro的性能差距最大,達到 7.8%。

這一觀察結果表明,大多數模型在處理數學場景中的相互依賴圖像任務上面臨挑戰,凸顯了MLLM在處理數學多視覺環境中跨圖像相互依賴關系的潛在局限性。

至于圖像輸入方式,如圖中(d)所示,結果一致表明,在所有測試模型中,圖像序列輸入的表現都優于合并輸入,這表明保留圖像的位置和順序信息對于多圖推理至關重要

序列輸入的高性能凸顯了結構化視覺信息在增強模型解釋和處理復雜數學場景的能力方面的重要性。

小結

隨著最近OpenAI o1,DeepSeek-R1等模型的爆火,大家看到了慢思考模型在文本推理上的強大性能。然而目前視覺大模型的慢推理仍然沒有一個固定的范式。

本研究通過大量實驗證實了MLLM在復雜多視覺感知與圖像交叉理解上仍然存在困難,在多圖數學推理上存在極大的改進空間。

本研究旨在全面評估MLLM在多視覺場景中的數學推理能力,推動多圖數學推理的進一步發展。

論文鏈接:
https://arxiv.org/abs/2502.20808
主頁鏈接:
https://eternal8080.github.io/MV-MATH.github.io/


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“生母繼父殺子案”發生2年后:鄰居稱孩子外婆曾幾月不出門,男孩生前常被“管教”

“生母繼父殺子案”發生2年后:鄰居稱孩子外婆曾幾月不出門,男孩生前常被“管教”

紅星新聞
2025-04-26 01:24:18
女人不怕你占她便宜,而是怕…

女人不怕你占她便宜,而是怕…

青蘋果sht
2025-04-18 05:59:47
A股:周末重磅!國務院同意建立,財政部、證監會集體發聲!

A股:周末重磅!國務院同意建立,財政部、證監會集體發聲!

虎哥閑聊
2025-04-26 10:20:57
鄭欽文0-2慘敗!可怕不是輸球,而是賽后鄭欽文這番話,心氣沒了

鄭欽文0-2慘敗!可怕不是輸球,而是賽后鄭欽文這番話,心氣沒了

振華觀史
2025-04-26 11:03:21
北京知名外科醫生出軌多人:護士長3月兩懷孕,大量骯臟細節披露

北京知名外科醫生出軌多人:護士長3月兩懷孕,大量骯臟細節披露

博士觀察
2025-04-26 10:30:20
男子炒股11年賺6000萬,曾1天虧1100萬,當事人:不建議模仿

男子炒股11年賺6000萬,曾1天虧1100萬,當事人:不建議模仿

瀟湘晨報
2025-04-26 15:00:07
劉強東:我還有一個領養的妹妹,并不熟悉,但每年都給她很多錢

劉強東:我還有一個領養的妹妹,并不熟悉,但每年都給她很多錢

慢看世界
2025-04-26 10:01:12
名記:阿隆·戈登因小腿傷勢目前幾乎無法起跳,現在球隊更衣室內的氛圍非常凝重

名記:阿隆·戈登因小腿傷勢目前幾乎無法起跳,現在球隊更衣室內的氛圍非常凝重

雷速體育
2025-04-26 12:53:55
北京上海大跌,千萬要警惕了!

北京上海大跌,千萬要警惕了!

七叔東山再起
2025-04-25 20:49:46
太行山懸崖摩天筒梯走紅,景區回應:每年“體檢”已運營近25年

太行山懸崖摩天筒梯走紅,景區回應:每年“體檢”已運營近25年

上游新聞
2025-04-26 12:45:11
王菲現身謝霆鋒演唱會!安靜地坐在角落聽歌,55歲的年紀看起來像30

王菲現身謝霆鋒演唱會!安靜地坐在角落聽歌,55歲的年紀看起來像30

二月侃事
2025-04-26 08:38:27
江西一家三口被開快車泄憤男子撞死后 失獨老人發現兒子的獻血證和聯合國兒童基金會“月捐”證書

江西一家三口被開快車泄憤男子撞死后 失獨老人發現兒子的獻血證和聯合國兒童基金會“月捐”證書

閃電新聞
2025-04-25 22:54:13
四川一國企“80后”掌門人為報領導“知遇之恩”,盲目決策致數億損失

四川一國企“80后”掌門人為報領導“知遇之恩”,盲目決策致數億損失

澎湃新聞
2025-04-26 15:18:26
“愛潑斯坦案”關鍵證人弗吉尼亞·朱弗雷自殺身亡

“愛潑斯坦案”關鍵證人弗吉尼亞·朱弗雷自殺身亡

新京報
2025-04-26 10:14:08
波音總裁回應:波音不會繼續為不接收飛機的客戶制造飛機!

波音總裁回應:波音不會繼續為不接收飛機的客戶制造飛機!

翻開歷史和現實
2025-04-24 21:48:17
心智障礙者做100杯咖啡上崗0投訴,創始人回應:殘次品半價銷售,客人整體包容度很高

心智障礙者做100杯咖啡上崗0投訴,創始人回應:殘次品半價銷售,客人整體包容度很高

觀威海
2025-04-25 15:19:29
字母哥37+12+6雄鹿大勝步行者1-2,奇兵特倫特37分利拉德7+5

字母哥37+12+6雄鹿大勝步行者1-2,奇兵特倫特37分利拉德7+5

湖人崛起
2025-04-26 10:29:17
“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

南方都市報
2025-04-25 17:58:08
外籍學生群毆中國人后續:受害者已毀容,畫面不忍直視,官方介入

外籍學生群毆中國人后續:受害者已毀容,畫面不忍直視,官方介入

歸史
2025-04-26 11:25:34
“五一花100塊買票回家”引全網群嘲:貧窮,是父母最失敗的教育

“五一花100塊買票回家”引全網群嘲:貧窮,是父母最失敗的教育

熙熙說教
2025-04-25 20:40:56
2025-04-26 15:35:00
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
258文章數 125關注度
往期回顧 全部

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

手機
旅游
藝術
時尚
公開課

手機要聞

CounterPoint 報告 2024 全球手機攝像頭出貨量:索尼領銜

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

今夏流行“不穿褲子”!洋氣顯瘦顯腿長,誰穿誰好看!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 板桥市| 蒙山县| 宁德市| 高雄县| 祁东县| 长顺县| 古交市| 赣州市| 姜堰市| 淳安县| 兰西县| 汪清县| 梨树县| 珲春市| 清河县| 福海县| 合肥市| 徐水县| 榆社县| 孙吴县| 临邑县| 永嘉县| 阿坝| 吴桥县| 河南省| 芜湖县| 邢台县| 丹凤县| 错那县| 县级市| 和静县| 曲靖市| 东兰县| 惠水县| 海口市| 贵阳市| 县级市| 白山市| 湄潭县| 青田县| 宜良县|