網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Gemini-2.0奪冠！全球首個(gè)幾何推理專項(xiàng)評(píng)測(cè)出爐，淘天集團(tuán)出品

2025-04-28 12:04:42　來(lái)源: 量子位

北京舉報(bào)

分享至

GeoSense團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

多模態(tài)大模型幾何解題哪家強(qiáng)？

首個(gè)從幾何原理視角出發(fā)，全面評(píng)估多模態(tài)大模型幾何解題能力的雙語(yǔ)綜合基準(zhǔn)來(lái)了！

GeoSense，系統(tǒng)評(píng)測(cè)多模態(tài)大模型在幾何原理識(shí)別和應(yīng)用中的表現(xiàn)，評(píng)測(cè)基準(zhǔn)的數(shù)據(jù)和評(píng)測(cè)代碼均已開(kāi)源。

其背后團(tuán)隊(duì)來(lái)自淘天集團(tuán)算法技術(shù)-未來(lái)生活實(shí)驗(yàn)室團(tuán)隊(duì)。

人類在解答幾何問(wèn)題時(shí)，首先會(huì)識(shí)別所需的幾何原理并通過(guò)靈活應(yīng)用它們來(lái)推導(dǎo)出答案。

然而，目前的評(píng)測(cè)方法多集中于最終答案的正確性或簡(jiǎn)單地對(duì)每個(gè)推理步驟進(jìn)行打分，而忽視了推理過(guò)程中的關(guān)鍵因素：幾何原理的識(shí)別和應(yīng)用。

盡管有研究發(fā)現(xiàn)模型的對(duì)幾何圖的感知能力不足限制了其后續(xù)推理，但實(shí)驗(yàn)發(fā)現(xiàn)，幾何原理與圖像中幾何元素的正確對(duì)應(yīng)及應(yīng)用，是多模態(tài)大模型推理的另一大瓶頸。

為填補(bǔ)這一空白，GeoSense出現(xiàn)了，為在復(fù)雜視覺(jué)場(chǎng)景中的推理能力提升提供了新的方向。

5層知識(shí)架構(gòu)+1789道幾何問(wèn)題

GeoSense旨在系統(tǒng)評(píng)估多模態(tài)大模型識(shí)別和應(yīng)用幾何原理來(lái)解決幾何問(wèn)題的能力。

該基準(zhǔn)建立了包含定義、定理和公式等幾何原理的5層知識(shí)架構(gòu)，覆蓋平面幾何和立體幾何，支持中英雙語(yǔ)；精心構(gòu)建并人工詳細(xì)標(biāo)注了包括1789道問(wèn)題的數(shù)據(jù)集；并針對(duì)幾何原理設(shè)計(jì)了創(chuàng)新性的評(píng)估策略。

它構(gòu)建了包含148個(gè)幾何原理的5層知識(shí)架構(gòu)，覆蓋平面幾何和立體幾何的65個(gè)定義，47個(gè)定理和36個(gè)計(jì)算公式，多維度細(xì)粒度地評(píng)估模型面對(duì)幾何問(wèn)題時(shí)識(shí)別和應(yīng)用知識(shí)的能力。

此外，Geosense有精細(xì)標(biāo)注的數(shù)據(jù)集。

它收納了1789道幾何問(wèn)題，并使用中英雙語(yǔ)詳細(xì)標(biāo)注了解題所必需的5556個(gè)幾何原理及其與幾何圖中元素的對(duì)應(yīng)與應(yīng)用，并使用特殊標(biāo)簽（）標(biāo)注了解題中的關(guān)鍵點(diǎn)，確保模型評(píng)估的綜合性和準(zhǔn)確性。

GeoSense擁有嚴(yán)格的構(gòu)建流程，共有23位幾何領(lǐng)域的研究生同學(xué)進(jìn)行數(shù)據(jù)標(biāo)注、審核和質(zhì)量把控。

下圖展示了一道題目的雙語(yǔ)標(biāo)注示例。

值得一提的是，GeoSense采用創(chuàng)新的評(píng)估方法，創(chuàng)新性地提出GPI（幾何原理識(shí)別）和GPA（幾何原理應(yīng)用）兩個(gè)評(píng)估指標(biāo)，重點(diǎn)審視模型在復(fù)雜視覺(jué)場(chǎng)景中的幾何原理識(shí)別和應(yīng)用能力，幫助識(shí)別模型推理過(guò)程中的潛在不足與提升空間。

評(píng)估系統(tǒng)：GPI+GPA+ACC

GeoSense貢獻(xiàn)了一種新的評(píng)估系統(tǒng)，包括幾何原理識(shí)別（GPI）評(píng)分和幾何原理應(yīng)用（GPA）評(píng)分以及答案正確性評(píng)分（ACC），以全面評(píng)估多模態(tài)大模型在GPS中類人的推理機(jī)制。

GPI（幾何原理識(shí)別評(píng)分）

作者使用GPI來(lái)評(píng)估模型能否正確識(shí)別解決問(wèn)題所必需的幾何原理。

如上圖所示，對(duì)于每個(gè)幾何問(wèn)題，專家標(biāo)注了解題所必需的幾何原理集合。

對(duì)于每個(gè)幾何原理，作者借助GPT-4o判斷其是否在模型的響應(yīng)中被應(yīng)用。最終的GPI得分是幾何原理集合中模型可以正確識(shí)別的幾何原理的比例。

然而，僅僅通過(guò)此指標(biāo)仍然無(wú)法得知，模型是否在視覺(jué)環(huán)境中合理地使用這些原理解決問(wèn)題。這與人類解決幾何問(wèn)題時(shí)遇到的困境相似：在某些情況下，人類知道應(yīng)該運(yùn)用相似三角形的知識(shí)來(lái)解決問(wèn)題，但在實(shí)際的幾何圖形中，往往難以正確對(duì)應(yīng)各個(gè)相似元素并將幾何原理正確應(yīng)用。

GPA（幾何原理應(yīng)用評(píng)分）

為了進(jìn)一步衡量模型在視覺(jué)環(huán)境中應(yīng)用幾何原理的能力，作者們提出了GPA指標(biāo)。

如上圖所示，對(duì)于模型正確識(shí)別的每個(gè)幾何原理，首先提取模型響應(yīng)中與該幾何原理相關(guān)的內(nèi)容。

而后將提取到的內(nèi)容與標(biāo)注中的關(guān)鍵點(diǎn)進(jìn)行比對(duì)，計(jì)算F1 score作為該幾何原理的GPA評(píng)分。

ACC（答案準(zhǔn)確性評(píng)分）

作者還評(píng)估了答案的準(zhǔn)確性，以評(píng)估模型正確識(shí)別和組合應(yīng)用多個(gè)幾何原理以解決問(wèn)題的能力。

以下是跟現(xiàn)有流行的多模態(tài)幾何相關(guān)的多個(gè)評(píng)測(cè)基準(zhǔn)的對(duì)比：

Gemini-2.0-Pro-Flash表現(xiàn)最佳

該團(tuán)隊(duì)對(duì)多個(gè)開(kāi)源和閉源模型進(jìn)行了全面評(píng)測(cè)和分析，并給出了這些模型在GPI、GPA和ACC三個(gè)指標(biāo)的平均值上的排名情況。

最佳表現(xiàn)模型

Gemini-2.0-Pro-Flash在以幾何原理為中心的解題能力評(píng)估中表現(xiàn)最佳，其次是Qwen2.5-VL-72B和QvQ-72B-Preview。

在開(kāi)源模型中，Qwen-VL系列表現(xiàn)最為突出。

推理增強(qiáng)類模型的潛力與挑戰(zhàn)

推理模型如QVQ-72B-Preview在幾何原理識(shí)別和應(yīng)用上展現(xiàn)了強(qiáng)大的潛力，但在實(shí)際問(wèn)題解決中面臨準(zhǔn)確率挑戰(zhàn)，這是由于過(guò)度復(fù)雜化思考過(guò)程從而無(wú)法得到正確答案導(dǎo)致的。

此外，InternVL2.5-38B-MPO在幾何原理識(shí)別率（GPI）和應(yīng)用準(zhǔn)確率（GPA）方面相較于nternVL2.5-38B有所提升，顯示了優(yōu)化模型推理思維過(guò)程的有效性。

平面幾何理解是共同短板

多模態(tài)大模型在平面幾何的理解方面存在明顯不足。

以Claude3.55-Sonnet為例，其在平面圖形的轉(zhuǎn)換和移動(dòng)（TMPF）以及平面圖形的理解（UPF）中的幾何原理識(shí)別率（GPI）分別為65.9和45.1，應(yīng)用準(zhǔn)確率（GPA）更低，為32.5和38.7。

這一現(xiàn)象顯示出在處理二維空間問(wèn)題時(shí)，模型的識(shí)別和應(yīng)用能力均較弱，說(shuō)明多模態(tài)大模型在視覺(jué)信息處理和空間關(guān)系推理方面需要進(jìn)一步優(yōu)化，以改善其在平面幾何任務(wù)中的表現(xiàn)。

推理能力隨模型規(guī)模提升

一般情況下，同一系列的模型規(guī)模越大，表現(xiàn)越優(yōu)。

例如，Qwen2.5-VL系列從7B增至72B后，三種指標(biāo)的平均分（AVG）從 51.3 提升至 60.1。

實(shí)驗(yàn)都有哪些發(fā)現(xiàn)？

什么限制了多模態(tài)大模型的推理能力？

GPI和GPA的降低都會(huì)導(dǎo)致ACC的降低。

在上表中，InternVL-2.5-8B和InternVL-2.5-38B在定義類幾何原理上的GPA基本相同，但由于InternVL-2.5-38B的GPI得分比InternVL-2.5-8B高了5%，導(dǎo)致其ACC比后者高了7.7%。

另外，其他一些例子如Claude37-Sonnet和Qwen2.5-VL-72B在全量評(píng)測(cè)下的結(jié)果體現(xiàn)了GPA的降低也會(huì)影響模型的表現(xiàn)。

此外，大部分多模態(tài)大模型在GeoSense上的GPI和GPA都較低，這體現(xiàn)了幾何原理的識(shí)別和應(yīng)用共同限制了多模態(tài)大模型的推理能力。

為什么多模態(tài)大模型在復(fù)雜問(wèn)題中表現(xiàn)更差？

研究團(tuán)隊(duì)觀察到，隨著所需幾何原理數(shù)量的增加，GPI和ACC分?jǐn)?shù)都降低，而GPA分?jǐn)?shù)則受到的影響較小。這樣的趨勢(shì)在閉源多模態(tài)大模型中更加明顯。

這些觀察結(jié)果表明，多模態(tài)大模型在復(fù)雜問(wèn)題上的較差表現(xiàn)主要是由于未能準(zhǔn)確識(shí)別必需的幾何原理所導(dǎo)致的。

該實(shí)驗(yàn)強(qiáng)調(diào)了提高多模態(tài)大模型識(shí)別幾何原理能力的重要性，以進(jìn)一步增強(qiáng)其推理能力。

更擅長(zhǎng)哪種知識(shí)，哪方面有所欠缺？

多模態(tài)大模型在計(jì)算方面表現(xiàn)出色，但在幾何性質(zhì)理解方面卻存在不足。

從上表的結(jié)果來(lái)看，多模態(tài)大模型在公式類問(wèn)題上的三個(gè)指標(biāo)表現(xiàn)顯著優(yōu)于定義和定理類問(wèn)題，特別是在GPI指標(biāo)上。

這表明，多模態(tài)大模型在面對(duì)計(jì)算問(wèn)題時(shí)能夠更清楚地識(shí)別所需的幾何原理。

相比之下，定義和定理通常包含幾何元素的抽象屬性和關(guān)系，這是多模態(tài)大模型難以理解的。

為什么在平面幾何領(lǐng)域表現(xiàn)不好？

研究人員發(fā)現(xiàn)，GPI限制了多模態(tài)大模型在平面幾何中的表現(xiàn)。

就GPI指標(biāo)而言，大多數(shù)模型在USF科目上的表現(xiàn)優(yōu)于UPF科目。然而，對(duì)于GPA指標(biāo)，兩個(gè)科目之間的表現(xiàn)差異不顯著。盡管如此，就ACC指標(biāo)而言，大多數(shù)模型在USF上的表現(xiàn)仍然更好。

這些觀察結(jié)果表明，限制模型解決平面幾何問(wèn)題能力的關(guān)鍵因素是GPI，即模型在準(zhǔn)確識(shí)別必需的幾何原理方面遇到的困難。這是由于平面幾何中存在許多容易混淆的原理，如判定相似和全等三角形。

這強(qiáng)調(diào)了模型需要準(zhǔn)確識(shí)別必要原理，以增強(qiáng)其對(duì)平面幾何的理解。

論文鏈接：
https://arxiv.org/abs/2504.12597
項(xiàng)目主頁(yè)：
https://gfzshiwai.github.io/GeoSense_Project/
Github：
https://github.com/GFZShiwai/GeoSense

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.