GeoSense團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
多模態(tài)大模型幾何解題哪家強(qiáng)?
首個(gè)從幾何原理視角出發(fā),全面評(píng)估多模態(tài)大模型幾何解題能力的雙語(yǔ)綜合基準(zhǔn)來(lái)了!
GeoSense,系統(tǒng)評(píng)測(cè)多模態(tài)大模型在幾何原理識(shí)別和應(yīng)用中的表現(xiàn),評(píng)測(cè)基準(zhǔn)的數(shù)據(jù)和評(píng)測(cè)代碼均已開(kāi)源。
其背后團(tuán)隊(duì)來(lái)自淘天集團(tuán)算法技術(shù)-未來(lái)生活實(shí)驗(yàn)室團(tuán)隊(duì)。
人類在解答幾何問(wèn)題時(shí),首先會(huì)識(shí)別所需的幾何原理并通過(guò)靈活應(yīng)用它們來(lái)推導(dǎo)出答案。
然而,目前的評(píng)測(cè)方法多集中于最終答案的正確性或簡(jiǎn)單地對(duì)每個(gè)推理步驟進(jìn)行打分,而忽視了推理過(guò)程中的關(guān)鍵因素:幾何原理的識(shí)別和應(yīng)用。
盡管有研究發(fā)現(xiàn)模型的對(duì)幾何圖的感知能力不足限制了其后續(xù)推理,但實(shí)驗(yàn)發(fā)現(xiàn),幾何原理與圖像中幾何元素的正確對(duì)應(yīng)及應(yīng)用,是多模態(tài)大模型推理的另一大瓶頸。
為填補(bǔ)這一空白,GeoSense出現(xiàn)了,為在復(fù)雜視覺(jué)場(chǎng)景中的推理能力提升提供了新的方向。
5層知識(shí)架構(gòu)+1789道幾何問(wèn)題
GeoSense旨在系統(tǒng)評(píng)估多模態(tài)大模型識(shí)別和應(yīng)用幾何原理來(lái)解決幾何問(wèn)題的能力。
該基準(zhǔn)建立了包含定義、定理和公式等幾何原理的5層知識(shí)架構(gòu),覆蓋平面幾何和立體幾何,支持中英雙語(yǔ);精心構(gòu)建并人工詳細(xì)標(biāo)注了包括1789道問(wèn)題的數(shù)據(jù)集;并針對(duì)幾何原理設(shè)計(jì)了創(chuàng)新性的評(píng)估策略。
它構(gòu)建了包含148個(gè)幾何原理的5層知識(shí)架構(gòu),覆蓋平面幾何和立體幾何的65個(gè)定義,47個(gè)定理和36個(gè)計(jì)算公式,多維度細(xì)粒度地評(píng)估模型面對(duì)幾何問(wèn)題時(shí)識(shí)別和應(yīng)用知識(shí)的能力。
此外,Geosense有精細(xì)標(biāo)注的數(shù)據(jù)集。
它收納了1789道幾何問(wèn)題,并使用中英雙語(yǔ)詳細(xì)標(biāo)注了解題所必需的5556個(gè)幾何原理及其與幾何圖中元素的對(duì)應(yīng)與應(yīng)用,并使用特殊標(biāo)簽()標(biāo)注了解題中的關(guān)鍵點(diǎn),確保模型評(píng)估的綜合性和準(zhǔn)確性。
GeoSense擁有嚴(yán)格的構(gòu)建流程,共有23位幾何領(lǐng)域的研究生同學(xué)進(jìn)行數(shù)據(jù)標(biāo)注、審核和質(zhì)量把控。
下圖展示了一道題目的雙語(yǔ)標(biāo)注示例。
值得一提的是,GeoSense采用創(chuàng)新的評(píng)估方法,創(chuàng)新性地提出GPI(幾何原理識(shí)別)和GPA(幾何原理應(yīng)用)兩個(gè)評(píng)估指標(biāo),重點(diǎn)審視模型在復(fù)雜視覺(jué)場(chǎng)景中的幾何原理識(shí)別和應(yīng)用能力,幫助識(shí)別模型推理過(guò)程中的潛在不足與提升空間。
評(píng)估系統(tǒng):GPI+GPA+ACC
GeoSense貢獻(xiàn)了一種新的評(píng)估系統(tǒng),包括幾何原理識(shí)別(GPI)評(píng)分和幾何原理應(yīng)用(GPA)評(píng)分以及答案正確性評(píng)分(ACC),以全面評(píng)估多模態(tài)大模型在GPS中類人的推理機(jī)制。
GPI(幾何原理識(shí)別評(píng)分)
作者使用GPI來(lái)評(píng)估模型能否正確識(shí)別解決問(wèn)題所必需的幾何原理。
如上圖所示,對(duì)于每個(gè)幾何問(wèn)題 ,專家標(biāo)注了解題所必需的幾何原理集合。
對(duì)于每個(gè)幾何原理,作者借助GPT-4o判斷其是否在模型的響應(yīng)中被應(yīng)用。最終的GPI得分是幾何原理集合中模型可以正確識(shí)別的幾何原理的比例。
然而,僅僅通過(guò)此指標(biāo)仍然無(wú)法得知,模型是否在視覺(jué)環(huán)境中合理地使用這些原理解決問(wèn)題。這與人類解決幾何問(wèn)題時(shí)遇到的困境相似:在某些情況下,人類知道應(yīng)該運(yùn)用相似三角形的知識(shí)來(lái)解決問(wèn)題,但在實(shí)際的幾何圖形中,往往難以正確對(duì)應(yīng)各個(gè)相似元素并將幾何原理正確應(yīng)用。
GPA(幾何原理應(yīng)用評(píng)分)
為了進(jìn)一步衡量模型在視覺(jué)環(huán)境中應(yīng)用幾何原理的能力,作者們提出了GPA指標(biāo)。
如上圖所示,對(duì)于模型正確識(shí)別的每個(gè)幾何原理,首先提取模型響應(yīng)中與該幾何原理相關(guān)的內(nèi)容。
而后將提取到的內(nèi)容與標(biāo)注中的關(guān)鍵點(diǎn)進(jìn)行比對(duì),計(jì)算F1 score作為該幾何原理的GPA評(píng)分。
ACC(答案準(zhǔn)確性評(píng)分)
作者還評(píng)估了答案的準(zhǔn)確性,以評(píng)估模型正確識(shí)別和組合應(yīng)用多個(gè)幾何原理以解決問(wèn)題的能力。
以下是跟現(xiàn)有流行的多模態(tài)幾何相關(guān)的多個(gè)評(píng)測(cè)基準(zhǔn)的對(duì)比:
Gemini-2.0-Pro-Flash表現(xiàn)最佳
該團(tuán)隊(duì)對(duì)多個(gè)開(kāi)源和閉源模型進(jìn)行了全面評(píng)測(cè)和分析,并給出了這些模型在GPI、GPA和ACC三個(gè)指標(biāo)的平均值上的排名情況。
最佳表現(xiàn)模型
Gemini-2.0-Pro-Flash在以幾何原理為中心的解題能力評(píng)估中表現(xiàn)最佳,其次是Qwen2.5-VL-72B和QvQ-72B-Preview。
在開(kāi)源模型中,Qwen-VL系列表現(xiàn)最為突出。
推理增強(qiáng)類模型的潛力與挑戰(zhàn)
推理模型如QVQ-72B-Preview在幾何原理識(shí)別和應(yīng)用上展現(xiàn)了強(qiáng)大的潛力,但在實(shí)際問(wèn)題解決中面臨準(zhǔn)確率挑戰(zhàn),這是由于過(guò)度復(fù)雜化思考過(guò)程從而無(wú)法得到正確答案導(dǎo)致的。
此外,InternVL2.5-38B-MPO在幾何原理識(shí)別率(GPI)和應(yīng)用準(zhǔn)確率(GPA)方面相較于nternVL2.5-38B有所提升,顯示了優(yōu)化模型推理思維過(guò)程的有效性。
平面幾何理解是共同短板
多模態(tài)大模型在平面幾何的理解方面存在明顯不足。
以Claude3.55-Sonnet為例,其在平面圖形的轉(zhuǎn)換和移動(dòng)(TMPF)以及平面圖形的理解(UPF)中的幾何原理識(shí)別率(GPI)分別為65.9和45.1,應(yīng)用準(zhǔn)確率(GPA)更低,為32.5和38.7。
這一現(xiàn)象顯示出在處理二維空間問(wèn)題時(shí),模型的識(shí)別和應(yīng)用能力均較弱,說(shuō)明多模態(tài)大模型在視覺(jué)信息處理和空間關(guān)系推理方面需要進(jìn)一步優(yōu)化,以改善其在平面幾何任務(wù)中的表現(xiàn)。
推理能力隨模型規(guī)模提升
一般情況下,同一系列的模型規(guī)模越大,表現(xiàn)越優(yōu)。
例如,Qwen2.5-VL系列從7B增至72B后,三種指標(biāo)的平均分(AVG)從 51.3 提升至 60.1。
實(shí)驗(yàn)都有哪些發(fā)現(xiàn)?
什么限制了多模態(tài)大模型的推理能力?
GPI和GPA的降低都會(huì)導(dǎo)致ACC的降低。
在上表中,InternVL-2.5-8B和InternVL-2.5-38B在定義類幾何原理上的GPA基本相同,但由于InternVL-2.5-38B的GPI得分比InternVL-2.5-8B高了5%,導(dǎo)致其ACC比后者高了7.7%。
另外,其他一些例子如Claude37-Sonnet和Qwen2.5-VL-72B在全量評(píng)測(cè)下的結(jié)果體現(xiàn)了GPA的降低也會(huì)影響模型的表現(xiàn)。
此外,大部分多模態(tài)大模型在GeoSense上的GPI和GPA都較低,這體現(xiàn)了幾何原理的識(shí)別和應(yīng)用共同限制了多模態(tài)大模型的推理能力。
為什么多模態(tài)大模型在復(fù)雜問(wèn)題中表現(xiàn)更差?
研究團(tuán)隊(duì)觀察到,隨著所需幾何原理數(shù)量的增加,GPI和ACC分?jǐn)?shù)都降低,而GPA分?jǐn)?shù)則受到的影響較小。這樣的趨勢(shì)在閉源多模態(tài)大模型中更加明顯。
這些觀察結(jié)果表明,多模態(tài)大模型在復(fù)雜問(wèn)題上的較差表現(xiàn)主要是由于未能準(zhǔn)確識(shí)別必需的幾何原理所導(dǎo)致的。
該實(shí)驗(yàn)強(qiáng)調(diào)了提高多模態(tài)大模型識(shí)別幾何原理能力的重要性,以進(jìn)一步增強(qiáng)其推理能力。
更擅長(zhǎng)哪種知識(shí),哪方面有所欠缺?
多模態(tài)大模型在計(jì)算方面表現(xiàn)出色,但在幾何性質(zhì)理解方面卻存在不足。
從上表的結(jié)果來(lái)看,多模態(tài)大模型在公式類問(wèn)題上的三個(gè)指標(biāo)表現(xiàn)顯著優(yōu)于定義和定理類問(wèn)題,特別是在GPI指標(biāo)上。
這表明,多模態(tài)大模型在面對(duì)計(jì)算問(wèn)題時(shí)能夠更清楚地識(shí)別所需的幾何原理。
相比之下,定義和定理通常包含幾何元素的抽象屬性和關(guān)系,這是多模態(tài)大模型難以理解的。
為什么在平面幾何領(lǐng)域表現(xiàn)不好?
研究人員發(fā)現(xiàn),GPI限制了多模態(tài)大模型在平面幾何中的表現(xiàn)。
就GPI指標(biāo)而言,大多數(shù)模型在USF科目上的表現(xiàn)優(yōu)于UPF科目。然而,對(duì)于GPA指標(biāo),兩個(gè)科目之間的表現(xiàn)差異不顯著。盡管如此,就ACC指標(biāo)而言,大多數(shù)模型在USF上的表現(xiàn)仍然更好。
這些觀察結(jié)果表明,限制模型解決平面幾何問(wèn)題能力的關(guān)鍵因素是GPI,即模型在準(zhǔn)確識(shí)別必需的幾何原理方面遇到的困難。這是由于平面幾何中存在許多容易混淆的原理,如判定相似和全等三角形。
這強(qiáng)調(diào)了模型需要準(zhǔn)確識(shí)別必要原理,以增強(qiáng)其對(duì)平面幾何的理解。
論文鏈接:
https://arxiv.org/abs/2504.12597
項(xiàng)目主頁(yè):
https://gfzshiwai.github.io/GeoSense_Project/
Github:
https://github.com/GFZShiwai/GeoSense
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.