99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Gemini-2.0奪冠!全球首個(gè)幾何推理專項(xiàng)評(píng)測(cè)出爐,淘天集團(tuán)出品

0
分享至

GeoSense團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

多模態(tài)大模型幾何解題哪家強(qiáng)?

首個(gè)從幾何原理視角出發(fā),全面評(píng)估多模態(tài)大模型幾何解題能力的雙語(yǔ)綜合基準(zhǔn)來(lái)了!

GeoSense,系統(tǒng)評(píng)測(cè)多模態(tài)大模型在幾何原理識(shí)別和應(yīng)用中的表現(xiàn),評(píng)測(cè)基準(zhǔn)的數(shù)據(jù)和評(píng)測(cè)代碼均已開(kāi)源。

其背后團(tuán)隊(duì)來(lái)自淘天集團(tuán)算法技術(shù)-未來(lái)生活實(shí)驗(yàn)室團(tuán)隊(duì)。



人類在解答幾何問(wèn)題時(shí),首先會(huì)識(shí)別所需的幾何原理并通過(guò)靈活應(yīng)用它們來(lái)推導(dǎo)出答案。

然而,目前的評(píng)測(cè)方法多集中于最終答案的正確性或簡(jiǎn)單地對(duì)每個(gè)推理步驟進(jìn)行打分,而忽視了推理過(guò)程中的關(guān)鍵因素:幾何原理的識(shí)別和應(yīng)用。

盡管有研究發(fā)現(xiàn)模型的對(duì)幾何圖的感知能力不足限制了其后續(xù)推理,但實(shí)驗(yàn)發(fā)現(xiàn),幾何原理與圖像中幾何元素的正確對(duì)應(yīng)及應(yīng)用,是多模態(tài)大模型推理的另一大瓶頸。

為填補(bǔ)這一空白,GeoSense出現(xiàn)了,為在復(fù)雜視覺(jué)場(chǎng)景中的推理能力提升提供了新的方向。

5層知識(shí)架構(gòu)+1789道幾何問(wèn)題

GeoSense旨在系統(tǒng)評(píng)估多模態(tài)大模型識(shí)別和應(yīng)用幾何原理來(lái)解決幾何問(wèn)題的能力。

該基準(zhǔn)建立了包含定義、定理和公式等幾何原理的5層知識(shí)架構(gòu),覆蓋平面幾何和立體幾何,支持中英雙語(yǔ);精心構(gòu)建并人工詳細(xì)標(biāo)注了包括1789道問(wèn)題的數(shù)據(jù)集;并針對(duì)幾何原理設(shè)計(jì)了創(chuàng)新性的評(píng)估策略。

它構(gòu)建了包含148個(gè)幾何原理的5層知識(shí)架構(gòu),覆蓋平面幾何和立體幾何的65個(gè)定義,47個(gè)定理和36個(gè)計(jì)算公式,多維度細(xì)粒度地評(píng)估模型面對(duì)幾何問(wèn)題時(shí)識(shí)別和應(yīng)用知識(shí)的能力。

此外,Geosense有精細(xì)標(biāo)注的數(shù)據(jù)集。

它收納了1789道幾何問(wèn)題,并使用中英雙語(yǔ)詳細(xì)標(biāo)注了解題所必需的5556個(gè)幾何原理及其與幾何圖中元素的對(duì)應(yīng)與應(yīng)用,并使用特殊標(biāo)簽()標(biāo)注了解題中的關(guān)鍵點(diǎn),確保模型評(píng)估的綜合性和準(zhǔn)確性。



GeoSense擁有嚴(yán)格的構(gòu)建流程,共有23位幾何領(lǐng)域的研究生同學(xué)進(jìn)行數(shù)據(jù)標(biāo)注、審核和質(zhì)量把控。

下圖展示了一道題目的雙語(yǔ)標(biāo)注示例。



值得一提的是,GeoSense采用創(chuàng)新的評(píng)估方法,創(chuàng)新性地提出GPI(幾何原理識(shí)別)和GPA(幾何原理應(yīng)用)兩個(gè)評(píng)估指標(biāo),重點(diǎn)審視模型在復(fù)雜視覺(jué)場(chǎng)景中的幾何原理識(shí)別和應(yīng)用能力,幫助識(shí)別模型推理過(guò)程中的潛在不足與提升空間。

評(píng)估系統(tǒng):GPI+GPA+ACC

GeoSense貢獻(xiàn)了一種新的評(píng)估系統(tǒng),包括幾何原理識(shí)別(GPI)評(píng)分和幾何原理應(yīng)用(GPA)評(píng)分以及答案正確性評(píng)分(ACC),以全面評(píng)估多模態(tài)大模型在GPS中類人的推理機(jī)制。



GPI(幾何原理識(shí)別評(píng)分)

作者使用GPI來(lái)評(píng)估模型能否正確識(shí)別解決問(wèn)題所必需的幾何原理。

如上圖所示,對(duì)于每個(gè)幾何問(wèn)題 ,專家標(biāo)注了解題所必需的幾何原理集合。

對(duì)于每個(gè)幾何原理,作者借助GPT-4o判斷其是否在模型的響應(yīng)中被應(yīng)用。最終的GPI得分是幾何原理集合中模型可以正確識(shí)別的幾何原理的比例。

然而,僅僅通過(guò)此指標(biāo)仍然無(wú)法得知,模型是否在視覺(jué)環(huán)境中合理地使用這些原理解決問(wèn)題。這與人類解決幾何問(wèn)題時(shí)遇到的困境相似:在某些情況下,人類知道應(yīng)該運(yùn)用相似三角形的知識(shí)來(lái)解決問(wèn)題,但在實(shí)際的幾何圖形中,往往難以正確對(duì)應(yīng)各個(gè)相似元素并將幾何原理正確應(yīng)用。

GPA(幾何原理應(yīng)用評(píng)分)

為了進(jìn)一步衡量模型在視覺(jué)環(huán)境中應(yīng)用幾何原理的能力,作者們提出了GPA指標(biāo)。

如上圖所示,對(duì)于模型正確識(shí)別的每個(gè)幾何原理,首先提取模型響應(yīng)中與該幾何原理相關(guān)的內(nèi)容。

而后將提取到的內(nèi)容與標(biāo)注中的關(guān)鍵點(diǎn)進(jìn)行比對(duì),計(jì)算F1 score作為該幾何原理的GPA評(píng)分。

ACC(答案準(zhǔn)確性評(píng)分)

作者還評(píng)估了答案的準(zhǔn)確性,以評(píng)估模型正確識(shí)別和組合應(yīng)用多個(gè)幾何原理以解決問(wèn)題的能力。

以下是跟現(xiàn)有流行的多模態(tài)幾何相關(guān)的多個(gè)評(píng)測(cè)基準(zhǔn)的對(duì)比:



Gemini-2.0-Pro-Flash表現(xiàn)最佳

該團(tuán)隊(duì)對(duì)多個(gè)開(kāi)源和閉源模型進(jìn)行了全面評(píng)測(cè)和分析,并給出了這些模型在GPI、GPA和ACC三個(gè)指標(biāo)的平均值上的排名情況。



最佳表現(xiàn)模型

Gemini-2.0-Pro-Flash在以幾何原理為中心的解題能力評(píng)估中表現(xiàn)最佳,其次是Qwen2.5-VL-72B和QvQ-72B-Preview。

開(kāi)源模型中,Qwen-VL系列表現(xiàn)最為突出。

推理增強(qiáng)類模型的潛力與挑戰(zhàn)

推理模型如QVQ-72B-Preview在幾何原理識(shí)別和應(yīng)用上展現(xiàn)了強(qiáng)大的潛力,但在實(shí)際問(wèn)題解決中面臨準(zhǔn)確率挑戰(zhàn),這是由于過(guò)度復(fù)雜化思考過(guò)程從而無(wú)法得到正確答案導(dǎo)致的。

此外,InternVL2.5-38B-MPO在幾何原理識(shí)別率(GPI)和應(yīng)用準(zhǔn)確率(GPA)方面相較于nternVL2.5-38B有所提升,顯示了優(yōu)化模型推理思維過(guò)程的有效性。

平面幾何理解是共同短板

多模態(tài)大模型在平面幾何的理解方面存在明顯不足。

以Claude3.55-Sonnet為例,其在平面圖形的轉(zhuǎn)換和移動(dòng)(TMPF)以及平面圖形的理解(UPF)中的幾何原理識(shí)別率(GPI)分別為65.9和45.1,應(yīng)用準(zhǔn)確率(GPA)更低,為32.5和38.7。

這一現(xiàn)象顯示出在處理二維空間問(wèn)題時(shí),模型的識(shí)別和應(yīng)用能力均較弱,說(shuō)明多模態(tài)大模型在視覺(jué)信息處理和空間關(guān)系推理方面需要進(jìn)一步優(yōu)化,以改善其在平面幾何任務(wù)中的表現(xiàn)。

推理能力隨模型規(guī)模提升

一般情況下,同一系列的模型規(guī)模越大,表現(xiàn)越優(yōu)。

例如,Qwen2.5-VL系列從7B增至72B后,三種指標(biāo)的平均分(AVG)從 51.3 提升至 60.1。

實(shí)驗(yàn)都有哪些發(fā)現(xiàn)?

什么限制了多模態(tài)大模型的推理能力?

GPI和GPA的降低都會(huì)導(dǎo)致ACC的降低。

在上表中,InternVL-2.5-8B和InternVL-2.5-38B在定義類幾何原理上的GPA基本相同,但由于InternVL-2.5-38B的GPI得分比InternVL-2.5-8B高了5%,導(dǎo)致其ACC比后者高了7.7%。

另外,其他一些例子如Claude37-Sonnet和Qwen2.5-VL-72B在全量評(píng)測(cè)下的結(jié)果體現(xiàn)了GPA的降低也會(huì)影響模型的表現(xiàn)。

此外,大部分多模態(tài)大模型在GeoSense上的GPI和GPA都較低,這體現(xiàn)了幾何原理的識(shí)別和應(yīng)用共同限制了多模態(tài)大模型的推理能力。

為什么多模態(tài)大模型在復(fù)雜問(wèn)題中表現(xiàn)更差?

研究團(tuán)隊(duì)觀察到,隨著所需幾何原理數(shù)量的增加,GPI和ACC分?jǐn)?shù)都降低,而GPA分?jǐn)?shù)則受到的影響較小。這樣的趨勢(shì)在閉源多模態(tài)大模型中更加明顯。

這些觀察結(jié)果表明,多模態(tài)大模型在復(fù)雜問(wèn)題上的較差表現(xiàn)主要是由于未能準(zhǔn)確識(shí)別必需的幾何原理所導(dǎo)致的。

該實(shí)驗(yàn)強(qiáng)調(diào)了提高多模態(tài)大模型識(shí)別幾何原理能力的重要性,以進(jìn)一步增強(qiáng)其推理能力。



更擅長(zhǎng)哪種知識(shí),哪方面有所欠缺?

多模態(tài)大模型在計(jì)算方面表現(xiàn)出色,但在幾何性質(zhì)理解方面卻存在不足。

從上表的結(jié)果來(lái)看,多模態(tài)大模型在公式類問(wèn)題上的三個(gè)指標(biāo)表現(xiàn)顯著優(yōu)于定義和定理類問(wèn)題,特別是在GPI指標(biāo)上。

這表明,多模態(tài)大模型在面對(duì)計(jì)算問(wèn)題時(shí)能夠更清楚地識(shí)別所需的幾何原理。

相比之下,定義和定理通常包含幾何元素的抽象屬性和關(guān)系,這是多模態(tài)大模型難以理解的。

為什么在平面幾何領(lǐng)域表現(xiàn)不好?

研究人員發(fā)現(xiàn),GPI限制了多模態(tài)大模型在平面幾何中的表現(xiàn)。

就GPI指標(biāo)而言,大多數(shù)模型在USF科目上的表現(xiàn)優(yōu)于UPF科目。然而,對(duì)于GPA指標(biāo),兩個(gè)科目之間的表現(xiàn)差異不顯著。盡管如此,就ACC指標(biāo)而言,大多數(shù)模型在USF上的表現(xiàn)仍然更好。

這些觀察結(jié)果表明,限制模型解決平面幾何問(wèn)題能力的關(guān)鍵因素是GPI,即模型在準(zhǔn)確識(shí)別必需的幾何原理方面遇到的困難。這是由于平面幾何中存在許多容易混淆的原理,如判定相似和全等三角形。

這強(qiáng)調(diào)了模型需要準(zhǔn)確識(shí)別必要原理,以增強(qiáng)其對(duì)平面幾何的理解。



論文鏈接:
https://arxiv.org/abs/2504.12597
項(xiàng)目主頁(yè):
https://gfzshiwai.github.io/GeoSense_Project/
Github:
https://github.com/GFZShiwai/GeoSense

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“高潮針”打過(guò)的都說(shuō)好?提高G點(diǎn)敏感度2倍,手指一彎就想尿

“高潮針”打過(guò)的都說(shuō)好?提高G點(diǎn)敏感度2倍,手指一彎就想尿

社會(huì)醬
2025-04-28 16:29:35
美媒爆:美國(guó)一些知名大學(xué)領(lǐng)導(dǎo)層私下組建團(tuán)體,抵制特朗普政府干預(yù)行為

美媒爆:美國(guó)一些知名大學(xué)領(lǐng)導(dǎo)層私下組建團(tuán)體,抵制特朗普政府干預(yù)行為

環(huán)球網(wǎng)資訊
2025-04-28 18:01:39
足球報(bào):國(guó)安多人被傳染流感,醫(yī)療團(tuán)隊(duì)反復(fù)提醒球員預(yù)防

足球報(bào):國(guó)安多人被傳染流感,醫(yī)療團(tuán)隊(duì)反復(fù)提醒球員預(yù)防

懂球帝
2025-04-28 14:38:11
116-113!東契奇空砍38分,華子43+9+6,森林狼險(xiǎn)勝湖人迎賽點(diǎn)

116-113!東契奇空砍38分,華子43+9+6,森林狼險(xiǎn)勝湖人迎賽點(diǎn)

全景體育V
2025-04-28 07:45:15
升級(jí)買(mǎi)斷100度大電池,才開(kāi)5萬(wàn)公里的蔚來(lái)ES6只賣(mài)8萬(wàn),但卻沒(méi)人要

升級(jí)買(mǎi)斷100度大電池,才開(kāi)5萬(wàn)公里的蔚來(lái)ES6只賣(mài)8萬(wàn),但卻沒(méi)人要

檢車家老司機(jī)
2025-04-27 18:27:49
哎媽呀,怪不得胡歌要和她分手,卸妝后擱誰(shuí)都會(huì)心涼涼

哎媽呀,怪不得胡歌要和她分手,卸妝后擱誰(shuí)都會(huì)心涼涼

皮蛋兒電影
2025-04-27 19:24:13
加拿大突發(fā)!已致多人死亡,加總理發(fā)聲

加拿大突發(fā)!已致多人死亡,加總理發(fā)聲

環(huán)球時(shí)報(bào)國(guó)際
2025-04-27 16:32:48
盧偉直播喊話下賽季!上海目標(biāo)將是四強(qiáng),引援方面還需努力!

盧偉直播喊話下賽季!上海目標(biāo)將是四強(qiáng),引援方面還需努力!

籃球資訊達(dá)人
2025-04-29 01:46:14
被炒到1000元!網(wǎng)友質(zhì)疑“五月天聯(lián)名杯具”饑餓營(yíng)銷,星巴克否認(rèn)

被炒到1000元!網(wǎng)友質(zhì)疑“五月天聯(lián)名杯具”饑餓營(yíng)銷,星巴克否認(rèn)

瀟湘晨報(bào)
2025-04-28 21:42:08
中美沒(méi)談判后,美方報(bào)復(fù)來(lái)了,特朗普趁火打劫,中方召開(kāi)重要會(huì)議

中美沒(méi)談判后,美方報(bào)復(fù)來(lái)了,特朗普趁火打劫,中方召開(kāi)重要會(huì)議

社會(huì)真實(shí)事
2025-04-28 23:02:54
1-3落后,湖人隊(duì)內(nèi)訌爆發(fā)!詹姆斯公開(kāi)抱怨,雷迪克下課倒計(jì)時(shí)

1-3落后,湖人隊(duì)內(nèi)訌爆發(fā)!詹姆斯公開(kāi)抱怨,雷迪克下課倒計(jì)時(shí)

阿泰希特
2025-04-28 12:43:07
準(zhǔn)備登機(jī)離國(guó),78歲特朗普上任首訪,中國(guó)致電沙特,對(duì)美改變稱呼

準(zhǔn)備登機(jī)離國(guó),78歲特朗普上任首訪,中國(guó)致電沙特,對(duì)美改變稱呼

小晨同學(xué)啊
2025-04-15 15:35:42
莫言:你細(xì)心觀察一下你的身邊人,凡是動(dòng)不動(dòng)就生氣的人,沒(méi)有一個(gè)是智者,生活多半過(guò)得一團(tuán)糟糕

莫言:你細(xì)心觀察一下你的身邊人,凡是動(dòng)不動(dòng)就生氣的人,沒(méi)有一個(gè)是智者,生活多半過(guò)得一團(tuán)糟糕

深度知局
2025-04-04 17:34:54
選美國(guó)還是選中國(guó)?沒(méi)想到,當(dāng)著全世界的面,越南一把手把話挑明

選美國(guó)還是選中國(guó)?沒(méi)想到,當(dāng)著全世界的面,越南一把手把話挑明

藍(lán)涇看一看
2025-04-27 14:45:05
91年被初戀女友拋棄后,我入伍又考上軍校,后來(lái)見(jiàn)到她時(shí)我驚呆了

91年被初戀女友拋棄后,我入伍又考上軍校,后來(lái)見(jiàn)到她時(shí)我驚呆了

詭譎怪談
2025-04-24 20:02:06
林心如,徹底失控了

林心如,徹底失控了

于小戈
2025-04-26 23:35:17
黃渤青島做東請(qǐng)客!王寶強(qiáng)坐主賓,陳坤喝到臉紅,桌上全人情世故

黃渤青島做東請(qǐng)客!王寶強(qiáng)坐主賓,陳坤喝到臉紅,桌上全人情世故

泠泠說(shuō)史
2025-04-28 16:54:25
北京衛(wèi)視播出!七大影帝集結(jié),全劇無(wú)配角,這部諜戰(zhàn)劇值得重溫!

北京衛(wèi)視播出!七大影帝集結(jié),全劇無(wú)配角,這部諜戰(zhàn)劇值得重溫!

小椰的奶奶
2025-04-29 01:22:27
當(dāng)兒女不尊重你時(shí),不要講道理,不要發(fā)脾氣,記住3個(gè)字就夠了

當(dāng)兒女不尊重你時(shí),不要講道理,不要發(fā)脾氣,記住3個(gè)字就夠了

顧一宸
2025-04-26 13:12:51
“還不如少考100多分!”浙大女孩無(wú)法考公,吐槽當(dāng)年不如去普本

“還不如少考100多分!”浙大女孩無(wú)法考公,吐槽當(dāng)年不如去普本

熙熙說(shuō)教
2025-04-28 17:13:00
2025-04-29 03:36:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10396文章數(shù) 176119關(guān)注度
往期回顧 全部

科技要聞

傳騰訊阿里從字節(jié)搶購(gòu)算力資源 字節(jié)否認(rèn)

頭條要聞

媒體:新央企中國(guó)雅江集團(tuán)正籌備

頭條要聞

媒體:新央企中國(guó)雅江集團(tuán)正籌備

體育要聞

“我們欠球迷一個(gè)冠軍慶典,現(xiàn)在可以狂歡了”

娛樂(lè)要聞

黃渤青島做東請(qǐng)客 桌上全人情世故

財(cái)經(jīng)要聞

外賣(mài)平臺(tái)陷入內(nèi)卷,傷害的是誰(shuí)?

汽車要聞

東風(fēng)日產(chǎn),重新起跑

態(tài)度原創(chuàng)

旅游
游戲
教育
親子
家居

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

《艾爾登法環(huán)》全球銷量突破3000萬(wàn)!褪色者集結(jié)!

教育要聞

方程很復(fù)雜,硬解實(shí)數(shù)不理智

親子要聞

推拿孩子的大拇指和食指,助長(zhǎng)高

家居要聞

慢度設(shè)計(jì) 溫暖與沉靜的體驗(yàn)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 灯塔市| 确山县| 庐江县| 拉萨市| 探索| 浏阳市| 五峰| 镇平县| 南雄市| 宿迁市| 迁安市| 札达县| 贵定县| 通辽市| 海丰县| 涟源市| 东乌珠穆沁旗| 孟连| 宜章县| 荣昌县| 西平县| 双城市| 房产| 营山县| 连云港市| 海林市| 景谷| 炉霍县| 顺昌县| 彰化县| 闸北区| 龙陵县| 宁南县| 日喀则市| 海宁市| 贺州市| 汽车| 鹰潭市| 内黄县| 西贡区| 双柏县|