網易首頁 > 網易號 > 正文申請入駐

奧賽級AI基準來了：難倒所有模型，GPT-4o僅考34分，上海交大出品

2025-04-01 21:21:32　來源: 量子位

北京舉報

分享至

AGI-Eval評測社區團隊投稿
量子位 | 公眾號 QbitAI

為了進一步挑戰AI系統，大家已經開始研究一些最困難的競賽中的問題，特別是國際奧林匹克競賽和算法挑戰。

但目前尚無奧林匹克級別的、多學科的基準，能夠全面評估綜合解決問題的能力，以全面檢驗人工智能的綜合認知能力。

上海交通大學生成式人工智能實驗室 (GAIR Lab) 的研究團隊推出多學科認知推理基準OlympicArena，即使是GPT-4o 也只達到了 34.01% 的整體準確率，而其他開源模型的整體準確率也難以達到20%。

這一鮮明的對比凸顯了他們基準測試的巨大難度和嚴謹性，證明了它在突破當前 AI 能力界限方面的有效性。

OlympicArena不僅是一套題庫，還做了一些創新，比如為避免模型“刷題”，團隊引入數據泄漏檢測技術，采用N-gram預測檢測數據泄露，確認99.6%的題目未被預訓練數據污染。

除此之外還提供了一套全面的資源來支持人工智能研究，包括基準數據集、開源注釋平臺、詳細的評估工具和具有自動提交功能的排行榜。

OlympicArena難度水平

OlympicArena覆蓋數學、物理、化學、生物、地理、天文學、計算機科學7大領域，細分34個分支（如數論、量子物理、有機化學）。題目來源包括國際數學奧賽（IMO）、國際物理奧賽（IPhO）等62項頂尖賽事，共11163道雙語題目（中英對照），實際的難度如何。

AGI-Eval大模型評測團隊基于此，做了OlympicArena題目的難度驗證，按照14個標桿模型（去除Qwen2-72B-Chat）的結果對數據子集和數據集維度做難度分布，從圖中可以看到，OlympicArena整體難度偏難，僅低于AGI-Eval團隊私有的兩個高中數學競賽題目。

AGI-Eval評測模型榜單

“奧賽題是檢驗AI科學思維的絕佳試金石。”這類高難度題目不僅需要知識儲備，更考驗邏輯推導、空間想象、符號理解等綜合能力。在這場超級測試中，那擅長代碼、學科競賽的推理系模型表現如何？

AGI-Eval大模型評測社區也做了新的模型評測，接入最新的推理系模型以及大語言標桿模型。

從整體表現上看o1和DeepSeek-R1的水平基本持平，但是在化學、生物學、天文學、物理上o1表現好于DeepSeek-R1，特別是天文學上o1得分達92.47%，但數學、地理方面DeepSeek-R1優于o1。

推理系模型和新迭代的模型版本效果都有明顯提升，詳細排名及得分可上官網查看。

學術難度分析

從能力測試上可以看到模型在不同學科的表現水平不同，在天文學上o1得分高達92.47%。是天文學很簡單嗎？基于此，團隊也做了相關的學科分析，從下面的箱合圖中可以看到（中位數越小越難）：

化學、生物、地理和天文為一檔，該檔模型中位數大于0.6，從箱型大小可以得到構建優先級為：天文 > 化學 > 生物 > 地理
物理為單獨一檔，該檔模型中位數0.5附近，箱型大小較大
數學為單獨一檔，該檔模型中位數0.3附近，箱型大小極大

客觀來說，在數學物理上R1、o1、o3-mini表現能力更好，能力水平也會更穩定。

題型分析

除對模型進行能力評測外，AGI-Eval大模型評測團隊也做了相關的題型分析，提煉出以下雷達圖，從圖中可以看到1-5排名的推理模型對其它模型產生了碾壓的態勢，特別是在非選擇題題型上，建議構建題目以單問的生成題為主。

△通用模型6-10

難度分析

同時也對模型在面對不同難度題目做了分析，可以看到頭部模型在Easy難度基本已接近100%的準確率，且無區分度；Medium/Hard難度是推理系模型拉開的主戰場，且Meidum難度已達到90%的準確率，后續模型評測建議只構建Hard難度的題目。

預測分析，用Medium、Hard擬合Easy，Easy、Hard擬合Medium，以及Easy、Medium擬合Hard，可以得到如下圖（在Ideal Fit線上方的為超出預期，線下的為低于預期）。

O3-mini、O1、DeepSeek-R1在Hard上已超越模型列表中的正常表現，但在Medium上略低于預期
平衡點：即Easy、Medium、Hard上分數為多少時三公式有解，說明模型表現均衡，Easy = 1, Medium = 0.6695, Hard = 0.1897

結語

OlympicArena的誕生，是對現有模型的試金石，更是對AI研發路徑的深刻啟示：僅靠數據堆砌無法實現真正的智能。未來的AI應該學會像奧賽選手一樣拆解問題、關聯知識、嚴謹推導。

當模型能力達到這樣的水平時，對模型的評測的題目難度及評測要求也越來越高，后續模型評測建議只構建Hard難度的題目。

基于此，AGI-Eval大模型評測團隊創新性地提出了人機協作評測模式，并推出10q的全新玩法。待測模型需要在同一套system prompt下指導真實用戶學習一個知識點并完成quiz，基于模型與用戶的高質量多輪對話數據，產出更加高置信度的評測結論。

在這種模式下，參與者可以與最新的大模型共同完成任務，既有助于提高任務完成度又便于建立更加直觀的區分度。

未來隨著模型能力的不斷攀升，AI還有更多能力值得發掘和探索，對模型能力的考察也仍有更對創新空間。

論文地址：https://arxiv.org/pdf/2406.12753
項目地址：https://gair-nlp.github.io/OlympicArena/
代碼地址：https://github.com/GAIR-NLP/OlympicArena

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

為啥318會堵車幾個小時？就是這種人太多了

泥塑動物 2025-04-10 13:58:07
1220 跟貼 1220
紅旗到了三河也要變綠！“紅十字綠”被緊急拆除，當地這樣回應

垛垛糖 2025-04-11 13:33:59
6771 跟貼 6771

費高云主政合肥，曾長期在江蘇工作

上觀新聞 2025-04-11 20:43:18
1845 跟貼 1845

京東：將推出2000億出口轉內銷扶持計劃

澎湃新聞 2025-04-11 17:43:07
8590 跟貼 8590
上個月，我去了趟烏魯木齊回來后，我只想說：能不去就盡量不去！

訪史 2025-04-11 10:34:33
66 跟貼 66

10秒49名列第二，35歲蘇炳添賽后發聲：這可能是我最后一場比賽了

環球網資訊 2025-04-11 17:41:24
2756 跟貼 2756

重慶女子花6000多萬貴州買地“中招”，何以十多年來退不了款？鎮遠縣被要求“撤證追責”

大風新聞 2025-04-11 17:44:04
1475 跟貼 1475
一條街商戶的招牌都被貼上綠膜男子強烈反對無效施工隊不聽他的

火煉樹 2025-04-11 13:14:34
4670 跟貼 4670

國內金飾價格突破1000元升至歷史高位

財聯社 2025-04-11 14:01:12
4543 跟貼 4543
男子“入職”心儀國企2年多，沒簽合同沒發工資？單位：他是義務幫工；仲裁委：無法證明事實勞動關系

大風新聞 2025-04-11 18:26:12
624 跟貼 624
河邊長很多黃花苗，小伙一會挖一筐子，遍地都是真喜人

大慶在農村 2025-04-12 08:57:38
183 跟貼 183
美國海關報告關稅系統出現故障暫未征收關稅

央視新聞客戶端 2025-04-12 05:55:53
358 跟貼 358
網友吐槽：一根水管6個人抬著干，旁邊還有人拍照 ?

動態新聞 2025-04-11 15:27:35
2570 跟貼 2570
歐盟將禁止在汽車中使用碳纖維

MOTO 2025-04-11 18:39:29
11 跟貼 11
義烏老板娘霸氣喊話：美國客戶要就給，不要就換賽道！

滄海一書客 2025-04-12 07:56:52
5 跟貼 5
我們明明是社會主義國家，養老金為什么要分三六九等？

逍遙論經 2025-04-12 04:48:28
0 跟貼 0
惠普、戴爾、宏碁、華碩和聯想等大廠暫停對美出貨

IT之家 2025-04-10 12:13:16
81 跟貼 81
關稅戰之下所有人應該達成一個共識:當下單靠內循環是行不通的！

翻開歷史和現實 2025-04-11 12:37:16
1 跟貼 1
尹錫悅終于走了！帶著11只貓狗還有他的硅膠娃娃

王朝風云 2025-04-12 07:21:10
31 跟貼 31
記者：邁阿密國際與巴薩商討在2026年舉辦梅西告別巴薩友誼賽

懂球帝 2025-04-12 10:41:09
27 跟貼 27
中國互聯網聯合辟謠平臺2025年3月辟謠榜

今日辟謠 2025-04-12 07:57:56
17 跟貼 17
荒謬！鹽城一籃球場因“空氣污染”被拆除？！

鹽城123網 2025-04-12 11:05:50
0 跟貼 0
上海3888象糞甜品餐廳已停業,市監局封存原料并立案調查

大象新聞 2025-04-12 11:18:39
0 跟貼 0
蒼南一養豬場被曝光！村民崩潰

睿眼看世界 2025-04-12 11:17:36
0 跟貼 0
碰撞致2死，小車起火后司機逃逸！警方通報，小米回應

山東教育電視臺 2025-04-12 11:08:51
0 跟貼 0
蒼南一人突發！全是血

睿眼看世界 2025-04-12 11:17:24
0 跟貼 0
多家銀行下調存款利率

澎湃新聞 2025-04-11 17:00:04
0 跟貼 0

量子位

追蹤人工智能動態

10303文章數 176094關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

旅游

本地

健康

公開課

手機 / 數碼

房產 / 家居

奧賽級AI基準來了：難倒所有模型，GPT-4o僅考34分，上海交大出品

單臺年入20萬！首批人形機器人致富者來了

牛彈琴：特別的客人來到北京 美國公開威脅"后果嚴重"

牛彈琴：特別的客人來到北京 美國公開威脅"后果嚴重"

當意甲冠軍跌入意乙降級區 老男孩們坐不住了

25歲女歌手突然離世，和大S死因相似

造假累計數百億 揭秘東旭集團造假手法

審美和深層次豪華 阿維塔06都辦到了

態度原創

研究顯示每個人心中的最佳懷舊主機是10歲玩的那一款

熱聞|清明假期將至，熱門目的地有哪些?

華北將迎“歷史罕見”大風

在中國，到底哪些人在吃“偉哥”？

牛彈琴：特別的客人來到北京美國公開威脅"后果嚴重"

牛彈琴：特別的客人來到北京美國公開威脅"后果嚴重"

當意甲冠軍跌入意乙降級區老男孩們坐不住了

造假累計數百億揭秘東旭集團造假手法

審美和深層次豪華阿維塔06都辦到了