99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

奧賽級AI基準來了:難倒所有模型,GPT-4o僅考34分,上海交大出品

0
分享至

AGI-Eval評測社區團隊 投稿
量子位 | 公眾號 QbitAI

為了進一步挑戰AI系統,大家已經開始研究一些最困難的競賽中的問題,特別是國際奧林匹克競賽和算法挑戰。

但目前尚無奧林匹克級別的、多學科的基準,能夠全面評估綜合解決問題的能力,以全面檢驗人工智能的綜合認知能力。

上海交通大學生成式人工智能實驗室 (GAIR Lab) 的研究團隊推出多學科認知推理基準OlympicArena,即使是GPT-4o 也只達到了 34.01% 的整體準確率,而其他開源模型的整體準確率也難以達到20%。

這一鮮明的對比凸顯了他們基準測試的巨大難度和嚴謹性,證明了它在突破當前 AI 能力界限方面的有效性。



OlympicArena不僅是一套題庫,還做了一些創新,比如為避免模型“刷題”,團隊引入數據泄漏檢測技術,采用N-gram預測檢測數據泄露,確認99.6%的題目未被預訓練數據污染。

除此之外還提供了一套全面的資源來支持人工智能研究,包括基準數據集、開源注釋平臺、詳細的評估工具和具有自動提交功能的排行榜。



OlympicArena難度水平

OlympicArena覆蓋數學、物理、化學、生物、地理、天文學、計算機科學7大領域,細分34個分支(如數論、量子物理、有機化學)。題目來源包括國際數學奧賽(IMO)、國際物理奧賽(IPhO)等62項頂尖賽事,共11163道雙語題目(中英對照),實際的難度如何。

AGI-Eval大模型評測團隊基于此,做了OlympicArena題目的難度驗證,按照14個標桿模型(去除Qwen2-72B-Chat)的結果對數據子集和數據集維度做難度分布,從圖中可以看到,OlympicArena整體難度偏難,僅低于AGI-Eval團隊私有的兩個高中數學競賽題目。



AGI-Eval評測模型榜單

“奧賽題是檢驗AI科學思維的絕佳試金石。”這類高難度題目不僅需要知識儲備,更考驗邏輯推導、空間想象、符號理解等綜合能力。在這場超級測試中,那擅長代碼、學科競賽的推理系模型表現如何?

AGI-Eval大模型評測社區也做了新的模型評測,接入最新的推理系模型以及大語言標桿模型。

從整體表現上看o1和DeepSeek-R1的水平基本持平,但是在化學、生物學、天文學、物理上o1表現好于DeepSeek-R1,特別是天文學上o1得分達92.47%,但數學、地理方面DeepSeek-R1優于o1。



推理系模型和新迭代的模型版本效果都有明顯提升,詳細排名及得分可上官網查看。



學術難度分析

從能力測試上可以看到模型在不同學科的表現水平不同,在天文學上o1得分高達92.47%。是天文學很簡單嗎?基于此,團隊也做了相關的學科分析,從下面的箱合圖中可以看到(中位數越小越難):

  • 化學、生物、地理和天文為一檔,該檔模型中位數大于0.6,從箱型大小可以得到構建優先級為:天文 > 化學 > 生物 > 地理
  • 物理為單獨一檔,該檔模型中位數0.5附近,箱型大小較大
  • 數學為單獨一檔,該檔模型中位數0.3附近,箱型大小極大

客觀來說,在數學物理上R1、o1、o3-mini表現能力更好,能力水平也會更穩定。



題型分析

除對模型進行能力評測外,AGI-Eval大模型評測團隊也做了相關的題型分析,提煉出以下雷達圖,從圖中可以看到1-5排名的推理模型對其它模型產生了碾壓的態勢,特別是在非選擇題題型上,建議構建題目以單問的生成題為主。



△通用模型6-10

難度分析

同時也對模型在面對不同難度題目做了分析,可以看到頭部模型在Easy難度基本已接近100%的準確率,且無區分度;Medium/Hard難度是推理系模型拉開的主戰場,且Meidum難度已達到90%的準確率,后續模型評測建議只構建Hard難度的題目。



預測分析,用Medium、Hard擬合Easy,Easy、Hard擬合Medium,以及Easy、Medium擬合Hard,可以得到如下圖(在Ideal Fit線上方的為超出預期,線下的為低于預期)。

  • O3-mini、O1、DeepSeek-R1在Hard上已超越模型列表中的正常表現,但在Medium上略低于預期
  • 平衡點:即Easy、Medium、Hard上分數為多少時三公式有解,說明模型表現均衡,Easy = 1, Medium = 0.6695, Hard = 0.1897







結語

OlympicArena的誕生,是對現有模型的試金石,更是對AI研發路徑的深刻啟示:僅靠數據堆砌無法實現真正的智能。未來的AI應該學會像奧賽選手一樣拆解問題、關聯知識、嚴謹推導。

當模型能力達到這樣的水平時,對模型的評測的題目難度及評測要求也越來越高,后續模型評測建議只構建Hard難度的題目。

基于此,AGI-Eval大模型評測團隊創新性地提出了人機協作評測模式,并推出10q的全新玩法。待測模型需要在同一套system prompt下指導真實用戶學習一個知識點并完成quiz,基于模型與用戶的高質量多輪對話數據,產出更加高置信度的評測結論。

在這種模式下,參與者可以與最新的大模型共同完成任務,既有助于提高任務完成度又便于建立更加直觀的區分度。

未來隨著模型能力的不斷攀升,AI還有更多能力值得發掘和探索,對模型能力的考察也仍有更對創新空間。

論文地址:https://arxiv.org/pdf/2406.12753
項目地址:https://gair-nlp.github.io/OlympicArena/
代碼地址:https://github.com/GAIR-NLP/OlympicArena

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
卡拉格:如果阿森納能奪得歐冠冠軍,沒人會在乎他們在聯賽的表現

卡拉格:如果阿森納能奪得歐冠冠軍,沒人會在乎他們在聯賽的表現

雷速體育
2025-04-11 22:59:08
約基奇26+16+12,比肩兩大傳奇!威少納投名狀,掘金逆轉灰熊!

約基奇26+16+12,比肩兩大傳奇!威少納投名狀,掘金逆轉灰熊!

釘釘陌上花開
2025-04-12 11:23:30
你能頂得住張元英穿黑絲嗎?

你能頂得住張元英穿黑絲嗎?

喜歡歷史的阿繁
2025-04-10 06:57:33
7中2+5犯,但他一戰打回輪換!球迷:哈維晚上睡覺都要夢見你

7中2+5犯,但他一戰打回輪換!球迷:哈維晚上睡覺都要夢見你

弄月公子
2025-04-12 10:30:29
我退休工資3000,一年能存40000,如何做到的?

我退休工資3000,一年能存40000,如何做到的?

蟬吟槐蕊
2025-04-12 10:51:21
該儲量美國最多,中國95%都依賴進口,如果美國斷供,中國咋辦?

該儲量美國最多,中國95%都依賴進口,如果美國斷供,中國咋辦?

琉璃聊科學
2025-04-11 22:39:57
中國向全世界宣布,退出五千億美元大項目

中國向全世界宣布,退出五千億美元大項目

鐵拳大衛君
2025-04-11 20:00:18
0-1,0-2!感謝國足!印尼主場或打破68年恥辱紀錄,送國足出局

0-1,0-2!感謝國足!印尼主場或打破68年恥辱紀錄,送國足出局

大秦壁虎白話體育
2025-04-12 09:39:20
海關戲精附體,加稅至今未收!美海關大爺想出合適又體面的理由

海關戲精附體,加稅至今未收!美海關大爺想出合適又體面的理由

大風文字
2025-04-12 09:29:09
關稅重壓下,諾華230億美元在美國建廠

關稅重壓下,諾華230億美元在美國建廠

動脈新醫藥
2025-04-11 19:53:06
放棄核心地位,首選加盟火箭!賽季僅出戰8場,28歲射手要后悔了

放棄核心地位,首選加盟火箭!賽季僅出戰8場,28歲射手要后悔了

熊哥愛籃球
2025-04-11 20:58:35
突發建交!朝鮮遭背刺,全球政治版圖改寫

突發建交!朝鮮遭背刺,全球政治版圖改寫

華語智庫
2025-04-12 08:05:40
這兩天,一位特別的客人來到北京

這兩天,一位特別的客人來到北京

牛彈琴
2025-04-12 10:59:14
“風暴”中的在美中國留學生

“風暴”中的在美中國留學生

界面新聞
2025-04-11 09:08:50
中法免簽,大量法國游客涌入我國,看似旅游卻不去任何景區,為啥

中法免簽,大量法國游客涌入我國,看似旅游卻不去任何景區,為啥

歷史看阿敞
2024-12-28 17:34:59
4月9日上午,仁愛礁傳來消息!賴在這的菲律賓軍艦,不可能拖走了

4月9日上午,仁愛礁傳來消息!賴在這的菲律賓軍艦,不可能拖走了

Ck的蜜糖
2025-04-09 13:52:28
“新型啃老”正在全國蔓延:孩子不上班也不伸手要錢,3000塊能活

“新型啃老”正在全國蔓延:孩子不上班也不伸手要錢,3000塊能活

巢客HOME
2025-04-05 23:19:55
賈一凡:石宇奇是一個非常好的男孩子,但是我們沒有在一起

賈一凡:石宇奇是一個非常好的男孩子,但是我們沒有在一起

懂球帝
2025-04-11 23:10:11
“放棄國籍、替日洗白”,被全網封殺的趙立新,徹底活成了笑話!

“放棄國籍、替日洗白”,被全網封殺的趙立新,徹底活成了笑話!

華人星光
2025-04-09 13:46:02
基辛格預言成真?美國四度擊垮“老二”,中國或成第五個反殺者

基辛格預言成真?美國四度擊垮“老二”,中國或成第五個反殺者

娛樂洞察點點
2025-04-11 12:05:05
2025-04-12 11:40:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10303文章數 176094關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

牛彈琴:特別的客人來到北京 美國公開威脅"后果嚴重"

頭條要聞

牛彈琴:特別的客人來到北京 美國公開威脅"后果嚴重"

體育要聞

當意甲冠軍跌入意乙降級區 老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態度原創

游戲
旅游
本地
健康
公開課

研究顯示每個人心中的最佳懷舊主機是10歲玩的那一款

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

華北將迎“歷史罕見”大風

在中國,到底哪些人在吃“偉哥”?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新蔡县| 鄱阳县| 都安| 忻州市| 会泽县| 科技| 洛扎县| 武义县| 潢川县| 永平县| 银川市| 海阳市| 南充市| 宁南县| 任丘市| 金坛市| 延寿县| 昌图县| 溧水县| 奈曼旗| 塔河县| 克什克腾旗| 苍山县| 孟津县| 临邑县| 景德镇市| 肇州县| 武川县| 尚义县| 木里| 阳春市| 方城县| 岱山县| 鄯善县| 通海县| 兰溪市| 柯坪县| 揭东县| 沂源县| 玉田县| 潞西市|