99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

美國奧數題撕碎AI數學神話,頂級模型現場翻車!最高得分5%,DeepSeek唯一逆襲

0
分享至


新智元報道

編輯:KingHZ Aeneas

【新智元導讀】在數學推理中,大語言模型存在根本性局限:在美國數學奧賽,頂級AI模型得分不足5%!來自ETH Zurich等機構的MathArena團隊,一下子推翻了AI會做數學題這個神話。

3月26號,ETH等團隊的一項研究一經發布,就引起了圈內熱議。

這項研究徹底撕開遮羞布,直接擊碎了「LLM會做數學題」這個神話!


論文地址:https://files.sri.inf.ethz.ch/matharena/usamo_report.pdf

鑒于此前它們在AIME上的出色表現,MathArena團隊使用最近的2025年美國數學奧林匹克競賽進行了詳細評估,結果令人大吃一驚——

所有大模型的得分,都低于5%!

DeepSeek-R1表現最好,得分為4.76%;而表現最差的OpenAI o3-mini(high)比上一代o1-pro(high)還差,得分為2.08%。


各頂尖模型在2025 USAMO中的得分

就在今天,這項研究再次被關注到,直接成為了Reddit的熱議話題。


具體來說,在這項研究中,模型需要在2025年USAMO的六道基于證明的數學題上進行了測試。每道題滿分7分,總分最高為42分。然后會由人類專家來給它們打分。

這些模型取得的最高平均分,也就5%,簡直慘不忍睹。

更好笑的是,這些模型對自己的解題進行評分時,還會一致高估自己的得分(此處點名O3-mini和Claude 3.7)。跟人類研究者相比,評分被夸大了能有20倍不止。


所以,此前模型之所以能騙過人類,營造出自己很擅長做數學的假象,純純是因為它們已經在所有可以想象到的數學數據上進行了訓練——國際奧數題、美國奧數檔案、教科書、論文,它們全都見過!

而這次,它們一下子就暴露出了三大致命缺陷。

邏輯錯誤:模型在推理過程中做出了不合理的跳躍,或將關鍵步驟標記為「微不足道」。

缺乏創造力:大多數模型反復堅持相同的有缺陷策略,未能探索替代方案。

評分失敗:LLMs 的自動評分顯著提高了分數,表明他們甚至無法可靠地評估自己的工作。

這,就是人類投入數十億美元后造出的成果。

DeepSeek,唯一亮眼的選手

好在,這項研究中,多少還是有一些令人鼓舞的跡象。

比如「全村的希望」DeepSeek,在其中一次嘗試中,幾乎完全解決了問題4。


問題4大意為:

設H為銳角三角形ABC的垂心,F為從C向AB所作高的垂足,P為H關于BC的對稱點。假設三角形AFP的外接圓與直線BC相交于兩個不同的點X和Y。證明:C是XY的中點。

LLM數學能力,到底強不強?

LLM的數學能力,早已引起了研究人員的懷疑。

在AIME 2025 I中,OpenAI的o系列模型表現讓人嘆服。

對此,來自蘇黎世聯邦理工學院的研究人員Mislav Balunovi?,在X上公開表示:「在數學問題上,LLM到底具有泛化能力,還是學會了背題,終于有了答案。」


然而,。


在AIME 2025 II中,o3-mini(high)準確率更是高達93%!

將MATH數據集中的問題,做一些改動,多個模型的性能顯著下降!


美國數學奧林匹克競賽的選拔賽AIME 2025 I和AIME 2025 II是,成績優異者才能參加2025年的USAMO

那問題來了,LLM的數學泛化能力到底強不強?

LLM真學會了數學證明嗎?

這次,來自ETH Zurich等研究團隊,終于證明:實際上,LLM幾乎從未沒有學會數學證明

研究團隊邀請了具有奧數評審經驗的專家,評估了頂尖模型(如o3-mini、Claude 3.7和Deepseek-R1)的證明過程。

在評估報告中,研究人員重點指出了幾個常見問題。

比如,AI會使用未經證明的假設,

再比如,模型總是執著于輸出格式漂亮的最終答案,即便并未要求它們這樣做。

美國奧賽,LLM表現堪憂

這是首次針對2025年美國數學奧林匹克競賽(USAMO)的難題,系統評估LLM的自然語言證明能力。

USAMO作為美國高中數學競賽的最高殿堂,要求證明與國際數學奧林匹克(IMO)同等級別的嚴密與詳細闡述。

美國數學奧林匹克(USAMO)是美國國家級邀請賽,是國際數學奧林匹克隊伍選拔中的關鍵一步。


美國國際數學奧林匹克競賽隊員選拔流程

USAMO和USAJMO是為期兩天、共包含六個問題、9小時的論文/證明考試。

USAMO完美契合評估LLM的目標:題目難度高、要求完整證明過程才能得分,且未經公開數據污染。

參賽者雖通過AIME等賽事晉級,但USAMO問題對解題的嚴謹性與解釋深度要求顯著更高。

整體而言,當前LLMs在USAMO問題中表現堪憂,最優模型的平均得分不足5%。

在生成嚴格數學證明方面,現有LLM還有重大局限!

本報告中,首先在§2闡述方法論,§3詳述結果并分析核心弱點,§4則討論多項定性觀察結論。

LLM評估方法

在評估過程中,為每個模型提供題目,并明確要求其生成格式規范的LaTeX詳細證明。

完整的提示詞說明,原文如下:


提示詞大意為:

請對以下問題給出詳盡的答案。你的答案將由人工評委根據準確性、正確性以及你證明結果的能力來評分。你應包含證明的所有步驟。不要跳過重要步驟,因為這會降低你的分數。僅僅陳述結果是不夠的。請使用LaTeX來格式化你的答案

{問題}

為降低方差,每個模型對每道題獨立求解4次。

所有解答(不含推理過程)經匿名化處理后統一轉換為PDF格式供評分使用。


改卷專家與流程

評分團隊由四位專家組成,每位專家都擁有豐富的數學解題經驗,他們曾是國家國際數學奧林匹克(IMO)代表隊成員,或者參加過各自國家的最終階段國家隊選拔。

在評分之前,評委們收到了詳細說明評估目標和方法的指導意見。

2025年美國數學奧林匹克競賽(USAMO)共有六道題目。


每一道都由2名評估人員獨立進行評估,每位評委負責批改三道不同的題目。

這種雙評的評分方法仿照了國際數學奧林匹克競賽(IMO)的評估流程,確保了評分的一致性,并減少了個人偏見。

由于美國數學奧林匹克競賽官方并不公布標準答案或評分方案,研究人員依靠數學界資源,尤其是「解題的藝術」(Art of Problem Solving,簡稱AoPS)論壇,為每一道題目精心制定了標準化的評分方案。

在制定評分方案之前,評估人員對來自這些資源的所有解答進行了準確性驗證。

按照美國數學奧林匹克競賽的慣例,每道題目的最高分為7分,對于取得重大且有意義進展的解答會給予部分分數。

評審專家根據預先制定的評分標準,對每份解答進行獨立評閱。當答案與評分標準存在偏差時,評審會在合理范圍內給予部分得分。

每位專家均需詳細記錄評分依據,包括所有部分得分的授予理由,相關評語已公開在項目網站。


錯誤模式歸檔

在評閱過程中,專家還需系統記錄典型的錯誤模式。

「錯誤模式」定義為解題過程中首次出現的推理缺陷,包括但不限于:邏輯謬誤、未驗證的假設、數學表述不嚴謹或計算錯誤。

具體而言,這些錯誤被劃分為以下四類:

1. 邏輯類錯誤:因邏輯謬誤或未經論證的推理跳躍導致論證鏈斷裂;

2. 假設類錯誤:引入未經證明或錯誤假設,致使后續推導失效;

3. 策略類錯誤:因未能識別正確解題路徑而采用根本性錯誤解法;

4. 運算類錯誤:關鍵代數運算或算術計算失誤。

此外,對于模型生成的解答中值得關注的行為或趨勢,研究人員錄為文檔,以便進一步分析。

這些觀察結果被用于找出模型在推理能力方面常見的陷阱和有待改進的地方。

評估結果

在解決美國數學奧林匹克競賽(USAMO)的問題時,所有模型表現都很差。

此外,還會深入分析了常見的失敗模式,找出了模型推理過程中的典型錯誤和趨勢。


主要發現

針對2025年美國數學奧林匹克競賽(USAMO)的問題,對六個最先進的推理模型進行了評估,分別為QwQ、R1、Flash-Thinking、o1-Pro、o3-mini和Claude 3.7。

表1提供了每個問題的模型性能詳細分類,平均分數是通過四次評估運行計算得出的。

美國數學奧林匹克競賽的每個問題滿分為7分,每次運行的總最高分是42分。

該表還包括在所有問題和評估運行中運行每個模型的總成本。

成本以美元計算,各模型在所有題目上的最終得分取各評審所給分數的平均分呈現。


表1:評估核心結果。每道題目采用7分制評分,滿分總計42分。表中分數為四次運行的平均值。

新的評估揭示了LLM在生成嚴謹數學證明方面的顯著不足。

所有受測模型的最高平均得分均低于5%,這一結果表明現有模型在處理USAMO級別問題的復雜性和嚴密性方面存在根本性局限。

值得注意的是,在所有模型提交的近150份解答中,沒有一份獲得滿分。

雖然USAMO的題目難度確實高于既往測試的競賽,但所有模型在不止一道題目上的全軍覆沒,充分證明當前LLM仍無法勝任奧數級別的嚴格數學推理任務。

這一局限同時暗示,GRPO等現有優化方法,對于需要高度邏輯精密度的任務可能仍然力有未逮。


常見的失效模式

人類參賽者往往找不到正確解題方法,不過一般能判斷自己的答案對不對。

反觀LLM,不管做沒做對,都一口咬定自己解出了題目。

這種反差,給LLM在數學領域的應用出了難題——要是沒經過人工嚴格驗證,這些模型給出的數學結論,都不太靠譜。

為了搞清楚LLM這一局限,按事先定義好的錯誤分類標準,對評分時發現的錯誤展開了系統分析。

圖2呈現了評審判定的錯誤類型分布。

在所有錯誤類型里,邏輯缺陷最為普遍。

LLM經常使用沒有依據的推理步驟,論證時出錯,或者誤解前面的推導過程。

另外,模型還有個大問題:碰到關鍵證明步驟,就敷衍地歸為「顯然成立」或「標準流程」,不做論證。

就連o3-mini也多次把核心證明步驟標成「顯然」,直接跳過。可這些步驟是不是嚴謹,對解題特別關鍵。

除了前面提到的問題,研究人員還發現,模型推理特別缺乏創造性

好多模型在反復嘗試解題時,總是沿用同一套(還可能錯誤的)解題策略,壓根不去探索其他辦法。

不過,Flash-Thinking模型是個例外。它在解一道題時,會嘗試多種策略。但因為想做的太多,每種策略都沒深入,最后也沒能得出有效的結論。

值得一提的是,這些模型在代數運算上表現不錯。

面對復雜的符號運算,不用借助外部計算工具,就能輕松搞定。

但R1模型的代數/算術錯誤率偏高,還需針對性優化。


共性問題

在評估過程中,評審專家還記錄了模型的共性問題和顯著的特征。


答案框定問題

當下,像GRPO這類基于強化學習的優化技術,需要從清晰標注的最終答案里提取獎勵信號。

所以,模型常常被要求把最終答案放在\boxed{}里。

但這一要求,在USAMO解題過程中引發了異常情況。大部分賽題其實并不強制框定最終答案,但模型卻非要這么做。

以第五題為例,QwQ模型在解題時,自行排除了非整數解的可能,即便題目沒這個限制。

它還錯誤地認定最終答案是2。

QwQ可把自己「繞暈」啦!

它想要一個整數答案,可實際上,答案明明是所有偶數整數的集合。


這一現象說明,GRPO等對齊技術在不經意間,讓模型形成了「所有數學問題都要框定答案」的固定思維,反倒削弱了模型的推理能力


盲目泛化傾向

模型有個常見毛病,喜歡把在小規模數值案例里觀察到的模式,一股腦套用到還沒驗證的場景中。

在只求算出數值答案的題目里,這種方法或許還行得通。可一旦碰上需要嚴格證明的問題,它的弊端就暴露無遺。

模型經常不做任何證明,就直接宣稱局部觀察到的模式放之四海而皆準。

比如說,在問題2的求解過程中,FLASH-THINKING模型選擇了一個具體的多項式進行驗證,但隨后卻錯誤地將結論推廣至所有多項式。

這種從特殊案例直接跳躍到普遍結論的做法,暴露了當前模型在數學歸納推理能力上的根本缺陷——

它們缺乏對「充分性證明」這一數學核心原則的理解,無法區分「舉例驗證」與「完備證明」的本質區別


Gemini Flash-Thinking的盲目泛化


解答結構與清晰度

不同模型的解答在結構清晰度上差異顯著。

1. 優質范例:o3-mini和o1-Pro的解答邏輯清晰、層次分明

2. 典型缺陷:Flash-Thinking和QwQ常產生混亂難解的應答,有時在同一解法中混雜多個無關思路

OpenAI訓練模型在可讀性上超厲害!這說明,專門針對解答連貫性開展訓練,能大幅提升輸出質量。

反觀其他模型,在這方面明顯不夠上心。

參考資料:

https://files.sri.inf.ethz.ch/matharena/usamo_report.pdf

https://x.com/mbalunovic/status/1904539801728012545

https://maa.org/maa-invitational-competitions/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一男子取到18萬假鈔,銀行避諱不認,男子的做法直接讓銀行傻眼

一男子取到18萬假鈔,銀行避諱不認,男子的做法直接讓銀行傻眼

秋風專欄
2025-04-07 16:09:02
網友:真是慶幸當初這120萬元,沒有買房,而是存了個定期存款…

網友:真是慶幸當初這120萬元,沒有買房,而是存了個定期存款…

火山詩話
2025-04-07 18:48:11
官方首次披露:周海琦被查,源于一條生活奢靡的問題線索

官方首次披露:周海琦被查,源于一條生活奢靡的問題線索

新京報
2025-04-08 11:12:38
張萌之“大”,榨出不少女人皮裙下面隱藏著的“小”來……

張萌之“大”,榨出不少女人皮裙下面隱藏著的“小”來……

印象逍遙子
2025-04-07 16:11:42
突然反轉了!蘋果開始做出改變,外媒:終究還是頂不住了!

突然反轉了!蘋果開始做出改變,外媒:終究還是頂不住了!

阿矗論古今
2025-04-07 09:35:23
“長期以來,為什么不把實情報告國內?”回答是:“不敢講”

“長期以來,為什么不把實情報告國內?”回答是:“不敢講”

小刀99
2025-04-05 14:57:20
吃著中國飯,詆毀中國文化!700萬網紅遭央視打碼,人設徹底崩塌

吃著中國飯,詆毀中國文化!700萬網紅遭央視打碼,人設徹底崩塌

簡讀視覺
2025-04-07 22:20:53
8毛錢寄一個快遞?人大教授聶輝華怒斥:應該把極兔罰到傾家蕩產

8毛錢寄一個快遞?人大教授聶輝華怒斥:應該把極兔罰到傾家蕩產

訪史
2025-04-07 11:14:48
美國能熬死蘇聯!同樣也能打敗中國?李顯龍說了句實在話,很中肯

美國能熬死蘇聯!同樣也能打敗中國?李顯龍說了句實在話,很中肯

世界風云錄
2024-12-03 22:22:17
窮人的富養是帶娃到處旅游,增長欲望;富人卻教孩子看透世界規則

窮人的富養是帶娃到處旅游,增長欲望;富人卻教孩子看透世界規則

豆芽媽媽育兒
2025-03-12 15:17:38
女演員突然復出多半是離婚了?滿臉憔悴的沈佳妮把朱亞文臉打腫了

女演員突然復出多半是離婚了?滿臉憔悴的沈佳妮把朱亞文臉打腫了

小娛樂悠悠
2025-04-08 10:23:34
男人失戀去西藏旅游,無意撞掉了藏族女孩帽子,導游:你回不去了

男人失戀去西藏旅游,無意撞掉了藏族女孩帽子,導游:你回不去了

城事錄主
2025-04-06 09:30:07
特朗普稱給中國1天時間取消反制!結果不到12小時,中方霸氣回應

特朗普稱給中國1天時間取消反制!結果不到12小時,中方霸氣回應

南南說娛
2025-04-08 11:39:57
貝弗利:詹姆斯可能是當前除奧巴馬外最有影響力的非裔美國人

貝弗利:詹姆斯可能是當前除奧巴馬外最有影響力的非裔美國人

直播吧
2025-04-08 08:00:10
毛新宇被攙扶著回韶山祭祖,高顏值妻女照片流出,一畫面信息量大

毛新宇被攙扶著回韶山祭祖,高顏值妻女照片流出,一畫面信息量大

博士觀察
2025-04-05 20:25:56
訪華請求被中國晾一邊,特朗普坐不住了,火速任命亞太“一把手”

訪華請求被中國晾一邊,特朗普坐不住了,火速任命亞太“一把手”

孜致博覽
2025-04-07 17:54:53
太拼了!錘娜麗莎從180斤狂瘦70斤,判若兩人 顏值比女團期還要高

太拼了!錘娜麗莎從180斤狂瘦70斤,判若兩人 顏值比女團期還要高

滑稽斑馬呀
2025-04-07 22:05:16
熱血!王上源中場喊話:把自己的心思都給我放下 這個家不能黃了

熱血!王上源中場喊話:把自己的心思都給我放下 這個家不能黃了

直播吧
2025-04-07 20:40:11
不可思議!網傳成都一家設計院,居然給法院“發函”指導工作了…

不可思議!網傳成都一家設計院,居然給法院“發函”指導工作了…

火山詩話
2025-04-08 07:43:49
051型驅逐艦退役了,為何海警不要了?退役不是實力衰減而是改變

051型驅逐艦退役了,為何海警不要了?退役不是實力衰減而是改變

Hi秒懂科普
2025-04-07 12:00:07
2025-04-08 13:39:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12489文章數 66006關注度
往期回顧 全部

科技要聞

iPhone在美會賣2萬元上嗎?在中國會漲價嗎

頭條要聞

牛彈琴:對美關稅反制我們得到最新消息 中方準備6大招

頭條要聞

牛彈琴:對美關稅反制我們得到最新消息 中方準備6大招

體育要聞

極限一穿四,他把韓國主場打到靜音

娛樂要聞

尷尬!甲亢哥想聯動大張偉,卻被迫錄節目

財經要聞

"中國版平準基金"橫空出世 央行表態

汽車要聞

一季度車企銷量:下沉與上行,覺醒與迷惘

態度原創

數碼
旅游
房產
健康
軍事航空

數碼要聞

華為FreeBuds 6體驗:舒適與音質齊升,鴻蒙用戶不二之選

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

生猛!三亞開始巨量拆遷!

在中國,到底哪些人在吃“偉哥”?

軍事要聞

特朗普關稅名單上沒俄羅斯 白宮:為了不影響俄烏和談

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 夹江县| 清徐县| 辰溪县| 克拉玛依市| 万盛区| 漯河市| 穆棱市| 富阳市| 济宁市| 聊城市| 花垣县| 赤壁市| 尉犁县| 定远县| 勃利县| 吉安县| 抚远县| 彭水| 卓资县| 文水县| 乌兰察布市| 南昌县| 沂南县| 徐汇区| 定襄县| 临夏县| 日喀则市| 古蔺县| 常宁市| 漳州市| 枣强县| 浪卡子县| 遂川县| 奇台县| 南雄市| 宿迁市| 大名县| 剑河县| 尤溪县| 和硕县| 开化县|