高考、考研數學,旨在考察學生的邏輯推理素養,每年都會難倒一大片準備上岸的學子。
那么,對于被訓練成「像人類一樣思考」的人工智能(AI)系統,尤其是近期討論頗多的 o1 類推理模型而言,「數學」這門考試到底難不難呢?
更進一步說,如果同時參加 2025 考研的數學考試,國內頭部推理模型與 OpenAI o1 的差距又有多大呢?
日前,來自清華大學人工智能研究院基礎模型研究中心的團隊,便曬出了國內外 13 個模型(基礎模型、深度推理模型)在 2025 年考研數學(一、二、三)上交出的答卷——
直白一點說:o1 最強,但對國產頭部模型(如 GLM-zero-preview、QwQ)的領先優勢不大。
具體而言,這些推理模型的 2025 考研數學成績全部達到了 120+,最強模型 OpenAI o1 的分數達到了驚人的 141.3 分(平均),在總計 66 道題目中,僅答錯了 3.5 道。
另外,相比于 o1,國內推理模型 GLM-zero-preview(平均 138.7 分)和 QwQ(平均 137.0 分)的表現也并無巨大劣勢,分差僅在個位數水平。
第三梯隊模型 DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3 的表現也不差,分數均在 120 分以上。
值得注意的是,曾于 2023 年位居榜首的基礎模型 GPT-4,在本次測試中僅獲得 70.7 分,排名倒數第一。這一結果表明,在過去的一年中,語言模型在數學推理領域取得了顯著的進步。
完整評測結果如下:
值得一提的是,盡管 o1 在深度推理方面的表現擊敗了所有國產推理大模型,但國產大模型正將這一差距逐漸縮小,此次智譜的 GLM-zero-preview 和阿里的 QwQ 的成績便說明了這一點。
基礎模型 vs 深度思考模型
為全面深入地探究各模型廠商在深度思考能力優化方面所取得的成果,評測團隊對相應基礎模型與深度推理模型進行了對比分析。
他們表示,這一對比并非意味著各深度推理模型是基于對應基礎模型所做優化,其主要目的在于直觀呈現各廠商在模型綜合能力提升方面的進展與成效。
相關對比結果如下圖所示:
注:OpenAI 的基礎模型采用的是 GPT-4o。
通過對比分析,OpenAI o1 相較于基礎模型 GPT-4o 的提升幅度最顯著,達到了 57.3 分;阿里的 Qwen 模型和智譜的 GLM 模型,提升幅度緊隨其后,分別達到了 47.0 分和 34.3 分。深度求索和月之暗面的模型提升幅度相對較小,這主要是由于其基礎模型本身分數較高。
在本次測試中,他們將表現最為優異的基礎模型 DeepSeek-v3 作為參照基準,進而對各廠商深度推理模型的性能提升情況進行評估,相關數據呈現如下圖所示:
可以看出,智譜、阿里在深度推理模型的性能提升方面做了很大的優化,分數分別為 18.3 和 16.7,接近 OpenAI(21.0)。
評測方法
在本次評測過程中,評測團隊發現并非所有模型均提供 API 支持,且部分提供 API 服務的模型在輸出內容長度超出一定限制時,會出現內容截斷的情況。為確保評測工作的公正性與準確性,他們決定統一采用各模型廠商的網頁端進行測試操作。
在測試過程中,每道題目均在獨立的對話窗口中進行,以此消除上下文信息對測試結果可能產生的干擾。
鑒于部分模型輸出存在一定不穩定性,為降低由此引發的分數波動,他們設定當同一模型在三次測試中有兩次及以上回答正確時,方將其記錄為正確答案。
整理:學術君
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.