99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

最高138.7分!國產大模型「考研數學」成績單出爐,哪家AI能上岸?

0
分享至


高考、考研數學,旨在考察學生的邏輯推理素養,每年都會難倒一大片準備上岸的學子。

那么,對于被訓練成「像人類一樣思考」的人工智能(AI)系統,尤其是近期討論頗多的 o1 類推理模型而言,「數學」這門考試到底難不難呢?

更進一步說,如果同時參加 2025 考研的數學考試,國內頭部推理模型與 OpenAI o1 的差距又有多大呢?

日前,來自清華大學人工智能研究院基礎模型研究中心的團隊,便曬出了國內外 13 個模型(基礎模型、深度推理模型)在 2025 年考研數學(一、二、三)上交出的答卷——

直白一點說:o1 最強,但對國產頭部模型(如 GLM-zero-preview、QwQ)的領先優勢不大。

具體而言,這些推理模型的 2025 考研數學成績全部達到了 120+,最強模型 OpenAI o1 的分數達到了驚人的 141.3 分(平均),在總計 66 道題目中,僅答錯了 3.5 道。

另外,相比于 o1,國內推理模型 GLM-zero-preview(平均 138.7 分)和 QwQ(平均 137.0 分)的表現也并無巨大劣勢,分差僅在個位數水平。

第三梯隊模型 DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3 的表現也不差,分數均在 120 分以上。

值得注意的是,曾于 2023 年位居榜首的基礎模型 GPT-4,在本次測試中僅獲得 70.7 分,排名倒數第一。這一結果表明,在過去的一年中,語言模型在數學推理領域取得了顯著的進步

完整評測結果如下:


值得一提的是,盡管 o1 在深度推理方面的表現擊敗了所有國產推理大模型,但國產大模型正將這一差距逐漸縮小,此次智譜的 GLM-zero-preview 和阿里的 QwQ 的成績便說明了這一點。

基礎模型 vs 深度思考模型

為全面深入地探究各模型廠商在深度思考能力優化方面所取得的成果,評測團隊對相應基礎模型與深度推理模型進行了對比分析。

他們表示,這一對比并非意味著各深度推理模型是基于對應基礎模型所做優化,其主要目的在于直觀呈現各廠商在模型綜合能力提升方面的進展與成效。

相關對比結果如下圖所示:


注:OpenAI 的基礎模型采用的是 GPT-4o。


通過對比分析,OpenAI o1 相較于基礎模型 GPT-4o 的提升幅度最顯著,達到了 57.3 分;阿里的 Qwen 模型和智譜的 GLM 模型,提升幅度緊隨其后,分別達到了 47.0 分和 34.3 分。深度求索和月之暗面的模型提升幅度相對較小,這主要是由于其基礎模型本身分數較高。

在本次測試中,他們將表現最為優異的基礎模型 DeepSeek-v3 作為參照基準,進而對各廠商深度推理模型的性能提升情況進行評估,相關數據呈現如下圖所示:


可以看出,智譜、阿里在深度推理模型的性能提升方面做了很大的優化,分數分別為 18.3 和 16.7,接近 OpenAI(21.0)。

評測方法

在本次評測過程中,評測團隊發現并非所有模型均提供 API 支持,且部分提供 API 服務的模型在輸出內容長度超出一定限制時,會出現內容截斷的情況。為確保評測工作的公正性與準確性,他們決定統一采用各模型廠商的網頁端進行測試操作。

在測試過程中,每道題目均在獨立的對話窗口中進行,以此消除上下文信息對測試結果可能產生的干擾。

鑒于部分模型輸出存在一定不穩定性,為降低由此引發的分數波動,他們設定當同一模型在三次測試中有兩次及以上回答正確時,方將其記錄為正確答案。

整理:學術君

如需轉載或投稿,請直接在公眾號內留言

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
A股:股民請做好準備,下周(4月28日-4月30日)很可能將這樣走!

A股:股民請做好準備,下周(4月28日-4月30日)很可能將這樣走!

阿矗論古今
2025-04-26 16:50:56
上海這一夜,37歲劉亦菲天仙變“大媽”,穿了件丑衣服,太顯老!

上海這一夜,37歲劉亦菲天仙變“大媽”,穿了件丑衣服,太顯老!

逍遙史記
2025-04-26 10:20:01
出國就遇冷!全球1600萬公頃可食用竹筍,為啥就中國能吃出花?

出國就遇冷!全球1600萬公頃可食用竹筍,為啥就中國能吃出花?

阿傖說事
2025-04-26 11:41:07
理想汽車副總裁劉杰:不要被競爭牽著鼻子走,也不迷信護城河

理想汽車副總裁劉杰:不要被競爭牽著鼻子走,也不迷信護城河

澎湃新聞
2025-04-26 18:12:31
貓眼回應周杰倫演唱會480元票檔只能看大屏 :開售時已做說明

貓眼回應周杰倫演唱會480元票檔只能看大屏 :開售時已做說明

觀威海
2025-04-24 10:55:25
為何最近不提巴鐵了?巴基斯坦的朋友圈中,我們連前三都排不進去

為何最近不提巴鐵了?巴基斯坦的朋友圈中,我們連前三都排不進去

步論天下事
2025-03-30 10:00:09
中國發出兩大警告,韓國正式表態,拒絕圍堵中國,日本也慌了

中國發出兩大警告,韓國正式表態,拒絕圍堵中國,日本也慌了

蛙斯基娛樂中
2025-04-26 20:44:05
特朗普正式簽令!中方回應

特朗普正式簽令!中方回應

FM93浙江交通之聲
2025-04-26 08:40:43
突然大跳水!暴跌超80%

突然大跳水!暴跌超80%

魯中晨報
2025-04-26 19:44:02
金正恩造出全世界第一條武庫艦!

金正恩造出全世界第一條武庫艦!

IN朝鮮
2025-04-26 14:31:59
非要招惹中國?72小時已過,解放軍決定親自下場,必須給個交代

非要招惹中國?72小時已過,解放軍決定親自下場,必須給個交代

藍涇看一看
2025-04-25 10:17:13
俄媒:一旦戰爭爆發中國將被圍攻,對中國而言,最危險的不只戰爭

俄媒:一旦戰爭爆發中國將被圍攻,對中國而言,最危險的不只戰爭

大國紀錄
2025-03-07 11:15:20
聯盟官方預測最新奪冠概率:快船3.6%,湖人勇士5.6%,兩隊超30%

聯盟官方預測最新奪冠概率:快船3.6%,湖人勇士5.6%,兩隊超30%

你的籃球頻道
2025-04-26 07:58:57
只因烽兩萬塊錢的事,結果讓江西少了一個創業女標兵

只因烽兩萬塊錢的事,結果讓江西少了一個創業女標兵

清暉有墨
2025-04-19 17:37:06
初中女生遭多人侵犯后,家屬奔波三年要追責那個“案外”的生物學父親

初中女生遭多人侵犯后,家屬奔波三年要追責那個“案外”的生物學父親

澎湃新聞
2025-04-26 08:06:30
38歲張馨予身材好到炸裂,顏值再升級,美出新高度引驚嘆

38歲張馨予身材好到炸裂,顏值再升級,美出新高度引驚嘆

星辰生肖館
2025-04-24 10:58:05
安徽鐵塔的大瓜!

安徽鐵塔的大瓜!

妮妮玩不夠
2025-04-25 17:22:16
面對新式紅衛兵,一個歷史老師的無奈:誰之罪?

面對新式紅衛兵,一個歷史老師的無奈:誰之罪?

霹靂炮
2025-04-23 23:16:50
吉格斯:格拉利什注定是曼聯球員;費迪南德十分同意

吉格斯:格拉利什注定是曼聯球員;費迪南德十分同意

懂球帝
2025-04-26 18:22:17
回應美印太總部司令言論 中國國防部:中國軍隊不吃這一套

回應美印太總部司令言論 中國國防部:中國軍隊不吃這一套

環球網資訊
2025-04-24 16:45:44
2025-04-27 00:47:00
學術頭條
學術頭條
致力于學術傳播和科學普及,重點關注人工智能、生命科學等前沿科學進展。
1247文章數 5069關注度
往期回顧 全部

教育要聞

二本|跨考|二戰|求穩|歧視|211|旱區|沒勇氣|不甘心|好就業|很焦慮

頭條要聞

馬斯克和美財長激烈爭吵細節披露:胸口相抵 狂飆臟話

頭條要聞

馬斯克和美財長激烈爭吵細節披露:胸口相抵 狂飆臟話

體育要聞

廣廈19分勝遼寧獲開門紅 孫銘徽13分3助崴腳

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

科技要聞

百度心響實測:“能用版Manus”開了個好頭

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

藝術
健康
房產
時尚
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎?

房產要聞

教育理念再進階!解碼新世界星輝如何構筑「家校社成長生態圈」!

她美得好邪乎,讓人又怕又愛

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 韶山市| 克拉玛依市| 馆陶县| 寻甸| 靖宇县| 汪清县| 灵宝市| 兰考县| 玉环县| 嘉善县| 棋牌| 永胜县| 云安县| 马鞍山市| 乌拉特前旗| 闽清县| 米林县| 郯城县| 娱乐| 东安县| 调兵山市| 北川| 合江县| 柘荣县| 阿勒泰市| 鲁山县| 乌鲁木齐市| 浑源县| 两当县| 紫阳县| 云梦县| 阿城市| 怀化市| 和硕县| 英德市| 吉林市| 韶关市| 石嘴山市| 丰都县| 吴江市| 靖边县|