99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<style id="50r35"></style>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

最高138.7分！國產大模型「考研數學」成績單出爐，哪家AI能上岸？

2025-01-14 16:13:03　來源: 學術頭條

北京舉報

0

分享至

高考、考研數學，旨在考察學生的邏輯推理素養，每年都會難倒一大片準備上岸的學子。

那么，對于被訓練成「像人類一樣思考」的人工智能（AI）系統，尤其是近期討論頗多的 o1 類推理模型而言，「數學」這門考試到底難不難呢？

更進一步說，如果同時參加 2025 考研的數學考試，國內頭部推理模型與 OpenAI o1 的差距又有多大呢？

日前，來自清華大學人工智能研究院基礎模型研究中心的團隊，便曬出了國內外 13 個模型（基礎模型、深度推理模型）在 2025 年考研數學（一、二、三）上交出的答卷——

直白一點說：o1 最強，但對國產頭部模型（如 GLM-zero-preview、QwQ）的領先優勢不大。

具體而言，這些推理模型的 2025 考研數學成績全部達到了 120+，最強模型 OpenAI o1 的分數達到了驚人的 141.3 分（平均），在總計 66 道題目中，僅答錯了 3.5 道。

另外，相比于 o1，國內推理模型 GLM-zero-preview（平均 138.7 分）和 QwQ（平均 137.0 分）的表現也并無巨大劣勢，分差僅在個位數水平。

第三梯隊模型 DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3 的表現也不差，分數均在 120 分以上。

值得注意的是，曾于 2023 年位居榜首的基礎模型 GPT-4，在本次測試中僅獲得 70.7 分，排名倒數第一。這一結果表明，在過去的一年中，語言模型在數學推理領域取得了顯著的進步。

完整評測結果如下：

值得一提的是，盡管 o1 在深度推理方面的表現擊敗了所有國產推理大模型，但國產大模型正將這一差距逐漸縮小，此次智譜的 GLM-zero-preview 和阿里的 QwQ 的成績便說明了這一點。

基礎模型 vs 深度思考模型

為全面深入地探究各模型廠商在深度思考能力優化方面所取得的成果，評測團隊對相應基礎模型與深度推理模型進行了對比分析。

他們表示，這一對比并非意味著各深度推理模型是基于對應基礎模型所做優化，其主要目的在于直觀呈現各廠商在模型綜合能力提升方面的進展與成效。

相關對比結果如下圖所示：

注：OpenAI 的基礎模型采用的是 GPT-4o。

通過對比分析，OpenAI o1 相較于基礎模型 GPT-4o 的提升幅度最顯著，達到了 57.3 分；阿里的 Qwen 模型和智譜的 GLM 模型，提升幅度緊隨其后，分別達到了 47.0 分和 34.3 分。深度求索和月之暗面的模型提升幅度相對較小，這主要是由于其基礎模型本身分數較高。

在本次測試中，他們將表現最為優異的基礎模型 DeepSeek-v3 作為參照基準，進而對各廠商深度推理模型的性能提升情況進行評估，相關數據呈現如下圖所示：

可以看出，智譜、阿里在深度推理模型的性能提升方面做了很大的優化，分數分別為 18.3 和 16.7，接近 OpenAI（21.0）。

評測方法

在本次評測過程中，評測團隊發現并非所有模型均提供 API 支持，且部分提供 API 服務的模型在輸出內容長度超出一定限制時，會出現內容截斷的情況。為確保評測工作的公正性與準確性，他們決定統一采用各模型廠商的網頁端進行測試操作。

在測試過程中，每道題目均在獨立的對話窗口中進行，以此消除上下文信息對測試結果可能產生的干擾。

鑒于部分模型輸出存在一定不穩定性，為降低由此引發的分數波動，他們設定當同一模型在三次測試中有兩次及以上回答正確時，方將其記錄為正確答案。

整理：學術君

如需轉載或投稿，請直接在公眾號內留言

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

400萬粉絲博主被北大擬錄取！其專業排名第二

都市快報橙柿互動 2025-04-26 20:47:29
1 跟貼 1
600萬粉絲網紅考入復旦大學，學校回應

21世紀經濟報道 2025-04-26 22:35:55
0 跟貼 0

熱搜第一！百萬粉絲網紅“迅猛龍”考上復旦非全日制MBA研究生，此前停播3個月考研223分

縱相新聞 2025-04-27 00:18:03
0 跟貼 0

二本｜跨考｜二戰｜求穩｜歧視｜211｜旱區｜沒勇氣｜不甘心｜好就業｜很焦慮

禿頭研究所新傳考研 2025-04-27 00:05:48
0 跟貼 0
225人，再創紀錄，增長32倍！點贊昭通學院

微昭通 2025-04-26 20:28:54
0 跟貼 0

兒子從國企辭職“二戰”考上北大研究生母親被驚成靜止畫面

封面新聞 2025-04-26 12:42:07
0 跟貼 0

碩士可投 |《清華知識產權評論》征稿啟事

律新文化 2025-04-26 22:43:29
0 跟貼 0
2025年甘肅交通職業技術學院招聘公告

甘肅圈圈 2025-04-27 00:12:23
0 跟貼 0

高考考上985的AI來了！超強數理推理橫掃真題，訓練秘籍劍指AGI

新智元 2025-04-24 13:00:20
26 跟貼 26
6人男生寢室全員考研上岸，人均一沓榮譽證書

民生大參考 2025-04-26 10:53:01
19 跟貼 19
以前的和現在的數學解題思路，大家喜歡以前的還是現在的呢，網友：現在的邏輯更加完整

童話鶴壁 2025-04-24 10:49:18
173 跟貼 173
好書拆解：《為什么學生不喜歡上學》5

藤藤爸說學習 2025-04-26 07:03:39
0 跟貼 0
安徽省中考數學題，不建議使用硬算解題

三樂大掌柜 2025-04-24 10:36:35
1 跟貼 1
男生高考羽毛球單招結束，一瘸一拐走出考場，父母心疼狂奔擁抱

星視頻 2025-04-25 12:29:05
2 跟貼 2
3分鐘講透，大學畢業要不要考研？考研還有必要嗎？

于航的法商實踐課 2025-04-25 10:41:44
1 跟貼 1
中考數學信息卷子，過程寫的符合邏輯才能得滿分哦

三樂大掌柜 2025-04-25 15:52:33
1 跟貼 1
上海援疆教師侯嘉敏：以文化人，以思致遠

上觀新聞 2025-04-26 12:29:03
0 跟貼 0
中考語文散文小說語言賞析高分技巧及梯度訓練4視頻

初中語文精品原創文檔 2025-04-26 07:00:00
0 跟貼 0
中考數學題，如果這道題丟分了，那是很不應該啊

三樂大掌柜 2025-04-22 10:31:30
3 跟貼 3
南京市中考數學題，學霸的解法，值得學習

三樂大掌柜 2025-04-24 10:34:43
1 跟貼 1
考研還是保研？即使考上985本科，考研也不易。建議優先保研

梁步閣 2025-04-22 22:22:00
0 跟貼 0
銅陵市中考數學題，這道題怎么化簡？很多同學看到題目，一臉蒙圈

三樂大掌柜 2025-04-24 10:37:04
1 跟貼 1
如何看待研究生復試是否公平？考研考本校，保研保外校

梁步閣 2025-04-23 16:31:58
3 跟貼 3
大模型爭相接入MCP，百度智能云推企業級MCP服務

鈦媒體APP 2025-04-26 18:01:15
0 跟貼 0
山東省中考數學題，一個方程里面有3個未知數，如何解題？

三樂大掌柜 2025-04-24 10:35:13
1 跟貼 1
48 萬、生態環境「大模型」技術服務：京東（中）

云頭條 2025-04-26 23:09:02
0 跟貼 0
研究人員提出策略木偶攻擊技術，用特殊字符讓AI模型輸出有害內容

DeepTech深科技 2025-04-26 18:47:46
0 跟貼 0
河北某小學的一道數學新題，這題當時很多學生不會做

公考客棧店小二 2025-04-25 22:38:49
1 跟貼 1
浙江數學競賽題，80%的學生，都沒有做出這道復雜方程

三樂大掌柜 2025-04-23 22:27:05
1 跟貼 1
高中數學求函數值域

天天數理學習分享 2025-04-25 11:25:47
1 跟貼 1
河南一高校學霸宿舍6人考研全員上岸

民生大參考 2025-04-26 16:32:52
1 跟貼 1
1041江蘇初中數學競賽題，求值題。學霸的配方做法很簡單

我服子佩 2025-04-24 21:21:37
3 跟貼 3
強基計劃多少分能報？是撿漏還是跳坑？

鄭金良聊教育 2025-04-26 21:04:25
3 跟貼 3
46歲父親考研成功：一定不要忘記奮斗的力量

民生大參考 2025-04-26 11:13:05
1 跟貼 1
杭州數學競賽題，求值的好方法是哪一種呢？

三樂大掌柜 2025-04-25 15:55:02
1 跟貼 1
網課配套出新招，數學思維步步高，講義贈課效率高

星云漫步 2025-04-26 06:29:34
0 跟貼 0
初中數學競賽，得分率很低很低

三樂大掌柜 2025-04-25 15:52:06
1 跟貼 1
準備考研的第一步應該了解好信息差

香菜公主 2025-04-26 19:38:44
0 跟貼 0
解幾何模型之法，破中考數學之難

星云漫步 2025-04-26 07:54:36
0 跟貼 0
這道題看似很難，實則很簡單，是一道六年級的數學題

公考客棧店小二 2025-04-25 22:32:45
1 跟貼 1

A股：股民請做好準備，下周（4月28日-4月30日）很可能將這樣走！

A股：股民請做好準備，下周（4月28日-4月30日）很可能將這樣走！

阿矗論古今

2025-04-26 16:50:56

上海這一夜，37歲劉亦菲天仙變“大媽”，穿了件丑衣服，太顯老！

上海這一夜，37歲劉亦菲天仙變“大媽”，穿了件丑衣服，太顯老！

逍遙史記

2025-04-26 10:20:01

出國就遇冷！全球1600萬公頃可食用竹筍，為啥就中國能吃出花？

出國就遇冷！全球1600萬公頃可食用竹筍，為啥就中國能吃出花？

阿傖說事

2025-04-26 11:41:07

理想汽車副總裁劉杰：不要被競爭牽著鼻子走，也不迷信護城河

理想汽車副總裁劉杰：不要被競爭牽著鼻子走，也不迷信護城河

澎湃新聞

2025-04-26 18:12:31

貓眼回應周杰倫演唱會480元票檔只能看大屏：開售時已做說明

貓眼回應周杰倫演唱會480元票檔只能看大屏：開售時已做說明

觀威海

2025-04-24 10:55:25

為何最近不提巴鐵了？巴基斯坦的朋友圈中，我們連前三都排不進去

為何最近不提巴鐵了？巴基斯坦的朋友圈中，我們連前三都排不進去

步論天下事

2025-03-30 10:00:09

中國發出兩大警告，韓國正式表態，拒絕圍堵中國，日本也慌了

中國發出兩大警告，韓國正式表態，拒絕圍堵中國，日本也慌了

蛙斯基娛樂中

2025-04-26 20:44:05

特朗普正式簽令！中方回應

FM93浙江交通之聲

2025-04-26 08:40:43

突然大跳水！暴跌超80%

魯中晨報

2025-04-26 19:44:02

金正恩造出全世界第一條武庫艦！

金正恩造出全世界第一條武庫艦！

IN朝鮮

2025-04-26 14:31:59

非要招惹中國？72小時已過，解放軍決定親自下場，必須給個交代

非要招惹中國？72小時已過，解放軍決定親自下場，必須給個交代

藍涇看一看

2025-04-25 10:17:13

俄媒：一旦戰爭爆發中國將被圍攻，對中國而言，最危險的不只戰爭

俄媒：一旦戰爭爆發中國將被圍攻，對中國而言，最危險的不只戰爭

大國紀錄

2025-03-07 11:15:20

聯盟官方預測最新奪冠概率：快船3.6%，湖人勇士5.6%，兩隊超30%

聯盟官方預測最新奪冠概率：快船3.6%，湖人勇士5.6%，兩隊超30%

你的籃球頻道

2025-04-26 07:58:57

只因烽兩萬塊錢的事，結果讓江西少了一個創業女標兵

只因烽兩萬塊錢的事，結果讓江西少了一個創業女標兵

清暉有墨

2025-04-19 17:37:06

初中女生遭多人侵犯后，家屬奔波三年要追責那個“案外”的生物學父親

初中女生遭多人侵犯后，家屬奔波三年要追責那個“案外”的生物學父親

澎湃新聞

2025-04-26 08:06:30

38歲張馨予身材好到炸裂，顏值再升級，美出新高度引驚嘆

38歲張馨予身材好到炸裂，顏值再升級，美出新高度引驚嘆

星辰生肖館

2025-04-24 10:58:05

安徽鐵塔的大瓜！

妮妮玩不夠

2025-04-25 17:22:16

面對新式紅衛兵，一個歷史老師的無奈：誰之罪？

面對新式紅衛兵，一個歷史老師的無奈：誰之罪？

霹靂炮

2025-04-23 23:16:50

吉格斯：格拉利什注定是曼聯球員；費迪南德十分同意

吉格斯：格拉利什注定是曼聯球員；費迪南德十分同意

懂球帝

2025-04-26 18:22:17

回應美印太總部司令言論中國國防部：中國軍隊不吃這一套

回應美印太總部司令言論中國國防部：中國軍隊不吃這一套

環球網資訊

2025-04-24 16:45:44

致力于學術傳播和科學普及，重點關注人工智能、生命科學等前沿科學進展。

1247文章數 5069關注度

往期回顧全部

教育要聞

二本｜跨考｜二戰｜求穩｜歧視｜211｜旱區｜沒勇氣｜不甘心｜好就業｜很焦慮

頭條要聞

馬斯克和美財長激烈爭吵細節披露：胸口相抵狂飆臟話

頭條要聞

馬斯克和美財長激烈爭吵細節披露：胸口相抵狂飆臟話

體育要聞

廣廈19分勝遼寧獲開門紅孫銘徽13分3助崴腳

娛樂要聞

金掃帚獎出爐，包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

科技要聞

百度心響實測：“能用版Manus”開了個好頭

汽車要聞

充電5分鐘續航100公里探訪華為兆瓦超充站

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

健康

房產

時尚

公開課

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎？

房產要聞

教育理念再進階！解碼新世界星輝如何構筑「家校社成長生態圈」！

她美得好邪乎，讓人又怕又愛

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
全球十大恐怖禁區有哪些？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：韶山市| 克拉玛依市| 馆陶县| 寻甸| 靖宇县| 汪清县| 灵宝市| 兰考县| 玉环县| 嘉善县| 棋牌| 永胜县| 云安县| 马鞍山市| 乌拉特前旗| 闽清县| 米林县| 郯城县| 娱乐| 东安县| 调兵山市| 北川| 合江县| 柘荣县| 阿勒泰市| 鲁山县| 乌鲁木齐市| 浑源县| 两当县| 紫阳县| 云梦县| 阿城市| 怀化市| 和硕县| 英德市| 吉林市| 韶关市| 石嘴山市| 丰都县| 吴江市| 靖边县|

<cite id="ddf8s"></cite>

<legend id="ddf8s"><track id="ddf8s"></track></legend>

<blockquote id="ddf8s"><rt id="ddf8s"></rt></blockquote>