99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI偏科的毛病「治」得咋樣了?我們實測了6款大模型

0
分享至

AI好好用報道

編輯:楊文

省流版結論:有進步,但聯系實際的題目還是歇菜。

生活會欺騙你,但數學不會,數學不會就是不會。

這個段子,在大模型身上同樣成立。

9.9 和 9.11 哪個大、strawberry 有幾個 r,如此簡單的題目曾難倒一群大模型。

本著哪里薄弱補哪里的原則,大模型們近來「卷」起了數學推理。

先是 Kimi 網頁端上線了首個數學模型 k0-math ,直接對標 OpenAI 的 o1-mini 和 o1-preview。

據 Kimi 官方介紹,在中考、高考、考研以及包含入門競賽題的 MATH 等 4 個數學基準測試中,k0-math 初代模型成績超過 o1-mini 和 o1-preview 模型。

沒隔幾天,昆侖萬維和阿里均推出了自家 o1 模型。

其中,昆侖萬維表示其 Skywork o1 系列模型,在各項數學指標上實現顯著提升。

而阿里聲稱最新的 QwQ-32B-preview 在 GPQA 上擊敗了 o1-mini。

半個月前,夸克發布 AI 搜題功能,其背后的「靈知」學習大模型,號稱在考研數學題上的正確率和得分率可以比肩 o1 模型。

還有一直跟數學「死磕」的學而思,推出的九章大模型一度成為家長輔導孩子的「利器」。

接下來,我們就測評一下這些大模型的真實數學水平。

對標選手 ——

OpenAI 的 o1-mini、o1-preview

踢館選手 ——

月之暗面 Kimi 的 k0-math:

在 Kimi Web 版的側邊欄,找到 圖標,點擊進入。

學而思九章大模型:

https://playground.xes1v1.cn/MathGPT

阿里 QwQ-32B-preview:

https://huggingface.co/spaces/Qwen/QwQ-32B-preview

夸克靈知大模型:

可在夸克 App 或夸克 PC 端,點擊「AI 搜題」調用。

小學數學題

別看不起小學數學題。

小學數學多神題,大模型也最容易栽跟頭。

小明 120 元買了一只雞,130 元賣出去,150 元再買回來,160 元又賣出去,問:一共賺了多少錢?

答案:20 元。

o1-mini:


o1-preview:


Kimi 的 k0-math:


學而思九章大模型:


夸克靈知大模型:


阿里 QwQ-32B-preview:


總結:


一個西瓜進價 20 元,賣了 40 元,老板收了 100 元假幣,問老板虧了多少錢?

答案:虧 80 元。

o1-mini:

o1-preview:

Kimi 的 k0-math:


學而思九章大模型:


夸克靈知大模型:


阿里 QwQ-32B-preview:


總結:


一段長 100 米的鐵路,用 10 米長的鐵軌鋪,要多少根鐵軌?

答案:20 根。一條火車軌道的鐵軌有兩條,所以要用到 20 根。這道題不僅考驗數學能力,同時還要能結合實際生活。

o1-mini:


o1-preview:


Kimi 的 k0-math:


學而思九章大模型:


夸克靈知大模型:


阿里 QwQ-32B-preview:


總結:


初中數學題

某工程隊承接一隧道工程,在挖掘一條 1000 米長的隧道時,為了盡快完成,實際施工時每天挖掘的長度是原計劃的 2 倍,結果提前了 50 天完成了其中 800 米的隧道挖掘任務。求實際每天挖掘多少米?

答案:實際每天挖掘 16 米。

o1-mini:


o1-preview:


Kimi 的 k0-math:


學而思九章大模型:


夸克靈知大模型:


阿里 QwQ-32B-preview:

總結:

高中數學題


答案選:B

由于 Kimi、o1-mini、o1-preview、QwQ-32B-preview 無法上傳圖片,而題目中數學符號又難以輸入,所以我們截圖后,用 Kimi 常規版將其轉為 LaTeX 格式:

\item 已知函數為 $f (x) = \left\{

\begin {array}{ll}

-x^2 - 2ax - a, & x < 0 \\

e^x + \ln (x + 1), & x \geq 0

\end {array}

\right.$,在 $\mathbb {R}$ 上單調遞增,則 $a$ 取值的范圍是 ()

\begin {enumerate}

\item A. $(-\infty, 0]$

\item B. $[-1, 0]$

\item C. $[-1, 1]$

\item D. $[0, +\infty)$

    \end {enumerate}

o1-mini:


o1-preview:


Kimi 的 k0-math:


學而思九章大模型:


夸克靈知大模型:

由于該題目已在夸克的題庫中,因此無法調用靈知大模型,以下為夸克常規搜題的結果。

阿里 QwQ-32B-preview:


總結:

從最終測試結果來看,經過幾個月來的進化,國產大模型在數學方面確實有了很大的進步。

在常規數學題上,o1-mini 和 o1-preview 頻頻翻車,反倒是國產大模型發揮穩定。

不過,對于聯系生活實際的題目,大模型們仍搞不定。比如計算鐵軌那道題,國內外大模型們「全軍覆沒」。

此外,在做數學題時,這些大模型們的「腦回路」并不太一樣。

相較而言,Kimi 的 k0-math 和阿里 QwQ-32B-preview 做題時更加謹慎,它們得出答案后,會不斷驗證,并思考其他可能漏掉的情況。

學而思九章大模型則是先分析題目,然后解題并進行知識歸納,同時還提供了答案置信度。

夸克AI搜題的一大特色在于同一道題目提供多種解題思路,并可通過對話進一步請教相關知識點。

以后我們會帶來更多AI大模型評測,也歡迎大家進群交流。

? THE END

轉載請聯系本公眾號獲得授權

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
印度男子多次瞞著妻子赴泰國玩樂,怕被發現,用水清理護照上的章

印度男子多次瞞著妻子赴泰國玩樂,怕被發現,用水清理護照上的章

瀟湘晨報
2025-04-27 14:22:09
天津外國語大學確認原校長修剛系飛機上突發疾病 學生:收到推文驚覺是“我們校長”,難以接受他離去

天津外國語大學確認原校長修剛系飛機上突發疾病 學生:收到推文驚覺是“我們校長”,難以接受他離去

紅星新聞
2025-04-27 17:51:08
美國100%想向中國開戰,而且比任何時候都想。

美國100%想向中國開戰,而且比任何時候都想。

瀘沽湖
2025-04-28 10:09:24
丈夫強制AA制20年,他住院時妻子卻去旅游,女兒一句話讓他崩潰

丈夫強制AA制20年,他住院時妻子卻去旅游,女兒一句話讓他崩潰

紅豆講堂
2025-04-26 13:15:07
突發!利拉德跟腱撕裂?太悲壯,神仙來了都救不了...

突發!利拉德跟腱撕裂?太悲壯,神仙來了都救不了...

左右為籃
2025-04-28 11:38:22
華子已淘汰KD 如今快輪到老詹了 下一輪再淘汰庫里?

華子已淘汰KD 如今快輪到老詹了 下一輪再淘汰庫里?

仰臥撐FTUer
2025-04-28 10:39:18
東體:古斯塔沃肌肉受傷可能缺戰國安,李帥為比賽忍傷堅持

東體:古斯塔沃肌肉受傷可能缺戰國安,李帥為比賽忍傷堅持

懂球帝
2025-04-28 12:09:10
瘋狂挑釁,菲6名人員非法登上鐵線礁!

瘋狂挑釁,菲6名人員非法登上鐵線礁!

風華講史
2025-04-28 09:49:14
政審時名下莫名多家公司,我沒啃聲,直接用法人身份把他公司拆了

政審時名下莫名多家公司,我沒啃聲,直接用法人身份把他公司拆了

蘭姐說故事
2025-04-24 15:00:06
22點和23點睡覺,差距到底有多大?

22點和23點睡覺,差距到底有多大?

環球網資訊
2025-04-08 21:33:09
C羅打進生涯第935球,超越阿森納傳奇升至RSSSF歷史射手榜第三

C羅打進生涯第935球,超越阿森納傳奇升至RSSSF歷史射手榜第三

仰臥撐FTUer
2025-04-27 19:47:04
哪些牛叉體質讓你羨慕不已?網友:我談過的前女友們都說我死了

哪些牛叉體質讓你羨慕不已?網友:我談過的前女友們都說我死了

解讀熱點事件
2025-04-27 00:10:05
英超第34輪結束了9場比賽,最新積分榜如下!

英超第34輪結束了9場比賽,最新積分榜如下!

薇說體育
2025-04-28 11:20:52
又一體育界叛徒!放棄國籍為日本效力,現成主帥喊話要擊敗中國隊

又一體育界叛徒!放棄國籍為日本效力,現成主帥喊話要擊敗中國隊

肖語談
2025-04-28 09:56:19
印度大壩泄洪,莫迪竟然敢“冒天下之大不韙”,不顧幾億人的安危

印度大壩泄洪,莫迪竟然敢“冒天下之大不韙”,不顧幾億人的安危

頭條爆料007
2025-04-27 22:13:14
史密斯:湖人還能贏!因為我見過詹姆斯1比3落后大逆轉!

史密斯:湖人還能贏!因為我見過詹姆斯1比3落后大逆轉!

歷史第一人梅西
2025-04-28 11:51:22
網癮老人贏麻了!Nature子刊41萬人研究認證:玩手機越6,老年癡呆越遠

網癮老人贏麻了!Nature子刊41萬人研究認證:玩手機越6,老年癡呆越遠

方舟健客科普
2025-04-26 10:07:14
新能源汽車又上演了一次大跳水。

新能源汽車又上演了一次大跳水。

流蘇晚晴
2025-04-26 21:35:54
3年換了4任班主任!老師崩潰:家長投訴學校妥協,致全班失控!

3年換了4任班主任!老師崩潰:家長投訴學校妥協,致全班失控!

教育人看世界
2025-04-27 20:42:26
DeepSeek說:人最快的減肥方法,不是運動,不是節食,而是這5種

DeepSeek說:人最快的減肥方法,不是運動,不是節食,而是這5種

簡食記工作號
2025-04-13 00:02:40
2025-04-28 12:36:49
AI好好用 incentive-icons
AI好好用
探索人工智能應用場景及商業化
2087文章數 4431關注度
往期回顧 全部

科技要聞

上海車展:初代造車新勢力僅有4家參展

頭條要聞

牛彈琴:特朗普搞了個大烏龍 美國應該向中國道歉

頭條要聞

牛彈琴:特朗普搞了個大烏龍 美國應該向中國道歉

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

王寶強座位引眾怒 論演技誰能壓得了

財經要聞

全球兩條大運河,特朗普全都要

汽車要聞

中型純電轎跑SUV/6月上市 豐田bZ5預售13-16萬

態度原創

數碼
旅游
藝術
游戲
房產

數碼要聞

Hi MateBook D 16/14預售開啟,高效辦公buff疊滿

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

情感盛宴!《光與影:33號遠征隊》配樂時長超8小時

房產要聞

首開2小時熱銷超 200 套!天河芯紅盤憑什么交出樓市滿分答卷?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阿拉尔市| 南安市| 山丹县| 宁陵县| 东海县| 独山县| 襄樊市| 德保县| 阳东县| 贺州市| 绵竹市| 措美县| 敦煌市| 绥江县| 富源县| 墨脱县| 遵义市| 江安县| 郁南县| 鄢陵县| 常山县| 扎兰屯市| 峨边| 曲靖市| 泰兴市| 阿拉善右旗| 京山县| 武强县| 昌都县| 梅州市| 集安市| 安塞县| 铜山县| 朝阳区| 兴文县| 屏东市| 西华县| 隆化县| 桐梓县| 游戏| 宜州市|