AI好好用報道
編輯:楊文
省流版結論:有進步,但聯系實際的題目還是歇菜。
生活會欺騙你,但數學不會,數學不會就是不會。
這個段子,在大模型身上同樣成立。
9.9 和 9.11 哪個大、strawberry 有幾個 r,如此簡單的題目曾難倒一群大模型。
本著哪里薄弱補哪里的原則,大模型們近來「卷」起了數學推理。
先是 Kimi 網頁端上線了首個數學模型 k0-math ,直接對標 OpenAI 的 o1-mini 和 o1-preview。
據 Kimi 官方介紹,在中考、高考、考研以及包含入門競賽題的 MATH 等 4 個數學基準測試中,k0-math 初代模型成績超過 o1-mini 和 o1-preview 模型。
沒隔幾天,昆侖萬維和阿里均推出了自家 o1 模型。
其中,昆侖萬維表示其 Skywork o1 系列模型,在各項數學指標上實現顯著提升。
而阿里聲稱最新的 QwQ-32B-preview 在 GPQA 上擊敗了 o1-mini。
半個月前,夸克發布 AI 搜題功能,其背后的「靈知」學習大模型,號稱在考研數學題上的正確率和得分率可以比肩 o1 模型。
還有一直跟數學「死磕」的學而思,推出的九章大模型一度成為家長輔導孩子的「利器」。
接下來,我們就測評一下這些大模型的真實數學水平。
對標選手 ——
OpenAI 的 o1-mini、o1-preview
踢館選手 ——
月之暗面 Kimi 的 k0-math:
在 Kimi Web 版的側邊欄,找到 圖標,點擊進入。
學而思九章大模型:
https://playground.xes1v1.cn/MathGPT
阿里 QwQ-32B-preview:
https://huggingface.co/spaces/Qwen/QwQ-32B-preview
夸克靈知大模型:
可在夸克 App 或夸克 PC 端,點擊「AI 搜題」調用。
小學數學題
別看不起小學數學題。
小學數學多神題,大模型也最容易栽跟頭。
小明 120 元買了一只雞,130 元賣出去,150 元再買回來,160 元又賣出去,問:一共賺了多少錢?
答案:20 元。
o1-mini:
o1-preview:
Kimi 的 k0-math:
學而思九章大模型:
夸克靈知大模型:
阿里 QwQ-32B-preview:
總結:
一個西瓜進價 20 元,賣了 40 元,老板收了 100 元假幣,問老板虧了多少錢?
答案:虧 80 元。
o1-mini:
o1-preview:
Kimi 的 k0-math:
學而思九章大模型:
夸克靈知大模型:
阿里 QwQ-32B-preview:
總結:
一段長 100 米的鐵路,用 10 米長的鐵軌鋪,要多少根鐵軌?
答案:20 根。一條火車軌道的鐵軌有兩條,所以要用到 20 根。這道題不僅考驗數學能力,同時還要能結合實際生活。
o1-mini:
o1-preview:
Kimi 的 k0-math:
學而思九章大模型:
夸克靈知大模型:
阿里 QwQ-32B-preview:
總結:
初中數學題
某工程隊承接一隧道工程,在挖掘一條 1000 米長的隧道時,為了盡快完成,實際施工時每天挖掘的長度是原計劃的 2 倍,結果提前了 50 天完成了其中 800 米的隧道挖掘任務。求實際每天挖掘多少米?
答案:實際每天挖掘 16 米。
o1-mini:
o1-preview:
Kimi 的 k0-math:
學而思九章大模型:
夸克靈知大模型:
阿里 QwQ-32B-preview:
總結:
高中數學題
答案選:B
由于 Kimi、o1-mini、o1-preview、QwQ-32B-preview 無法上傳圖片,而題目中數學符號又難以輸入,所以我們截圖后,用 Kimi 常規版將其轉為 LaTeX 格式:
\item 已知函數為 $f (x) = \left\{
\begin {array}{ll}
-x^2 - 2ax - a, & x < 0 \\
e^x + \ln (x + 1), & x \geq 0
\end {array}
\right.$,在 $\mathbb {R}$ 上單調遞增,則 $a$ 取值的范圍是 ()
\begin {enumerate}
\item A. $(-\infty, 0]$
\item B. $[-1, 0]$
\item C. $[-1, 1]$
\item D. $[0, +\infty)$
\end {enumerate}
o1-mini:
o1-preview:
Kimi 的 k0-math:
學而思九章大模型:
夸克靈知大模型:
由于該題目已在夸克的題庫中,因此無法調用靈知大模型,以下為夸克常規搜題的結果。
阿里 QwQ-32B-preview:
總結:
從最終測試結果來看,經過幾個月來的進化,國產大模型在數學方面確實有了很大的進步。
在常規數學題上,o1-mini 和 o1-preview 頻頻翻車,反倒是國產大模型發揮穩定。
不過,對于聯系生活實際的題目,大模型們仍搞不定。比如計算鐵軌那道題,國內外大模型們「全軍覆沒」。
此外,在做數學題時,這些大模型們的「腦回路」并不太一樣。
相較而言,Kimi 的 k0-math 和阿里 QwQ-32B-preview 做題時更加謹慎,它們得出答案后,會不斷驗證,并思考其他可能漏掉的情況。
學而思九章大模型則是先分析題目,然后解題并進行知識歸納,同時還提供了答案置信度。
夸克AI搜題的一大特色在于同一道題目提供多種解題思路,并可通過對話進一步請教相關知識點。
以后我們會帶來更多AI大模型評測,也歡迎大家進群交流。
? THE END
轉載請聯系本公眾號獲得授權
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.