網易首頁 > 網易號 > 正文申請入駐

AI偏科的毛病「治」得咋樣了？我們實測了6款大模型

2024-12-02 19:27:12　來源: AI好好用

北京舉報

分享至

AI好好用報道

編輯：楊文

省流版結論：有進步，但聯系實際的題目還是歇菜。

生活會欺騙你，但數學不會，數學不會就是不會。

這個段子，在大模型身上同樣成立。

9.9 和 9.11 哪個大、strawberry 有幾個 r，如此簡單的題目曾難倒一群大模型。

本著哪里薄弱補哪里的原則，大模型們近來「卷」起了數學推理。

先是 Kimi 網頁端上線了首個數學模型 k0-math ，直接對標 OpenAI 的 o1-mini 和 o1-preview。

據 Kimi 官方介紹，在中考、高考、考研以及包含入門競賽題的 MATH 等 4 個數學基準測試中，k0-math 初代模型成績超過 o1-mini 和 o1-preview 模型。

沒隔幾天，昆侖萬維和阿里均推出了自家 o1 模型。

其中，昆侖萬維表示其 Skywork o1 系列模型，在各項數學指標上實現顯著提升。

而阿里聲稱最新的 QwQ-32B-preview 在 GPQA 上擊敗了 o1-mini。

半個月前，夸克發布 AI 搜題功能，其背后的「靈知」學習大模型，號稱在考研數學題上的正確率和得分率可以比肩 o1 模型。

還有一直跟數學「死磕」的學而思，推出的九章大模型一度成為家長輔導孩子的「利器」。

接下來，我們就測評一下這些大模型的真實數學水平。

對標選手 ——

OpenAI 的 o1-mini、o1-preview

踢館選手 ——

月之暗面 Kimi 的 k0-math：

在 Kimi Web 版的側邊欄，找到圖標，點擊進入。

學而思九章大模型：

https://playground.xes1v1.cn/MathGPT

阿里 QwQ-32B-preview：

https://huggingface.co/spaces/Qwen/QwQ-32B-preview

夸克靈知大模型：

可在夸克 App 或夸克 PC 端，點擊「AI 搜題」調用。

小學數學題

別看不起小學數學題。

小學數學多神題，大模型也最容易栽跟頭。

小明 120 元買了一只雞，130 元賣出去，150 元再買回來，160 元又賣出去，問：一共賺了多少錢？

答案：20 元。

o1-mini：

o1-preview：

Kimi 的 k0-math：

學而思九章大模型：

夸克靈知大模型：

阿里 QwQ-32B-preview：

總結：

一個西瓜進價 20 元，賣了 40 元，老板收了 100 元假幣，問老板虧了多少錢？

答案：虧 80 元。

o1-mini：

o1-preview：

Kimi 的 k0-math：

學而思九章大模型：

夸克靈知大模型：

阿里 QwQ-32B-preview：

總結：

一段長 100 米的鐵路，用 10 米長的鐵軌鋪，要多少根鐵軌？

答案：20 根。一條火車軌道的鐵軌有兩條，所以要用到 20 根。這道題不僅考驗數學能力，同時還要能結合實際生活。

o1-mini：

o1-preview：

Kimi 的 k0-math：

學而思九章大模型：

夸克靈知大模型：

阿里 QwQ-32B-preview：

總結：

初中數學題

某工程隊承接一隧道工程，在挖掘一條 1000 米長的隧道時，為了盡快完成，實際施工時每天挖掘的長度是原計劃的 2 倍，結果提前了 50 天完成了其中 800 米的隧道挖掘任務。求實際每天挖掘多少米？

答案：實際每天挖掘 16 米。

o1-mini：

o1-preview：

Kimi 的 k0-math：

學而思九章大模型：

夸克靈知大模型：

阿里 QwQ-32B-preview：

總結：

高中數學題

答案選：B

由于 Kimi、o1-mini、o1-preview、QwQ-32B-preview 無法上傳圖片，而題目中數學符號又難以輸入，所以我們截圖后，用 Kimi 常規版將其轉為 LaTeX 格式：

\item 已知函數為 $f (x) = \left\{

\begin {array}{ll}

-x^2 - 2ax - a, & x < 0 \\

e^x + \ln (x + 1), & x \geq 0

\end {array}

\right.$，在 $\mathbb {R}$ 上單調遞增，則 $a$ 取值的范圍是 ()

\begin {enumerate}

\item A. $(-\infty, 0]$

\item B. $[-1, 0]$

\item C. $[-1, 1]$

\item D. $[0, +\infty)$

    \end {enumerate}

o1-mini：

o1-preview：

Kimi 的 k0-math：

學而思九章大模型：

夸克靈知大模型：

由于該題目已在夸克的題庫中，因此無法調用靈知大模型，以下為夸克常規搜題的結果。

阿里 QwQ-32B-preview：

總結：

從最終測試結果來看，經過幾個月來的進化，國產大模型在數學方面確實有了很大的進步。

在常規數學題上，o1-mini 和 o1-preview 頻頻翻車，反倒是國產大模型發揮穩定。

不過，對于聯系生活實際的題目，大模型們仍搞不定。比如計算鐵軌那道題，國內外大模型們「全軍覆沒」。

此外，在做數學題時，這些大模型們的「腦回路」并不太一樣。

相較而言，Kimi 的 k0-math 和阿里 QwQ-32B-preview 做題時更加謹慎，它們得出答案后，會不斷驗證，并思考其他可能漏掉的情況。

學而思九章大模型則是先分析題目，然后解題并進行知識歸納，同時還提供了答案置信度。

夸克AI搜題的一大特色在于同一道題目提供多種解題思路，并可通過對話進一步請教相關知識點。

以后我們會帶來更多AI大模型評測，也歡迎大家進群交流。

? THE END

轉載請聯系本公眾號獲得授權

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.