網易首頁 > 網易號 > 正文申請入駐

四款大模型實戰推理，kimi輸掉了褲衩

2025-03-02 14:39:38　來源: 磐石之心

山東舉報

分享至

最新的推理模型哪家強？Grok3、Deepseek、chatgpt、kimi推理模型綜合能力多維度實戰測評

即deepseek后，chatgpt又推出來了o3mini并號稱超越deepseek的r1推理模型，后面又是grok3的發布，號稱市面最強推理大模型，相信大家都很好奇各家的推理模型，本篇文章將著重測評各家的推理模型，本文這次優化了測評形式，來展示更加公正、透明的測評給大家

首要的當然是邏輯推理：

Sroan 有一個私人的保險箱，密碼是 7 個不同的數字。Guess #1: 9062437 Guess #2: 8593624 Guess #3: 4286915 Guess #4: 3450982 Sroan 說：你們 4 個人每人都猜對了位置不相鄰的兩個數字。（只有 “位置及其對應的數字” 都對才算對）問：密碼是什么？
正確答案為（4053927）

Grok3耗時129s成功過關

chatgpt過關，花費時間為3m36s

deepseek不過關，共花費時間8m12s

搞笑的來了Kimi在計算20分鐘左右死機不動了，一看思維鏈也全是重復內容，排除網絡異常，kimi宣告失敗

邏輯推理2——排序問題

有 8 個人，分別是 A、B、C、D 和另外 4 人。要將這 8 個人隨機安排在教室的兩排座位上，每排有 4 個座位，共 8 個座位。相鄰的定義是：若兩個人坐在同一排并且座位編號相鄰，則這兩個人相鄰。現要求 A 與 B 必須相鄰，且 C 與 D 不相鄰，問在上述條件下共有多少種不同的排法？正確答案為6528

Grok3過關，耗時55秒

Chatgpt38秒成功過關

Deppseek共花費3m17秒，同樣時間比chatgpt長很多，但也順利過關

Kimi這次推理時間不長，約2分鐘，但是完美做錯了答案

解析幾何

已知過點 $A(-1, 0)$ 、 $B(1, 0)$ 兩點的動拋物線的準線始終與圓 $x^2 + y^2 = 9$ 相切，該拋物線焦點 $P$ 的軌跡是某圓錐曲線 $E$ 的一部分。
(1) 求曲線 $E$ 的標準方程；
(2) 已知點 $C(-3, 0)$ ， $D(2, 0)$ ，過點 $D$ 的動直線與曲線 $E$ 相交于 $M$ 、 $N$ ，設 $\triangle CMN$ 的外心為 $Q$ ， $O$ 為坐標原點，問：直線 $OQ$ 與直線 $MN$ 的斜率之積是否為定值，如果為定值，求出該定值；如果不是定值，則說明理由。正確答案（x29+y28=1,?5）

Grok3過關，耗時204秒

Chatgpt再次輕松過關，耗時1m13s

Deppseek這次也過關了，但耗時長很多，6m19s，chatgpt的五倍

Kimi連續兩次在計算20分鐘左右自發死機(并非用戶停止，用戶停止會有顯示，上方顯示完成，但已經長時間宕機不動)故此我宣告kimi不過關

綜合排序chatgpt o3mini＞grok3＞deepseek r1＞kimi1.5

我們從實測來看，openai雖然風評越來越差，但產品還是越來越能打，時間短，做得對，grok3實際效果上還是略遜于o3mini，deepseek有驚艷的本地化文本生成能力，但在邏輯推理時間上還是長了些，至于kimi1.5就搞笑了，不是死機就是一直循環“過擬合“。

咨詢合作聯系助理：panshizhixin777

其他必讀文章：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.