最新的推理模型哪家強?Grok3、Deepseek、chatgpt、kimi推理模型綜合能力多維度實戰測評
即deepseek后,chatgpt又推出來了o3mini并號稱超越deepseek的r1推理模型,后面又是grok3的發布,號稱市面最強推理大模型,相信大家都很好奇各家的推理模型,本篇文章將著重測評各家的推理模型,本文這次優化了測評形式,來展示更加公正、透明的測評給大家
首要的當然是 邏輯推理:
Sroan 有一個私人的保險箱,密碼是 7 個 不同的數字。Guess #1: 9062437 Guess #2: 8593624 Guess #3: 4286915 Guess #4: 3450982 Sroan 說:你們 4 個人每人都猜對了位置不相鄰的兩個數字。(只有 “位置及其對應的數字” 都對才算對) 問:密碼是什么?
正確答案為(4053927)
Grok3耗時129s成功過關
chatgpt過關,花費時間為3m36s
deepseek不過關,共花費時間8m12s
搞笑的來了Kimi在計算20分鐘左右死機不動了,一看思維鏈也全是重復內容,排除網絡異常,kimi宣告失敗
邏輯推理2——排序問題
有 8 個人,分別是 A、B、C、D 和另外 4 人。要將這 8 個人隨機安排在教室的兩排座位上,每排有 4 個座位,共 8 個座位。相鄰的定義是:若兩個人坐在同一排并且座位編號相鄰,則這兩個人相鄰。現要求 A 與 B 必須相鄰,且 C 與 D 不相鄰,問在上述條件下共有多少種不同的排法?正確答案為6528
Grok3過關,耗時55秒
Chatgpt38秒成功過關
Deppseek共花費3m17秒,同樣時間比chatgpt長很多,但也順利過關
Kimi這次推理時間不長,約2分鐘,但是完美做錯了答案
解析幾何
已知過點 $A(-1, 0)$ 、 $B(1, 0)$ 兩點的動拋物線的準線始終與圓 $x^2 + y^2 = 9$ 相切,該拋物線焦點 $P$ 的軌跡是某圓錐曲線 $E$ 的一部分。
(1) 求曲線 $E$ 的標準方程;
(2) 已知點 $C(-3, 0)$ , $D(2, 0)$ ,過點 $D$ 的動直線與曲線 $E$ 相交于 $M$ 、 $N$ ,設 $\triangle CMN$ 的外心為 $Q$ , $O$ 為坐標原點,問:直線 $OQ$ 與直線 $MN$ 的斜率之積是否為定值,如果為定值,求出該定值;如果不是定值,則說明理由。正確答案(x29+y28=1,?5)
Grok3過關,耗時204秒
Chatgpt再次輕松過關,耗時1m13s
Deppseek這次也過關了,但耗時長很多,6m19s,chatgpt的五倍
Kimi連續兩次在計算20分鐘左右自發死機(并非用戶停止,用戶停止會有顯示,上方顯示完成,但已經長時間宕機不動)故此我宣告kimi不過關
綜合排序chatgpt o3mini>grok3>deepseek r1>kimi1.5
我們從實測來看,openai雖然風評越來越差,但產品還是越來越能打,時間短,做得對,grok3實際效果上還是略遜于o3mini,deepseek有驚艷的本地化文本生成能力,但在邏輯推理時間上還是長了些,至于kimi1.5就搞笑了,不是死機就是一直循環“過擬合“。
咨詢合作聯系助理:panshizhixin777
其他必讀文章:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.