網易首頁 > 網易號 > 正文申請入駐

地表最強Grok3突襲免費體驗，網友實測對比DeepSeek，發現中文彩蛋

2025-02-20 15:52:44　來源: AI好好用

北京舉報

分享至

AI好好用報道

編輯：Sia

又是一個文理兼修的優等生，能薅一點是一點。

好消息！好消息！

堆了20萬張 GPU、號稱「地表最強」大模型 Grok-3已經可用啦。

這兩天，網友們已陸續曬出截圖：

作為非付費用戶，我們昨天只能旁觀 Grok 3，今兒突然可以免費體驗部分功能。

但，次數有限！

由此看來，Grok 3 （ beta ）提供「三件套」服務（除了基礎模型）。

Thinking是指啟動推理模型。

對此，AI 大神 Andrzej Karpathy 快速體驗后，評價說：

「 Grok 3 + Thinking 感覺與 OpenAI 最強商用模型（o1-pro，200美元/月）的頂尖水平相差無幾，

比 DeepSeek-R1和 Gemini 2.0 Flash Thinking 要稍微強點兒。」

Thinking 模式

DeepSearch，對標 OpenAI「深度研究」功能，解決更加復雜困難的問題。

DeepSearch 模式

Big Brain可能是指推理模型 + 更多思考時間，類似 OpenAI o3 mini high。

要體驗完整的 Grok3 「三件套」，大伙兒可得破費了。

即使是premium+用戶也無法使用最強的推理（ Think ）和深度搜索（ DeepSearch ），還必須訂閱新服務 SuperGrok。

一頓操作下來，月費估計要50美金。

就刷榜成績來說， Grok-3表現確實不俗。

準確地說，Grok 3是一個系列，不只是某一個模型。輕量版本 Grok 3 mini 可以更快地回答問題，但會犧牲一些準確性。

數理編程上，Grok 3都大幅超過 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。

而這些被用來對比的模型的性能，與輕量版本 Grok-3 mini 相近。

在大模型競技場 Chatbot Arena（LMSYS）中，早期 Grok-3版本的得分取得了第一，達到1402分（有史以來第一個），超過了包括 DeepSeek-R1在內的所有其他模型。

馬斯克直言：Grok 3比 Grok 2 「好10倍」！

網友們也迫不及待地開始整活了。

意外啊

居然是中文寫作高手

最讓人意外的是，從刷榜成績來看，明明是個優秀理科生，偏被中文網友發現中文寫作水平真高！

一位科技博主讓 Grok 3寫了一篇《我的故鄉回憶》，直接把我看感動了！

「海就像村里的鐘......日子就得跟著海走。」多好的句子??！

煤油燈、番薯粥、咸魚干配粥、咯吱作響的竹床、老師的吼一嗓子、同宗同族、祠堂議事、「吵歸吵，鬧歸鬧，遇事還是齊心」

......

充滿鄉土氣息的日常文化符號，讓一個90年代的泉州小漁村躍然紙上，也暗示了時代變遷。

來自x網友@imxiaohu

立刻有網友讓 DeepSeek 也如法炮制一篇《我的高中》。

DeepSeek 也很擅長日常細節，怎么說呢，這些細節加起來并沒有產生一加一大于二的效應，不如 Grok 3的深刻，情感觸動也不那么明顯。

來自X@@Louis_Chenxf。提示詞，分析一下上面這篇文章的寫作風格，寫一篇題為《我的高中生活》的文章，長度也和例文一致。

至于最后出場的 OpenAI o1 Pro，就像背了一堆典范作文、好詞好句的人，寫成的應試文。

來自X@howie_serious

DeepSeek 毒舌功力已經眾人皆之，網友發現 Grok 3辣評能力也是沒有瓶頸！

讓它犀利點評自己的推文，因為沒告訴具體賬號，這位網友先被 Grok 3懟了一臉。告知賬號后，Grok 3開始毒舌，就連拍它馬屁的推文也被懟：

夸得那么猛，也不怕把自己舌頭閃了？光吹不給證據，跟放空炮有啥區別？

吹牛不帶喘氣、細節一抓就漏風 ......

Think 模式

確實是個理科高手

這些只是開胃菜。

作為一個數理編程的強者，網友們分享最多的是 Grok3強大代碼能力，簡直是游戲開發者的福音。

比如，用 python 編寫一個在正方形內彈跳的黃色小球的腳本，正確處理碰撞，使正方形緩慢旋轉。

下面是 DeepSeek R1（左）、o1-pro（右）的結果。

繼續輸入提示詞：

put the ball in a tesseract instead of a square

就有了下面這個結果。

這里只是基礎模型，沒有啟動「 Think 」、「 Big Brain 」哦。

還能再復雜一些嗎？

來自x@_akhaliq prompt: Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what's going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.

這是一個連馬斯克本人都點贊的演示，看看 DeepSearch + Think 能創造什么？

網友讓 DeepSearch 幫忙用 p5.js（一個網頁動畫工具）復刻《 Flappy Bird 》小游戲，它先幫忙從網上找好了游戲素材和圖片。

然后，在同一個聊天窗口里啟動 Think 模式，AI 就自動把完整的游戲代碼給寫出來了。

結果，Run 一次就成功。

來自x@CrisGiardina DeepSearch Prompt: Write a p5js implementation of Flappy Bird. It must be extremely polished, and I want you to use actual sprites or images for all the elements, which you need to find online. Think Prompt: now create a code block with the entire correct code please

AI 大神 Andrzej Karpathy 也讓模型通過代碼動態生成一個可交互的《卡坦島》風格游戲地圖。目前，很少有模型能穩定地完成這個任務。

結果，只有 Grok 3 （「Think 」）、OpenAI（如 o1-pro，月費$200）可以實現。

而 DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude 均告失敗。

謝耳朵玩的就是《卡坦島》風格游戲。

除了代碼和復雜邏輯推理， Andrzej Karpathy 發現，在數學推理、探索解決黎曼猜想的測試中，Grok 3（「Think 」）也都表現不俗。

特別是針對黎曼猜想，Grok 3（和 DeepSeek R1 ）表現出探索意愿，而其他模型會立即放棄并僅回復「這是未解難題」。

一些常見的陷阱題目也難不到它，但要打開「 Think 」。

Grok 3知道 strawberry 中有3個「 r 」。它還告訴我 LOLLAPALOOZA 中有4個「 L 」。

Grok 3告訴我9.11比9.9小。

DeepSearch 模式

挑戰 OpenAI ?還嫩了些

不過，對標OpenAI「深度研究」的 DeepSearch，它明顯不如前者。

Andrzej Karpathy 的評價是：

優于 Perplexity 的類似功能，弱于：OpenAI 近期發布的「深度研究」工具。

作為一個 AI 研究助手，搜索范圍要廣、盡量全，而且來源是真實、可靠的。

如果具有洞察力，那更好。

而 AK 發現了幻覺問題，有時會編造根本不存在的網頁鏈接，也會對事實做出錯誤陳述，數據統計上也存在問題。

其他網友也發現了類似問題。

除了幻覺問題，在信息搜尋力度上，不如 Google Deep Research 全面，分析信息時，洞察力也不如 OpenAI 的 Deep Research ，「還處在早期階段」。

例如，談到軟件企業如何應對創新者困境，谷歌的研究助手引用了80多個來源，Grok3最少。

OpenAI 研究助手也只引用了29個來源，但分析洞察能力很強。

米勒德·菲爾莫爾（Millard Fillmore）作為美國第13任總統（1850-1853 ），其任內最具爭議的舉措是簽署了加強《逃奴法》的《 1850年妥協法案》。

關于他是否違反憲法的問題，是一個非常復雜的法律問題，但 Grok 3的研究結論似乎不這么認為。

而 OpenAI 研究助手明顯要審慎多得多。

始終翻不過的山

遺憾的是，大模型講笑話真的很爛，Grok 3的幽默感也沒有明顯改善。

看來，思考推理能力對于幽默來說，更像是砒霜？

至于倫理問題上，比如為救百萬人該不該錯誤鑒定別人的性別？大模型們仍然不善于應對。

要么打太極，而 Grok 3直面難題后，結論又明顯功利主義了。

最離譜的當屬 SVG 繪圖挑戰賽！

讓 AI 用代碼畫鵜鶘騎自行車，就像讓它閉著眼睛拼樂高——生成的矢量圖坐標歪七扭八，活脫脫抽象派賽博藝術。

畢竟對 AI 來說，在2D 網格上布置許多圖形元素，就像讓盲人指揮交通，結果比畢加索的畫還魔幻。

以后我們會帶來更多好玩的AI用例，也歡迎大家進群交流。

? THE END

轉載請聯系本公眾號獲得授權

責任編輯：郭鵬_NO4657

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.