網易首頁 > 網易號 > 正文申請入駐

馬斯克用20萬卡集群，做出了比DeepSeek還強的模型？

2025-02-19 10:40:43　來源: 知危

浙江舉報

分享至

今年才剛剛過去兩個月，AI 模型競技場的火熱程度，就已經白熱化了。

就在今天中午，馬斯克預告的那個號稱 “ 地球上最聰明的人工智能 ” Grok 3，終于發布了。

發布會還是秉承著馬斯克一貫的風格，說好十二點準時開始，結果還是晾了大家快二十分鐘。

將近一個小時的直播中，馬斯克攜 xAI 天團從各個方面介紹了 Grok 3 究竟有多厲害。從官方給出的紙面數據來看，Grok 3 吊打了諸如谷歌、OpenAI 和 DeepSeek 等一眾明星公司的招牌模型。

直播剛一結束，X 上就不淡定了，因為有人已經提前體驗上了 Grok 3。Andrej Karpathy 說它的推理能力跟 o1-Pro 差不多，而且還要略優于DeepSeek R1 和 Gemini 的推理模型。

還有人因此用 AI 生成了一個奧特曼看到 Grok 3 發布后的視頻。。。

國內外關于 Grok 3 的報道也是滿天飛，“ 首個突破 1400 分（模型在 Imarena.ai 競技場的得分）的模型 ”、“ 首個十萬卡集群訓練出來的模型 ” 等 title 看著就唬人。

在知危編輯部看來，Grok 3 雖然不能說炸裂，但至少從直播內容來看，它又一次延續了 AI 領域大力出奇跡的神話。

目前，Grok 3 只對部分 X 的 Premium+ 會員開放，我們的賬號暫無權限，所以我們就簡單從發布會的內容給大家介紹一下這個 Grok 3 究竟是什么水平。

馬斯克首先是拿 Grok 和 GPT 的模型迭代速度進行了對比，針對性很強，有一種一定要分出高下的既視感。

不過需要注意，這次的 Grok 3 實際上是一個模型家族，家族成員的水平各不相同，大致可以分為非推理模型和推理模型兩種。

我們先來看非推理模型，也就是 Grok 3 和 Grok 3 mini。

還是熟悉的Benchmark基準測試，xAI拉來了Gemini 2.0 pro、DeepSeek V3、Claude 3.5 Sonnet 還有 GPT-4o 四個模型進行對比。

在 AIME’24 美國數學競賽、GPQA（研究生水平科學知識問答能力的基準測試）和代碼三項測試中，Grok 3 的成績肉眼可見高出了其他模型一大截。

Grok 3 mini 的水平雖然跟其他模型大差不差，但直播中也提到了，mini 版本可以通過犧牲一定程度的準確性，來換取更快速度的回答。

另外，在 Chatbot Arena 的盲測中，Grok 3 代號叫 “ 巧克力 ” 的早期版本也登上了榜一，分數更是史無前例破了 1400 分。

具體來看，巧克力在整體風格控制（模型語氣、表達方式的把控）、編碼、數學還有創意寫作等多個方面，全都拿了第一。

要知道，巧克力還只是早期版本的 Grok 3，今天的最新版 Grok 3 性能或許還會更強。

下面，我們再來看 Grok 3 的推理模型。

推理模型大家應該不陌生，畢竟 OpenAI 的 o1 系列、o3 mini 還有DeepSeek R1，都已經殺紅眼了，思維鏈也是主流模型的突破方向。現在各家上新的模型里，如果不是推理模型，可能都不好意思拿出來。

所以這次，Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning也代表 xAI 出戰了。

同樣還是紙面實力，表面一看還是傲視群雄的姿態。

但有個需要注意的地方，這個測試中，加了 Test-Time Compute。

簡單理解就是給了模型更多的時間去思考，同一個橫坐標上顏色淺一點的部分，就是加時賽的成績。

我們可以看到，如果不算上加時賽，Grok 3 兩個推理模型跟其他模型的差距，并沒有那么大。一旦加了時長，這差距馬上就體現出來了。

換句話說，Grok 3 的推理模型思考的時間越久，表現越好，這似乎說明了 Grok 思考的質量是可以隨著時間線性增長的，也代表著 Grok 有進一步的成長空間，未來有機會通過對思考的優化在更短的時間里給出更好的答案。

在現場，馬斯克他們還展示了 Grok 3 推理模型在 2025 年 AIME 數學競賽上的測試結果。

實際上，如果不算上 Test-Time Compute，好像還是 OpenAI 家的 o3-mini（ high ）的推理能力更強。

為了證明自己不是說說而已，馬斯克他們在現場直接進行了效果演示。

他讓 Grok 3 生成 3D 動畫代碼，可以看到模型一步步的思考過程。但他們也提到，這個思考過程是被模糊處理過的，理由跟 OpenAI 差不多，都說是為了防止模型被抄襲。

另外，現場還讓 Grok 3 生成了一個結合俄羅斯方塊和寶石迷陣兩種游戲規則的新游戲。

這很難不讓人聯想到，馬斯克昨天實錘了 xAI 要成立一家 AI 游戲工作室的新聞，如果 Grok 3 的游戲制作能力真的跟現場演示的一樣甚至更強，這對于整個游戲圈的影響都將是巨大的。

而且根據馬斯克的說法，Grok3 在未來的兩到三年內，還可能參與到特斯拉的生產還有火箭發射的過程當中。

隨后，直播發布了基于 Grok 3 構建的 Deepsearch。

這個產品其實就是一個智能搜索引擎，有點像 Perplexity 的 Deep Research 和 OpenAI 的 Deep Research。

我們可以看到，當你問 Grok 3 下一次星艦發射是啥時候，左邊會顯示一個總體的進度條，右邊則是展示瀏覽了哪些網頁、對哪些信源進行了驗證。

最后模型會得出下一次發射的時間，是 2 月 24 日。

當然，這次 Grok 3 之所以看上去如此強大，拋不開馬斯克老早就在念叨的，只花了 122 天就搭建起來的 10 萬卡集群。

后續，他們又花 92 天擴展到了 20 萬卡集群，使出一招大力出奇跡，在不到一年的時間里，供養出了 Grok 3 。

結合這段時間大家都在爭論的技術路線問題，Grok 3 的出現似乎再一次證明了算力在大模型領域的絕對力量。

不過，把 20 萬卡供出來的 Grok 3 和對算力資源需求低不少的 DeepSeek V3 放在一起比較，還是有一些不公平的。

除此之外，馬斯克在前幾天的迪拜峰會上也提到，Grok 3 經過了合成數據的訓練，能夠通過檢查、驗證信息來反思自己的錯誤。

總而言之，這次的 Grok 3 的確算是拿出了點真家伙。

不過我們也注意到，在 Grok3 搶先體驗的用戶分享當中，有不少與宣傳不符的實際測試案例。

就比如這位博主用同一組 Prompt 測試了 Grok 3、o3 mini 還有Claude 3.5 Sonnet，結果 Grok 3 直接翻車。

在另外一組測試中，o3 mini 的表現也要優于 Grok 3 和 DeepSeek R1。

還有放大鏡選手，直接指出了發布會演示的案例里，有明顯錯誤。

雖然我們這次沒有實際上手測試，但從外部的一些實測案例來看，Grok 3 似乎也沒有營銷的這么神。

而且這次 Grok 3 上線后，很多人的注意力都放在了模型是否開源上。

根據馬斯克的說法，xAI 一般是新模型發布后再開源舊模型，也就是說，就算開源也是老版的 Grok 2 。

看樣子，來自開源陣營的壓力還是不夠大，馬斯克想狙的還是老對手 OpenAI 。

就是不知道，已經在 X 上預告了的 GPT 4.5，能不能再反手給馬斯克一個 “ 驚喜 ”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

三角梅咋能長這么大，主要是不差錢，要是缺錢早就賣了！

滑稽達人秀場 2025-04-24 09:55:59
1607 跟貼 1607
業主自己拆掉四個飄窗，隱藏面積多了11個平方

銳眼新聞 2025-04-24 18:27:18
1335 跟貼 1335

媒體:董明珠稱"海歸派里有間諜絕不會用" 很違背常識

新民周刊 2025-04-24 18:45:08
67160 跟貼 67160

劉國梁辭任，弟子們表現兩極分化，陳夢、樊振東態度引球迷爭議

阿矗論古今 2025-04-24 20:42:56
21 跟貼 21
俄軍70枚導彈打向基輔等地市中心！是今年最大規模的空襲

項鵬飛 2025-04-24 20:38:13
5595 跟貼 5595

董大姐為什么那么痛恨海歸，答案讓人哭笑不得

師說新知 2025-04-25 13:14:24
0 跟貼 0

中共中央政治局：適時降準降息加力支持實體經濟

新華社客戶端 2025-04-25 13:44:00
7 跟貼 7
這一幕太震撼！塔克拉瑪干沙漠 7.38萬畝土地開發建設現場

范竹視頻 2025-04-25 11:37:50
10400 跟貼 10400

“聽說廣東人連10086都不接？”廣東網友: 別的省都接？

有趣的火烈鳥 2025-04-25 10:13:09
3 跟貼 3
上海一男子維修電時被電擊彈幾米遠躺地，男子直呼臉色變紫了！

爆料視頻 2025-04-25 09:37:48
763 跟貼 763
雷軍人設不保，讓員工工作12小時創造996制度，不以為恥反以為榮

漢史趣聞 2025-04-25 09:05:54
199 跟貼 199
老人賣廢紙往里面夾瓷磚，被老板發現拒收讓其全拿回去

眾橫四海 2025-04-25 10:54:37
940 跟貼 940
孩子爸爸開家長會，全程沒聽老師的講話，忙著拍視頻

動態新聞 2025-04-24 19:59:52
1659 跟貼 1659
何小鵬車展上試乘蔚來螢火蟲，跟李斌說定價太便宜了！

老趙觀天下 2025-04-24 22:00:23
3897 跟貼 3897
印巴邊境緊張升級印度大規模向邊境調運坦克車隊一眼望不到頭

火煉樹 2025-04-25 15:37:19
274 跟貼 274
“朱雀玄武敕令”到“周天紫薇大帝”，郴州23歲小伙頻頻改名引爭議，當事人回應

瀟湘晨報 2025-04-25 10:38:09
1 跟貼 1
無語！泡了幾年的中藥酒海龍海馬全部都是塑料

薪火視點 2025-04-25 07:53:00
928 跟貼 928
600萬粉絲網紅"迅猛龍"擬被復旦錄取開心捂嘴大笑

封面新聞 2025-04-25 16:05:18
256 跟貼 256
三部門提17條舉措全力促進高校畢業生就業創業

澎湃新聞 2025-04-25 15:34:27
82 跟貼 82
美國政府瘋狂刪除科研數據，科學家連夜保存研究心血：我們必須爭分奪秒

紅星新聞 2025-04-25 15:47:11
0 跟貼 0
兒子悄悄考上北大媽媽驚成靜止畫面,下一秒笑開花

大象新聞 2025-04-25 13:27:51
0 跟貼 0
南部兩車相撞，一人被緊急送醫！

南部微生活 2025-04-25 18:19:25
0 跟貼 0
紫牛問政｜兩室一廳“爆改”為四臥三廚？樓下業主質疑安全隱患街道回應：并非群租性質，房屋結構未改變

揚子晚報 2025-04-25 18:19:05
0 跟貼 0
灰熊官方：莫蘭特因髖部受傷提前退場本場比賽不會回歸

北青網-北京青年報 2025-04-25 12:16:01
0 跟貼 0

知危

投資不立危墻之下

401文章數 1765關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

藝術

家居

手機

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
全球十大恐怖禁區有哪些？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

馬斯克用20萬卡集群，做出了比DeepSeek還強的模型？

文心模型再降價80%，李彥宏：我打下了價格

日本官員：日方擬抵制美國將其納入"反華經濟同盟"

日本官員：日方擬抵制美國將其納入"反華經濟同盟"

國乒的新掌門人，為什么是王勵勤？

王菲被諷刺為愚婦 張柏芝最終還是贏了

中央政治局：適時降準降息

初嘗寶馬新世代駕趣概念車VDX 用代碼編譯駕駛樂趣

態度原創

千元主板也能駕馭X3D處理器，藍寶石PURE極地B650M主板圖賞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

清徐現代 有溫度有態度

realme 真我GT7體驗：2599 元，告別性能和續航焦慮

王菲被諷刺為愚婦張柏芝最終還是贏了

清徐現代有溫度有態度