中午12點(diǎn),預(yù)告了兩三天的Grok3的發(fā)布會,終于來了。
前天馬斯克就在X上吆喝,說Grok 3是“地球上最聰明的人工智能”。
甚至還在迪拜世界政府峰會說:“Grok 3的推理表現(xiàn)優(yōu)于我們所知的任何已發(fā)布的模型,這是個(gè)好跡象。”
而今天,在燈等等燈等的小音樂聲中,馬斯克習(xí)慣性的遲到后,四個(gè)大兄弟也坐在了現(xiàn)場,給大家演示Grok 3。
中間C位又是兩個(gè)華人。
看完全程以后,我只能說,OpenAI現(xiàn)在是真的慘,前腳被DeepSeek,而后腳,又全部被Grok 3給干碎了。。。
是的,連那個(gè)遙遙無期的期貨o3,都被Grok 3干碎了,而Grok 3,今天XPremium用戶可是就可以用了。。。
一文來帶大家迅速過一遍,Grok 3的能力。
主要分成3塊,Grok 3、Grok 3 Reasoning、Agents。
1. Grok 3
Grok這次是直接沖著OpenAI來的。研發(fā)團(tuán)隊(duì)一開始就直接甩了Grok和GPT的迭代時(shí)間對比。
從Grok0到Grok3,確實(shí)是進(jìn)步飛速。
馬斯克嘚啵嘚的意思,就一句話:Grok只用了兩年多,就能匹敵GPT五六年的能力。
23年xAI成立后發(fā)布了33B的Grok 0,比肩70B的Llama 2。同年11月份,又馬不停蹄的發(fā)了Grok 1模型。
24年他們不僅發(fā)布了Grok 1.5和Grok 2,還發(fā)布了xAI的第一個(gè)多模態(tài)模型Grok-1.5V。
從Grok0到2024 年 8 月 13 日發(fā)布的Grok2,再到今天2025年2月的Grok3,Grok的迭代確實(shí)很迅速。
關(guān)注度這么高的發(fā)布會,馬斯克也是忍不住炫耀一下自家的十萬卡集群Colossus。
老馬起初找了數(shù)據(jù)中心供應(yīng)商,問他們要在一個(gè)地方有序運(yùn)行10萬個(gè)Gpu需要多長時(shí)間?供應(yīng)商給的時(shí)間范圍是從18個(gè)月到24個(gè)月。
老馬直接不樂意了,所以直接自己做。
最終這個(gè)集群只用了122天建成,第一階段是10萬塊NVIDIA H100 GPU,訓(xùn)練了122天。后來擴(kuò)展到20萬塊GPU(含新增的5萬塊H100與5萬塊H200),又訓(xùn)練了92天。由田納西河流域管理局(TVA)提供超過100兆瓦的電力支持。
最終,有了Grok 3這個(gè)超級產(chǎn)物。
半個(gè)多小時(shí)的發(fā)布會沒啥實(shí)際應(yīng)用的展示,不過光看跑分grok表現(xiàn)也是挺亮眼的。
在他們內(nèi)部的測試?yán)?,?shù)學(xué)、科學(xué)和代碼三個(gè)領(lǐng)域的跑分,Grok 3都是最高的。
不帶推理能力的Grok,Benchmarks跑分遙遙領(lǐng)先。
在Chatbot Arena競技場,Grok3直接拿下第一,分?jǐn)?shù)也高得驚人。
帶推理能力的Grok,也是直接沖著目前最好的推理模型去的。分?jǐn)?shù)遠(yuǎn)高于o3和DeepSeek-R1,拉著就是比。
尤其是Grok解數(shù)學(xué)題的能力,馬斯克在發(fā)布會上也特意強(qiáng)調(diào)他們會給模型更多時(shí)間讓它自己思考。
在Chatbot Arena競技場,Grok3直接拿下第一,分?jǐn)?shù)也高得驚人。
不僅第一,還是目前唯一1400分以上的模型,直接把沒火多久的Gemini2.0甩開一大截。
2.Grok 3Reasoning
下一個(gè),reasoning,也就是grok 3的推理模型。
但是因?yàn)檫€沒有具體實(shí)測到,所以我不知道,他是類似DeepSeek v3和DeepSeek R1這種兩套模型的區(qū)別,還是類似于Claude在傳的那種混合模型的區(qū)別,但是我個(gè)人感覺大概率還是兩套。
然后上來展示這UI設(shè)計(jì),好眼熟。
大家都在群里瘋狂吐槽,deepseek是你嗎。
在跑分上,還是我們熟悉的三領(lǐng)域:數(shù)學(xué)、科學(xué)、代碼。
和o3 mini、DeepSeek R1相比,Grok 3 reasoning都取得了領(lǐng)先地位。
特別是o3 mini,直接被干碎了。
5天前,完成了AIME2025的測試,分?jǐn)?shù)最高。
并且還有類似于o1 pro的功能,可以調(diào)高參數(shù),允許Grok 3用更長的時(shí)間去推理,讓大模型花更多時(shí)間思考,直到得出結(jié)論。
展示的第一個(gè)編程例子,動態(tài)宇宙模型,思考了114s。
效果看起來還挺好的,感覺馬斯克離他的老家火星又進(jìn)了一步。
第二個(gè)展示了Grok的游戲代碼,俄羅斯方塊演示(視頻有點(diǎn)長,我們這里直接五倍速)
case本身難度也不怎么高,具體實(shí)測還不知道是個(gè)什么情況,具體詳情得測試看,如果確實(shí)跟跑分一致,老馬沒吹牛逼,那Grok 3就是地表最強(qiáng)。
3. Agent
最后一個(gè)。
老馬決定繼續(xù)按著OpenAI的頭打,推出了他們的Agent工具,DeepSearch,也就是深度搜索。
明顯就是前段時(shí)間OpenAI Deep Research的翻版。
但是效果上,看了下說實(shí)話不太像是能對標(biāo)OpenAI Deep Research的,更偏向于搜索而不是研究,比OpenAI Deep Research的成品和質(zhì)量還是差的有點(diǎn)遠(yuǎn)。
更像是Perplexity出的那個(gè)。
他們也跑了一個(gè)demo。
點(diǎn)擊左側(cè)的答案,會有進(jìn)度條,思考時(shí)間不算特別長。
右側(cè)是當(dāng)前模型的一些摘要,可以看到模型正在瀏覽哪些網(wǎng)站,并且會交叉驗(yàn)證不同的來源。
可以同時(shí)問好幾個(gè)問題,一起運(yùn)行。
4. 寫在最后
最后的QA環(huán)節(jié),直播也解答了大家最關(guān)心的幾個(gè)問題。
Q:什么時(shí)候發(fā)布Grok3?
A:X上的預(yù)先訂閱用戶可以最早體驗(yàn),預(yù)計(jì)一周后陸續(xù)發(fā)布,推薦大家關(guān)注Grok的動態(tài)。
Q:現(xiàn)在的新的網(wǎng)址?
A: grok.com
Q:有語音功能嗎?
A:有。(但是現(xiàn)場也只是說有語音功能,支持語音轉(zhuǎn)文字,不知道是不是語音通話,但具體的效果如何,還是等上線吧。)
馬斯克在發(fā)布會上是說,一周后會陸續(xù)上線grok 3的所有功能。也就是說Grok 3、Grok 3的推理模型、DeepResearch、包括app端。
這個(gè)畫面總讓我幻視直播帶貨,感覺馬斯克應(yīng)該說一句“老鐵們記得訂閱”。
行,信一回,等著下周上手玩玩了。
老馬還說,之后會開源上一代模型,也就是Grok 2,那我也坐等。
無論如何,新王已到,江湖又得重新排座次了。
AI圈,變得就是如此之快。
AI一天,人間一年。
我們,拭目以待。
>/ 作者:卡茲克、穩(wěn)穩(wěn)、小瑞、dongyi
>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@gmail.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.