99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

馬斯克用20萬卡集群,做出了比DeepSeek還強的模型?

0
分享至



今年才剛剛過去兩個月,AI 模型競技場的火熱程度,就已經白熱化了。

就在今天中午,馬斯克預告的那個號稱 “ 地球上最聰明的人工智能 ” Grok 3,終于發布了。

發布會還是秉承著馬斯克一貫的風格,說好十二點準時開始,結果還是晾了大家快二十分鐘。



將近一個小時的直播中,馬斯克攜 xAI 天團從各個方面介紹了 Grok 3 究竟有多厲害。從官方給出的紙面數據來看,Grok 3 吊打了諸如谷歌、OpenAI 和 DeepSeek 等一眾明星公司的招牌模型。

直播剛一結束,X 上就不淡定了,因為有人已經提前體驗上了 Grok 3。Andrej Karpathy 說它的推理能力跟 o1-Pro 差不多,而且還要略優于DeepSeek R1 和 Gemini 的推理模型。



還有人因此用 AI 生成了一個奧特曼看到 Grok 3 發布后的視頻。。。



國內外關于 Grok 3 的報道也是滿天飛,“ 首個突破 1400 分( 模型在 Imarena.ai 競技場的得分 )的模型 ”、“ 首個十萬卡集群訓練出來的模型 ” 等 title 看著就唬人。

在知危編輯部看來,Grok 3 雖然不能說炸裂,但至少從直播內容來看,它又一次延續了 AI 領域大力出奇跡的神話。

目前,Grok 3 只對部分 X 的 Premium+ 會員開放,我們的賬號暫無權限,所以我們就簡單從發布會的內容給大家介紹一下這個 Grok 3 究竟是什么水平。

馬斯克首先是拿 Grok 和 GPT 的模型迭代速度進行了對比,針對性很強,有一種一定要分出高下的既視感。



不過需要注意,這次的 Grok 3 實際上是一個模型家族,家族成員的水平各不相同,大致可以分為非推理模型和推理模型兩種。

我們先來看非推理模型,也就是 Grok 3 和 Grok 3 mini。

還是熟悉的Benchmark基準測試,xAI拉來了Gemini 2.0 pro、DeepSeek V3、Claude 3.5 Sonnet 還有 GPT-4o 四個模型進行對比。

在 AIME’24 美國數學競賽、GPQA( 研究生水平科學知識問答能力的基準測試 )和代碼三項測試中,Grok 3 的成績肉眼可見高出了其他模型一大截。

Grok 3 mini 的水平雖然跟其他模型大差不差,但直播中也提到了,mini 版本可以通過犧牲一定程度的準確性,來換取更快速度的回答。



另外,在 Chatbot Arena 的盲測中,Grok 3 代號叫 “ 巧克力 ” 的早期版本也登上了榜一,分數更是史無前例破了 1400 分。



具體來看,巧克力在整體風格控制( 模型語氣、表達方式的把控 )、編碼、數學還有創意寫作等多個方面,全都拿了第一。



要知道,巧克力還只是早期版本的 Grok 3,今天的最新版 Grok 3 性能或許還會更強。

下面,我們再來看 Grok 3 的推理模型。

推理模型大家應該不陌生,畢竟 OpenAI 的 o1 系列、o3 mini 還有DeepSeek R1,都已經殺紅眼了,思維鏈也是主流模型的突破方向。現在各家上新的模型里,如果不是推理模型,可能都不好意思拿出來。

所以這次,Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning也代表 xAI 出戰了。

同樣還是紙面實力,表面一看還是傲視群雄的姿態。



但有個需要注意的地方,這個測試中,加了 Test-Time Compute。

簡單理解就是給了模型更多的時間去思考,同一個橫坐標上顏色淺一點的部分,就是加時賽的成績。

我們可以看到,如果不算上加時賽,Grok 3 兩個推理模型跟其他模型的差距,并沒有那么大。一旦加了時長,這差距馬上就體現出來了。

換句話說,Grok 3 的推理模型思考的時間越久,表現越好,這似乎說明了 Grok 思考的質量是可以隨著時間線性增長的,也代表著 Grok 有進一步的成長空間,未來有機會通過對思考的優化在更短的時間里給出更好的答案。

在現場,馬斯克他們還展示了 Grok 3 推理模型在 2025 年 AIME 數學競賽上的測試結果。

實際上,如果不算上 Test-Time Compute,好像還是 OpenAI 家的 o3-mini( high )的推理能力更強。



為了證明自己不是說說而已,馬斯克他們在現場直接進行了效果演示。

他讓 Grok 3 生成 3D 動畫代碼,可以看到模型一步步的思考過程。但他們也提到,這個思考過程是被模糊處理過的,理由跟 OpenAI 差不多,都說是為了防止模型被抄襲。

另外,現場還讓 Grok 3 生成了一個結合俄羅斯方塊和寶石迷陣兩種游戲規則的新游戲。



這很難不讓人聯想到,馬斯克昨天實錘了 xAI 要成立一家 AI 游戲工作室的新聞,如果 Grok 3 的游戲制作能力真的跟現場演示的一樣甚至更強,這對于整個游戲圈的影響都將是巨大的。

而且根據馬斯克的說法,Grok3 在未來的兩到三年內,還可能參與到特斯拉的生產還有火箭發射的過程當中。

隨后,直播發布了基于 Grok 3 構建的 Deepsearch。

這個產品其實就是一個智能搜索引擎,有點像 Perplexity 的 Deep Research 和 OpenAI 的 Deep Research。

我們可以看到,當你問 Grok 3 下一次星艦發射是啥時候,左邊會顯示一個總體的進度條,右邊則是展示瀏覽了哪些網頁、對哪些信源進行了驗證。



最后模型會得出下一次發射的時間,是 2 月 24 日。

當然,這次 Grok 3 之所以看上去如此強大,拋不開馬斯克老早就在念叨的,只花了 122 天就搭建起來的 10 萬卡集群。

后續,他們又花 92 天擴展到了 20 萬卡集群,使出一招大力出奇跡,在不到一年的時間里,供養出了 Grok 3 。



結合這段時間大家都在爭論的技術路線問題,Grok 3 的出現似乎再一次證明了算力在大模型領域的絕對力量。

不過,把 20 萬卡供出來的 Grok 3 和對算力資源需求低不少的 DeepSeek V3 放在一起比較,還是有一些不公平的。

除此之外,馬斯克在前幾天的迪拜峰會上也提到,Grok 3 經過了合成數據的訓練,能夠通過檢查、驗證信息來反思自己的錯誤。

總而言之,這次的 Grok 3 的確算是拿出了點真家伙。

不過我們也注意到,在 Grok3 搶先體驗的用戶分享當中,有不少與宣傳不符的實際測試案例。

就比如這位博主用同一組 Prompt 測試了 Grok 3、o3 mini 還有Claude 3.5 Sonnet,結果 Grok 3 直接翻車。



在另外一組測試中,o3 mini 的表現也要優于 Grok 3 和 DeepSeek R1。



還有放大鏡選手,直接指出了發布會演示的案例里,有明顯錯誤。



雖然我們這次沒有實際上手測試,但從外部的一些實測案例來看,Grok 3 似乎也沒有營銷的這么神。

而且這次 Grok 3 上線后,很多人的注意力都放在了模型是否開源上。

根據馬斯克的說法,xAI 一般是新模型發布后再開源舊模型,也就是說,就算開源也是老版的 Grok 2 。

看樣子,來自開源陣營的壓力還是不夠大,馬斯克想狙的還是老對手 OpenAI 。

就是不知道,已經在 X 上預告了的 GPT 4.5,能不能再反手給馬斯克一個 “ 驚喜 ”。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
終于藏不住了!黃春梅的態度大變,真正的受益者浮出水面

終于藏不住了!黃春梅的態度大變,真正的受益者浮出水面

阿纂看事
2025-04-25 00:20:50
臺媒警告大陸:一旦臺海爆發戰事,臺軍將首先擊沉解放軍的航母

臺媒警告大陸:一旦臺海爆發戰事,臺軍將首先擊沉解放軍的航母

博覽歷史
2025-04-23 08:10:09
iPhone17ProMax越看越順眼,開始嫌棄手里的iPhone16ProMax了!

iPhone17ProMax越看越順眼,開始嫌棄手里的iPhone16ProMax了!

搞機小帝
2025-04-25 06:05:23
意外收獲!中國針對美國的稀土禁令,居然先把日本汽車行業打死了

意外收獲!中國針對美國的稀土禁令,居然先把日本汽車行業打死了

云舟史策
2025-04-24 08:55:09
陳士榘:如果毛澤民沒有犧牲,毛主席在國家經濟上也許會省心很多

陳士榘:如果毛澤民沒有犧牲,毛主席在國家經濟上也許會省心很多

紅色鑒史官
2025-04-18 20:15:03
限制掘金僅得83分,泰倫-盧:防守教練范甘迪應得到全部贊譽

限制掘金僅得83分,泰倫-盧:防守教練范甘迪應得到全部贊譽

懂球帝
2025-04-25 13:29:08
人到晚年才懂:和兄弟姐妹斷交的人,最后都輸給了現實

人到晚年才懂:和兄弟姐妹斷交的人,最后都輸給了現實

野薔薇觀察所
2025-04-21 17:21:46
戀情危機后,關曉彤首發文引網友稱:這波操作真牛,鹿晗傻眼!

戀情危機后,關曉彤首發文引網友稱:這波操作真牛,鹿晗傻眼!

默默有話說
2025-04-24 15:02:24
這是反復給你離場機會,你還不走,那么被套只能怪自己了

這是反復給你離場機會,你還不走,那么被套只能怪自己了

長路量
2025-04-25 11:37:32
大喜之日價值5萬元寶格麗婚戒被盜!民警快速破案并追回

大喜之日價值5萬元寶格麗婚戒被盜!民警快速破案并追回

環球網資訊
2025-04-25 16:37:03
美國代表破大防!中國在聯合國的一問,為80多國送去“開麥”底氣

美國代表破大防!中國在聯合國的一問,為80多國送去“開麥”底氣

肆時說
2025-04-25 17:16:13
我們不再為中國造飛機!3天拒收2架客機,波音為何如此囂張?

我們不再為中國造飛機!3天拒收2架客機,波音為何如此囂張?

大風文字
2025-04-24 19:23:39
韓國偷把中國稀土賣美國,遭限供警告,美方很惱火,我方回應亮了

韓國偷把中國稀土賣美國,遭限供警告,美方很惱火,我方回應亮了

石辰搞笑日常
2025-04-24 14:57:10
這才是真正的滿分身材!肥而不膩,甜卻不齁,愛的不得了!

這才是真正的滿分身材!肥而不膩,甜卻不齁,愛的不得了!

星辰生肖館
2025-04-12 13:46:40
G3掘金慘敗快船,賽后遭遇四個壞消息!約基奇消極,替補沒法看!

G3掘金慘敗快船,賽后遭遇四個壞消息!約基奇消極,替補沒法看!

籃球資訊達人
2025-04-25 13:43:34
你聽過最野的野史有多野?

你聽過最野的野史有多野?

漢周讀書
2025-04-23 12:30:09
勢頭迅猛!巴薩青年隊正在向三冠王發起沖擊

勢頭迅猛!巴薩青年隊正在向三冠王發起沖擊

直播吧
2025-04-25 16:06:31
2-0橫掃!小米拉太猛了,或將直通8強,鄭欽文真的打不過

2-0橫掃!小米拉太猛了,或將直通8強,鄭欽文真的打不過

體育就你秀
2025-04-25 07:56:04
特朗普體面服軟,90國想不到,中方第1個獲降稅待遇,美安排特殊

特朗普體面服軟,90國想不到,中方第1個獲降稅待遇,美安排特殊

吳欣純Deborah
2025-04-25 16:31:07
挪威突發!虧損3000億

挪威突發!虧損3000億

中國基金報
2025-04-24 20:14:52
2025-04-25 18:31:01
知危 incentive-icons
知危
投資不立危墻之下
401文章數 1765關注度
往期回顧 全部

科技要聞

文心模型再降價80%,李彥宏:我打下了價格

頭條要聞

日本官員:日方擬抵制美國將其納入"反華經濟同盟"

頭條要聞

日本官員:日方擬抵制美國將其納入"反華經濟同盟"

體育要聞

國乒的新掌門人,為什么是王勵勤?

娛樂要聞

王菲被諷刺為愚婦 張柏芝最終還是贏了

財經要聞

中央政治局:適時降準降息

汽車要聞

初嘗寶馬新世代駕趣概念車VDX 用代碼編譯駕駛樂趣

態度原創

數碼
藝術
家居
手機
公開課

數碼要聞

千元主板也能駕馭X3D處理器,藍寶石PURE極地B650M主板圖賞

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

清徐現代 有溫度有態度

手機要聞

realme 真我GT7體驗:2599 元,告別性能和續航焦慮

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 昌邑市| 玉田县| 葵青区| 丰宁| 伊宁市| 江永县| 丹东市| 台北市| 舒城县| 长葛市| 阿拉尔市| 方城县| 拉萨市| 泸定县| 景洪市| 丰县| 罗山县| 海宁市| 柳州市| 开平市| 高陵县| 桂平市| 临高县| 武隆县| 宜城市| 信丰县| 安泽县| 高尔夫| 库车县| 桂东县| 鹿泉市| 商南县| 兴安盟| 民乐县| 云南省| 游戏| 波密县| 夹江县| SHOW| 尤溪县| 贺州市|