網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Grok3登上美區(qū)榜一！我們把它和DeepSeek對(duì)比了下：馬斯克沒(méi)瞎說(shuō)

2025-02-21 19:09:31　來(lái)源: AI好好用

北京舉報(bào)

分享至

　　AI好好用報(bào)道

　　編輯：楊文

馬斯克在線玩梗。

　　昨天，號(hào)稱「地表最強(qiáng)」的 Grok3 突然上線。

　　我們第一時(shí)間沖到了「吃瓜前線」，體驗(yàn)了一把它的「Think」模式，但僅問(wèn)了兩個(gè)問(wèn)題，它就「罷工」讓付費(fèi)。

　　就在我們充了會(huì)員后，就看到馬斯克這哥們?cè)?X 上高調(diào)宣布：

　　Grok3 免費(fèi)，直到把服務(wù)器干崩！

　　（編輯部?jī)?nèi)心 OS：不早說(shuō)，白瞎了我們白花花的銀子。）

　　當(dāng)然了，付費(fèi)用戶 X Premium + 和 SuperGrok 用戶將獲得更多 Grok 3 的訪問(wèn)權(quán)限，此后還可以提前使用語(yǔ)音模式等高級(jí)功能。

　　隨著馬斯克大手一揮，Grok3 的流量瞬間超過(guò) ChatGPT，并登上了美區(qū)免費(fèi)應(yīng)用排行榜第一。

　　經(jīng)此一役，馬斯克腰桿也硬了，直接在 X 上玩起了梗，求奧特曼此刻的陰影面積。

　　至于 Grok3 的實(shí)力，社交平臺(tái)眾說(shuō)紛紜。

　　有網(wǎng)友認(rèn)為，Grok3 是最好的大模型，因?yàn)樗?GPT-4o 快得多，「Think」模式完美適配提示指南，更便宜，UI 更簡(jiǎn)潔美觀。

　　https://x.com/Yuchenj_UW/status/1892634804786757712

　　還有網(wǎng)友質(zhì)疑馬斯克投機(jī)取巧，設(shè)置 Prompt 讓人以為知識(shí)庫(kù)實(shí)時(shí)更新，實(shí)際上模型數(shù)據(jù)截止到 2024 年 7 月。

　　https://x.com/dotey/status/1892602321500094683

　　接下來(lái)，我們決定搞個(gè)一手實(shí)測(cè)，讓 Grok3 和 DeepSeek-R1 來(lái)個(gè)同臺(tái)競(jìng)技。

　　Think功能：Grok3確實(shí)有兩把刷子

　　前幾天的發(fā)布會(huì)上，馬斯克把 Grok3 夸得天花亂墜，還。

　　其中在編程、數(shù)學(xué)、創(chuàng)意寫(xiě)作、指令遵循、長(zhǎng)查詢、多輪對(duì)話等多個(gè)維度上，Grok3 都排第一。

　　既然如此，我們就先來(lái)測(cè)測(cè)中美這倆最強(qiáng)大模型的「深度思考」功能。

　　打開(kāi) Grok3 的「Think」按鈕，問(wèn)出第一個(gè)問(wèn)題：mississippi 有幾個(gè) i?

　　之前曾難倒一眾大模型的經(jīng)典問(wèn)題，Grok3 花了 8 秒就做對(duì)。

　　它先是逐個(gè)檢查每個(gè)字母是不是 i，然后還用另一種方法驗(yàn)證。

　　DeepSeek-R1 雖用時(shí)久一點(diǎn)，但也回答正確。它的思路和 Grok3 一致，也學(xué)會(huì)反復(fù)驗(yàn)證。

　　這一局，這倆大模型打了個(gè)平手。

　　我們又從「弱智吧」中找了道題目：為什么朝九晚五大家能接受，反過(guò)來(lái)朝五晚九就不行？

　　Grok3 一上來(lái)就抓住了重點(diǎn)。朝九晚五是 8 個(gè)小時(shí)，而朝五晚九是 16 個(gè)小時(shí)，工作時(shí)長(zhǎng)明顯超出人體承受范圍。

　　遺憾的是，DeepSeek-R1 洋洋灑灑說(shuō)了一大堆，從生物鐘、通勤聊到文化、法律，就是沒(méi)點(diǎn)出工作時(shí)長(zhǎng)這一根本性的矛盾。

　　這一局，Grok3 勝！

　　再來(lái)一道數(shù)學(xué)題：49 個(gè)同學(xué)要渡河，渡口有一只能乘上 7 人的空小船，他們要全部渡過(guò)河，至少要使用這只小船來(lái)回多少次？

　　正確答案是 8 次。

　　Grok3 這次腦子轉(zhuǎn)得沒(méi)那么快，花了 2 分多鐘才給出正確答案。

　　不過(guò)它的解題過(guò)程倒是清晰，既識(shí)別出題目暗含「要有一人撐船」的坑，又逐步模擬了渡河的人數(shù)變化。

　　甚至最后還推導(dǎo)出了關(guān)于渡河這類題目的公式：對(duì)于 N 人，容量 C，A 到 B 次數(shù) =(N-1)/(C-1)。

　　DeepSeek-R1 起初腦子很清醒，曉得每次來(lái)回的凈運(yùn)送人數(shù)是 6 人，也明白最后一次的特殊情況，但就是在計(jì)算總次數(shù)時(shí)功敗垂成，把最后一次單程未計(jì)入來(lái)回，算成了 7 次。

　　這一回，Grok3 贏！

　　DeepSearch功能：可搜索X上的信息

　　測(cè)完了「Think」模式，我們?cè)賮?lái)測(cè)測(cè)「DeepSearch」功能。

　　最近馬斯克在社交媒體 X 上拋出「重磅炸彈」：美國(guó)社會(huì)保障系統(tǒng)疑似存在史上最大規(guī)模欺詐行為，超 3.94 億人領(lǐng)取社保。

　　其中百歲以上老人竟超過(guò) 2000 萬(wàn)，甚至有人年齡高達(dá) 360 歲。

　　我們就讓這倆大模型介紹一下這事兒的來(lái)龍去脈，并上點(diǎn)難度，以表格的形式總結(jié)網(wǎng)友評(píng)價(jià)。

　　Grok3 DeepSearch的路徑可以在頁(yè)面左側(cè)一覽無(wú)余。

　　了解用戶請(qǐng)求后，開(kāi)始搜索、瀏覽 Reddit 討論和帖子，然后搜索替代來(lái)源，為了信息的準(zhǔn)確性，還要驗(yàn)證用戶信息等。

　　我們扒了一下它搜索的 52 個(gè)信源，涉及 ABC、NBC 等權(quán)威媒體以及 reddit 論壇，還有它的優(yōu)勢(shì)所在：社交平臺(tái) X 上的大量數(shù)據(jù)。

　　在回答上，Grok3 給了兩個(gè)「版本」。

　　一個(gè)是直接回答，內(nèi)容相對(duì)簡(jiǎn)單，主要是羅列關(guān)鍵要點(diǎn)，介紹下背景以及表格形式總結(jié) X 網(wǎng)友評(píng)價(jià)。

　　另一個(gè)則是「詳細(xì)報(bào)告」，將該事件的來(lái)龍去脈扒了個(gè)遍，在每個(gè)事實(shí)性描述的后面都附上了來(lái)源鏈接，以此對(duì)抗大模型的幻覺(jué)。

　　DeepSeek 給出的結(jié)果更為簡(jiǎn)潔清晰，把事情的起因、經(jīng)過(guò)、結(jié)果梳理得很有條理。

　　與 Grok3 一樣，DeepSeek 也給出了相應(yīng)的參考鏈接，不過(guò)它參考的信源均是搜狐、騰訊等國(guó)內(nèi)新聞網(wǎng)站。

　　與 DeepSeek-R1 不同的是，Grok3 還具有多模態(tài)能力。它可以分析總結(jié)上傳文件、圖片等。

　　不過(guò)，該功能與「Think」模式和「DeepSearch」模式不能同時(shí)使用。

　　我們上傳一張倒置的、模糊的菜單，并讓它回答：不用優(yōu)惠，菜單上每款點(diǎn)一個(gè)，總共需要多少港幣？

　　該題目出自一個(gè)名為「ZeroBench」的視覺(jué)基準(zhǔn)，20 多個(gè)知名模型，首次作答全部是零分。

　　Grok3 忙活一大頓，最后算出來(lái)錯(cuò)誤結(jié)果。

　　因?yàn)閺牡谝徊絾蝺r(jià)識(shí)別它就「歇菜了」，明明菜單上第一道菜寫(xiě)的是 88 元，它看成了 18 元，其他菜品的單價(jià)也是各有各的錯(cuò)法。

　　果然是「地表最難」新基準(zhǔn)，「地表最強(qiáng)」的 Grok3 也敗下陣來(lái)。

　　我們又上傳了一篇名為《LLM Pretraining with Continuous Concepts》的論文，讓它用最通俗易懂的語(yǔ)言介紹一下。

　　Grok3 秒出回復(fù)，用 AI 小白完全能看懂的語(yǔ)言，把這一復(fù)雜高深的新方法解釋得清清楚楚。

　　看來(lái)，AI 愛(ài)好者又多了一個(gè)讀論文的神器。

　　工具鏈接：

　　Grok3 鏈接： https://x.com/i/grok

　　DeepSeek-R1 鏈接： https://chat.deepseek.com /

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

姐姐抱著寶寶突然暈倒，最后一刻用手護(hù)住了寶寶

銳眼新聞 2025-04-27 11:32:00
1485 跟貼 1485
庫(kù)里36+7+9勇士擊落火箭2-1 佩頓末節(jié)11分申京15+11+4

網(wǎng)易體育 2025-04-27 11:21:02
12575 跟貼 12575

男子駕駛仰望U8在河里行駛，女子抱著孩子在后排看風(fēng)景

眾橫四海 2025-04-27 17:50:11
15454 跟貼 15454

核電開(kāi)閘！國(guó)常會(huì)核準(zhǔn)10臺(tái)新機(jī)組，拉動(dòng)超2000億投資，新項(xiàng)目花落誰(shuí)家？

澎湃新聞 2025-04-27 19:20:31
11093 跟貼 11093
要分道揚(yáng)鑣？第30屆LG杯照常舉行中韓棋運(yùn)或就此發(fā)生大逆轉(zhuǎn)

勁爆體壇 2025-04-27 10:34:18
800 跟貼 800

車匪路霸！男子服務(wù)區(qū)修自家車，卻遭修車工囂張喊話：敢修試試！

奇思妙想草葉君 2025-04-27 23:35:53
25 跟貼 25

紅旗國(guó)悅將全面替代豐田考斯特！將成為各單位的主力中巴車！

阿鳧愛(ài)吐槽 2025-04-27 16:37:38
5453 跟貼 5453
波音財(cái)報(bào)披露其商用飛機(jī)積壓訂單超5600架！這是個(gè)什么概念呢？

翻開(kāi)歷史和現(xiàn)實(shí) 2025-04-27 18:23:51
2042 跟貼 2042

朝鮮稱協(xié)助俄收復(fù)庫(kù)爾斯克系首次證實(shí)向俄派兵參戰(zhàn)

新華社 2025-04-28 09:38:52
8253 跟貼 8253
美國(guó)共和黨"金主"怒了：愿意穿耐克不等于愿意造耐克

國(guó)際在線 2025-04-27 15:10:20
1216 跟貼 1216
這10項(xiàng)不予采納，廣州市教育局公布中考改革意見(jiàn)結(jié)果反饋

南方都市報(bào) 2025-04-27 19:46:17
778 跟貼 778
網(wǎng)友吐槽iPhone鬧鐘不識(shí)別調(diào)休致遲到蘋(píng)果客服回應(yīng)

紅星新聞 2025-04-27 13:42:57
7031 跟貼 7031
德國(guó)沖浪者在葡萄牙創(chuàng)造沖浪世界記錄

世界生活點(diǎn)滴 2025-04-27 11:13:19
3780 跟貼 3780
騎行熱“退潮”，自行車從一車難求到打折促銷，有車型降價(jià)50%

紅星新聞 2025-04-27 19:04:23
0 跟貼 0
男孩乘電梯時(shí)被一只進(jìn)來(lái)的狗瘋咬疑因沒(méi)幫狗按電梯

動(dòng)態(tài)新聞 2025-04-27 23:01:45
1291 跟貼 1291
周鴻祎抵達(dá)重慶榮昌參訪車隊(duì)打著雙閃靠邊停放

臺(tái)海青年 2025-04-27 15:15:06
2059 跟貼 2059
日本5公斤大米均價(jià)約214元，有游客赴韓買米，還吐槽：“日本米價(jià)太高了”

每日經(jīng)濟(jì)新聞 2025-04-27 15:11:56
3024 跟貼 3024
開(kāi)賣一小時(shí)打破銷量紀(jì)錄，16GB+1TB+7550mAh，已成行業(yè)“新黑馬”

科技阿維 2025-04-26 16:44:00
214 跟貼 214
愛(ài)德華茲43+9+6東契奇38分森林狼險(xiǎn)勝湖人奪賽點(diǎn)

北青網(wǎng)-北京青年報(bào) 2025-04-28 07:24:02
150 跟貼 150
一季度全國(guó)城鎮(zhèn)新增就業(yè)308萬(wàn)人

財(cái)聯(lián)社 2025-04-28 10:42:19
108 跟貼 108
印度突然開(kāi)閘放水引發(fā)巴控克什米爾混亂

參考消息 2025-04-27 18:26:08
0 跟貼 0
巴西大豆船取代美國(guó)密集抵華艘次同比增加約48%

環(huán)球網(wǎng)資訊 2025-04-28 08:27:26
0 跟貼 0
英超奪冠！6萬(wàn)人齊唱永不獨(dú)行，利物浦全隊(duì)并肩，數(shù)人含淚

葉青足球世界 2025-04-28 06:30:09
0 跟貼 0
女子赤腳踏入4.8億年“地下水晶宮晶花池” 拍照，專家：水池遭不可逆污染

魯中晨報(bào) 2025-04-28 09:16:04
0 跟貼 0
江蘇臺(tái)報(bào)道野豬沖進(jìn)江蘇電視臺(tái)！從正門(mén)沖進(jìn)大院

大象新聞 2025-04-28 07:02:04
0 跟貼 0

王祖賢無(wú)錫開(kāi)會(huì)第二天，不戴口罩全素顏出鏡，佛系裝扮太漂亮了

AI好好用

探索人工智能應(yīng)用場(chǎng)景及商業(yè)化

2087文章數(shù) 4431關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

家居

數(shù)碼

藝術(shù)

教育

本地新聞

亮劍緝車—蕉城法院法拍車首場(chǎng)聯(lián)合直播

家居要聞

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

Grok3登上美區(qū)榜一！我們把它和DeepSeek對(duì)比了下：馬斯克沒(méi)瞎說(shuō)

上海車展：初代造車新勢(shì)力僅有4家參展

牛彈琴：特朗普搞了個(gè)大烏龍 美國(guó)應(yīng)該向中國(guó)道歉

牛彈琴：特朗普搞了個(gè)大烏龍 美國(guó)應(yīng)該向中國(guó)道歉

我們來(lái)自北極圈，我們有全球最恐怖的主場(chǎng)！

王寶強(qiáng)座位引眾怒 論演技誰(shuí)能壓得了

全球兩條大運(yùn)河，特朗普全都要

中型純電轎跑SUV/6月上市 豐田bZ5預(yù)售13-16萬(wàn)

態(tài)度原創(chuàng)

亮劍緝車—蕉城法院法拍車首場(chǎng)聯(lián)合直播

慢度設(shè)計(jì) 溫暖與沉靜的體驗(yàn)

PC鮮辣報(bào)：英特爾25Q1財(cái)報(bào)出爐 英偉達(dá)將增50系顯卡供貨

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫(xiě)法

三級(jí)聘任+傾心服務(wù)+貫通培養(yǎng)，三原外國(guó)語(yǔ)找到增效提質(zhì)成長(zhǎng)飛輪

牛彈琴：特朗普搞了個(gè)大烏龍美國(guó)應(yīng)該向中國(guó)道歉

牛彈琴：特朗普搞了個(gè)大烏龍美國(guó)應(yīng)該向中國(guó)道歉

王寶強(qiáng)座位引眾怒論演技誰(shuí)能壓得了

中型純電轎跑SUV/6月上市豐田bZ5預(yù)售13-16萬(wàn)

PC鮮辣報(bào)：英特爾25Q1財(cái)報(bào)出爐英偉達(dá)將增50系顯卡供貨