AI好好用報(bào)道
編輯:楊文
馬斯克在線玩梗。
昨天,號(hào)稱「地表最強(qiáng)」的 Grok3 突然上線。
我們第一時(shí)間沖到了「吃瓜前線」,體驗(yàn)了一把它的「Think」模式,但僅問(wèn)了兩個(gè)問(wèn)題,它就「罷工」讓付費(fèi)。
就在我們充了會(huì)員后,就看到馬斯克這哥們?cè)?X 上高調(diào)宣布:
Grok3 免費(fèi),直到把服務(wù)器干崩!
(編輯部?jī)?nèi)心 OS:不早說(shuō),白瞎了我們白花花的銀子。)
當(dāng)然了,付費(fèi)用戶 X Premium + 和 SuperGrok 用戶將獲得更多 Grok 3 的訪問(wèn)權(quán)限,此后還可以提前使用語(yǔ)音模式等高級(jí)功能。
隨著馬斯克大手一揮,Grok3 的流量瞬間超過(guò) ChatGPT,并登上了美區(qū)免費(fèi)應(yīng)用排行榜第一。
經(jīng)此一役,馬斯克腰桿也硬了,直接在 X 上玩起了梗,求奧特曼此刻的陰影面積。
至于 Grok3 的實(shí)力,社交平臺(tái)眾說(shuō)紛紜。
有網(wǎng)友認(rèn)為,Grok3 是最好的大模型,因?yàn)樗?GPT-4o 快得多,「Think」模式完美適配提示指南,更便宜,UI 更簡(jiǎn)潔美觀。
https://x.com/Yuchenj_UW/status/1892634804786757712
還有網(wǎng)友質(zhì)疑馬斯克投機(jī)取巧,設(shè)置 Prompt 讓人以為知識(shí)庫(kù)實(shí)時(shí)更新,實(shí)際上模型數(shù)據(jù)截止到 2024 年 7 月。
https://x.com/dotey/status/1892602321500094683
接下來(lái),我們決定搞個(gè)一手實(shí)測(cè),讓 Grok3 和 DeepSeek-R1 來(lái)個(gè)同臺(tái)競(jìng)技。
Think功能:Grok3確實(shí)有兩把刷子
前幾天的發(fā)布會(huì)上,馬斯克把 Grok3 夸得天花亂墜,還。
其中在編程、數(shù)學(xué)、創(chuàng)意寫(xiě)作、指令遵循、長(zhǎng)查詢、多輪對(duì)話等多個(gè)維度上,Grok3 都排第一。
既然如此,我們就先來(lái)測(cè)測(cè)中美這倆最強(qiáng)大模型的「深度思考」功能。
打開(kāi) Grok3 的「Think」按鈕,問(wèn)出第一個(gè)問(wèn)題:mississippi 有幾個(gè) i?
之前曾難倒一眾大模型的經(jīng)典問(wèn)題,Grok3 花了 8 秒就做對(duì)。
它先是逐個(gè)檢查每個(gè)字母是不是 i,然后還用另一種方法驗(yàn)證。
DeepSeek-R1 雖用時(shí)久一點(diǎn),但也回答正確。 它的思路和 Grok3 一致,也學(xué)會(huì)反復(fù)驗(yàn)證。
這一局,這倆大模型打了個(gè)平手。
我們又從「弱智吧」中找了道題目:為什么朝九晚五大家能接受,反過(guò)來(lái)朝五晚九就不行?
Grok3 一上來(lái)就抓住了重點(diǎn)。朝九晚五是 8 個(gè)小時(shí),而朝五晚九是 16 個(gè)小時(shí),工作時(shí)長(zhǎng)明顯超出人體承受范圍。
?
遺憾的是,DeepSeek-R1 洋洋灑灑說(shuō)了一大堆,從生物鐘、通勤聊到文化、法律,就是沒(méi)點(diǎn)出工作時(shí)長(zhǎng)這一根本性的矛盾。
這一局,Grok3 勝!
再來(lái)一道數(shù)學(xué)題:49 個(gè)同學(xué)要渡河,渡口有一只能乘上 7 人的空小船,他們要全部渡過(guò)河,至少要使用這只小船來(lái)回多少次?
正確答案是 8 次。
Grok3 這次腦子轉(zhuǎn)得沒(méi)那么快,花了 2 分多鐘才給出正確答案。
不過(guò)它的解題過(guò)程倒是清晰,既識(shí)別出題目暗含「要有一人撐船」的坑,又逐步模擬了渡河的人數(shù)變化。
甚至最后還推導(dǎo)出了關(guān)于渡河這類題目的公式:對(duì)于 N 人,容量 C,A 到 B 次數(shù) =(N-1)/(C-1)。
?
DeepSeek-R1 起初腦子很清醒,曉得每次來(lái)回的凈運(yùn)送人數(shù)是 6 人,也明白最后一次的特殊情況,但就是在計(jì)算總次數(shù)時(shí)功敗垂成,把最后一次單程未計(jì)入來(lái)回,算成了 7 次。
這一回,Grok3 贏!
DeepSearch功能:可搜索X上的信息
測(cè)完了「Think」模式,我們?cè)賮?lái)測(cè)測(cè)「DeepSearch」功能。
最近馬斯克在社交媒體 X 上拋出「重磅炸彈」:美國(guó)社會(huì)保障系統(tǒng)疑似存在史上最大規(guī)模欺詐行為,超 3.94 億人領(lǐng)取社保。
其中百歲以上老人竟超過(guò) 2000 萬(wàn),甚至有人年齡高達(dá) 360 歲。
我們就讓這倆大模型介紹一下這事兒的來(lái)龍去脈,并上點(diǎn)難度,以表格的形式總結(jié)網(wǎng)友評(píng)價(jià)。
Grok3 DeepSearch的路徑可以在頁(yè)面左側(cè)一覽無(wú)余。
了解用戶請(qǐng)求后,開(kāi)始搜索、瀏覽 Reddit 討論和帖子,然后搜索替代來(lái)源,為了信息的準(zhǔn)確性,還要驗(yàn)證用戶信息等。
我們扒了一下它搜索的 52 個(gè)信源,涉及 ABC、NBC 等權(quán)威媒體以及 reddit 論壇,還有它的優(yōu)勢(shì)所在:社交平臺(tái) X 上的大量數(shù)據(jù)。
在回答上,Grok3 給了兩個(gè)「版本」。
一個(gè)是直接回答,內(nèi)容相對(duì)簡(jiǎn)單,主要是羅列關(guān)鍵要點(diǎn),介紹下背景以及表格形式總結(jié) X 網(wǎng)友評(píng)價(jià)。
另一個(gè)則是「詳細(xì)報(bào)告」,將該事件的來(lái)龍去脈扒了個(gè)遍,在每個(gè)事實(shí)性描述的后面都附上了來(lái)源鏈接,以此對(duì)抗大模型的幻覺(jué)。
DeepSeek 給出的結(jié)果更為簡(jiǎn)潔清晰,把事情的起因、經(jīng)過(guò)、結(jié)果梳理得很有條理。
與 Grok3 一樣,DeepSeek 也給出了相應(yīng)的參考鏈接,不過(guò)它參考的信源均是搜狐、騰訊等國(guó)內(nèi)新聞網(wǎng)站。
與 DeepSeek-R1 不同的是,Grok3 還具有多模態(tài)能力。它可以分析總結(jié)上傳文件、圖片等。
不過(guò),該功能與「Think」模式和「DeepSearch」模式不能同時(shí)使用。
我們上傳一張倒置的、模糊的菜單,并讓它回答:不用優(yōu)惠,菜單上每款點(diǎn)一個(gè),總共需要多少港幣?
該題目出自一個(gè)名為「ZeroBench」的視覺(jué)基準(zhǔn),20 多個(gè)知名模型,首次作答全部是零分。
Grok3 忙活一大頓,最后算出來(lái)錯(cuò)誤結(jié)果。
因?yàn)閺牡谝徊絾蝺r(jià)識(shí)別它就「歇菜了」,明明菜單上第一道菜寫(xiě)的是 88 元,它看成了 18 元,其他菜品的單價(jià)也是各有各的錯(cuò)法。
果然是「地表最難」新基準(zhǔn),「地表最強(qiáng)」的 Grok3 也敗下陣來(lái)。
我們又上傳了一篇名為《LLM Pretraining with Continuous Concepts》的論文,讓它用最通俗易懂的語(yǔ)言介紹一下。
Grok3 秒出回復(fù),用 AI 小白完全能看懂的語(yǔ)言,把這一復(fù)雜高深的新方法解釋得清清楚楚。
看來(lái),AI 愛(ài)好者又多了一個(gè)讀論文的神器。
工具鏈接:
Grok3 鏈接: https://x.com/i/grok
DeepSeek-R1 鏈接: https://chat.deepseek.com /
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.