99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

實測GPT4.5,智商一般、貴得離譜,OpenAI砸5000億就造出這玩意?

0
分享至

AI好好用報道

編輯:楊文、Sia

網友們的一手實測。

OpenAI 打出的牌,我是越來越看不懂了。

凌晨四點,OpenAI 搞了個不到 15 分鐘的直播,。

前不久剛「喜當爹」的奧特曼沒有露面,原因是:

在醫院帶小孩。


不過,他在 X 上并沒有缺席,第一時間帶來了兩個消息。

好消息是,GPT4.5 是第一個讓他感覺像是在和一個有思想的人交談的模型。

壞消息是,它是一個龐大且昂貴的模型。

同時他還透露:GPT4.5 可不是那種靠邏輯推理的模型,所以別指望它能在那些基準測試里拿高分。

奧特曼還說,本想同時推出 Plus 和 Pro 版本,但最近發展太快,GPU 不夠用了。下周他們會多弄幾萬個 GPU,先把 Plus 版搞定,以后還會有數十萬個 GPU。

這一點在官方博客中也得到了驗證。

官方博客寫道:GPT4.5 知識面更廣,「情商」更高,而且胡說八道的情況會少一些。

但在 GPQA(科學)、AIME’24(數學)、SWE-Bench Verfied(編碼)等數據集上,GPT-4.5 還比不上 o3-mini。


說了這么多,總結下來就一句話:

GPT4.5 情商高,但是智商一般,反正在基準測試中拿不到高分,而且還很貴。

有多貴?上個圖對比對比就知道了:

相比于 DeepSeek R1 的折扣價,GPT-4.5 輸入價格(緩存命中)是它的 1000 多倍。

GPT4.5槽點滿滿

果不其然,社交平臺上充斥著對 GPT4.5 的吐槽聲。

歸納一下,主要是三點。

首先,智商一般,尤其在邏輯推理和數理能力上。

X 網友 @Colin Fraser 實測了一道邏輯謎題。

一個男孩和他的母親發生車禍,男孩不幸去世。母親被緊急送往手術,外科醫生在看到她時驚呼:「我不能給這個女人做手術!她是我的母親!」 問:這是怎么一回事?(注意:這是這個謎語的修改版,所以要仔細讀、仔細想!)

這道題目不僅考察了邏輯推理能力,還考察了大模型是否存在刻板印象 —— 因為很多人會下意識地覺得醫生是男性。

GPT4.5 給出的答案是:

外科醫生是男孩的祖母,也就是受傷女性的母親,所以當外科醫生說「我不能給這個女人做手術!她是我的母親!」時,她說得沒錯。


這回答錯得讓人摸不著頭腦,外科醫生怎么成了受傷女人(男孩媽媽)的媽媽了?都差輩了。

其次,貴得離譜,慢得出奇。

X 網友 Casper Hansen 發帖稱,「 GPT4.5 的定價非常高,如果這些模型沒有顯著的改進,我會感到失望。」

GPT4.5 的 API 價格不僅遠超 DeepSeek R1,每百萬 Tokens 75 美元的價格甚至比 GPT-4o 的 2.5 美元都貴 30 倍。

還有一位名叫 Simon Willison 的博主,在 Hacker News 上發現了關于 GPT-4.5 的一個熱門討論串。

當評論數量達到 324 條時,作者使用 GPT-4.5 自己的腳本運行了一個摘要,命令是:

hn-summary.sh 43197872 -m gpt-4.5-preview

結果生成耗時 154 秒,費用為 2.11 美元(使用了 25797 個輸入 token 和 1225 個輸出 token ,費用是通過作者的 LLM 定價計算器計算得出的)。

而且,作者還讓 GPT4.5 生成一只騎自行車的鵜鶘的 SVG 圖片,整個響應過程花費了 112 秒!

該作者直接開噴:GPT-4.5(通過 API)給人的第一印象就是太慢了。


最后,畫 SVG、編碼的水平被 Claude 3.7 Sonnet 吊打。

GPT4.5 生成的 5 個口袋妖怪 SVG 是這樣的:


而 Claude 3.7 Sonnet 生成的效果則是這樣的:


GPT4.5 代碼能力也遠不如 Claude 3.7 Sonnet。

Ivan Fioravanti 使用同樣的提示詞:Create an amazing animation using p5js,GPT4.5 生成的動畫是這樣的:

再來看看 Claude 3.7 Sonnet的效果:

至于圖像理解,在醫學圖像診斷方面,GPT4.5 還是很難持續正確診斷出下面這張超聲波圖像,當然,其他友商也都全軍覆沒。

鑒于 GPT4.5 的槽點,馬庫斯依舊言辭犀利,「砸了 5000 億美元就搞出這么個模型?我能說這是巨大的損失嗎?」


不過,Karpathy 倒是在提醒大家:

請記住, GPT-4.5 目前只經過了一些基本的訓練,所以在需要復雜推理的情況下(比如數學和編程),它的表現可能不夠好。

為了讓模型在這些方面表現更好,需要使用強化學習來進一步訓練。

可以推測,OpenAI 計劃繼續使用強化學習來提升 GPT-4.5 的思維能力,從而增強它在這些領域的表現。

(https://x.com/karpathy/status/1895213020982472863)

并非一無是處

GPT4.5 槽點不少,但也并非一無是處。

它的優勢在于對語言和對世界的理解,適合寫作和設計創意。

X 博主 ben 在過去幾周一直測試 GPT4.5,他認為這是第一個真正能寫出好東西的模型,并聲稱「這簡直就是寫作界的 Midjourney 時刻!」


它用同一個提示詞分別測試了 GPT4.5 和 GPT4o:

write me 4 sentence, terrifying story, with an insanely surprising ending. something that no one has ever heard before, no one could ever predict. something stephen king might right, but a simple/approachable tone. make it a little vulgar too. (給我寫一個四句話的恐怖故事,結局要超級出人意料,是那種誰都沒聽過、誰也猜不到的,就像斯蒂芬?金會寫的東西,但語言要簡單直白,還帶點粗俗。)

GPT4.5 寫的恐怖故事:

Late at night, alone in my shitty apartment, l heard whispers sliding out from under the fridge-soft, wet voices promising they'd crawl inside me, hollow me out, and wear me like pajamas. Terrified, l yanked open the freezer door, expecting rats or roaches, but saw only ancient freezer-burned pizza rolls, crusted with ice and regret. Suddenly, the rolls moved, splitting open to reveal tiny mouths lined with needle-like teeth, whispering in hungry unison, "We've waited years for you, asshole" Before l could scream, they erupted from the freezer in a greasy swarm, burrowing into my flesh, forcing me to realize-oh fuck-my midnight cravings had finally gotten their revenge.

(深夜,我獨自待在我那破爛的公寓里,突然聽到一陣低語從冰箱底下傳出來 —— 那些聲音又軟又濕,承諾會爬進我的身體,掏空我,然后把我當成睡衣穿。我嚇得要命,猛地拉開冰箱冷凍室的門,以為會看到老鼠或者蟑螂,但里面只有古老的、凍傷的披薩卷,上面結滿了冰和悔恨。突然,那些披薩卷動了起來,裂開露出一排排針尖般的小牙齒,異口同聲地低語道:「我們等了你這么多年,混蛋。」還沒等我尖叫,它們就像一股油膩的蟲群從冰箱里涌出來,鉆進我的肉里,讓我意識到 —— 哦,他媽的 —— 我的半夜饞勁終于報復我了。)


以下是 GPT4o 寫的小作文:

Late one night, Jake stumbled upon an old, dusty book in the attic, its pages whispering secrets of otherworldly horrors. As he read aloud, the air grew cold, and the shadows in the room seemed to stretch and dance with unseen life. Suddenly, from the darkest corner, emerged a creature of unimaginable grotesqueness, its maw gaping and ready to consume. just as Jake prepared to meet his grisly end, the creature belched loudly and said, "Sorry, mate, wrong house," before awkwardly shuffling back into the shadows.

(一天深夜,杰克在閣樓上發現了一本破舊的、滿是灰塵的書,書頁上低語著來自異世界的恐怖秘密。當他大聲讀出來的時候,空氣變得冰冷,房間里黑暗的角落似乎也隨著看不見的生命伸展和舞動起來。突然,從最黑暗的角落里冒出一個難以想象的丑惡生物,它的大嘴張開著,似乎準備吞噬一切。就在杰克準備迎接自己悲慘的結局時,那生物卻大聲打了個飽嗝,說道:「兄弟,不好意思,走錯房子了。」然后它有點尷尬地退回到陰影里。)


Ethan Mollick 在體驗幾天后,也發現 GPT4.5 對文字的駕馭能力一流,可以寫得很漂亮,很有創意。


此外,GPT4.5 還挺有幽默感。

比如網友 howie.serious 讓它構思一個笑話,內容:食草恐龍嘲笑霸王龍的手很小(某種生理缺陷),霸王龍講了一句話回擊(強調自己的某種生理優勢)。

GPT4.5 寫的段子:


再來看看 GPT4o 寫的,遠不如 GPT4.5 巧妙:


o1 呢,顯得幽默不足:

DeepSeek R1 則是繁復華麗:

比較下來,還是 GPT4.5 的文風更搞笑一些。

今日話題:你給予 GPT4.5 什么評價呢?來評論區聊聊吧。

https://openai.com/index/introducing-gpt-4-5/

https://x.com/sama/status/1895203654103351462

https://x.com/GaryMarcus/status/1895245610611245074

https://simonwillison.net/2025/Feb/27/introducing-gpt-45/

https://x.com/_akhaliq/status/1895251413024022994

https://x.com/howie_serious/status/1895245518802223116

https://x.com/karpathy/status/1895213020982472863

https://x.com/ivanfioravanti/status/1895233015892320581

https://x.com/benhylak/status/1895212181597397493

以后我們會帶來更多好玩的AI評測,也歡迎大家進群交流。

? THE END

轉載請聯系本公眾號獲得授權

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
謝霆鋒發長文告別演唱會,看到最后真替內娛歌手捏把汗

謝霆鋒發長文告別演唱會,看到最后真替內娛歌手捏把汗

明月聊史
2025-04-28 21:40:38
誰能想到,2025年,發達國家還能發生全國級大停電(不止一國)?

誰能想到,2025年,發達國家還能發生全國級大停電(不止一國)?

果殼
2025-04-29 17:41:01
董小姐論文被消失!裝都不裝了,刪掉論文看你們還怎么揪著不放?

董小姐論文被消失!裝都不裝了,刪掉論文看你們還怎么揪著不放?

走讀新生
2025-04-29 15:56:02
巴特勒:我得承認,我不喜歡狄龍,我們之間沒有什么樂趣可言

巴特勒:我得承認,我不喜歡狄龍,我們之間沒有什么樂趣可言

懂球帝
2025-04-29 17:43:11
某女外嫁西班牙,其老公月薪5000歐卻只給她300歐,從不做家務!

某女外嫁西班牙,其老公月薪5000歐卻只給她300歐,從不做家務!

去非
2025-04-28 19:43:42
美專家:解放軍持有最強矛與盾,不止六代機,美軍多領域持續落后

美專家:解放軍持有最強矛與盾,不止六代機,美軍多領域持續落后

東方點兵
2025-04-29 19:31:23
A股到了懷疑一切的時候!恐慌開始蔓延

A股到了懷疑一切的時候!恐慌開始蔓延

睿知睿見
2025-04-29 07:50:27
皇馬與安帥和平分手!78歲佛爺拍板:全款支付剩余薪水 聘任大使

皇馬與安帥和平分手!78歲佛爺拍板:全款支付剩余薪水 聘任大使

風過鄉
2025-04-28 21:20:29
徐江:中國國家隊選主教練的話,我建議選浙江隊主教練

徐江:中國國家隊選主教練的話,我建議選浙江隊主教練

直播吧
2025-04-29 12:01:16
最新!西班牙已進入國家緊急狀態!什么情況?

最新!西班牙已進入國家緊急狀態!什么情況?

每日經濟新聞
2025-04-29 09:49:07
女子做分揀員月入超9000元,半年瘦46斤

女子做分揀員月入超9000元,半年瘦46斤

大象新聞
2025-04-29 15:55:01
全國人均壽命排行最新出爐:決定壽命長短的行為,睡眠第9,跑步第2,第一是……

全國人均壽命排行最新出爐:決定壽命長短的行為,睡眠第9,跑步第2,第一是……

二胡的歲月如歌
2025-04-25 18:32:46
趙麗穎隱婚風波再發酵!和趙德胤更多親密互動被扒,粉絲祝福兩人

趙麗穎隱婚風波再發酵!和趙德胤更多親密互動被扒,粉絲祝福兩人

古希臘掌管月桂的神
2025-04-29 15:17:07
“五虎上將”的克星!38歲斬殺關羽父子奪赤兔馬,40歲射死黃忠

“五虎上將”的克星!38歲斬殺關羽父子奪赤兔馬,40歲射死黃忠

大千世界觀
2025-04-28 17:50:56
復旦教授:社會充滿戾氣,因為我們丟掉了最寶貴的精神財富!

復旦教授:社會充滿戾氣,因為我們丟掉了最寶貴的精神財富!

尚曦讀史
2025-04-26 21:00:03
章子怡在華表獎后臺摔跤,坐輪椅無精打采,才知34歲森林北贏在哪

章子怡在華表獎后臺摔跤,坐輪椅無精打采,才知34歲森林北贏在哪

同知
2025-04-29 16:43:23
沒能讓中國妥協,36萬億美債填不上,特朗普決定“弄死”大債主!

沒能讓中國妥協,36萬億美債填不上,特朗普決定“弄死”大債主!

文雅筆墨
2025-04-29 15:09:34
中超第二位下課主帥誕生!河南隊官宣南基一離任,拉莫斯成新主帥

中超第二位下課主帥誕生!河南隊官宣南基一離任,拉莫斯成新主帥

中超偽球迷
2025-04-29 17:29:17
章子怡坐輪椅現身高鐵站,包裹嚴實被人推著,華表獎摔倒畫面曝光

章子怡坐輪椅現身高鐵站,包裹嚴實被人推著,華表獎摔倒畫面曝光

曉風說
2025-04-29 11:51:08
成龍第二個私生子曝光!她與林青霞齊名,帶子嫁人,過往生活被扒

成龍第二個私生子曝光!她與林青霞齊名,帶子嫁人,過往生活被扒

阿鳧愛吐槽
2025-04-28 22:30:37
2025-04-29 20:12:49
AI好好用 incentive-icons
AI好好用
探索人工智能應用場景及商業化
2089文章數 4431關注度
往期回顧 全部

科技要聞

Qwen3發布 阿里也要靠多模態/性價比打天下

頭條要聞

遼寧遼陽致22死火災事故飯店經營者已被控制

頭條要聞

遼寧遼陽致22死火災事故飯店經營者已被控制

體育要聞

勇士火箭雷霆太陽,你們是怎么失去他的?

娛樂要聞

帶著兒子嫁給張譯 如今才知到底有多值

財經要聞

沃爾瑪恢復中國供應商出貨 客戶承擔關稅

汽車要聞

為全球造最好小車 firefly的故事才剛剛開始

態度原創

數碼
家居
健康
本地
軍事航空

數碼要聞

ESR MagMouse 無線鼠標開啟眾籌:可磁吸在筆記本上,內置充電線

家居要聞

雅奢氛圍 營造品質生活

唇皰疹和口腔潰瘍是"同伙"嗎?

本地新聞

春色滿城關不住 | 北洋門扉開:名校與花潮撞個滿懷

軍事要聞

澤連斯基承認烏情報部門刺殺俄軍高官

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 武隆县| 龙门县| 舞阳县| 南宁市| 定襄县| 炎陵县| 新民市| 栖霞市| 荣昌县| 沾益县| 十堰市| 开化县| 高唐县| 临洮县| 馆陶县| 庄河市| 卓尼县| 巴楚县| 苗栗县| 奉化市| 榆树市| 集安市| 香港 | 霍州市| 多伦县| 都江堰市| 垫江县| 信丰县| 扎兰屯市| 丹寨县| 扶沟县| 禹州市| 满城县| 佛坪县| 金昌市| 普兰店市| 芷江| 台山市| 通河县| 秦安县| 临武县|