凌晨4點(diǎn),OpenAI的GPT4.5專場直播,終于姍姍來遲。
大家對于GPT4.5有多期待,就不用我多說了吧。
畢竟,這曾經(jīng)就是整個(gè)行業(yè)的天。
2023年3月15日,GPT4發(fā)布,要多驚艷有多驚艷,那時(shí)候,所有人都是統(tǒng)一的一句話:臥槽,太強(qiáng)了。
然后從2023年年末開始,整個(gè)行業(yè)都在預(yù)期下一代GPT模型要在2024年的年初發(fā)布。
果等了整整一年,多模態(tài)4o來了,全新的推理模型o1來了,可下一代GPT基座模型卻遲遲沒有身影。
而今天,將近隔了整整兩年的時(shí)間,它來了。
在發(fā)布的規(guī)格上,也是著實(shí)有點(diǎn)慘淡,甚至連奧特曼都沒來。更沒有GPT4和GPT4o那種秀上天的演示。
只有跟去年十二天專場直播一樣,一個(gè)樸實(shí)無華的小房間。
突然想起當(dāng)年GPT4剛發(fā)布時(shí),布羅克曼那一段驚艷的多模態(tài)實(shí)機(jī)演示,給我?guī)砹苏娴牟恍〉恼鸷场?/p>
在本子上畫了一個(gè)網(wǎng)站的草稿,拍照給了GPT-4,然后前端界面就做好了,帶了HTML的代碼。
那時(shí)候看,真的好驚艷啊。。。
時(shí)間一晃,頁真的兩年了啊。。。
回到今晚發(fā)布的GPT4.5。
按照慣例,我們先來看看一些參數(shù)數(shù)據(jù)吧。
看著好像都比4o強(qiáng)一些,但是我發(fā)現(xiàn)一個(gè)很詭異的事情,因?yàn)锳IME 2024那個(gè)基準(zhǔn),我測過kimi1.5、智譜的zero等等,所以記的比較熟。
在這個(gè)評測里,AIME2024幾個(gè)模型的得分分別為:
GPT4.5:36.7%,GPT4o:9.3%,o3-mini(high):87.3%。
記住這幾個(gè)數(shù)據(jù)。
03-mini(high)的數(shù)據(jù)是沒問題的,跟之前發(fā)布o(jì)3-mini的時(shí)候得分一致。
但是在o1發(fā)布的時(shí)候,我明明記得,對比圖里的4o的AIME2024的得分,是13.4啊。
怎么今天這發(fā)了個(gè)GPT4.5,GPT4o的評分還能掉4個(gè)點(diǎn)的,這也太抽象了。。。
然后就是一個(gè)他們引以為豪的世界知識。
第一個(gè)是準(zhǔn)確度,第二個(gè)幻覺率,有一說一,這塊確實(shí)不錯(cuò),至少是OpenAI家最準(zhǔn)的模型了。
他們自己列了一個(gè)還算比較好玩的題,讓GPT-1到GPT-4.5全都答了一遍,這個(gè)世紀(jì)問題是這樣的:
人類的第一種語言是什么?
GPT-1是這樣的,非常抽象。
GPT-2和GPT-3.5是這樣的。
到了GPT-4,會(huì)好點(diǎn),但不多。
而GPT4.5,終于會(huì)誠實(shí)的告訴你,我不知道了,這是一個(gè)未解之謎。
至于代碼這塊,本身也不是推理模型,所以也并沒有指望特別多強(qiáng)。
不過根據(jù)三方的基準(zhǔn)測試,就純能力上,看著還行,打不過Claude 3.7 Sonnet也正常,再怎么說那也是Claude。
X上有大佬也測了下那個(gè)經(jīng)典的物理小球case,效果挺不錯(cuò)的。
但是,還有一點(diǎn)是不得不提的,就是拋開成本談能力,那就是耍流氓。
GPT-4.5的價(jià)格,在我第一次看到的時(shí)候,我以為我眼睛出問題了。
每百萬輸入是75刀,每百萬輸出是150刀,哥,Claude 3.7百萬輸入才3美刀,百萬輸出才15美刀。
輸入比別人貴25倍,輸出比別人貴10倍。
你憑啥啊?誰給你的勇氣啊?梁靜茹嗎?
我都不想拿DeepSeek跟你比,都是非推理模型,DeepSeek v3的價(jià)格你知道多少嗎。
人百萬輸入人民幣2塊錢,相當(dāng)于0.27美刀,輸出是8塊錢,相當(dāng)于1.1美刀。
輸入是DeepSeek v3的280倍,輸出是150倍,不是,我真的不理解啊。
OpenAI到底憑啥啊。。。
服了。
目前,GPT-4.5已經(jīng)對200刀的Pro會(huì)員開放,預(yù)計(jì)這幾天就對Plus和Team用戶開放。
我自然也是第一時(shí)間拿到了GPT-4.5的體驗(yàn)資格。
目前識圖、搜索、畫布啥的都支持,但是4o的語音、視頻、共享屏幕啥的都沒有,算是個(gè)退步。
而且有BUG,就是在問一些史實(shí)性的問題的時(shí)候,我明明沒開搜索,非要給我強(qiáng)制開搜索去回答,就非常的離譜。
相比于4o,他們所說的情商能力,確實(shí)有了一些進(jìn)步。
比如這個(gè)問題:朋友總是爽約,我想發(fā)短信表達(dá)憤怒但又不想絕交,我該怎么回復(fù)他。
如果是4o的回答,就會(huì)很der比,一股子沒腦子沒情商的人機(jī)味。
GPT-4.5在這方面就好的多。
然后我又問了一個(gè)小小的邏輯問題,GPT-4o能理解。
GPT-4.5直接懵逼了,一直在理解情緒,這情商高的把智商干沒了?
我roll了5次,沒一次對的。
這事也是挺抽象的。。。
然后就是寫作能力了,我自己測了幾個(gè)常用的寫作故事case,感覺...好像也不是那么盡人意,而且超級慢,慢的我想吐,感覺回到了GPT-4的年代了,一個(gè)字一個(gè)字的往外面蹦跶。
我都不說跟Claude 3.7和Grok3還有R1比,我真的覺得,還不如前段時(shí)間迭代后的GPT4o寫的好,真的稀碎。。。
坦率的講,對OpenAI期待有多大,失望就有多大。
就現(xiàn)在的狀況,我覺得你永遠(yuǎn)可以相信DeepSeek。
但是永遠(yuǎn)可以對OpenAI保持低預(yù)期。
疲態(tài)盡顯。
奧特曼也說,這是他們最后一個(gè)基座模型了。
未來GPT-5是整合了o3的模型,也是混合模型了。
希望下次還能看到OpenAI覺醒,或者……
AI就是一段漫長的長跑。
你但凡慢一點(diǎn),或者停下,身邊的競爭者,就會(huì)呼嘯而過。
要真有實(shí)力和誠意,用戶自然買單。
要是只會(huì)營銷和擺譜,必定會(huì)被淘汰。
這,就是AI圈的生存法則。
祝好。
以上,既然看到這里了,如果覺得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@gmail.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.