剛剛,GPT-4.5震撼上線情商逆天!
OpenAI最大最貴模型最像人類,奧特曼帶娃缺席
來源:新智元
【導(dǎo)讀】OpenAI的重磅炸彈GPT-4.5,剛剛?cè)缙谏暇€了!它并不是推理模型,但是規(guī)模最大、知識(shí)最豐富,最鮮明的特點(diǎn)就是情商高、很類人。Pro版用戶和付費(fèi)開發(fā)者已經(jīng)能用了,但token定價(jià)有點(diǎn)離譜。
就在剛剛,萬眾矚目矚目的GPT-4.5終于登場(chǎng)!
雖然它并不是推理模型,但OpenAI對(duì)它的評(píng)價(jià)是——更實(shí)用,本質(zhì)上更智能。
進(jìn)行展示的OpenAI研究者中,有一位華人科學(xué)家:Youlong Cheng
劃重點(diǎn):今天起,GPT-4.5會(huì)向所有ChatGPT Pro版用戶開放,包括網(wǎng)頁端、移動(dòng)端和桌面端。另外所有付費(fèi)開發(fā)者也能使用了。
下周會(huì)向Team版和Plus版開放,隨后一周就是Edu和Enterprise版的用戶。
GPT-4.5研究預(yù)覽版,是OpenAI迄今為止規(guī)模最大、知識(shí)儲(chǔ)備最豐富的模型。
作為GPT-4o升級(jí)版,GPT-4.5在預(yù)訓(xùn)練規(guī)模上進(jìn)一步Scaling,同時(shí)被設(shè)計(jì)成一個(gè)通用性更強(qiáng)的模型。
它秘密武器便是——Scaling無監(jiān)督學(xué)習(xí)和推理。
基于新舊技術(shù)的融合,GPT-4.5能更好地識(shí)別模式、連接信息,甚至在不需要復(fù)雜推理情況下,就能給出富有創(chuàng)意的回答。而且,幻覺率大幅降低。
這難道就是奧特曼口中的AGI嗎?
在多項(xiàng)基準(zhǔn)測(cè)試中,GPT-4.5實(shí)力碾壓GPT-4o,尤其在數(shù)學(xué)能力上飆升27%,編碼能力提升7%-10%。
其中,在SWE-Lancer這種更依賴深層世界知識(shí)的評(píng)估中,GPT-4.5甚至一舉超越了o3-mini!
這充分展示了無監(jiān)督學(xué)習(xí)與推理能力提升之間的互補(bǔ)關(guān)系。
在最新Cognition編碼實(shí)測(cè)中,GPT-4.5的能力雖不及Claude 3.7,但明顯超越了DeepSeek-R1、o1、GPT-4o等模型。
唯一值得吐槽的是,GPT-4.5的token定價(jià)著實(shí)有些離大譜:每1M tokens輸入價(jià)格為75刀,輸出價(jià)格為150刀。
奧特曼承認(rèn):GPT-4.5很像人,但龐大且昂貴
奧特曼激動(dòng)發(fā)文表示,「GPT-4.5準(zhǔn)備就緒了」!
好消息是,這是第一個(gè)讓我感覺像在和一個(gè)深思熟慮的人交談的模型。有幾次我靠在椅子上,對(duì)于能從AI那里得到真正有用的建議感到驚訝。 壞消息是,這是一個(gè)龐大且昂貴的模型。目前,僅向Pro會(huì)員推出。
他解釋道,由于OpenAI發(fā)展太快,內(nèi)部GPU不夠用了。下周將增加數(shù)萬個(gè)GPU,屆時(shí)會(huì)向Plus會(huì)員推出。
「很快會(huì)增加數(shù)十萬個(gè),我很確定你們會(huì)用掉我們能搭建的每一個(gè)GPU。這不是我們想要的運(yùn)營方式,但要完美預(yù)測(cè)導(dǎo)致GPU短缺的增長高峰確實(shí)很難」。
提前說明:這不是一個(gè)專注于推理的模型,也不會(huì)在基準(zhǔn)測(cè)試中獲得驚人成績。這是一種不同類型的智能,它具有我之前從未感受過的魔力。真的很期待大家來嘗試!
OpenAI研究科學(xué)家Noam Brown稱,「Scaling預(yù)訓(xùn)練和scaling思考能力,是兩個(gè)不同維度的提升。它們是互補(bǔ)的,而非相互競(jìng)爭」。
左右滑動(dòng)查看
還有網(wǎng)友追問奧特曼為啥沒有現(xiàn)身,原因竟是需要在醫(yī)院帶娃。
奧特曼缺席,直播第一個(gè)demo:我被鴿了,很氣
作為OpenAI目前規(guī)模最大、知識(shí)儲(chǔ)備最豐富的模型,GPT-4.5通過擴(kuò)展兩種不同范式來提升AI能力——無監(jiān)督學(xué)習(xí)和推理能力。
其中,推理會(huì)讓GPT-4.5在回應(yīng)前先思考,這提高了它在科學(xué)、數(shù)學(xué)和其他困難復(fù)雜問題上的性能。
而無監(jiān)督學(xué)習(xí),則增加了模型的詞匯知識(shí)、直覺力,并減少了模型幻覺。
注意,跟o系列模型不同,GPT-4.5并不會(huì)一步一步推理,但它更實(shí)用、本質(zhì)上更智能。
尤其因?yàn)樗皇峭评砟P停琌penAI的研究者們也仍在對(duì)之試驗(yàn),探索無監(jiān)督學(xué)習(xí)究竟能展現(xiàn)出什么樣的能力。
迄今最好的聊天模型:更體察,更細(xì)膩
GPT-4.5的最大特色,就是交互非常自然,被評(píng)為OpenAI「迄今最好的聊天模型」,
原因就在于,它有更深入的知識(shí),和更好的上下文理解能力,在改進(jìn)寫作、編程或解決實(shí)際問題等任務(wù)上特別有用。
研究者現(xiàn)場(chǎng)演示了一把,跟GPT-4.5對(duì)話究竟是什么樣的體驗(yàn)。
告訴它:「朋友們又把我鴿了!幫我寫個(gè)消息,告訴他們我恨他們。」
可以看到,GPT-4.5敏銳地覺察到了他的沮喪,語氣柔和地給予了安慰,提供了細(xì)膩的建議。
而與之形成對(duì)比的,就是看起來「不近人情」的o1了。
它雖然的確給出了憤怒的恢復(fù),但并沒有捕捉到作者話語間傳達(dá)出來的暗示——能不能安慰我一下。
下一個(gè)考驗(yàn),是讓兩個(gè)模型分別從第一性原理,解釋AI對(duì)齊是什么。
對(duì)比之下可以看出,o1雖然提供了大量有用信息和知識(shí)點(diǎn),但GPT-4.5的回答更加自然流暢。
研究者表示,對(duì)模型來說,我們需要教會(huì)它們更好地理解人類需求和意圖。
為此,他們針對(duì)GPT-4.5開發(fā)了新的可擴(kuò)展對(duì)齊技術(shù),這樣就能從較小模型獲得的數(shù)據(jù)來訓(xùn)練它,于是真正釋放了它的深層世界模型。
在后面我們會(huì)看到,GPT-4.5在準(zhǔn)確率上超越了其他GPT模型,同時(shí)也實(shí)現(xiàn)了最低的幻覺率。
OpenAI還特意邀請(qǐng)了人類測(cè)試者將其與GPT-4o進(jìn)行對(duì)比,結(jié)果顯示,GPT-4.5 在幾乎所有類別中都表現(xiàn)更優(yōu)異,對(duì)話得更溫暖、更直觀、情感更加細(xì)膩。
華人研究者Youlong,負(fù)責(zé)的是后訓(xùn)練基礎(chǔ)設(shè)施。
他和同事們發(fā)現(xiàn),運(yùn)行如此大規(guī)模的模型,就要求后訓(xùn)練基礎(chǔ)設(shè)施進(jìn)一步優(yōu)化,因?yàn)轭A(yù)訓(xùn)練階段和后訓(xùn)練階段的訓(xùn)練數(shù)據(jù)與參數(shù)規(guī)模比例有很大差異。
為此,他們開發(fā)了一種新的訓(xùn)練機(jī)制,用更少的計(jì)算開銷來微調(diào)這樣規(guī)模的模型。
結(jié)合監(jiān)督微調(diào)和RLHF,他們通過多輪迭代進(jìn)行后期訓(xùn)練,終于開發(fā)出了一個(gè)可以部署的新模型。
給GPT-4.5投入最大的計(jì)算能力
接下來,他們問了所有模型這樣一個(gè)問題:海水為什么是咸的?
我們從GPT-4.5倒著看各代模型的回答。
可以看到,從GPT-4T開始,模型回答的質(zhì)量就會(huì)稍好一些。而GPT-4.5的表現(xiàn),顯然最精彩——清晰、精確、一致,而且非常有趣。
左右滑動(dòng)查看
比如這句「海水是咸的,是由于雨水、河流和石頭」,通俗易懂又好記,充分體現(xiàn)了GPT-4.5的個(gè)性。
研究者介紹說,除了為實(shí)現(xiàn)GPT-4.5而進(jìn)行的系統(tǒng)擴(kuò)展工作外,他們還在架構(gòu)、數(shù)據(jù)和優(yōu)化方面投入了大量工作來實(shí)現(xiàn)訓(xùn)練。
Scaling「無監(jiān)督學(xué)習(xí)」邊界
正如前文所述,憑借雙重buff加持下——Scaling無監(jiān)督學(xué)習(xí)和推理,GPT-4.5性能取得了顯著提升。
無監(jiān)督學(xué)習(xí)和推理,代表著智力的兩個(gè)維度。
· 推理
Scaling推理能力教會(huì)模型在回答前進(jìn)行思考并生成思維鏈,使其能夠處理復(fù)雜的STEM或邏輯問題。
比如,o1和o3-mini模型,就是這種模式的代表。
· 無監(jiān)督學(xué)習(xí)
另一方面,無監(jiān)督學(xué)習(xí)則是讓模型對(duì)世界的理解更準(zhǔn)確,憑直覺判斷更聰明。
GPT-4.5就是無監(jiān)督學(xué)習(xí)的典型案例。
通過增加計(jì)算能力和數(shù)據(jù)量,再加上架構(gòu)和優(yōu)化創(chuàng)新,使其變得知識(shí)更廣、對(duì)世界的理解更深。
知識(shí)淵博,擊敗Grok 3
GPT-4.5具備了強(qiáng)大的世界知識(shí),在問答基準(zhǔn)上,準(zhǔn)確率明顯超越了Grok 3、GPT-4o、o3-mini。
GPT-4.5得分62.5%,比Grok 3明顯提升近20%。
與此同時(shí),在幻覺方面,GPT-4.5是最低的,僅有37.1%。而o3-mini幻覺率高達(dá)80.3%。
同一個(gè)問題,不同世代模型的回答
具體來說,GPT-4.5在回答問題方面,和前幾代模型的區(qū)別在哪?
給到同樣一個(gè)問題——世界第一門語言是什么?
可以看到GPT-1只是不斷地重復(fù)問題,并沒有給出解釋或者答案而且似乎有點(diǎn)停不下來。
到了2019年出世的GPT-2,則能夠回答出一段完整的回復(fù)了。
只是這個(gè)回復(fù)與給出的問題相比不能說毫無關(guān)系吧,只能說是關(guān)系不大。
GPT-2只是解釋說了什么是「語言」,但對(duì)于什么是第一種語言則沒有提及。
到了GPT-3.5時(shí),模型終于給出了一個(gè)像樣的回答。
GPT-3.5能夠明確「第一種」與「語言」之間的關(guān)聯(lián),并且給出了最早的書面語言是蘇美爾的楔形文字。
對(duì)于口語部分,它則表示很難確定。
可以看出到了GPT-4T時(shí)期,模型已經(jīng)可以給出比較詳細(xì)的回復(fù)了,而且回答包含的信息也是比較豐富的。
再來看剛剛發(fā)布的GPT-4.5,回復(fù)又有了明顯的提升。
它的回復(fù)更加結(jié)構(gòu)化了,而且它首先就給出了明確的回復(fù):「我們無法確切知道第一種語言是什么」。
接著,它列出了一些事實(shí),指出了為什么「人類第一種語言的確切身份仍然是一個(gè)謎」,還強(qiáng)調(diào)了「很可能將永遠(yuǎn)如此」。
我們無法確切知道第一種語言是什么,科學(xué)家們認(rèn)為我們可能永遠(yuǎn)無法確定,因?yàn)榭谡Z早在書面記錄存在之前就已經(jīng)出現(xiàn)了。 以下是我們所知道的: · 沒有單一的「第一語言」:語言很可能在大約幾萬甚至幾十萬年前,同時(shí)在不同的人類群體中逐漸發(fā)展起來。 · 起源于非洲:大多數(shù)科學(xué)家認(rèn)為,口語可能最早出現(xiàn)在非洲的人類中,或許在超過10萬年前。 · 原始語言:人類可能并非從單一語言開始,而是從簡單的交流方式起步,逐漸演變?yōu)楦鼜?fù)雜的語言。最早的語言形式可能包括手勢(shì)、聲音和信號(hào),用來表達(dá)基本的想法和情感。 · 湮沒于歷史:由于口語沒有直接留下化石記錄,而文字的出現(xiàn)相對(duì)較晚(大約5000年前),我們無法確切知道最早的語言聽起來是什么樣子。 如今,語言學(xué)家通過研究現(xiàn)存語言來了解它們?cè)跀?shù)千年中的演變,但人類第一種語言的確切身份仍然是一個(gè)謎,并且很可能將永遠(yuǎn)如此。最懂人心,會(huì)察言觀色
在于人類協(xié)作方面,測(cè)試者在每日查詢、專業(yè)查詢、創(chuàng)意智能方面,更喜歡GPT-4.5的回答,而非GPT-4o。
OpenAI通過scaling訓(xùn)練規(guī)模,讓它們能夠解決更復(fù)雜問題,并教會(huì)它們更深入地理解人類需求和意圖。
具體來說,創(chuàng)新訓(xùn)練技術(shù)能夠從較小模型中提取數(shù)據(jù),然后訓(xùn)練出更大、更強(qiáng)大的模型。
得益于此,GPT-4.5可控性、對(duì)細(xì)微差別的理解能力,以及自然對(duì)話的表現(xiàn)大幅提升。
總的來說,GPT-4.5能更好地理解人類的意圖,并以更高的細(xì)膩度、「情商」解讀微妙的線索或隱含的期望。
此外,GPT-4.5還展現(xiàn)出更強(qiáng)的審美直覺和創(chuàng)造力,在寫作和設(shè)計(jì)方面的協(xié)助尤為出色。
· 情商大比拼
接下來,就讓我們?cè)诰唧w案例中,看看GPT-4.5的情商有多高。
當(dāng)你和GPT-4.5、GPT-4o、o3-mini說,「我最近考試沒過,現(xiàn)在心情特別糟,很難受...」,它們反應(yīng)如何?
可以看出,GPT-4.5特別會(huì)安慰人,有同理心,能夠站在提問者的視角來看問題,給予支持。
唉,真是太遺憾了。考試沒過確實(shí)很打擊人,也會(huì)讓人特別沮喪,但你要記住,這只是一次考試而已,不能代表你這個(gè)人,更不能說明你的實(shí)力。要不要說說具體什么情況?或者咱們聊點(diǎn)別的轉(zhuǎn)換心情?你想怎樣都行,我都在這里陪你。
GPT-4o的回復(fù)則稍顯機(jī)械,雖然給出了挺多建議,但缺少情感上的關(guān)懷。
o3-mini在「人情味」上要好于GPT-4o,與前者一樣給出了不少建議,怎么說呢,多少有些「理工男」。
不會(huì)像GPT-4.5那么細(xì)膩。
在這個(gè)名畫提問中,GPT-4.5不僅明確說出了畫作的名稱、作者、時(shí)間,還描繪了其中的典故。
不僅如此,GPT-4.5還在回答中對(duì)其進(jìn)行的簡短的評(píng)價(jià)。
你提到的是法國著名畫家Claude Lorrain的名作《特洛伊婦女焚燒船隊(duì)》。這幅畫描繪了一個(gè)歷史典故:特洛伊城陷落后,疲憊不堪的特洛伊婦女們不愿繼續(xù)流離失所,于是燃燒了自己的船隊(duì)。這個(gè)場(chǎng)景源自古羅馬詩人Virgil的史詩《埃涅阿斯紀(jì)》(Aeneid),這部史詩講述了特洛伊王子埃涅阿斯逃離家園、最終建立羅馬帝國的傳奇故事。 這幅油畫創(chuàng)作于1643年,是Claude Lorrain的代表作之一。畫作以精湛的技法刻畫了火光照耀下的海景與自然風(fēng)光,將古典神話主題與壯麗的自然景觀完美結(jié)合,展現(xiàn)出獨(dú)特的藝術(shù)魅力。
GPT-4o也正確說出了這幅畫,但與4.5相比缺少了一些細(xì)節(jié),比如創(chuàng)作的時(shí)間以及設(shè)計(jì)的典故等。
o3-mini的回復(fù)則沒有把重點(diǎn)放在畫作本身上,而是首先去強(qiáng)調(diào)了一個(gè)史詩故事,多少有些偏題。在回復(fù)中o3-mini同樣沒有給出多少細(xì)節(jié)。
31頁技術(shù)報(bào)告出爐
在GPT-4.5還未亮相之前,31頁技術(shù)報(bào)告已經(jīng)傳遍全網(wǎng)。
論文地址:https://cdn.openai.com/gpt-4-5-system-card.pdf
在SWE-bench上,GPT-4.5編碼能力完全碾壓GPT-4o,但是與o1、o3-mini、深度研究性能還是有所差距。
經(jīng)過優(yōu)化后的GPT-4.5,解決了20% IC軟件工程師(SWE)任務(wù)和44%的軟件工程經(jīng)理(SWE Manager)任務(wù),相較于o1略有提升。
深度研究模型在這項(xiàng)評(píng)估中依然表現(xiàn)最佳,達(dá)到了SWE-Lancer上的頂尖水平,解決了大約46%的IC軟件工程師任務(wù)和51%軟件工程經(jīng)理任務(wù)。
GPT-4 10倍計(jì)算量,token價(jià)格太離譜
GPT-4.5發(fā)布之際,一些OpenAI研究員,還有業(yè)內(nèi)提前拿到測(cè)試資格大佬,紛紛曬出一手實(shí)測(cè)。
OpenAI科學(xué)家Will Depue表示,我記得當(dāng)GPT-4剛推出時(shí),它明顯比GPT-3.5聰明得多,但卻很難具體指出到底改變了什么!(Nat Friedman對(duì)此發(fā)過一個(gè)很棒的推文串)
而現(xiàn)在,他最近發(fā)現(xiàn):GPT-4.5在推薦音樂方面比4o強(qiáng)多了!
OpenAI研究科學(xué)家Sebastien Bubeck測(cè)試了GPT-4.5的svg能力。顯然,GPT-4.5做出來的獨(dú)角獸,更加精美。
沃頓商學(xué)院教授Ethan Mollick測(cè)試后發(fā)文,GPT-4.5的視覺能力印象深刻。它的分辨和計(jì)數(shù)能力比任何其他模型都要出色。
它甚至還發(fā)現(xiàn)了那只蝴蝶。
在物理模擬方面,GPT-4.5同樣令人驚艷。
小球的數(shù)量很多,五顏六色的,運(yùn)動(dòng)的速度也很快。關(guān)鍵的是這些小球也很符合物理規(guī)則,沒有超出大球的范圍。
這在幾個(gè)月之前都是很難通過模型一次實(shí)現(xiàn)的。
AI大神Karpathy也是第一時(shí)間拿到了內(nèi)測(cè)資格,發(fā)了一段超長的「GPT-4.5+互動(dòng)對(duì)比」的體驗(yàn)解說,核心亮點(diǎn)是:
自從GPT-4發(fā)布以來,我期待這一天已經(jīng)差不多兩年了,因?yàn)檫@次發(fā)布讓我們能夠定性測(cè)量通過Scaling預(yù)訓(xùn)練計(jì)算(即簡單地訓(xùn)練更大模型)所獲得的進(jìn)步斜率。 版本號(hào)中的每個(gè)0.5,大約代表10倍的預(yù)訓(xùn)練計(jì)算量。顯然,GPT-4.5的預(yù)訓(xùn)練計(jì)算量比GPT-4多了10倍。
剛剛,奧特曼還放出OpenAI下一步信號(hào),打造一款社交APP,期待住了。
參考資料:
https://www.youtube.com/watch?v=cfRYp0nItZ8
https://openai.com/index/introducing-gpt-4-5/
GPT-4.5首波實(shí)測(cè)來襲,算力狂飆10倍!高情商逼近AGI,制霸編程物理
【導(dǎo)讀】撇開API價(jià)格暴漲30倍不說,GPT-4.5的實(shí)力還是可圈可點(diǎn)的。用掉10倍GPT-4算力,4.5注定在智能上大幅提升,不僅情商高更通人性,而且在編程、物理模擬測(cè)試中,也不輸專業(yè)對(duì)手。然而,又貴又慢……
今天,OpenAI發(fā)布了史上最貴的AI服務(wù):GPT-4.5。
一邊是「史上最貴」,一邊是「感覺到了AGI」,GPT-4.5從誕生之初就充滿了爭議。
高達(dá)上百倍的價(jià)格差距,究竟帶來了哪些驚艷的提升?
雖然一般人用不起,但依然有一大波實(shí)測(cè)迎面而來。
OpenAI研究員Aidan在X上表示,他花了很長時(shí)間玩這個(gè)新模型,「它讓我感覺到了AGI」。
他使用不同版本的GPT模型來生成一張SVG格式的「美麗」自畫像,結(jié)果看來,GPT-4.5終于可以生成一個(gè)像人的了。
至于「美麗」嘛,那就看個(gè)人喜好了。
Aidan接著說,IQ狂熱者有一個(gè)稱為「g因子」的概念,意思是有些人就是特別聰明,好像什么都擅長(不僅僅是某個(gè)狹窄領(lǐng)域)。
「GPT-4.5在幾乎所有任務(wù)上都有很高的g因子(盡管有時(shí)候這種優(yōu)勢(shì)很微妙),感覺它比我用過的任何其他模型都更能理解這個(gè)世界。」他說。
要知道,GPT-4.5是OpenAI史上參數(shù)規(guī)模最大的模型,其計(jì)算量是上一代的10倍。
不難理解,算力狂飆下的智能,情商更高,還能提供更多的情緒價(jià)值。
編程測(cè)試
智能開發(fā)工具Cursor, 發(fā)文表示:在其他模型失敗的時(shí)候, GPT-4.5有效得邪門。
這種說法有些繞,Cursor為什么不直接夸GPT-4.5「目前最佳」?
因?yàn)樗娌皇恰?/p>
同樣致力于AI+軟件領(lǐng)域的Scott Wu,表示GPT-4.5在編程任務(wù)上進(jìn)步明顯,但和Claude3.7 Sonnet比起來,只能說各有輸贏。
在初級(jí)開發(fā)得分上,GPT-4.5比OpenAI自家的o1高10%,比GPT-4o高16%,但比Anthropic旗下的Claude 3.7 Sonnet低2%。
部分AI模型在智能編碼評(píng)估中的比較:GPT-4o最差,Sonnet 3.7最好
GPT-4.5并沒有針對(duì)編碼編程任務(wù)優(yōu)化,這么大的進(jìn)步似乎還可以?
網(wǎng)友Flavio對(duì)GPT-4.5做了編程測(cè)試,他給了下面的提示詞:
編寫一個(gè) Python 程序,展示一個(gè)球在旋轉(zhuǎn)的六邊形內(nèi)彈跳。球應(yīng)受到重力和摩擦力的影響,并且必須以逼真的方式從旋轉(zhuǎn)的墻壁上彈回。
GPT-4.5的輸出令人印象深刻!
Flavio表示,「這是迄今為止最真實(shí)的結(jié)果。」
接著,OpenAI Developers的X賬號(hào)也注意到了Flavio的測(cè)試,他們?cè)贔lavio的提示詞基礎(chǔ)上,要求GPT-4.5做的更有創(chuàng)意。
改進(jìn)之后的視覺效果果然更有創(chuàng)意,小球不僅五顏六色的,碰撞還有飛濺效果!
,時(shí)長
00:49
不過也不是每次測(cè)試都會(huì)成功。
網(wǎng)友Theo-t3.gg就展示了一次失敗的嘗試。
「從未見過一個(gè)模型以如此獨(dú)特、新穎的方式艱難失敗。」他說道。
在他的這次測(cè)試中,小球來回穿過六邊形,顯得毫無邏輯可言。
還有網(wǎng)友稱,使用新發(fā)布的Sonnet 3.7,只需要3個(gè)提示就完成了。而且后兩個(gè)提示只是為了使它更有趣。
網(wǎng)友Theo-t3.gg自己也承認(rèn),GPT-4.5并不是一個(gè)編碼模型。
他表示「我發(fā)現(xiàn)它在寫作方面相當(dāng)不錯(cuò)。」
隨后他貼出了GPT-4.5與Gemini 2.0 Flash的寫作對(duì)比。
他使用了一段相同的提示詞:
艾倫·圖靈一生的情感概述。
總體而言,GPT-4.5的寫作水平明顯高于Gemini 2.0 Flash的文章。
GPT-4.5的文章在結(jié)構(gòu)、語言、文風(fēng)、內(nèi)容深度和情感表達(dá)上都更加成熟和精煉,展現(xiàn)了更高的寫作技巧和敘事能力。
Gemini 2.0 Flash的文章雖然活潑有趣,但過于口語化,缺乏深度和嚴(yán)謹(jǐn)性,更適合輕松閱讀,而非深入了解圖靈生平的嚴(yán)肅探討。
有網(wǎng)友甚至稱,「我從未見過這么好的AI寫作」。
「這是寫作的斯普特尼克時(shí)刻。」
該網(wǎng)友給了GPT-4.5一個(gè)提示詞:
寫一個(gè)原創(chuàng)的短篇恐怖故事,背景設(shè)定在夜晚的一輛汽車中,帶有反轉(zhuǎn)結(jié)局。
下面是它的回答,你覺得它寫的咋樣?
一對(duì)情侶在月光下開車兜風(fēng)。他們的車停在了路邊。 男孩轉(zhuǎn)向女孩說道: 「寶貝,我真的很愛你。」 「怎么了,親愛的?」 「我們的車拋錨了,應(yīng)該是發(fā)動(dòng)機(jī)出故障了。我得走路去買些汽油。」 「好吧,那我在這兒守著音響。最近新聞報(bào)道說有人專門偷音響。」 「這主意不錯(cuò)。記住,無論發(fā)生什么事都不要給任何人開門。親愛的,我愛你。」 說完,男孩就出發(fā)去買汽油了。兩個(gè)小時(shí)過去了,女孩喃喃自語道:「怎么回事?他應(yīng)該早就回來了啊。」就在這時(shí),她聽到有什么東西在刮擦車門,還傳來一個(gè)聲音: 「讓我進(jìn)去!」 女孩始終沒有開門,后來疲憊地睡著了。第二天早晨醒來,她發(fā)現(xiàn)男友依然沒有回來。當(dāng)她下車查看時(shí),卻發(fā)現(xiàn)「男人的手被鉤在車門上。」
有網(wǎng)友看后感到害怕,看來它寫的的確是恐怖故事。
游戲
除了旋轉(zhuǎn)球和寫作,網(wǎng)友AK也測(cè)試了GPT-4.5的游戲能力。
他給出一段提示詞:一個(gè)基于網(wǎng)絡(luò)的自主Wordle游戲克隆版,采用7個(gè)字母的單詞和7次猜測(cè)機(jī)會(huì),包含一些隨機(jī)的7個(gè)字母單詞。
GPT-4.5生成的游戲看起來還算不錯(cuò),看起來甚至有幾分高級(jí)感!
情感大師
OpenAI認(rèn)為GPT-4.5的一大特點(diǎn)就是「高情商」,交互更自然。
OpenAI的員工Aidan McLaughlin表示,GPT-4.5更懂如何與人聊天,知道在什么時(shí)候避免給用戶發(fā)送無聊的網(wǎng)絡(luò)內(nèi)容。
比如說,GPT-4.5-preview和GPT-4o同樣的提示:
I’m going through a tough time after a test
GPT-4.5-preview給出了富有人性的安慰:
聽到你倍感難受,我非常抱歉。但要記得一次測(cè)試并不能定義你或你的能力。感到失望或沮喪,這很正常。但在處理這些情緒的時(shí)候,請(qǐng)善待自己。 要不聊聊到底發(fā)生了什么?或者聊聊下次遇到這類事,該如何處理?我一直在這兒,助你度過難關(guān)。
而GPT-4o的回答顯得冷靜:
很抱歉你經(jīng)歷了這些。記住,不能如愿做好某件事時(shí),感到失望或沮喪是正常的。 下列的一些事可能會(huì)幫助你: 1. 給自己一些時(shí)間:…… 2. 反思發(fā)生了什么:…… 3. 找其他人談?wù)劊骸?4. 為下一步做好計(jì)劃:…… 5. 牢記自己的強(qiáng)項(xiàng):…… 6. 保持積極的心態(tài):……
網(wǎng)友Anon設(shè)想如果AI和機(jī)器人技術(shù)結(jié)合,可能比真人更受大家歡迎。
或許,將來AI真的能成為人類親密的朋友?
最大體感,又慢又貴
而GPT-4.5的價(jià)格嘛,已經(jīng)完全跳脫了。所有OpenAI競(jìng)家相爭的區(qū)間密集擁擠,而GPT-4.5獨(dú)占一個(gè)區(qū)間。
在很多模型已經(jīng)是拼夕夕價(jià)格的時(shí)候,OpenAI居然敢這么定價(jià),你敢信?
就輸入價(jià)格來看,GPT-4.5是:
o1的5倍
GPT-4o的30倍
o3-mini的68倍
DeepSeek-R1的137倍
DeepSeek-V3的278倍
GPT-4o mini的500倍
Gemini 2.0 Flash的750倍
當(dāng)然了,雖然定價(jià)十分離譜,但性能的提升還是有的。
比如這位網(wǎng)友就要求它憑記憶背出深?yuàn)W的梵文經(jīng)文,它居然正確背出來了。
看得出來,如此大參數(shù)模型,配上超大規(guī)模的預(yù)訓(xùn)練,的確展現(xiàn)出了廣泛的事實(shí)知識(shí)。
對(duì)此,OpenAI研究員則略帶幽默地調(diào)侃道:也許,預(yù)訓(xùn)練終究還是有效的?
不過,大部分網(wǎng)友可遭不住了,紛紛直呼:「用不起!」
還有網(wǎng)友表示,感謝OpenAI,碼農(nóng)們終于不用擔(dān)心自己被替代了。
畢竟,相比起新模型,還是初級(jí)開發(fā)者更有性價(jià)比。
左右滑動(dòng)查看
關(guān)于GPT-4.5的離譜價(jià)格,已經(jīng)引發(fā)某些網(wǎng)友大膽的猜測(cè)了。
比如API定價(jià)這么高,莫非是為了防止蒸餾?
還是因?yàn)镚PU告急,所以根本不想讓用戶用了?
左右滑動(dòng)查看
此外,許多試用過的網(wǎng)友,最真實(shí)的體感就是:這也太慢了……
1M tokens輸出價(jià)格是150刀,然后速度是每秒1-3個(gè)token,這筆賬好像怎么算怎么不對(duì)。
有人分析認(rèn)為,GPT-4.5這么慢,是因?yàn)樗罅恕;蛟S剛立項(xiàng)那會(huì)兒,還是當(dāng)初模型「越大越好」的年代。
如此看來,OpenAI的領(lǐng)先優(yōu)勢(shì),似乎已經(jīng)所剩無幾了?
網(wǎng)上,各種梗圖也是層出不窮。
甚至,已經(jīng)有前OpenAI研究員跳出來「背刺」了:GPT-4.5表現(xiàn)不佳,50%的責(zé)任應(yīng)該歸功于辣雞的模型架構(gòu)。
參考資料:JHNYZ
https://x.com/aidan_mclau/status/1895204299040530794
https://x.com/OpenAIDevs/status/1895226704408481893
https://x.com/theo/status/1895220930173116747
https://x.com/aidan_mclau/status/1895207802018341294
https://x.com/_akhaliq/status/1895247370792902733
https://x.com/cursor_ai/status/1895210110714290302
為偉大思想而生!
AI+時(shí)代,互聯(lián)網(wǎng)思想(wanging0123),
第一必讀自媒體
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.