網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI的重磅炸彈GPT-4.5終于來了！最大特點(diǎn)就是情商高、很類人

2025-02-28 23:44:51　來源: 互聯(lián)網(wǎng)思想

廣東舉報(bào)

分享至

剛剛，GPT-4.5震撼上線情商逆天！

OpenAI最大最貴模型最像人類，奧特曼帶娃缺席

來源：新智元

【導(dǎo)讀】OpenAI的重磅炸彈GPT-4.5，剛剛?cè)缙谏暇€了！它并不是推理模型，但是規(guī)模最大、知識(shí)最豐富，最鮮明的特點(diǎn)就是情商高、很類人。Pro版用戶和付費(fèi)開發(fā)者已經(jīng)能用了，但token定價(jià)有點(diǎn)離譜。

就在剛剛，萬眾矚目矚目的GPT-4.5終于登場(chǎng)！

雖然它并不是推理模型，但OpenAI對(duì)它的評(píng)價(jià)是——更實(shí)用，本質(zhì)上更智能。

進(jìn)行展示的OpenAI研究者中，有一位華人科學(xué)家：Youlong Cheng

劃重點(diǎn)：今天起，GPT-4.5會(huì)向所有ChatGPT Pro版用戶開放，包括網(wǎng)頁端、移動(dòng)端和桌面端。另外所有付費(fèi)開發(fā)者也能使用了。

下周會(huì)向Team版和Plus版開放，隨后一周就是Edu和Enterprise版的用戶。

GPT-4.5研究預(yù)覽版，是OpenAI迄今為止規(guī)模最大、知識(shí)儲(chǔ)備最豐富的模型。

作為GPT-4o升級(jí)版，GPT-4.5在預(yù)訓(xùn)練規(guī)模上進(jìn)一步Scaling，同時(shí)被設(shè)計(jì)成一個(gè)通用性更強(qiáng)的模型。

它秘密武器便是——Scaling無監(jiān)督學(xué)習(xí)和推理。

基于新舊技術(shù)的融合，GPT-4.5能更好地識(shí)別模式、連接信息，甚至在不需要復(fù)雜推理情況下，就能給出富有創(chuàng)意的回答。而且，幻覺率大幅降低。

這難道就是奧特曼口中的AGI嗎？

在多項(xiàng)基準(zhǔn)測(cè)試中，GPT-4.5實(shí)力碾壓GPT-4o，尤其在數(shù)學(xué)能力上飆升27%，編碼能力提升7%-10%。

其中，在SWE-Lancer這種更依賴深層世界知識(shí)的評(píng)估中，GPT-4.5甚至一舉超越了o3-mini！

這充分展示了無監(jiān)督學(xué)習(xí)與推理能力提升之間的互補(bǔ)關(guān)系。

在最新Cognition編碼實(shí)測(cè)中，GPT-4.5的能力雖不及Claude 3.7，但明顯超越了DeepSeek-R1、o1、GPT-4o等模型。

唯一值得吐槽的是，GPT-4.5的token定價(jià)著實(shí)有些離大譜：每1M tokens輸入價(jià)格為75刀，輸出價(jià)格為150刀。

奧特曼承認(rèn)：GPT-4.5很像人，但龐大且昂貴

奧特曼激動(dòng)發(fā)文表示，「GPT-4.5準(zhǔn)備就緒了」！

好消息是，這是第一個(gè)讓我感覺像在和一個(gè)深思熟慮的人交談的模型。有幾次我靠在椅子上，對(duì)于能從AI那里得到真正有用的建議感到驚訝。壞消息是，這是一個(gè)龐大且昂貴的模型。目前，僅向Pro會(huì)員推出。

他解釋道，由于OpenAI發(fā)展太快，內(nèi)部GPU不夠用了。下周將增加數(shù)萬個(gè)GPU，屆時(shí)會(huì)向Plus會(huì)員推出。

「很快會(huì)增加數(shù)十萬個(gè)，我很確定你們會(huì)用掉我們能搭建的每一個(gè)GPU。這不是我們想要的運(yùn)營方式，但要完美預(yù)測(cè)導(dǎo)致GPU短缺的增長高峰確實(shí)很難」。

提前說明：這不是一個(gè)專注于推理的模型，也不會(huì)在基準(zhǔn)測(cè)試中獲得驚人成績。這是一種不同類型的智能，它具有我之前從未感受過的魔力。真的很期待大家來嘗試！

OpenAI研究科學(xué)家Noam Brown稱，「Scaling預(yù)訓(xùn)練和scaling思考能力，是兩個(gè)不同維度的提升。它們是互補(bǔ)的，而非相互競(jìng)爭」。

左右滑動(dòng)查看

還有網(wǎng)友追問奧特曼為啥沒有現(xiàn)身，原因竟是需要在醫(yī)院帶娃。

奧特曼缺席，直播第一個(gè)demo：我被鴿了，很氣

作為OpenAI目前規(guī)模最大、知識(shí)儲(chǔ)備最豐富的模型，GPT-4.5通過擴(kuò)展兩種不同范式來提升AI能力——無監(jiān)督學(xué)習(xí)和推理能力。

其中，推理會(huì)讓GPT-4.5在回應(yīng)前先思考，這提高了它在科學(xué)、數(shù)學(xué)和其他困難復(fù)雜問題上的性能。

而無監(jiān)督學(xué)習(xí)，則增加了模型的詞匯知識(shí)、直覺力，并減少了模型幻覺。

注意，跟o系列模型不同，GPT-4.5并不會(huì)一步一步推理，但它更實(shí)用、本質(zhì)上更智能。

尤其因?yàn)樗皇峭评砟Ｐ停琌penAI的研究者們也仍在對(duì)之試驗(yàn)，探索無監(jiān)督學(xué)習(xí)究竟能展現(xiàn)出什么樣的能力。

迄今最好的聊天模型：更體察，更細(xì)膩

GPT-4.5的最大特色，就是交互非常自然，被評(píng)為OpenAI「迄今最好的聊天模型」，

原因就在于，它有更深入的知識(shí)，和更好的上下文理解能力，在改進(jìn)寫作、編程或解決實(shí)際問題等任務(wù)上特別有用。

研究者現(xiàn)場(chǎng)演示了一把，跟GPT-4.5對(duì)話究竟是什么樣的體驗(yàn)。

告訴它：「朋友們又把我鴿了！幫我寫個(gè)消息，告訴他們我恨他們。」

可以看到，GPT-4.5敏銳地覺察到了他的沮喪，語氣柔和地給予了安慰，提供了細(xì)膩的建議。

而與之形成對(duì)比的，就是看起來「不近人情」的o1了。

它雖然的確給出了憤怒的恢復(fù)，但并沒有捕捉到作者話語間傳達(dá)出來的暗示——能不能安慰我一下。

下一個(gè)考驗(yàn)，是讓兩個(gè)模型分別從第一性原理，解釋AI對(duì)齊是什么。

對(duì)比之下可以看出，o1雖然提供了大量有用信息和知識(shí)點(diǎn)，但GPT-4.5的回答更加自然流暢。

研究者表示，對(duì)模型來說，我們需要教會(huì)它們更好地理解人類需求和意圖。

為此，他們針對(duì)GPT-4.5開發(fā)了新的可擴(kuò)展對(duì)齊技術(shù)，這樣就能從較小模型獲得的數(shù)據(jù)來訓(xùn)練它，于是真正釋放了它的深層世界模型。

在后面我們會(huì)看到，GPT-4.5在準(zhǔn)確率上超越了其他GPT模型，同時(shí)也實(shí)現(xiàn)了最低的幻覺率。

OpenAI還特意邀請(qǐng)了人類測(cè)試者將其與GPT-4o進(jìn)行對(duì)比，結(jié)果顯示，GPT-4.5 在幾乎所有類別中都表現(xiàn)更優(yōu)異，對(duì)話得更溫暖、更直觀、情感更加細(xì)膩。

華人研究者Youlong，負(fù)責(zé)的是后訓(xùn)練基礎(chǔ)設(shè)施。

他和同事們發(fā)現(xiàn)，運(yùn)行如此大規(guī)模的模型，就要求后訓(xùn)練基礎(chǔ)設(shè)施進(jìn)一步優(yōu)化，因?yàn)轭A(yù)訓(xùn)練階段和后訓(xùn)練階段的訓(xùn)練數(shù)據(jù)與參數(shù)規(guī)模比例有很大差異。

為此，他們開發(fā)了一種新的訓(xùn)練機(jī)制，用更少的計(jì)算開銷來微調(diào)這樣規(guī)模的模型。

結(jié)合監(jiān)督微調(diào)和RLHF，他們通過多輪迭代進(jìn)行后期訓(xùn)練，終于開發(fā)出了一個(gè)可以部署的新模型。

給GPT-4.5投入最大的計(jì)算能力

接下來，他們問了所有模型這樣一個(gè)問題：海水為什么是咸的？

我們從GPT-4.5倒著看各代模型的回答。

可以看到，從GPT-4T開始，模型回答的質(zhì)量就會(huì)稍好一些。而GPT-4.5的表現(xiàn)，顯然最精彩——清晰、精確、一致，而且非常有趣。

左右滑動(dòng)查看

比如這句「海水是咸的，是由于雨水、河流和石頭」，通俗易懂又好記，充分體現(xiàn)了GPT-4.5的個(gè)性。

研究者介紹說，除了為實(shí)現(xiàn)GPT-4.5而進(jìn)行的系統(tǒng)擴(kuò)展工作外，他們還在架構(gòu)、數(shù)據(jù)和優(yōu)化方面投入了大量工作來實(shí)現(xiàn)訓(xùn)練。

Scaling「無監(jiān)督學(xué)習(xí)」邊界

正如前文所述，憑借雙重buff加持下——Scaling無監(jiān)督學(xué)習(xí)和推理，GPT-4.5性能取得了顯著提升。

無監(jiān)督學(xué)習(xí)和推理，代表著智力的兩個(gè)維度。

· 推理

Scaling推理能力教會(huì)模型在回答前進(jìn)行思考并生成思維鏈，使其能夠處理復(fù)雜的STEM或邏輯問題。

比如，o1和o3-mini模型，就是這種模式的代表。

· 無監(jiān)督學(xué)習(xí)

另一方面，無監(jiān)督學(xué)習(xí)則是讓模型對(duì)世界的理解更準(zhǔn)確，憑直覺判斷更聰明。

GPT-4.5就是無監(jiān)督學(xué)習(xí)的典型案例。

通過增加計(jì)算能力和數(shù)據(jù)量，再加上架構(gòu)和優(yōu)化創(chuàng)新，使其變得知識(shí)更廣、對(duì)世界的理解更深。

知識(shí)淵博，擊敗Grok 3

GPT-4.5具備了強(qiáng)大的世界知識(shí)，在問答基準(zhǔn)上，準(zhǔn)確率明顯超越了Grok 3、GPT-4o、o3-mini。

GPT-4.5得分62.5%，比Grok 3明顯提升近20%。

與此同時(shí)，在幻覺方面，GPT-4.5是最低的，僅有37.1%。而o3-mini幻覺率高達(dá)80.3%。

同一個(gè)問題，不同世代模型的回答

具體來說，GPT-4.5在回答問題方面，和前幾代模型的區(qū)別在哪？

給到同樣一個(gè)問題——世界第一門語言是什么？

可以看到GPT-1只是不斷地重復(fù)問題，并沒有給出解釋或者答案而且似乎有點(diǎn)停不下來。

到了2019年出世的GPT-2，則能夠回答出一段完整的回復(fù)了。

只是這個(gè)回復(fù)與給出的問題相比不能說毫無關(guān)系吧，只能說是關(guān)系不大。

GPT-2只是解釋說了什么是「語言」，但對(duì)于什么是第一種語言則沒有提及。

到了GPT-3.5時(shí)，模型終于給出了一個(gè)像樣的回答。

GPT-3.5能夠明確「第一種」與「語言」之間的關(guān)聯(lián)，并且給出了最早的書面語言是蘇美爾的楔形文字。

對(duì)于口語部分，它則表示很難確定。

可以看出到了GPT-4T時(shí)期，模型已經(jīng)可以給出比較詳細(xì)的回復(fù)了，而且回答包含的信息也是比較豐富的。

再來看剛剛發(fā)布的GPT-4.5，回復(fù)又有了明顯的提升。

它的回復(fù)更加結(jié)構(gòu)化了，而且它首先就給出了明確的回復(fù)：「我們無法確切知道第一種語言是什么」。

接著，它列出了一些事實(shí)，指出了為什么「人類第一種語言的確切身份仍然是一個(gè)謎」，還強(qiáng)調(diào)了「很可能將永遠(yuǎn)如此」。

我們無法確切知道第一種語言是什么，科學(xué)家們認(rèn)為我們可能永遠(yuǎn)無法確定，因?yàn)榭谡Z早在書面記錄存在之前就已經(jīng)出現(xiàn)了。以下是我們所知道的： · 沒有單一的「第一語言」：語言很可能在大約幾萬甚至幾十萬年前，同時(shí)在不同的人類群體中逐漸發(fā)展起來。 · 起源于非洲：大多數(shù)科學(xué)家認(rèn)為，口語可能最早出現(xiàn)在非洲的人類中，或許在超過10萬年前。 · 原始語言：人類可能并非從單一語言開始，而是從簡單的交流方式起步，逐漸演變?yōu)楦鼜?fù)雜的語言。最早的語言形式可能包括手勢(shì)、聲音和信號(hào)，用來表達(dá)基本的想法和情感。 · 湮沒于歷史：由于口語沒有直接留下化石記錄，而文字的出現(xiàn)相對(duì)較晚（大約5000年前），我們無法確切知道最早的語言聽起來是什么樣子。如今，語言學(xué)家通過研究現(xiàn)存語言來了解它們?cè)跀?shù)千年中的演變，但人類第一種語言的確切身份仍然是一個(gè)謎，并且很可能將永遠(yuǎn)如此。

最懂人心，會(huì)察言觀色

在于人類協(xié)作方面，測(cè)試者在每日查詢、專業(yè)查詢、創(chuàng)意智能方面，更喜歡GPT-4.5的回答，而非GPT-4o。

OpenAI通過scaling訓(xùn)練規(guī)模，讓它們能夠解決更復(fù)雜問題，并教會(huì)它們更深入地理解人類需求和意圖。

具體來說，創(chuàng)新訓(xùn)練技術(shù)能夠從較小模型中提取數(shù)據(jù)，然后訓(xùn)練出更大、更強(qiáng)大的模型。

得益于此，GPT-4.5可控性、對(duì)細(xì)微差別的理解能力，以及自然對(duì)話的表現(xiàn)大幅提升。

總的來說，GPT-4.5能更好地理解人類的意圖，并以更高的細(xì)膩度、「情商」解讀微妙的線索或隱含的期望。

此外，GPT-4.5還展現(xiàn)出更強(qiáng)的審美直覺和創(chuàng)造力，在寫作和設(shè)計(jì)方面的協(xié)助尤為出色。

· 情商大比拼

接下來，就讓我們?cè)诰唧w案例中，看看GPT-4.5的情商有多高。

當(dāng)你和GPT-4.5、GPT-4o、o3-mini說，「我最近考試沒過，現(xiàn)在心情特別糟，很難受...」，它們反應(yīng)如何？

可以看出，GPT-4.5特別會(huì)安慰人，有同理心，能夠站在提問者的視角來看問題，給予支持。

唉，真是太遺憾了。考試沒過確實(shí)很打擊人，也會(huì)讓人特別沮喪，但你要記住，這只是一次考試而已，不能代表你這個(gè)人，更不能說明你的實(shí)力。要不要說說具體什么情況？或者咱們聊點(diǎn)別的轉(zhuǎn)換心情？你想怎樣都行，我都在這里陪你。

GPT-4o的回復(fù)則稍顯機(jī)械，雖然給出了挺多建議，但缺少情感上的關(guān)懷。

o3-mini在「人情味」上要好于GPT-4o，與前者一樣給出了不少建議，怎么說呢，多少有些「理工男」。

不會(huì)像GPT-4.5那么細(xì)膩。

在這個(gè)名畫提問中，GPT-4.5不僅明確說出了畫作的名稱、作者、時(shí)間，還描繪了其中的典故。

不僅如此，GPT-4.5還在回答中對(duì)其進(jìn)行的簡短的評(píng)價(jià)。

你提到的是法國著名畫家Claude Lorrain的名作《特洛伊婦女焚燒船隊(duì)》。這幅畫描繪了一個(gè)歷史典故：特洛伊城陷落后，疲憊不堪的特洛伊婦女們不愿繼續(xù)流離失所，于是燃燒了自己的船隊(duì)。這個(gè)場(chǎng)景源自古羅馬詩人Virgil的史詩《埃涅阿斯紀(jì)》（Aeneid），這部史詩講述了特洛伊王子埃涅阿斯逃離家園、最終建立羅馬帝國的傳奇故事。這幅油畫創(chuàng)作于1643年，是Claude Lorrain的代表作之一。畫作以精湛的技法刻畫了火光照耀下的海景與自然風(fēng)光，將古典神話主題與壯麗的自然景觀完美結(jié)合，展現(xiàn)出獨(dú)特的藝術(shù)魅力。

GPT-4o也正確說出了這幅畫，但與4.5相比缺少了一些細(xì)節(jié)，比如創(chuàng)作的時(shí)間以及設(shè)計(jì)的典故等。

o3-mini的回復(fù)則沒有把重點(diǎn)放在畫作本身上，而是首先去強(qiáng)調(diào)了一個(gè)史詩故事，多少有些偏題。在回復(fù)中o3-mini同樣沒有給出多少細(xì)節(jié)。

31頁技術(shù)報(bào)告出爐

在GPT-4.5還未亮相之前，31頁技術(shù)報(bào)告已經(jīng)傳遍全網(wǎng)。

論文地址：https://cdn.openai.com/gpt-4-5-system-card.pdf

在SWE-bench上，GPT-4.5編碼能力完全碾壓GPT-4o，但是與o1、o3-mini、深度研究性能還是有所差距。

經(jīng)過優(yōu)化后的GPT-4.5，解決了20% IC軟件工程師（SWE）任務(wù)和44%的軟件工程經(jīng)理（SWE Manager）任務(wù)，相較于o1略有提升。

深度研究模型在這項(xiàng)評(píng)估中依然表現(xiàn)最佳，達(dá)到了SWE-Lancer上的頂尖水平，解決了大約46%的IC軟件工程師任務(wù)和51%軟件工程經(jīng)理任務(wù)。

GPT-4 10倍計(jì)算量，token價(jià)格太離譜

GPT-4.5發(fā)布之際，一些OpenAI研究員，還有業(yè)內(nèi)提前拿到測(cè)試資格大佬，紛紛曬出一手實(shí)測(cè)。

OpenAI科學(xué)家Will Depue表示，我記得當(dāng)GPT-4剛推出時(shí)，它明顯比GPT-3.5聰明得多，但卻很難具體指出到底改變了什么！（Nat Friedman對(duì)此發(fā)過一個(gè)很棒的推文串）

而現(xiàn)在，他最近發(fā)現(xiàn)：GPT-4.5在推薦音樂方面比4o強(qiáng)多了！

OpenAI研究科學(xué)家Sebastien Bubeck測(cè)試了GPT-4.5的svg能力。顯然，GPT-4.5做出來的獨(dú)角獸，更加精美。

沃頓商學(xué)院教授Ethan Mollick測(cè)試后發(fā)文，GPT-4.5的視覺能力印象深刻。它的分辨和計(jì)數(shù)能力比任何其他模型都要出色。

它甚至還發(fā)現(xiàn)了那只蝴蝶。

在物理模擬方面，GPT-4.5同樣令人驚艷。

小球的數(shù)量很多，五顏六色的，運(yùn)動(dòng)的速度也很快。關(guān)鍵的是這些小球也很符合物理規(guī)則，沒有超出大球的范圍。

這在幾個(gè)月之前都是很難通過模型一次實(shí)現(xiàn)的。

AI大神Karpathy也是第一時(shí)間拿到了內(nèi)測(cè)資格，發(fā)了一段超長的「GPT-4.5+互動(dòng)對(duì)比」的體驗(yàn)解說，核心亮點(diǎn)是：

自從GPT-4發(fā)布以來，我期待這一天已經(jīng)差不多兩年了，因?yàn)檫@次發(fā)布讓我們能夠定性測(cè)量通過Scaling預(yù)訓(xùn)練計(jì)算（即簡單地訓(xùn)練更大模型）所獲得的進(jìn)步斜率。版本號(hào)中的每個(gè)0.5，大約代表10倍的預(yù)訓(xùn)練計(jì)算量。顯然，GPT-4.5的預(yù)訓(xùn)練計(jì)算量比GPT-4多了10倍。

剛剛，奧特曼還放出OpenAI下一步信號(hào)，打造一款社交APP，期待住了。

參考資料：

https://www.youtube.com/watch?v=cfRYp0nItZ8

https://openai.com/index/introducing-gpt-4-5/

GPT-4.5首波實(shí)測(cè)來襲，算力狂飆10倍！高情商逼近AGI，制霸編程物理

【導(dǎo)讀】撇開API價(jià)格暴漲30倍不說，GPT-4.5的實(shí)力還是可圈可點(diǎn)的。用掉10倍GPT-4算力，4.5注定在智能上大幅提升，不僅情商高更通人性，而且在編程、物理模擬測(cè)試中，也不輸專業(yè)對(duì)手。然而，又貴又慢……

今天，OpenAI發(fā)布了史上最貴的AI服務(wù)：GPT-4.5。

一邊是「史上最貴」，一邊是「感覺到了AGI」，GPT-4.5從誕生之初就充滿了爭議。

高達(dá)上百倍的價(jià)格差距，究竟帶來了哪些驚艷的提升？

雖然一般人用不起，但依然有一大波實(shí)測(cè)迎面而來。

OpenAI研究員Aidan在X上表示，他花了很長時(shí)間玩這個(gè)新模型，「它讓我感覺到了AGI」。

他使用不同版本的GPT模型來生成一張SVG格式的「美麗」自畫像，結(jié)果看來，GPT-4.5終于可以生成一個(gè)像人的了。

至于「美麗」嘛，那就看個(gè)人喜好了。

Aidan接著說，IQ狂熱者有一個(gè)稱為「g因子」的概念，意思是有些人就是特別聰明，好像什么都擅長（不僅僅是某個(gè)狹窄領(lǐng)域）。

「GPT-4.5在幾乎所有任務(wù)上都有很高的g因子（盡管有時(shí)候這種優(yōu)勢(shì)很微妙），感覺它比我用過的任何其他模型都更能理解這個(gè)世界。」他說。

要知道，GPT-4.5是OpenAI史上參數(shù)規(guī)模最大的模型，其計(jì)算量是上一代的10倍。

不難理解，算力狂飆下的智能，情商更高，還能提供更多的情緒價(jià)值。

編程測(cè)試

智能開發(fā)工具Cursor，發(fā)文表示：在其他模型失敗的時(shí)候， GPT-4.5有效得邪門。

這種說法有些繞，Cursor為什么不直接夸GPT-4.5「目前最佳」？

因?yàn)樗娌皇恰?/p>

同樣致力于AI+軟件領(lǐng)域的Scott Wu，表示GPT-4.5在編程任務(wù)上進(jìn)步明顯，但和Claude3.7 Sonnet比起來，只能說各有輸贏。

在初級(jí)開發(fā)得分上，GPT-4.5比OpenAI自家的o1高10%，比GPT-4o高16%，但比Anthropic旗下的Claude 3.7 Sonnet低2%。

部分AI模型在智能編碼評(píng)估中的比較：GPT-4o最差，Sonnet 3.7最好

GPT-4.5并沒有針對(duì)編碼編程任務(wù)優(yōu)化，這么大的進(jìn)步似乎還可以？

網(wǎng)友Flavio對(duì)GPT-4.5做了編程測(cè)試，他給了下面的提示詞：

編寫一個(gè) Python 程序，展示一個(gè)球在旋轉(zhuǎn)的六邊形內(nèi)彈跳。球應(yīng)受到重力和摩擦力的影響，并且必須以逼真的方式從旋轉(zhuǎn)的墻壁上彈回。

GPT-4.5的輸出令人印象深刻！

Flavio表示，「這是迄今為止最真實(shí)的結(jié)果。」

接著，OpenAI Developers的X賬號(hào)也注意到了Flavio的測(cè)試，他們?cè)贔lavio的提示詞基礎(chǔ)上，要求GPT-4.5做的更有創(chuàng)意。

改進(jìn)之后的視覺效果果然更有創(chuàng)意，小球不僅五顏六色的，碰撞還有飛濺效果！

，時(shí)長

00:49

不過也不是每次測(cè)試都會(huì)成功。

網(wǎng)友Theo-t3.gg就展示了一次失敗的嘗試。

「從未見過一個(gè)模型以如此獨(dú)特、新穎的方式艱難失敗。」他說道。

在他的這次測(cè)試中，小球來回穿過六邊形，顯得毫無邏輯可言。

還有網(wǎng)友稱，使用新發(fā)布的Sonnet 3.7，只需要3個(gè)提示就完成了。而且后兩個(gè)提示只是為了使它更有趣。

網(wǎng)友Theo-t3.gg自己也承認(rèn)，GPT-4.5并不是一個(gè)編碼模型。

他表示「我發(fā)現(xiàn)它在寫作方面相當(dāng)不錯(cuò)。」

隨后他貼出了GPT-4.5與Gemini 2.0 Flash的寫作對(duì)比。

他使用了一段相同的提示詞：

艾倫·圖靈一生的情感概述。

總體而言，GPT-4.5的寫作水平明顯高于Gemini 2.0 Flash的文章。

GPT-4.5的文章在結(jié)構(gòu)、語言、文風(fēng)、內(nèi)容深度和情感表達(dá)上都更加成熟和精煉，展現(xiàn)了更高的寫作技巧和敘事能力。

Gemini 2.0 Flash的文章雖然活潑有趣，但過于口語化，缺乏深度和嚴(yán)謹(jǐn)性，更適合輕松閱讀，而非深入了解圖靈生平的嚴(yán)肅探討。

有網(wǎng)友甚至稱，「我從未見過這么好的AI寫作」。

「這是寫作的斯普特尼克時(shí)刻。」

該網(wǎng)友給了GPT-4.5一個(gè)提示詞：

寫一個(gè)原創(chuàng)的短篇恐怖故事，背景設(shè)定在夜晚的一輛汽車中，帶有反轉(zhuǎn)結(jié)局。

下面是它的回答，你覺得它寫的咋樣？

一對(duì)情侶在月光下開車兜風(fēng)。他們的車停在了路邊。男孩轉(zhuǎn)向女孩說道：「寶貝，我真的很愛你。」「怎么了，親愛的？」「我們的車拋錨了，應(yīng)該是發(fā)動(dòng)機(jī)出故障了。我得走路去買些汽油。」「好吧，那我在這兒守著音響。最近新聞報(bào)道說有人專門偷音響。」「這主意不錯(cuò)。記住，無論發(fā)生什么事都不要給任何人開門。親愛的，我愛你。」說完，男孩就出發(fā)去買汽油了。兩個(gè)小時(shí)過去了，女孩喃喃自語道：「怎么回事？他應(yīng)該早就回來了啊。」就在這時(shí)，她聽到有什么東西在刮擦車門，還傳來一個(gè)聲音：「讓我進(jìn)去！」女孩始終沒有開門，后來疲憊地睡著了。第二天早晨醒來，她發(fā)現(xiàn)男友依然沒有回來。當(dāng)她下車查看時(shí)，卻發(fā)現(xiàn)「男人的手被鉤在車門上。」

有網(wǎng)友看后感到害怕，看來它寫的的確是恐怖故事。

游戲

除了旋轉(zhuǎn)球和寫作，網(wǎng)友AK也測(cè)試了GPT-4.5的游戲能力。

他給出一段提示詞：一個(gè)基于網(wǎng)絡(luò)的自主Wordle游戲克隆版，采用7個(gè)字母的單詞和7次猜測(cè)機(jī)會(huì)，包含一些隨機(jī)的7個(gè)字母單詞。

GPT-4.5生成的游戲看起來還算不錯(cuò)，看起來甚至有幾分高級(jí)感！

情感大師

OpenAI認(rèn)為GPT-4.5的一大特點(diǎn)就是「高情商」，交互更自然。

OpenAI的員工Aidan McLaughlin表示，GPT-4.5更懂如何與人聊天，知道在什么時(shí)候避免給用戶發(fā)送無聊的網(wǎng)絡(luò)內(nèi)容。

比如說，GPT-4.5-preview和GPT-4o同樣的提示：

I’m going through a tough time after a test

GPT-4.5-preview給出了富有人性的安慰：

聽到你倍感難受，我非常抱歉。但要記得一次測(cè)試并不能定義你或你的能力。感到失望或沮喪，這很正常。但在處理這些情緒的時(shí)候，請(qǐng)善待自己。要不聊聊到底發(fā)生了什么？或者聊聊下次遇到這類事，該如何處理？我一直在這兒，助你度過難關(guān)。

而GPT-4o的回答顯得冷靜：

很抱歉你經(jīng)歷了這些。記住，不能如愿做好某件事時(shí)，感到失望或沮喪是正常的。下列的一些事可能會(huì)幫助你： 1. 給自己一些時(shí)間：…… 2. 反思發(fā)生了什么：…… 3. 找其他人談?wù)劊骸?4. 為下一步做好計(jì)劃：…… 5. 牢記自己的強(qiáng)項(xiàng)：…… 6. 保持積極的心態(tài)：……

網(wǎng)友Anon設(shè)想如果AI和機(jī)器人技術(shù)結(jié)合，可能比真人更受大家歡迎。

或許，將來AI真的能成為人類親密的朋友？

最大體感，又慢又貴

而GPT-4.5的價(jià)格嘛，已經(jīng)完全跳脫了。所有OpenAI競(jìng)家相爭的區(qū)間密集擁擠，而GPT-4.5獨(dú)占一個(gè)區(qū)間。

在很多模型已經(jīng)是拼夕夕價(jià)格的時(shí)候，OpenAI居然敢這么定價(jià)，你敢信？

就輸入價(jià)格來看，GPT-4.5是：

o1的5倍
GPT-4o的30倍
o3-mini的68倍
DeepSeek-R1的137倍
DeepSeek-V3的278倍
GPT-4o mini的500倍
Gemini 2.0 Flash的750倍

當(dāng)然了，雖然定價(jià)十分離譜，但性能的提升還是有的。

比如這位網(wǎng)友就要求它憑記憶背出深?yuàn)W的梵文經(jīng)文，它居然正確背出來了。

看得出來，如此大參數(shù)模型，配上超大規(guī)模的預(yù)訓(xùn)練，的確展現(xiàn)出了廣泛的事實(shí)知識(shí)。

對(duì)此，OpenAI研究員則略帶幽默地調(diào)侃道：也許，預(yù)訓(xùn)練終究還是有效的？

不過，大部分網(wǎng)友可遭不住了，紛紛直呼：「用不起！」

還有網(wǎng)友表示，感謝OpenAI，碼農(nóng)們終于不用擔(dān)心自己被替代了。

畢竟，相比起新模型，還是初級(jí)開發(fā)者更有性價(jià)比。

左右滑動(dòng)查看

關(guān)于GPT-4.5的離譜價(jià)格，已經(jīng)引發(fā)某些網(wǎng)友大膽的猜測(cè)了。

比如API定價(jià)這么高，莫非是為了防止蒸餾？

還是因?yàn)镚PU告急，所以根本不想讓用戶用了？

左右滑動(dòng)查看

此外，許多試用過的網(wǎng)友，最真實(shí)的體感就是：這也太慢了……

1M tokens輸出價(jià)格是150刀，然后速度是每秒1-3個(gè)token，這筆賬好像怎么算怎么不對(duì)。

有人分析認(rèn)為，GPT-4.5這么慢，是因?yàn)樗罅恕；蛟S剛立項(xiàng)那會(huì)兒，還是當(dāng)初模型「越大越好」的年代。

如此看來，OpenAI的領(lǐng)先優(yōu)勢(shì)，似乎已經(jīng)所剩無幾了？

網(wǎng)上，各種梗圖也是層出不窮。

甚至，已經(jīng)有前OpenAI研究員跳出來「背刺」了：GPT-4.5表現(xiàn)不佳，50%的責(zé)任應(yīng)該歸功于辣雞的模型架構(gòu)。

參考資料：JHNYZ

https://x.com/aidan_mclau/status/1895204299040530794

https://x.com/OpenAIDevs/status/1895226704408481893

https://x.com/theo/status/1895220930173116747

https://x.com/aidan_mclau/status/1895207802018341294

https://x.com/_akhaliq/status/1895247370792902733

https://x.com/cursor_ai/status/1895210110714290302

為偉大思想而生！

AI+時(shí)代，互聯(lián)網(wǎng)思想（wanging0123)，

第一必讀自媒體

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.