網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌亮相新模型，OpenAI 緊急甩出 GPT-4o 動(dòng)動(dòng)嘴就能 P 圖，網(wǎng)友：又要感謝 DeepSeek 了

2025-03-27 15:49:08　來源: InfoQ

北京舉報(bào)

分享至

整理 | 冬梅

北京時(shí)間 3 月 26 日凌晨，谷歌發(fā)布了號(hào)稱最強(qiáng)推理模型的 Gemini Pro 2.5，而在谷歌之前，OpenAI 率先開了場(chǎng)直播，發(fā)布了 GPT-4o image generation，圖像生成技術(shù)模型。有趣的是，最近半年時(shí)間里，基本上谷歌的每次發(fā)布都會(huì)與 OpenAI 的直播“撞車”。

1 OpenAI 放出 GPT-4o 原生多模態(tài)圖像生成功能

OpenAI 表示：“從今天開始，OpenAI 將新的圖像生成功能直接集成到 ChatGPT 中——該功能被稱為‘ChatGPT 中的圖像’。用戶現(xiàn)在可以使用 GPT-4o 在 ChatGPT 內(nèi)部生成圖像。”

此初始版本僅專注于圖像創(chuàng)建，并將在 ChatGPT Plus、Pro、Team 和 Free 訂閱層中提供。

值得注意的是，GPT-4o 圖像生成標(biāo)記器詞匯量（實(shí)際上是用于表示文本的唯一整數(shù)的數(shù)量）已從 GPT-4 和 GPT-3.5 的約 10 萬個(gè)增加到約 20 萬個(gè)。古吉拉特語輸入使用的標(biāo)記減少了 4.4 倍，日語減少了 1.4 倍，西班牙語減少了 1.1 倍。以前，除英語以外的其他語言在提示中可以容納多少文本方面會(huì)付出實(shí)質(zhì)性的代價(jià)。

同樣值得注意的是價(jià)格。OpenAI 聲稱與 GPT-4 Turbo 相比，價(jià)格降低了 50%。更直觀的對(duì)比是， GPT-4o 成本恰好是 10 倍 GPT-3.5；4o 是 5 美元 / 百萬輸入 token 和 15 美元 / 百萬輸出 token。3.5 是 0.50 美元 / 百萬輸入 token 和 1.50 美元 / 百萬輸出 token。

價(jià)格下降尤其引人注目，因?yàn)?OpenAI 承諾也將向免費(fèi) ChatGPT 用戶提供該模型——這是他們第一次直接向非付費(fèi)客戶提供“最佳”模型。

OpenAI 研究負(fù)責(zé)人 Gabriel Goh 在接受媒體采訪時(shí)表示：“該模型比以前的模型有了很大的改進(jìn)”，并補(bǔ)充說，團(tuán)隊(duì)使用了 GPT-4o“全模態(tài)”——一種可以生成任何類型數(shù)據(jù)（如文本、圖像、音頻和視頻）的模型——作為該功能的基礎(chǔ)。

OpenAI 在公告中表示，GPT-4o 圖像生成功能具有以下特點(diǎn)：

精準(zhǔn)渲染圖像內(nèi)文字，能夠制作 logo、菜單、邀請(qǐng)函和信息圖等；
精確執(zhí)行復(fù)雜指令，甚至在細(xì)節(jié)豐富的構(gòu)圖中也能做到；
基于先前的圖像和文本進(jìn)行擴(kuò)展，確保多個(gè)交互之間的視覺一致性；
支持各種藝術(shù)風(fēng)格，從寫實(shí)照片到插圖等。

先來感受下生成圖片的效果怎么樣。

OpenAI 在官方示例展示時(shí)放出了一張女士背對(duì)著鏡頭在白板上寫字的圖片。

圖片看起來就是很日常的生活照片，但實(shí)際上，它是由 GPT-4o 生成的 AI 圖片，OpenAI 給出的提示詞如下：

“在俯瞰海灣大橋的房間中，使用手機(jī)拍攝玻璃質(zhì)地白板獲得的寬幅圖像。畫面中一位女性正在寫字，身著帶有顯眼 OpenAI 標(biāo)志的 T 恤。筆跡自然且略帶凌亂，白板上投射出攝影師的身影。”

接下來第二張圖片轉(zhuǎn)了人物朝向，以攝影師的自拍角度，畫面中的女性轉(zhuǎn)向與他擊掌，生成的圖像還是完全看不出出自 AI。

還能生成四格連環(huán)畫，邊框與畫面邊緣間注意留白。提示詞如下：

“一只小蝸牛身在華麗的汽車展廳柜臺(tái)上，推銷員俯下身來才能看到他。特定鏡頭中，蝸牛表情嚴(yán)肅，說‘我想要你們最快的跑車……還得在車門、引擎蓋和車頂位置畫上大寫的「S」。’ 銷售員撓撓頭，‘呃……當(dāng)然沒問題。不過為什么是「S」？’ 畫面切換到時(shí)一輛紅色汽車在高速公路上呼嘯而過，車身上寫滿巨大的「S」。路旁的人們指指點(diǎn)點(diǎn)，笑著說，‘WOW! LOOK AT THAT S?CAR GO!’”

生成一張?jiān)敿?xì)解釋牛頓棱鏡實(shí)驗(yàn)的信息圖。

然后，現(xiàn)在生成一個(gè)人在華盛頓廣場(chǎng)公園的一張圖形咖啡桌旁，用筆記本繪制這張圖的第一人稱畫面。

然后，現(xiàn)在在同一場(chǎng)景下，顯示難掩興奮的年輕牛頓坐在桌旁，手持棱鏡演示實(shí)驗(yàn)結(jié)果，注意畫面中不要出現(xiàn)筆記本。

2 多項(xiàng)功能迭代，生成圖像效果更佳

據(jù) OpenAI 官方說明，GPT-4o 在多個(gè)方面相較于過去的模型進(jìn)行了改進(jìn)：

更好的文本集成：與過去那些難以生成清晰、恰當(dāng)位置文字的 AI 模型不同，GPT-4o 現(xiàn)在可以準(zhǔn)確地將文字嵌入圖像中；
增強(qiáng)的上下文理解：GPT-4o 通過利用聊天歷史，允許用戶在互動(dòng)中不斷細(xì)化圖像，并保持
改進(jìn)的多對(duì)象綁定：過去的模型在正確定位場(chǎng)景中的多個(gè)不同物體時(shí)存在困難，而 GPT-4o 現(xiàn)在可以一次處理多達(dá) 10 至 20 個(gè)物體；
多樣化風(fēng)格適應(yīng)：該模型可以生成或?qū)D像轉(zhuǎn)化為多種風(fēng)格，支持從手繪草圖到高清寫實(shí)風(fēng)格的轉(zhuǎn)換。

OpenAI 表示，從第一幅洞穴壁畫到現(xiàn)代信息圖，人類一直在使用視覺圖像進(jìn)行交流、傳達(dá)與分析。如今的生成模型可以呈現(xiàn)出超現(xiàn)實(shí)、令人驚嘆的場(chǎng)景，但卻難以處理人們用于分享和創(chuàng)建信息的實(shí)用性圖像。事實(shí)上從徽標(biāo)到圖表，基于共同語言和經(jīng)驗(yàn)相關(guān)符號(hào)的圖像往往可以傳達(dá)精確的表達(dá)含義。

GPT-4o 圖像生成善于準(zhǔn)確地呈現(xiàn)文本、精確遵循提示詞，并運(yùn)用 4o 固有的知識(shí)庫與聊天上下文——包括直接轉(zhuǎn)換上傳的圖像，或?qū)⑵渥鳛橐曈X創(chuàng)作靈感。這些功能可輕松創(chuàng)建大家設(shè)想的圖像，幫助用戶通過視覺效果實(shí)現(xiàn)順暢交流，并將圖像生成真正轉(zhuǎn)化為具備精確性與強(qiáng)大現(xiàn)實(shí)意義的實(shí)用性工具。

利用在線圖像與文本內(nèi)容共同訓(xùn)練模型，GPT-4o 圖像生成不僅學(xué)習(xí)到圖像與語言的內(nèi)部關(guān)聯(lián)，還掌握了二者之間的對(duì)應(yīng)關(guān)系。結(jié)合積極的后訓(xùn)練設(shè)計(jì)，生成模型獲得了令人驚喜的視覺流暢性，能夠生成高度實(shí)用、一致且具備上下文感知特征的圖像。

正所謂一圖勝千言，但有時(shí)在正確位置添加寥寥數(shù)語即可顯著提升圖像的表達(dá)效果。4o 將精確符號(hào)與圖像融合起來，使得圖像生成真正具備了視覺交流屬性。

OpenAI 放出了一些官方示例。

創(chuàng)建一張逼真的圖像，畫面中兩名 20 多歲的女巫（一名有著灰色挑染頭發(fā)，另一名有著赤褐色波浪長(zhǎng)發(fā)）正在閱讀路牌。

提示詞：

紐約威廉斯堡一條街道上，路牌中展示大量詳盡的街道標(biāo)志（例如街道清掃時(shí)間、停車許可要求、車輛分類、拖車規(guī)則），其間還有一些架空信息（以合法的街道標(biāo)記形式呈現(xiàn)），如“C 區(qū)禁止停泊女巫掃帚”、“僅允許魔毯卸貨（不超過 15 分鐘）”以及“僅允許馴鹿憑許可臨停（12 月 24 日至 25 日），違規(guī)者將被列入淘氣名單。”路標(biāo)位于街道右側(cè)，內(nèi)容不可重復(fù)，標(biāo)志必須真實(shí)還原。人物：一名女巫手持掃帚，另一名抱著卷起的魔毯。二人在前景中，背對(duì)畫面，頭部稍微傾斜并認(rèn)真觀看路牌。背景到前景的構(gòu)圖：街道 + 停放的車輛 + 建筑物——>路牌——>女巫。人物必須在距離鏡頭最近的位置。

多輪生成

如今圖像生成已經(jīng)成為 GPT-4o 中的原生功能，因此用戶可以通過自然對(duì)話實(shí)現(xiàn)圖像內(nèi)容優(yōu)化。GPT-4o 可以在聊天環(huán)境中基于圖像和文本構(gòu)建而成，確保內(nèi)容始終保持一致。例如，如果用戶正在設(shè)計(jì)一位電子游戲角色，那么在持續(xù)改進(jìn)與試驗(yàn)過程中，該角色的外觀將在多輪迭代中保持一致。

在電子游戲場(chǎng)景中，參考輸入的小貓圖像，為小貓?zhí)砑右豁攤商矫焙鸵桓眴纹坨R。

將畫面轉(zhuǎn)化為使用 4k 游戲引擎制作的 3A 電子游戲風(fēng)格畫面，并添加用戶界面元素以呈現(xiàn)類似 RPG 游戲的疊加圖層。頂部有生命欄和小地圖，下方則是風(fēng)格一致的咒語圖標(biāo)。

將畫面更新為 16：9 橫向圖像，在 UI 中添加更多咒語元素，并縮小生成的小貓以通過第三人稱視角觀看其穿過蒸汽朋克風(fēng)格的曼哈頓街頭。注意使用 3A 游戲中常見的漂亮對(duì)比與光照效果，使用冷色調(diào)。

創(chuàng)建界面，當(dāng)玩家打開菜單時(shí)顯示小貓的角色資料和裝備，另一頁顯示當(dāng)前任務(wù)（任務(wù)內(nèi)容應(yīng)與圖像中呈現(xiàn)的世界觀保持關(guān)聯(lián)）。

遵循指令

GPT-4o 的圖像生成功能可遵循詳盡提示詞并始終關(guān)注細(xì)節(jié)。其他系統(tǒng)在處理包含 5 到 8 個(gè)對(duì)象的畫面時(shí)往往表現(xiàn)不佳，而 GPT-4o 能夠處理多達(dá) 10 到 20 個(gè)不同對(duì)象，同時(shí)更好地控制各對(duì)象、其特征及彼此關(guān)系之間的緊密綁定。

生成一幅正方形圖像，包含一個(gè) 4 行、4 列的網(wǎng)格，共包含 16 個(gè)對(duì)象，背景為白色。從左至右、從上到下，各對(duì)象依次為：

一顆藍(lán)色星星
紅色三角形
綠色正方形
粉色圓形
橙色沙漏形
紫色無窮符號(hào)
黑白圓點(diǎn)領(lǐng)結(jié)
扎染紋理的“42”數(shù)字
一只戴著黑色棒球帽的橙色貓
一張帶有寶箱的地圖
一雙大眼睛
豎起大拇指的表情符號(hào)
一把剪刀
一只藍(lán)白相間的長(zhǎng)頸鹿
用草體書寫的“OpenAI”單詞
一道彩虹色閃電

寫實(shí)主義與圖像風(fēng)格

通過在訓(xùn)練中納入反映多種圖像風(fēng)格的素材，4o 模型能夠逼真地生成或轉(zhuǎn)換圖像。

一張狗仔隊(duì)偷拍風(fēng)格的照片，畫面中卡爾·馬克思匆匆走過美國(guó)購物中心的停車場(chǎng)，他回頭一看，臉上帶著驚恐的表情，不想被偷拍騷擾。他手里抓著幾個(gè)裝滿奢侈品的閃亮購物袋。他的外套在風(fēng)中飄揚(yáng)，其中一個(gè)袋子在擺動(dòng)，好像他正在大步走。模糊的背景，汽車和發(fā)光的購物中心入口，以強(qiáng)調(diào)運(yùn)動(dòng)。相機(jī)的閃光燈部分曝光過度，給人一種地下小報(bào)的感覺。

盡管生成的圖片生動(dòng)又逼真，但 OpenAI 也坦言，這些模型并不完美，目前也發(fā)現(xiàn)其存在的諸多局限性。OpenAI 將在先期發(fā)布之后，通過不斷改進(jìn)來解決這些問題。

在接受媒體采訪時(shí) Goh 也提到，“歸根結(jié)底，沒有一個(gè)系統(tǒng)是完美的，但我們正在不斷改進(jìn)我們的保障措施，我們認(rèn)為這是一個(gè)起點(diǎn)。ChatGPT 生成的所有圖像都有一個(gè)共同點(diǎn)，那就是用戶擁有它們，并可以在我們的使用政策范圍內(nèi)隨意使用它們。”

此外，OpenAI 支持生成公眾人物形象和不符合歷史但用戶指定的圖片。

此次更新，OpenAI 比以往更加關(guān)注安全性。

OpenAI 稱，“根據(jù)模型規(guī)范，我們希望通過支持游戲開發(fā)、歷史探索和教育等具有現(xiàn)實(shí)價(jià)值的用例以最大限度提升創(chuàng)作自由，同時(shí)保持嚴(yán)格的安全標(biāo)準(zhǔn)。換言之，阻止違規(guī)請(qǐng)求是保障制度落實(shí)的必要前提。我們正努力通過以下手段保障安全且高度實(shí)用的內(nèi)容，同時(shí)支持用戶借助創(chuàng)意廣泛表達(dá)自己的靈感與思路。”

首先，通過 C2PA 與內(nèi)部可逆搜索進(jìn)行溯源。目前，生成的所有圖像均帶有 C2PA 元數(shù)據(jù)，用于注明圖像來自 GPT-4o 以保證公開透明。此外，OpenAI 還構(gòu)建了一款內(nèi)部搜索工具，其使用生成技術(shù)屬性以幫助驗(yàn)證內(nèi)容是否來自我們的模型。

其次，OpenAI 稱會(huì)堅(jiān)決屏蔽不良內(nèi)容。將繼續(xù)阻止可能違反內(nèi)容政策的生成圖像請(qǐng)求，例如兒童性虐待素材與深度偽造色情圖像。對(duì)于上下文內(nèi)的真人圖像，OpenAI 會(huì)加強(qiáng)對(duì)于所能創(chuàng)建圖像的限制，并對(duì)裸露及暴力畫面采取極其嚴(yán)格的處理措施。當(dāng)然，安全升級(jí)永遠(yuǎn)不會(huì)結(jié)束，也將成為持續(xù)投資的重要領(lǐng)域。

第三，使用推理增強(qiáng)安全性。OpenAI 已經(jīng)訓(xùn)練了一套推理大模型，負(fù)責(zé)根據(jù)人類編寫的可解釋安全規(guī)范識(shí)別并解決政策中的歧義。結(jié)合 ChatGPT 與 Sora 所使用的多模態(tài)安全技術(shù)，得以根據(jù)現(xiàn)有政策靈活調(diào)整輸入文本與輸出圖像。

但目前盡管 4o 圖像生成技術(shù)在性別表現(xiàn)的多樣性上超過了 DALL·E 3，但輸出結(jié)果仍然主要偏向男性主體。因此，OpenAI 表示其未來的工作將著重于提高數(shù)據(jù)均衡性，讓模型更加公平。

3 訪問方式與上線時(shí)間

作為 ChatGPT 中的默認(rèn)圖像生成工具，4o 圖像生成功能從即日起開始向 Plus、Pro、Team 及 Free 用戶全面開放。Enterprise 及 Edu 訪問權(quán)限將后續(xù)開放。Sora 也可享受到此次功能升級(jí)。對(duì)于希望繼續(xù)使用 DALL-E 的用戶來說，則可通過專門的 DALL-E GPT 訪問這項(xiàng)新功能。

開發(fā)人員很快就能通過 API 使用 GPT-4o 生成圖像功能，訪問權(quán)限將在未來幾周內(nèi)開放。

OpenAI 表示，整個(gè)圖像創(chuàng)建與自定義過程，就像與 GPT-4o 聊天一樣簡(jiǎn)單——只需描述你的需求，包含畫面比例、使用十六進(jìn)制代碼的精確色彩或透明背景等細(xì)節(jié)即可。由于此模型能夠生成涉及更多細(xì)節(jié)的圖像，因此渲染時(shí)間可能更長(zhǎng)，最多可能達(dá)到 1 分鐘。

https://openai.com/index/introducing-4o-image-generation/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.