整理 | 冬梅
北京時(shí)間 3 月 26 日凌晨,谷歌發(fā)布了號(hào)稱最強(qiáng)推理模型的 Gemini Pro 2.5,而在谷歌之前,OpenAI 率先開了場(chǎng)直播,發(fā)布了 GPT-4o image generation,圖像生成技術(shù)模型。有趣的是,最近半年時(shí)間里,基本上谷歌的每次發(fā)布都會(huì)與 OpenAI 的直播“撞車”。
1 OpenAI 放出 GPT-4o 原生多模態(tài)圖像生成功能
OpenAI 表示:“從今天開始,OpenAI 將新的圖像生成功能直接集成到 ChatGPT 中——該功能被稱為‘ChatGPT 中的圖像’。用戶現(xiàn)在可以使用 GPT-4o 在 ChatGPT 內(nèi)部生成圖像。”
此初始版本僅專注于圖像創(chuàng)建,并將在 ChatGPT Plus、Pro、Team 和 Free 訂閱層中提供。
值得注意的是,GPT-4o 圖像生成標(biāo)記器詞匯量(實(shí)際上是用于表示文本的唯一整數(shù)的數(shù)量)已從 GPT-4 和 GPT-3.5 的約 10 萬個(gè)增加到約 20 萬個(gè)。古吉拉特語輸入使用的標(biāo)記減少了 4.4 倍,日語減少了 1.4 倍,西班牙語減少了 1.1 倍。以前,除英語以外的其他語言在提示中可以容納多少文本方面會(huì)付出實(shí)質(zhì)性的代價(jià)。
同樣值得注意的是價(jià)格。OpenAI 聲稱與 GPT-4 Turbo 相比,價(jià)格降低了 50%。更直觀的對(duì)比是, GPT-4o 成本恰好是 10 倍 GPT-3.5;4o 是 5 美元 / 百萬輸入 token 和 15 美元 / 百萬輸出 token。3.5 是 0.50 美元 / 百萬輸入 token 和 1.50 美元 / 百萬輸出 token。
價(jià)格下降尤其引人注目,因?yàn)?OpenAI 承諾也將向免費(fèi) ChatGPT 用戶提供該模型——這是他們第一次直接向非付費(fèi)客戶提供“最佳”模型。
OpenAI 研究負(fù)責(zé)人 Gabriel Goh 在接受媒體采訪時(shí)表示:“該模型比以前的模型有了很大的改進(jìn)”,并補(bǔ)充說,團(tuán)隊(duì)使用了 GPT-4o“全模態(tài)”——一種可以生成任何類型數(shù)據(jù)(如文本、圖像、音頻和視頻)的模型——作為該功能的基礎(chǔ)。
OpenAI 在公告中表示,GPT-4o 圖像生成功能具有以下特點(diǎn):
精準(zhǔn)渲染圖像內(nèi)文字,能夠制作 logo、菜單、邀請(qǐng)函和信息圖等;
精確執(zhí)行復(fù)雜指令,甚至在細(xì)節(jié)豐富的構(gòu)圖中也能做到;
基于先前的圖像和文本進(jìn)行擴(kuò)展,確保多個(gè)交互之間的視覺一致性;
支持各種藝術(shù)風(fēng)格,從寫實(shí)照片到插圖等。
先來感受下生成圖片的效果怎么樣。
OpenAI 在官方示例展示時(shí)放出了一張女士背對(duì)著鏡頭在白板上寫字的圖片。
圖片看起來就是很日常的生活照片,但實(shí)際上,它是由 GPT-4o 生成的 AI 圖片,OpenAI 給出的提示詞如下 :
“在俯瞰海灣大橋的房間中,使用手機(jī)拍攝玻璃質(zhì)地白板獲得的寬幅圖像。畫面中一位女性正在寫字,身著帶有顯眼 OpenAI 標(biāo)志的 T 恤。筆跡自然且略帶凌亂,白板上投射出攝影師的身影。”
接下來第二張圖片轉(zhuǎn)了人物朝向,以攝影師的自拍角度,畫面中的女性轉(zhuǎn)向與他擊掌,生成的圖像還是完全看不出出自 AI。
還能生成四格連環(huán)畫,邊框與畫面邊緣間注意留白。提示詞如下:
“一只小蝸牛身在華麗的汽車展廳柜臺(tái)上,推銷員俯下身來才能看到他。特定鏡頭中,蝸牛表情嚴(yán)肅,說‘我想要你們最快的跑車……還得在車門、引擎蓋和車頂位置畫上大寫的「S」。’ 銷售員撓撓頭,‘呃……當(dāng)然沒問題。不過為什么是「S」?’ 畫面切換到時(shí)一輛紅色汽車在高速公路上呼嘯而過,車身上寫滿巨大的「S」。路旁的人們指指點(diǎn)點(diǎn),笑著說,‘WOW! LOOK AT THAT S?CAR GO!’”
生成一張?jiān)敿?xì)解釋牛頓棱鏡實(shí)驗(yàn)的信息圖。
然后,現(xiàn)在生成一個(gè)人在華盛頓廣場(chǎng)公園的一張圖形咖啡桌旁,用筆記本繪制這張圖的第一人稱畫面。
然后,現(xiàn)在在同一場(chǎng)景下,顯示難掩興奮的年輕牛頓坐在桌旁,手持棱鏡演示實(shí)驗(yàn)結(jié)果,注意畫面中不要出現(xiàn)筆記本。
2 多項(xiàng)功能迭代,生成圖像效果更佳
據(jù) OpenAI 官方說明,GPT-4o 在多個(gè)方面相較于過去的模型進(jìn)行了改進(jìn):
更好的文本集成:與過去那些難以生成清晰、恰當(dāng)位置文字的 AI 模型不同,GPT-4o 現(xiàn)在可以準(zhǔn)確地將文字嵌入圖像中;
增強(qiáng)的上下文理解:GPT-4o 通過利用聊天歷史,允許用戶在互動(dòng)中不斷細(xì)化圖像,并保持
改進(jìn)的多對(duì)象綁定:過去的模型在正確定位場(chǎng)景中的多個(gè)不同物體時(shí)存在困難,而 GPT-4o 現(xiàn)在可以一次處理多達(dá) 10 至 20 個(gè)物體;
多樣化風(fēng)格適應(yīng):該模型可以生成或?qū)D像轉(zhuǎn)化為多種風(fēng)格,支持從手繪草圖到高清寫實(shí)風(fēng)格的轉(zhuǎn)換。
OpenAI 表示,從第一幅洞穴壁畫到現(xiàn)代信息圖,人類一直在使用視覺圖像進(jìn)行交流、傳達(dá)與分析。如今的生成模型可以呈現(xiàn)出超現(xiàn)實(shí)、令人驚嘆的場(chǎng)景,但卻難以處理人們用于分享和創(chuàng)建信息的實(shí)用性圖像。事實(shí)上從徽標(biāo)到圖表,基于共同語言和經(jīng)驗(yàn)相關(guān)符號(hào)的圖像往往可以傳達(dá)精確的表達(dá)含義。
GPT-4o 圖像生成善于準(zhǔn)確地呈現(xiàn)文本、精確遵循提示詞,并運(yùn)用 4o 固有的知識(shí)庫與聊天上下文——包括直接轉(zhuǎn)換上傳的圖像,或?qū)⑵渥鳛橐曈X創(chuàng)作靈感。這些功能可輕松創(chuàng)建大家設(shè)想的圖像,幫助用戶通過視覺效果實(shí)現(xiàn)順暢交流,并將圖像生成真正轉(zhuǎn)化為具備精確性與強(qiáng)大現(xiàn)實(shí)意義的實(shí)用性工具。
利用在線圖像與文本內(nèi)容共同訓(xùn)練模型,GPT-4o 圖像生成不僅學(xué)習(xí)到圖像與語言的內(nèi)部關(guān)聯(lián),還掌握了二者之間的對(duì)應(yīng)關(guān)系。結(jié)合積極的后訓(xùn)練設(shè)計(jì),生成模型獲得了令人驚喜的視覺流暢性,能夠生成高度實(shí)用、一致且具備上下文感知特征的圖像。
正所謂一圖勝千言,但有時(shí)在正確位置添加寥寥數(shù)語即可顯著提升圖像的表達(dá)效果。4o 將精確符號(hào)與圖像融合起來,使得圖像生成真正具備了視覺交流屬性。
OpenAI 放出了一些官方示例。
創(chuàng)建一張逼真的圖像,畫面中兩名 20 多歲的女巫(一名有著灰色挑染頭發(fā),另一名有著赤褐色波浪長(zhǎng)發(fā))正在閱讀路牌。
提示詞:
紐約威廉斯堡一條街道上,路牌中展示大量詳盡的街道標(biāo)志(例如街道清掃時(shí)間、停車許可要求、車輛分類、拖車規(guī)則),其間還有一些架空信息(以合法的街道標(biāo)記形式呈現(xiàn)),如“C 區(qū)禁止停泊女巫掃帚”、“僅允許魔毯卸貨(不超過 15 分鐘)”以及“僅允許馴鹿憑許可臨停(12 月 24 日至 25 日),違規(guī)者將被列入淘氣名單。”路標(biāo)位于街道右側(cè),內(nèi)容不可重復(fù),標(biāo)志必須真實(shí)還原。 人物: 一名女巫手持掃帚,另一名抱著卷起的魔毯。 二人在前景中,背對(duì)畫面,頭部稍微傾斜并認(rèn)真觀看路牌。 背景到前景的構(gòu)圖: 街道 + 停放的車輛 + 建筑物——>路牌——>女巫。 人物必須在距離鏡頭最近的位置。
多輪生成
如今圖像生成已經(jīng)成為 GPT-4o 中的原生功能,因此用戶可以通過自然對(duì)話實(shí)現(xiàn)圖像內(nèi)容優(yōu)化。GPT-4o 可以在聊天環(huán)境中基于圖像和文本構(gòu)建而成,確保內(nèi)容始終保持一致。例如,如果用戶正在設(shè)計(jì)一位電子游戲角色,那么在持續(xù)改進(jìn)與試驗(yàn)過程中,該角色的外觀將在多輪迭代中保持一致。
在電子游戲場(chǎng)景中,參考輸入的小貓圖像,為小貓?zhí)砑右豁攤商矫焙鸵桓眴纹坨R。
將畫面轉(zhuǎn)化為使用 4k 游戲引擎制作的 3A 電子游戲風(fēng)格畫面,并添加用戶界面元素以呈現(xiàn)類似 RPG 游戲的疊加圖層。頂部有生命欄和小地圖,下方則是風(fēng)格一致的咒語圖標(biāo)。
將畫面更新為 16:9 橫向圖像,在 UI 中添加更多咒語元素,并縮小生成的小貓以通過第三人稱視角觀看其穿過蒸汽朋克風(fēng)格的曼哈頓街頭。注意使用 3A 游戲中常見的漂亮對(duì)比與光照效果,使用冷色調(diào)。
創(chuàng)建界面,當(dāng)玩家打開菜單時(shí)顯示小貓的角色資料和裝備,另一頁顯示當(dāng)前任務(wù)(任務(wù)內(nèi)容應(yīng)與圖像中呈現(xiàn)的世界觀保持關(guān)聯(lián))。
遵循指令
GPT-4o 的圖像生成功能可遵循詳盡提示詞并始終關(guān)注細(xì)節(jié)。其他系統(tǒng)在處理包含 5 到 8 個(gè)對(duì)象的畫面時(shí)往往表現(xiàn)不佳,而 GPT-4o 能夠處理多達(dá) 10 到 20 個(gè)不同對(duì)象,同時(shí)更好地控制各對(duì)象、其特征及彼此關(guān)系之間的緊密綁定。
生成一幅正方形圖像,包含一個(gè) 4 行、4 列的網(wǎng)格,共包含 16 個(gè)對(duì)象,背景為白色。從左至右、從上到下,各對(duì)象依次為:
一顆藍(lán)色星星
紅色三角形
綠色正方形
粉色圓形
橙色沙漏形
紫色無窮符號(hào)
黑白圓點(diǎn)領(lǐng)結(jié)
扎染紋理的“42”數(shù)字
一只戴著黑色棒球帽的橙色貓
一張帶有寶箱的地圖
一雙大眼睛
豎起大拇指的表情符號(hào)
一把剪刀
一只藍(lán)白相間的長(zhǎng)頸鹿
用草體書寫的“OpenAI”單詞
一道彩虹色閃電
寫實(shí)主義與圖像風(fēng)格
通過在訓(xùn)練中納入反映多種圖像風(fēng)格的素材,4o 模型能夠逼真地生成或轉(zhuǎn)換圖像。
一張狗仔隊(duì)偷拍風(fēng)格的照片,畫面中卡爾·馬克思匆匆走過美國(guó)購物中心的停車場(chǎng),他回頭一看,臉上帶著驚恐的表情,不想被偷拍騷擾。他手里抓著幾個(gè)裝滿奢侈品的閃亮購物袋。他的外套在風(fēng)中飄揚(yáng),其中一個(gè)袋子在擺動(dòng),好像他正在大步走。模糊的背景,汽車和發(fā)光的購物中心入口,以強(qiáng)調(diào)運(yùn)動(dòng)。相機(jī)的閃光燈部分曝光過度,給人一種地下小報(bào)的感覺。
盡管生成的圖片生動(dòng)又逼真,但 OpenAI 也坦言,這些模型并不完美,目前也發(fā)現(xiàn)其存在的諸多局限性。OpenAI 將在先期發(fā)布之后,通過不斷改進(jìn)來解決這些問題。
在接受媒體采訪時(shí) Goh 也提到,“歸根結(jié)底,沒有一個(gè)系統(tǒng)是完美的,但我們正在不斷改進(jìn)我們的保障措施,我們認(rèn)為這是一個(gè)起點(diǎn)。ChatGPT 生成的所有圖像都有一個(gè)共同點(diǎn),那就是用戶擁有它們,并可以在我們的使用政策范圍內(nèi)隨意使用它們。”
此外,OpenAI 支持生成公眾人物形象和不符合歷史但用戶指定的圖片。
此次更新,OpenAI 比以往更加關(guān)注安全性。
OpenAI 稱,“根據(jù)模型規(guī)范,我們希望通過支持游戲開發(fā)、歷史探索和教育等具有現(xiàn)實(shí)價(jià)值的用例以最大限度提升創(chuàng)作自由,同時(shí)保持嚴(yán)格的安全標(biāo)準(zhǔn)。換言之,阻止違規(guī)請(qǐng)求是保障制度落實(shí)的必要前提。我們正努力通過以下手段保障安全且高度實(shí)用的內(nèi)容,同時(shí)支持用戶借助創(chuàng)意廣泛表達(dá)自己的靈感與思路。”
首先,通過 C2PA 與內(nèi)部可逆搜索進(jìn)行溯源。目前,生成的所有圖像均帶有 C2PA 元數(shù)據(jù),用于注明圖像來自 GPT-4o 以保證公開透明。此外,OpenAI 還構(gòu)建了一款內(nèi)部搜索工具,其使用生成技術(shù)屬性以幫助驗(yàn)證內(nèi)容是否來自我們的模型。
其次,OpenAI 稱會(huì)堅(jiān)決屏蔽不良內(nèi)容。將繼續(xù)阻止可能違反內(nèi)容政策的生成圖像請(qǐng)求,例如兒童性虐待素材與深度偽造色情圖像。對(duì)于上下文內(nèi)的真人圖像,OpenAI 會(huì)加強(qiáng)對(duì)于所能創(chuàng)建圖像的限制,并對(duì)裸露及暴力畫面采取極其嚴(yán)格的處理措施。當(dāng)然,安全升級(jí)永遠(yuǎn)不會(huì)結(jié)束,也將成為持續(xù)投資的重要領(lǐng)域。
第三,使用推理增強(qiáng)安全性。OpenAI 已經(jīng)訓(xùn)練了一套推理大模型,負(fù)責(zé)根據(jù)人類編寫的可解釋安全規(guī)范識(shí)別并解決政策中的歧義。結(jié)合 ChatGPT 與 Sora 所使用的多模態(tài)安全技術(shù),得以根據(jù)現(xiàn)有政策靈活調(diào)整輸入文本與輸出圖像。
但目前盡管 4o 圖像生成技術(shù)在性別表現(xiàn)的多樣性上超過了 DALL·E 3,但輸出結(jié)果仍然主要偏向男性主體。因此,OpenAI 表示其未來的工作將著重于提高數(shù)據(jù)均衡性,讓模型更加公平。
3 訪問方式與上線時(shí)間
作為 ChatGPT 中的默認(rèn)圖像生成工具,4o 圖像生成功能從即日起開始向 Plus、Pro、Team 及 Free 用戶全面開放。Enterprise 及 Edu 訪問權(quán)限將后續(xù)開放。Sora 也可享受到此次功能升級(jí)。對(duì)于希望繼續(xù)使用 DALL-E 的用戶來說,則可通過專門的 DALL-E GPT 訪問這項(xiàng)新功能。
開發(fā)人員很快就能通過 API 使用 GPT-4o 生成圖像功能,訪問權(quán)限將在未來幾周內(nèi)開放。
OpenAI 表示,整個(gè)圖像創(chuàng)建與自定義過程,就像與 GPT-4o 聊天一樣簡(jiǎn)單——只需描述你的需求,包含畫面比例、使用十六進(jìn)制代碼的精確色彩或透明背景等細(xì)節(jié)即可。由于此模型能夠生成涉及更多細(xì)節(jié)的圖像,因此渲染時(shí)間可能更長(zhǎng),最多可能達(dá)到 1 分鐘。
https://openai.com/index/introducing-4o-image-generation/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.