今日凌晨,OpenAI 悄悄推出了由 GPT-4o 支持的「自由生圖」功能——Images in ChatGPT。
自此,創建和定制圖片就像使用 GPT-4o 聊天一樣簡單——你需要做的,只是描述你的需求,包括任何具體細節,如長寬比、使用十六進制代碼的精確顏色或透明背景。
例如,向 GPT?4o 輸入一段描述,在描述中說明場景、主體和細節:
用手機拍攝的玻璃白板的廣角圖像,拍攝地點是一間俯瞰海灣大橋的房間。視野中可以看到一位女士正在寫字,她身穿印有大型 OpenAI 標志的 T 恤。字跡看起來很自然,但有點凌亂,我們可以看到攝影師的倒影。
同時,GPT?4o 還可以根據提供的文字內容,在生成圖片的白板上生成相應的筆記。
在輸入新的指令“攝影師的自拍照,她轉身和他擊掌”后,圖片中的人物相應的變換動作,甚至白板上的反光都能夠對應上。
目前,該功能現已面向 ChatGPT 的所有訂閱層級用戶開放,包括免費用戶,但免費用戶的使用次數有限制。由于這一模型創建的圖片更詳細,因此圖片渲染時間更長,通常需要一分鐘。
OpenAI 表示,這一功能將作為 ChatGPT 的默認圖像生成器,也可以在 Sora 中使用。開發人員很快就能通過 API 使用 GPT-4o 生成圖像,并在未來幾周內推出訪問權限。
5 大改進能力
OpenAI 表示,他們根據在線圖像和文本的聯合分布訓練模型,學習圖像與語言及彼此間關系。同時,結合后訓練,使得模型具備視覺流暢性,能夠生成有用、一致且具上下文感知的圖像。
1.文本渲染能力
GPT-4o 現在可以將精確符號與圖像融合,通過自然對話優化圖像,在圖像中添加文字提升含義,且能在聊天中確保圖像一致性。
制作兩個 20 多歲的女巫(一個是白發,一個是長波浪卷發)閱讀路牌的逼真圖像。 背景: 紐約州威廉斯堡的一條城市街道上,一根電線桿上掛滿了許多詳細的路標(如:街道清掃時間、停車許可證要求、車輛分類等)、街道清掃時間、所需停車許可證、車輛分類、拖車規則),包括中間幾個可笑的標志:(為了使這些路牌合法化,請轉述)“C 區不允許女巫用掃帚停車”、“魔毯只能裝卸(15 分鐘限制)”、“馴鹿停車只能憑許可證(12 月 24-25 日),違反者將被列入淘氣名單”。路標位于街道右側。請勿重復標志。標志必須逼真。 人物: 一個女巫拿著掃帚,另一個女巫拿著卷起來的魔毯。她們位于前景,背對鏡頭,頭微微傾斜,仔細觀察標志。 從背景到前景的構圖: 街道 + 停放的汽車 + 建筑物 -> 路牌 -> 女巫。人物必須離拍攝鏡頭最近。
2.多輪生成
用戶可以通過與 GPT-4o 的自然對話來優化圖像,在聊天上下文的基礎上,結合圖像和文本信息,確保內容的一致性。例如,當用戶設計一個電子游戲角色時,在不斷優化和嘗試的過程中,這個角色的外觀在多次迭代中都能保持連貫。例如:
你能為我制作一個可愛的簡約浣熊吃草莓貼紙嗎?使用白色粗邊框和透明背景。
嘗試不同的簡約風格和灰色浣熊圖案。
哦,你能不能在草莓上加上一個咀嚼的痕跡,或者在嘴巴周圍加一些紅色的亂七八糟的東西?
3.指令遵循
GPT?4o 的圖像生成遵循詳細的提示,注重細節。其他系統在處理約 5-8 個對象時會遇到困難,而 GPT?4o 可以處理多達 10-20 個不同的對象。對象與其特征和關系的更緊密綁定使得對圖像的控制更好。
正方形圖像包含一個 4 行 4 列的網格,白色背景上有 16 個物體。從左到右,從上到下。列表如下: 藍色星星 紅色三角形 綠色正方形 粉紅色圓形 橙色沙漏 紫色無窮大標志 黑白圓點領結 扎眼的 "42" 一只戴著黑色棒球帽的橙色貓 一張帶寶箱的地圖 一雙眨巴眨巴的眼睛 一個豎起大拇指的表情符號 一把剪刀 一只藍白相間的長頸鹿 用草書書寫的單詞 "OpenAI" 彩虹色的閃電
4.上下文學習能力
GPT-4o 可對用戶上傳的圖像進行分析和學習,將圖像細節與上下文無縫整合,為圖像生成提供信息。
5.世界知識
GPT?4o 可分析學習用戶上傳圖像,將其細節融入上下文指導圖像生成,原生圖像生成使模型更智能高效。
照片寫實主義和風格
通過對多種風格圖像訓練,模型能創建或轉換逼真圖像,可按要求生成特定場景的照片。
圖|一張狗仔隊風格的抓拍照片,照片中的卡爾?馬克思正匆忙地走過某個地方。
圖|一只貓看著街上的一灘水,但是它在水中的倒影是一只老虎,并且兩個倒影都被水中的漣漪逼真地扭曲了。
圖|一張 2006 年夏天一個周六多倫多農貿市場的逼真照片。那是六月下旬一個美麗的日子,人們在購物和吃三明治。焦點應該是一個年輕的亞洲女孩,她穿著牛仔背帶褲,正在喝草莓香蕉冰沙,其余部分可以模糊處理。這張照片應該讓人想起 2006 年的數碼相機所拍攝的照片,要有像打印照片那樣的時間戳。寬高比應為 3:2。
局限性
目前,模型還存在一些局限性,如裁剪較長圖像時可能截不全;圖像生成也可以虛構信息,特別是在低上下文提示的情況下。
當生成依賴于其知識庫的圖像時,它可能難以同時準確地呈現 10 到 20 多個不同的概念,例如完整的元素周期表。
該模型有時在呈現非拉丁語言時會遇到困難,并且字符可能不準確或出現幻覺,尤其是在更復雜的情況下。
對圖像生成的特定部分進行編輯的請求(如糾正錯別字)并不總是有效的,并且可能會以非預期的方式改變圖像的其他部分或引入更多錯誤。OpenAI目前正在努力提高模型的編輯精度。
另外,該模型在被要求以非常小的尺寸呈現細節信息時會遇到困難。
最后,OpenAI 還強調了在新功能中實施的安全措施,以防止濫用行為。所有生成的圖像都包含數字水印,標明其由 AI 生成,且用戶擁有這些圖像的完整使用權,但需遵守使用政策。
整理:錦鯉
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.