網易首頁 > 網易號 > 正文申請入駐

OpenAI深夜上線「一句話改圖」，ChatGPT免費用戶也能用

2025-03-26 11:40:14　來源: 學術頭條

北京舉報

分享至

今日凌晨，OpenAI 悄悄推出了由 GPT-4o 支持的「自由生圖」功能——Images in ChatGPT。

自此，創建和定制圖片就像使用 GPT-4o 聊天一樣簡單——你需要做的，只是描述你的需求，包括任何具體細節，如長寬比、使用十六進制代碼的精確顏色或透明背景。

例如，向 GPT?4o 輸入一段描述，在描述中說明場景、主體和細節：

用手機拍攝的玻璃白板的廣角圖像，拍攝地點是一間俯瞰海灣大橋的房間。視野中可以看到一位女士正在寫字，她身穿印有大型 OpenAI 標志的 T 恤。字跡看起來很自然，但有點凌亂，我們可以看到攝影師的倒影。

同時，GPT?4o 還可以根據提供的文字內容，在生成圖片的白板上生成相應的筆記。

在輸入新的指令“攝影師的自拍照，她轉身和他擊掌”后，圖片中的人物相應的變換動作，甚至白板上的反光都能夠對應上。

目前，該功能現已面向 ChatGPT 的所有訂閱層級用戶開放，包括免費用戶，但免費用戶的使用次數有限制。由于這一模型創建的圖片更詳細，因此圖片渲染時間更長，通常需要一分鐘。

OpenAI 表示，這一功能將作為 ChatGPT 的默認圖像生成器，也可以在 Sora 中使用。開發人員很快就能通過 API 使用 GPT-4o 生成圖像，并在未來幾周內推出訪問權限。

5 大改進能力

OpenAI 表示，他們根據在線圖像和文本的聯合分布訓練模型，學習圖像與語言及彼此間關系。同時，結合后訓練，使得模型具備視覺流暢性，能夠生成有用、一致且具上下文感知的圖像。

1.文本渲染能力

GPT-4o 現在可以將精確符號與圖像融合，通過自然對話優化圖像，在圖像中添加文字提升含義，且能在聊天中確保圖像一致性。

制作兩個 20 多歲的女巫（一個是白發，一個是長波浪卷發）閱讀路牌的逼真圖像。背景：紐約州威廉斯堡的一條城市街道上，一根電線桿上掛滿了許多詳細的路標（如：街道清掃時間、停車許可證要求、車輛分類等）、街道清掃時間、所需停車許可證、車輛分類、拖車規則），包括中間幾個可笑的標志：（為了使這些路牌合法化，請轉述）“C 區不允許女巫用掃帚停車”、“魔毯只能裝卸（15 分鐘限制）”、“馴鹿停車只能憑許可證（12 月 24-25 日），違反者將被列入淘氣名單”。路標位于街道右側。請勿重復標志。標志必須逼真。人物：一個女巫拿著掃帚，另一個女巫拿著卷起來的魔毯。她們位于前景，背對鏡頭，頭微微傾斜，仔細觀察標志。從背景到前景的構圖：街道 + 停放的汽車 + 建筑物 -> 路牌 -> 女巫。人物必須離拍攝鏡頭最近。

2.多輪生成

用戶可以通過與 GPT-4o 的自然對話來優化圖像，在聊天上下文的基礎上，結合圖像和文本信息，確保內容的一致性。例如，當用戶設計一個電子游戲角色時，在不斷優化和嘗試的過程中，這個角色的外觀在多次迭代中都能保持連貫。例如：

你能為我制作一個可愛的簡約浣熊吃草莓貼紙嗎？使用白色粗邊框和透明背景。

嘗試不同的簡約風格和灰色浣熊圖案。

哦，你能不能在草莓上加上一個咀嚼的痕跡，或者在嘴巴周圍加一些紅色的亂七八糟的東西？

3.指令遵循

GPT?4o 的圖像生成遵循詳細的提示，注重細節。其他系統在處理約 5-8 個對象時會遇到困難，而 GPT?4o 可以處理多達 10-20 個不同的對象。對象與其特征和關系的更緊密綁定使得對圖像的控制更好。

正方形圖像包含一個 4 行 4 列的網格，白色背景上有 16 個物體。從左到右，從上到下。列表如下：藍色星星紅色三角形綠色正方形粉紅色圓形橙色沙漏紫色無窮大標志黑白圓點領結扎眼的 "42" 一只戴著黑色棒球帽的橙色貓一張帶寶箱的地圖一雙眨巴眨巴的眼睛一個豎起大拇指的表情符號一把剪刀一只藍白相間的長頸鹿用草書書寫的單詞 "OpenAI" 彩虹色的閃電

4.上下文學習能力

GPT-4o 可對用戶上傳的圖像進行分析和學習，將圖像細節與上下文無縫整合，為圖像生成提供信息。

5.世界知識

GPT?4o 可分析學習用戶上傳圖像，將其細節融入上下文指導圖像生成，原生圖像生成使模型更智能高效。

照片寫實主義和風格

通過對多種風格圖像訓練，模型能創建或轉換逼真圖像，可按要求生成特定場景的照片。

圖｜一張狗仔隊風格的抓拍照片，照片中的卡爾?馬克思正匆忙地走過某個地方。

圖｜一只貓看著街上的一灘水，但是它在水中的倒影是一只老虎，并且兩個倒影都被水中的漣漪逼真地扭曲了。

圖｜一張 2006 年夏天一個周六多倫多農貿市場的逼真照片。那是六月下旬一個美麗的日子，人們在購物和吃三明治。焦點應該是一個年輕的亞洲女孩，她穿著牛仔背帶褲，正在喝草莓香蕉冰沙，其余部分可以模糊處理。這張照片應該讓人想起 2006 年的數碼相機所拍攝的照片，要有像打印照片那樣的時間戳。寬高比應為 3:2。

局限性

目前，模型還存在一些局限性，如裁剪較長圖像時可能截不全；圖像生成也可以虛構信息，特別是在低上下文提示的情況下。

當生成依賴于其知識庫的圖像時，它可能難以同時準確地呈現 10 到 20 多個不同的概念，例如完整的元素周期表。

該模型有時在呈現非拉丁語言時會遇到困難，并且字符可能不準確或出現幻覺，尤其是在更復雜的情況下。

對圖像生成的特定部分進行編輯的請求（如糾正錯別字）并不總是有效的，并且可能會以非預期的方式改變圖像的其他部分或引入更多錯誤。OpenAI目前正在努力提高模型的編輯精度。

另外，該模型在被要求以非常小的尺寸呈現細節信息時會遇到困難。

最后，OpenAI 還強調了在新功能中實施的安全措施，以防止濫用行為。所有生成的圖像都包含數字水印，標明其由 AI 生成，且用戶擁有這些圖像的完整使用權，但需遵守使用政策。

整理：錦鯉

如需轉載或投稿，請直接在公眾號內留言

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.