新智元報道
編輯:桃子 好困
【新智元導讀】GPT-4o之后,OpenAI原生多模態圖像生成模型API正式推出了,一張圖低至0.02美元。新模型能夠結合世界知識,生成更加符合上下文圖像,質量更高,還支持多種功能自定義。
昨夜,OpenAI發布全新圖像生成模型gpt-image-1,API向所有開發者開放。
這一次,他們直接把每張圖的成本打到幾美分。
對于低、中、高質量的方形圖像,生成大約花費0.02美元、0.07美元、0.19美元。
gpt-image-1集成了三大核心功能:圖像生成、圖像編輯、圖像變體(僅限DALL·E 2)。
與GPT-4o圖像生成不同,gpt-image-1最大的特點,在于支持各種高級功能的定制。
比如,自定義輸出圖像的質量、尺寸、格式、壓縮程度,甚至可選擇是否需要透明背景,能夠滿足多樣化創意需求。
它具備了強大的通用能力,不僅能夠創作多種風格圖片,還能精準遵循自定義需求。通過結合世界知識,生成更符合上下文的圖像。
現在,你就可以在playground中使用gpt-image-1來快速迭代提示詞和圖像:
GPT-4o上線掀起全網吉卜力風潮,并在發布首周全球1.3億用戶,創作了超7億圖片。
gpt-image-1作為OpenAI全新一個原生多模態圖像模型,隨著API開放,將會在未來極大地釋放人們創意。
效果一覽
在官方API文檔「探索」區,OpenAI放出了許多gpt-image-1生成圖片的demo,效果非常驚艷。
接下來,就一睹為快吧。
一句話,讓gpt-image-1展示出創建鱷梨醬所需的所有食材。
下面這張夢幻之境,可是用了一個「小作文」提示詞才完成的。
再來看它創作的外星人Glorptak,有著凝膠狀身體,半透明發光,非常可愛。
對于模特、電商行業來說,gpt-image-1將重塑創作方式。上傳一張衣服圖、一張人的照片,就能看到衣服上身的效果了。
橄欖油宣傳圖,也只需找一張背景圖,gpt-image-1瞬間完成P圖。
更神奇的是,上傳一張房屋設計平面圖,gpt-image-1就能將其變為3D效果,更加直觀。
番茄醬廣告,非常有視覺沖擊力。
設計礦泉水的瓶身,也是多種風格拿捏。
生成超寫實的3D圖標,看著非常有質感。
gpt-image-1還能生成粗線條手繪風格圖解,為回針縫制法每一步配上了簡潔的說明文字。
上傳一張CD模板圖,讓gpt-image-1生成金屬樂隊黑膠唱片。
還有各種紋理的防止圖案,也是非常有創意。
還有動畫分鏡腳本——馬匹跳躍循環序列,gpt-image-1可做到逐幀解剖要點。
上傳獨立流行音樂人的照片,一張演唱會門票直接設計好了。
自定義圖像輸出,精準創意
目前,OpenAI GPT Image API提供了豐富的自定義選項,讓開發者完全掌控輸出效果。
尺寸:支持多種分辨率,比如1024x1024, 1024x1536
質量:可選low,medium,high三種渲染質量
格式:文件輸出格式
壓縮:針對JPEG和WebP格式,可設置0-100%級別的壓縮
背景:透明或不透明
生成圖像
通過圖像生成端點,僅憑一段文本提示,即可生成令人驚嘆的圖像。
可設置參數n ,一次可生成多張圖像(默認情況下,API返回單張圖片)。
from openai import OpenAI
import base64
client = OpenAI()
result = client.images.generate(
model="gpt-image-1",
prompt="Draw a rocket in front of a blackhole in deep space"
)
image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)
# Save the image to a file
with open("blackhole.png", "wb") as f:
f.write(image_bytes)
圖像編輯
而圖像編輯功能,可以讓創意更進一步。通過圖像編輯端點,你可以:
直接編輯現有圖片
參考圖像生成新圖片:上傳多張參考圖像,然后生成新圖
局部編輯(inpainting):通過上傳圖像和蒙版,精準替換指定的區域
參考圖像生成新圖片
比如,上傳四張禮品圖片,生成一個包含所有禮品的精美禮物籃的圖像。
from openai import OpenAI
client = OpenAI()
result = client.images.edit(
model="gpt-image-1",
image=[
open("body-lotion.png", "rb"),
open("bath-bomb.png", "rb"),
open("incense-kit.png", "rb"),
open("soap.png", "rb"),
],
prompt="Generate a photorealistic image of a gift basket on a white background labeled 'Relax & Unwind' with a ribbon and handwriting-like font, containing all the items in the reference pictures"
)
image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)
# Save the image to a file
with open("gift-basket.png", "wb") as f:
f.write(image_bytes)
使用蒙版編輯圖像(局部編輯)
你可以上傳一個蒙版來編輯圖像,蒙版中的透明區域將被替換,而黑色區域保持不變。
OpenAI建議,你可以使用提示來描述整個新圖像,而不僅僅是被擦除的區域。
蒙版要求:
1. 圖像和蒙版需要格式一致,尺寸相同,大小不超過25MB。
2. 蒙版需包含Alpha通道,在圖像編輯工具中保存蒙版時,務必勾選「保存Alpha通道」。
from openai import OpenAI
client = OpenAI()
result = client.images.edit(
model="gpt-image-1",
image=open("sunlit_lounge.png", "rb"),
mask=open("mask.png", "rb"),
prompt="A sunlit indoor lounge area with a pool containing a flamingo"
)
image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)
# Save the image to a file
with open("composition.png", "wb") as f:
f.write(image_bytes)
在自定義中,還需要注意的包括:
方形圖片以標準質量生成的速度最快,默認大小是1024x1024。
Image API返回base64編碼的圖像數據,默認格式是png ,但你也可以請求jpeg或webp。
如果使用jpeg或webp,還可以指定output_compression參數來控制壓縮級別(0-100%)。例如, output_compression=50就是把圖像壓縮50%。
此外,gpt-image-1支持透明背景。要啟用透明度,需將background參數設置為transparent。
from openai import OpenAI
import base64
client = OpenAI()
result = client.images.generate(
model="gpt-image-1",
prompt="Draw a 2D pixel art style sprite sheet of a tabby gray cat",
size="1024x1024",
background="transparent",
quality="high",
)
image_base64 = result.json()["data"][0]["b64_json"]
image_bytes = base64.b64decode(image_base64)
# Save the image to a file
with open("sprite.png", "wb") as f:
f.write(image_bytes)
模型對比
雖然gpt-image-1是目前OpenAI最強大的多模態模型,此前推出的DALL·E 2和DALL·E 3則是專為圖像生成設計的模型,各有所長。
根據不同需求和場景,開發者可靈活從中選用這些模型API。
gpt-image-1使用同樣是按Token計費,文本和圖像的Token各有不同的價格:
文本輸入Token:5美元/百萬token
圖像輸入Token:10美元/百萬token
圖像輸出Token:40美元/百萬token
如前所述,在實際應用中,對于低、中和高質量的方形圖片,每生成一張圖像的費用大約分別為0.02美元、0.07美元和0.19美元。
從創意到商業無限可能
OpenAI全新Image API的推出,將為各行各業解鎖更多創意魔法。
目前,創意工具、電商、教育、企業軟件、游戲等行業的領先企業和初創公司,已經將圖像生成集成到他們的產品和服務中。
Adobe的創意工具,包括Firefly和Express,將通過gpt-image-1為創作者提供選擇和靈活性,方便他們實驗不同的美學風格。
Figma正在利用gpt-image-1從簡單的提示詞生成和編輯圖像,使設計師能夠快速探索創意并直接在Figma中進行視覺迭代。
HeyGen正在使用gpt-image-1來增強頭像創建,特別是在平臺內改善頭像編輯。
Photoroom正在使用gpt-image-1幫助在線賣家從單一產品照片中瞬間創建工作室級別的視覺效果、生活場景和模特展示圖。
此外,Canva已將gpt-image-1集成到Canva AI和Magic Studio工具中,進一步擴展設計生成和編輯能力。
簡單的草圖,gpt-image-1即可將其轉化為精美圖形元素。與此同時,它還支持高保真的視覺編輯,讓2.3億用戶能夠用全新方式將創意變為現實。
專為設計logo而生的GoDaddy,通過集成gpt-image-1,可以輕松創建編輯Logo,去除背景并生成專業字體設計。
借助GoDaddy Airo,創意者通過提示即可生成原創產品和品牌內容,并打造體現自身品牌個性的社交媒體和營銷素材。
還有HubSpot通過OpenAI圖像新模型,有望徹底革新客戶制作高質量社交媒體、郵件營銷以及落地頁圖片的方式,無需專業設計經驗也能輕松實現。
Instacart正在測試如何利用API生成用于菜譜和購物清單的圖片,以提升用戶體驗。
創作個性化視頻invideo,在集成gpt-image-1后,將支持更強大的文本生成、精細化編輯控制和高級風格指導,進一步豐富了用戶的視頻創作體驗。
參考資料:
https://openai.com/index/image-generation-api/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.