就在剛剛,OpenAI 宣布在 GPT-4o 模型中集成了迄今為止最先進的圖像生成器。
OpenAI CEO Sam Altman 在 X 平臺繼續夸夸群主上線,表示初次見到模型生成的圖片時,難以相信是 AI 所為,并期待用戶能發揮創意。
新功能亮點如下:
能夠精確渲染文本內容
支持多模態輸入輸出(文本、圖像、音頻)
能理解復雜指令并結合上下文
能創建具有真實感的第一人稱視角圖像
遵循指令,可以處理上傳的圖片并進行編輯或風格轉換
先來感受一下新模型生成的圖片:
向左滑動查看更多內容
最新版本的系統卡寫到, 與作為擴散模型的 DALL·E 不同,4o 圖像生成是一個自回歸模型,原生嵌入在 ChatGPT 中。
具體來說,比起其他圖像生成模型,GPT-4o 能處理多達 10-20 個不同物體的復雜指令,遠超競爭對手 5-8 個的限制,差距不是一般大。
一句話 P 圖也行,該模型同樣支持多輪圖像生成,聊著天就能優化圖像,確保角色等元素在多次迭代中保持一致性。
比如設計個游戲角色,改來改去外觀都能穩住,還能分析用戶上傳的圖像、細節抓得準,并指導后續圖像生成。
目前, 新功能已向 Plus、Pro、Team 和免費用戶開放,Enterprise 和 Edu 用戶即將獲得訪問權限。 別急,開發者們幾周后也能通過 API 用上這功能。
附體驗鏈接:https://chatgpt.com/
使用 GPT-4o 創建和自定義圖像非常簡單,只需描述需求,包括縱橫比、精確顏色或透明背景等規格。 不過要是細節多,渲染可能得等上一分鐘,畢竟慢工出細活嘛。
今天凌晨召開的發布會也向我們展示了幾個具體的案例。 比如說,演示者拍了張仨人的合影,讓 ChatGPT 改成動漫風。
結果模型不僅保留了三人的特征(如胡須、表情等),還能理解并融合「動漫」這一視覺風格。
接著他又讓它改成互聯網梗圖,加上了「I FEEL THE AGI」的文字,果然,OpenAI 的發布會少了 AGI 總感覺差點意思,屬實是傳統藝能了。
又或者,演示者要求模型創建一個「描述相對論的彩色漫畫頁面,并添加幽默元素」。
模型生成 一個結構完整的漫畫頁面,包含了相對論相關概念 的解釋,融合了不同語言的文字,并通過視覺表現形式呈現出幽默效果。
換句話說,能夠將抽象科學概念可視化,有望利好教育領域。
還有演示者先上傳了一張 Sora 發布會的交易卡片照片作為參考,然后上傳了自己寵物狗的照片,并提供了卡片上應包含的具體信息(名稱、年份、能力、體重身高等)。
模型很快整出一張風格統一的卡片。 卡片里,狗狗站在滑雪板上帥氣出場,文字排版清晰準確。
繼續上強度,演示人員拿前兩個演示的圖加上背景兩張圖,讓模型設計一枚紀念幣,并指定了特定的顏色代碼(春季色彩)和文字要求。
模型成功將四張不同圖像以和諧方式融合到一個幣面設計中。他隨后還要求將背景改為透明,以便實際打印,模型穩穩改好,設計也沒走樣。
AI 生成圖像造成的危害已經不是什么新鮮的話題了。 為了安全,所有生成圖像都帶有 C2PA 元數據標識,OpenAI 還構建了內部搜索工具,驗證內容來源,以及阻止違反內容政策的圖像請求。
當要求生成真人圖像時,OpenAI 則管得更嚴。包括 Altman 也表示,OpenAI 希望工具默認不生成冒犯性內容,除非用戶明確要求,并在合理范圍內實現。
那新功能也存在比較明顯的短板 。 比如 偶爾裁剪不恰當、低上下文提示下可能產生幻覺、渲染非拉丁語言文本困難、局部調整不夠細等。 OpenAI 說了,這些小問題會在發布后慢慢優化。
此外,Google 于今天凌晨也發布了旗下迄今為止最強大的 AI 模型。
Google CEO Sundar Pichai 在線打 Call,稱 Gemini 2.5 Pro Experimental 是一款最先進的「思維」模型,在多個基準測試中領先,特別是在推理和編程能力上有了顯著的提升。
在大模型競技場 Chatbot Arena 中,新模型力的排名 壓 Gork 3,再次遙遙領先。
按照 OpenAI 過往的「狙擊」作風,新模型的發布一方面是對上周 Google 發布的圖像模型進行回擊,另一方面同樣是狙擊 Gemini 2.5 Pro Experimental。
你方唱罷我登場,AI 巨頭們針鋒相對的戲碼只會越演越烈,消停?看來是想都別想了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.