新智元報道
編輯:Aeneas 好困
【新智元導讀】剛剛,OpenAI深夜直播,GPT-4o的原生圖像生成大升級!奧特曼親自上陣組隊,演示了自拍變梗圖、相對論漫畫等功能,不過相對隔壁谷歌發布的新模型,OpenAI的這波動作著實有點不夠看。
就在谷歌剛剛扔出地表最強模型Gemini 2.5 Pro不久,OpenAI也有動作了。
奧特曼親自帶隊,展示了GPT-4o圖像生成技術的各種大升級,比如制作梗圖、文本渲染、多輪交互生成和指令遵循等。
整個直播中最亮的演示,莫過于這張官方玩梗的表情包了。
目前,這項功能已經在ChatGPT和Sora中,向所有Plus、Pro、Team和免費用戶推出。
當然,新版Sora生圖的時間,也比以往更長了。但OpenAI看來,生圖的質量和其具備的世界知識,讓用戶值得等待那多出的幾秒。
GPT-4o原生圖像生成來了!
在直播中,奧特曼介紹道,從今天起,ChatGPT中的原生圖像生成功能正式推出!
GPT-4o的全模態能力,從此也融合進了Sora中。
OpenAI多模態研究的負責人Gabe介紹說,兩年前剛開始這個項目時,他對于GPT-4這個強大的模型會怎樣原生支持圖像模型非常好奇。
一年后,當模型完成訓練時,他看到了令人興奮的跡象。從GPT-2以來,他已經很久沒有這種感覺——這是一個瘋狂時刻。
給出以下prompt,GPT-4o就生成了符合要求的圖像,完全還原了要求。
接下來,三個人用手機來了張自拍,GPT-4o立刻把三人自拍轉換成了動漫風格的版本。
甚至他們開始官方玩梗,讓模型添加一段「Feel The AGI」在圖片上,一張表情包就此誕生。
這個過程,就體現了4o作為全能模型的強大能力。
因為它不僅僅是一個語言模型,還包括圖像、音頻,所有輸入和輸出的模態。它可以理解、生成這些模態,并且無縫地在它們之間工作。
用OpenAI的話說,「我們終于邁向了這種真正集成的多模態模型」。
接下來,他們讓模型畫出一幅描述相對論的漫畫,要求通俗易懂,還要加入一些幽默元素。
這個提示詞非常模糊,因此看看模型會生成什么樣的圖,就格外令人期待了。果然,生成效果令人驚喜。
注意,這個過程中,模型很可能利用了自己的世界知識,對提示詞進行了擴展。
然后,他們給了模型一張卡片,希望生成同樣風格的圖像,但要求主角不再是卡片中的巨貓國王,而是某位研究者的狗狗。
另外,卡片上還需要出現一些細節,比如模型的名字和年份,以及狗狗的體重和身高。
可以看到,生成圖像在文本渲染方面非常驚艷,所有數據都準確無誤。
最后一個演示,是基于此前幾人生成的內容,制作一個紀念幣。
而且,還要求圖使用了一個特殊的十六進制代碼,且加上生成圖像的文本和日期。
可以看到,生成結果非常驚艷!此前曾出現的藝術熊、收音機、愛因斯坦漫畫、研究者的狗狗以及模型名稱和日期,全部都出現在了紀念幣上。
模型之所以精準完成這樣復雜的要求,是因為它是用非自回歸的方式訓練的,因此它能夠理解上下文中的文本和多張圖片,以非常和諧的方式在紀念幣上呈現出來。
和GPT-4o聊天,定制各種圖像
總之,現在使用這個功能,我們可以創建各種圖像,或將其轉換為各種風格。
從此,用GPT-4o創建和定制圖像,就像聊天一樣簡單。
只需描述所需,就能得到想要的任何細節,比如縱橫比、使用十六進制代碼的精確顏色或透明背景。
我們可以讓它設計一個信息圖,解釋牛頓的棱鏡寬高比,背景為深藍色。
一張畫質高級的教學級圖片,立馬生成。
這個圖像生成功能的特點就是,能遵循非常復雜的提示,極其注重細節。
15個非常細化的要求,它都在一張圖里完美實現了。
要知道,大多數生圖模型被要求渲染多個項目時,往往就會混淆顏色和形狀,但新模型卻能正確綁定15到20個對象的屬性,還能成功理解各自的復雜需求。
在你和它的聊天上下文中,GPT-4o就能為你構建圖像和文本,還能確保一致性。
主打一個實用
從最早的洞穴壁畫到現代信息圖表,人類一直使用視覺圖像來交流、說服和分析。
如今的生成式AI模型可以創造出超現實的場景,但在處理人們用于分享和創建信息的實用圖像方面仍然存在困難。
GPT?4o的圖像生成功能擅長準確渲染文本,精確遵循提示詞,并利用GPT-4o固有的知識庫和聊天上下文——包括轉換上傳的圖像或將其用作視覺靈感。
這些能力讓用戶可以更加容易地創建想象中的畫面,幫助通過視覺更有效地溝通,并將圖像生成發展成為一種具有精確性和強大功能的實用工具。
畢竟,只有當圖像配上指代共享語言和經驗的符號時,才能傳達精確的含義。
左右滑動查看
能力大幅增強
通過線上圖像和文本的聯合分布訓練,模型不僅能學會圖像如何與語言相關聯,還能知道它們之間的相互關系。
結合積極的后訓練優化,最終的模型展現出驚人的視覺表現力,能夠生成實用、一致且具有上下文感知能力的圖像。
文本渲染
一張圖片勝過千言萬語,但有時在正確的位置添加幾個詞能夠大大提升圖像的含義。
GPT-4o將精確的符號與圖像融合的能力使圖像生成成為視覺交流的有力工具。
左右滑動查看
多輪交互生成
由于圖像生成現在是GPT?4o的原生功能,用戶可以通過自然對話來完善圖像。
GPT?4o能夠基于聊天上下文中的圖像和文本進行構建,確保始終保持一致性。
比如,一個正在設計中的游戲角色,它的外觀就能在多次迭代和調整中保持連貫一致。
指令遵循
GPT?4o的圖像生成功能不僅可以遵循詳細的提示詞,而且還十分注重細節。
相比起其他只能處理5-8個物體的模型,GPT?4o可以輕松搞定多達10-20個不同的物體。
并且,物體與其特征和關系的更緊密綁定使得控制更加精準。
左右滑動查看
上下文內學習
GPT?4o能夠分析并學習用戶上傳的圖像,將圖像細節無縫整合到上下文中,用于輔助圖像生成。
左右滑動查看
世界知識
內置的圖像生成功能使GPT?4o能夠連接文本和圖像之間的知識,使模型表現得更智能、更高效。
左右滑動查看
真實照片風格
通過對反映多種多樣圖像風格的圖像進行訓練,模型能夠以令人信服的方式創建或轉換圖像。
左右滑動查看
左右滑動查看
左右滑動查看
參考資料:
https://openai.com/index/introducing-4o-image-generation/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.