出品|虎嗅科技組
作者|余楊
編輯|苗正卿
頭圖|視覺中國
在大模型熱火朝天的戰(zhàn)斗之中,吉卜力拉了OpenAI一把。
4月7日消息,OpenAI正在測試為GPT-4o圖像生成模型加入水印。
這是一款最初只對ChatGPT Plus用戶開放的ImageGen模型,能夠生成帶有文字的圖片和逼真的視覺作品。OpenAI表示,該模型通過大量圖像與文本的聯(lián)合訓(xùn)練,展現(xiàn)出驚艷的視覺表現(xiàn)力和良好的上下文理解能力。
一周前的愚人節(jié),OpenAI首席執(zhí)行官山姆·奧特曼剛剛宣布,ChatGPT圖像生成功能將向所有免費用戶推出。很快,吉卜力風(fēng)格的 AI 圖迅速全網(wǎng)刷屏。
緊隨其后,Midjourney 發(fā)布 AI 圖片生成模型 Midjourney V7 版本并開啟 alpha 測試。全新的“草圖模式”,支持對話式交互界面、實時編輯、語音識別生成功能。作為OpenAI的“同款”,Midjourney不甘示弱,和OpenAI 暗暗較勁。
“吉卜力”(Ghibli)是宮崎駿的動畫工作室和美術(shù)館的名稱,其含義指的是撒哈拉沙漠上吹過的熱風(fēng)。風(fēng)格特點主要是水粉與水彩的結(jié)合,動畫的核心多與自然相關(guān),又在自然中注入了高級灰,呈現(xiàn)出輕盈溫柔、舒適幽靜的視覺效果。
不僅如此,這種風(fēng)格擅長通過同類色的色彩濾鏡傳達畫面情緒,在同類色比重較高的畫面中,又通過筆觸和細微配色差異性來調(diào)度畫面層次,運用暖光加強深淺層次。人物設(shè)計上則強調(diào)簡約與繪本風(fēng)格,使用干練的簡筆線條勾勒形象。
OpenAI正在為免費用戶生成的圖像測試水印,而ChatGPT Plus用戶則可保存無水印圖像。
今天就一起來看看ChatGPT的魔法,測評一下OpenAI 的吉卜力實力。
prompt1:沒有圓柏的北京 春天 陽光明媚 周末的馬路上 人群穿梭 中景 吉卜力風(fēng)格
prompt2:九又四分之三站臺 有人在抽煙 旁邊有人斜視 近景 吉卜力風(fēng)格
prompt3:自由女神在電腦面前辦公 戴著防藍光眼鏡 臉上流露出牛馬的苦惱 特寫 吉卜力風(fēng)格
參與測評的玩家則有即夢、可靈和ChatGPT,也看看各家所長。
即夢AI
即夢的文生圖,速度很快,平均10秒。
不僅如此,支持圖片比例的調(diào)整,在完成圖片生成后,可以挑選圖片進行編輯,支持高清、細節(jié)修復(fù)、局部重繪、生成視頻、擴圖、消除筆等功能。
最終生成圖如下。
prompt1:沒有圓柏的北京 春天 陽光明媚 周末的馬路上 人群穿梭 中景 吉卜力風(fēng)格
prompt2:九又四分之三站臺 有人在抽煙 旁邊有人斜視 近景 吉卜力風(fēng)格
prompt3:自由女神在電腦面前辦公 戴著防藍光眼鏡 臉上流露出牛馬的苦惱 特寫 吉卜力風(fēng)格
可靈AI
可靈的等待時間略長于即夢,大約30秒生成完畢。
不過,可靈有著較好的生態(tài)組合,prompt輸入框的右上角就有著DeepSeek的提示詞優(yōu)化入口,圖片生成完成后,又可以一鍵點擊生成視頻。也就是說,從文到圖、再從圖到視頻,可靈給安排得明明白白。
最終生成效果如下。
prompt1:沒有圓柏的北京 春天 陽光明媚 周末的馬路上 人群穿梭 中景 吉卜力風(fēng)格
prompt2:九又四分之三站臺 有人在抽煙 旁邊有人斜視 近景 吉卜力風(fēng)格
prompt3:自由女神在電腦面前辦公 戴著防藍光眼鏡 臉上流露出牛馬的苦惱 特寫 吉卜力風(fēng)格
ChatGPT
根據(jù)OpenAI在官網(wǎng)的介紹,它的文生圖模型DALL·E 3 是基于 ChatGPT 原生構(gòu)建的,它適用于利用 ChatGPT 做頭腦風(fēng)暴創(chuàng)意,只需要詢問 ChatGPT 想在從簡單句子到詳細段落的任何內(nèi)容中看到什么即可。
和可靈借助DeepSeek一樣,ChatGPT 會自動為 DALL·E 3 生成量身定制的詳細提示。
同時支持對圖片的微調(diào),即如果對某張圖片大致滿意,但又有不太合適的地方,可以要求 ChatGPT 用幾句話進行調(diào)整。
點開右邊的更多,可以看到創(chuàng)建圖片的選項。選擇創(chuàng)建圖片,輸入prompt即可。
整體來說,操作簡單,流程絲滑,30秒左右的時候已經(jīng)產(chǎn)生基本色調(diào),但整個過程的平均等待時長達到了150秒。
下面是成果。
prompt1:沒有圓柏的北京 春天 陽光明媚 周末的馬路上 人群穿梭 中景 吉卜力風(fēng)格
prompt2:九又四分之三站臺 有人在抽煙 旁邊有人斜視 近景 吉卜力風(fēng)格
prompt3:自由女神在電腦面前辦公 戴著防藍光眼鏡 臉上流露出牛馬的苦惱 特寫 吉卜力風(fēng)格
總結(jié)
即夢以平均10秒的生成速度脫穎而出,這種即時性對于需要快速迭代創(chuàng)意的用戶來說是巨大的優(yōu)勢。然而,速度的提升往往伴隨著細節(jié)把控的妥協(xié)。從生成效果來看,即夢的圖像雖然能夠快速呈現(xiàn)吉卜力風(fēng)格的基調(diào),但在情緒傳達和層次調(diào)度上稍顯不足。尤其是prompt1中“沒有圓柏的北京”這一復(fù)雜場景,即夢的生成結(jié)果未能完全捕捉到“高級灰”與“自然氛圍”的微妙平衡。
相比之下,可靈雖然生成速度稍慢(約30秒),但通過DeepSeek的提示詞優(yōu)化和視頻生成能力,構(gòu)建了一個從文到圖再到視頻的完整生態(tài)。這種生態(tài)整合能力,尤其適合需要多模態(tài)輸出的用戶,比如動畫創(chuàng)作者或短視頻制作者。
從生成圖片的質(zhì)量上看,ChatGPT對吉卜力風(fēng)格有著更好的理解,色調(diào)和情緒的把控都相對準確。例如,在prompt3“自由女神在電腦前辦公”這一腦洞場景中,ChatGPT成功捕捉到了“防藍光眼鏡”與“牛馬的苦惱”之間的微妙情緒張力,同時保持了吉卜力風(fēng)格的輕盈與溫柔。
這種優(yōu)勢源于ChatGPT的提示詞優(yōu)化機制。它能夠根據(jù)用戶輸入的prompt,自動生成更詳細的描述,從而提升生成圖像的精準度。此外,ChatGPT支持對圖像的微調(diào)功能,允許用戶通過簡單的語言描述調(diào)整細節(jié),這種靈活性進一步增強了其在創(chuàng)意表達上的競爭力。
官網(wǎng)的展示中,ChatGPT所生成的圖片風(fēng)格并不限于吉卜力,還有如下的細節(jié)圖、腦洞圖和創(chuàng)意圖。
而對于圖片版權(quán)問題,大方開源,使用 DALL·E 3 創(chuàng)建的圖像歸屬用戶,無需獲得OpenAI許可即可重印、出售或銷售。
不僅如此,OpenAI確認正在開發(fā)ImageGen API,未來開發(fā)者可利用該API構(gòu)建應(yīng)用產(chǎn)品,拓展圖像生成模型的應(yīng)用場景。開發(fā)者可以利用該API構(gòu)建自己的應(yīng)用產(chǎn)品,比如教育工具、設(shè)計輔助平臺等。這種開放生態(tài)的構(gòu)建,將推動AI生成圖像技術(shù)的普及與創(chuàng)新。
ChatGPT這次換了個思路。似乎顯示著,大語言模型一枝獨秀還不夠,集成多種生態(tài)的多元賽道勢頭正好。用產(chǎn)品cue著中國的大模型:該你出牌了。
本內(nèi)容為作者獨立觀點,不代表虎嗅立場。未經(jīng)允許不得轉(zhuǎn)載,授權(quán)事宜請聯(lián)系 hezuo@huxiu.com
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4218368.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.