網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

ChatGPT能靠吉卜力風(fēng)翻盤嗎？

2025-04-10 03:44:21　來源: 虎嗅APP

北京舉報

分享至

出品｜虎嗅科技組

作者｜余楊

編輯｜苗正卿

頭圖｜視覺中國

在大模型熱火朝天的戰(zhàn)斗之中，吉卜力拉了OpenAI一把。

4月7日消息，OpenAI正在測試為GPT-4o圖像生成模型加入水印。

這是一款最初只對ChatGPT Plus用戶開放的ImageGen模型，能夠生成帶有文字的圖片和逼真的視覺作品。OpenAI表示，該模型通過大量圖像與文本的聯(lián)合訓(xùn)練，展現(xiàn)出驚艷的視覺表現(xiàn)力和良好的上下文理解能力。

一周前的愚人節(jié)，OpenAI首席執(zhí)行官山姆·奧特曼剛剛宣布，ChatGPT圖像生成功能將向所有免費用戶推出。很快，吉卜力風(fēng)格的 AI 圖迅速全網(wǎng)刷屏。

緊隨其后，Midjourney 發(fā)布 AI 圖片生成模型 Midjourney V7 版本并開啟 alpha 測試。全新的“草圖模式”，支持對話式交互界面、實時編輯、語音識別生成功能。作為OpenAI的“同款”，Midjourney不甘示弱，和OpenAI 暗暗較勁。

“吉卜力”（Ghibli）是宮崎駿的動畫工作室和美術(shù)館的名稱，其含義指的是撒哈拉沙漠上吹過的熱風(fēng)。風(fēng)格特點主要是水粉與水彩的結(jié)合，動畫的核心多與自然相關(guān)，又在自然中注入了高級灰，呈現(xiàn)出輕盈溫柔、舒適幽靜的視覺效果。

不僅如此，這種風(fēng)格擅長通過同類色的色彩濾鏡傳達畫面情緒，在同類色比重較高的畫面中，又通過筆觸和細微配色差異性來調(diào)度畫面層次，運用暖光加強深淺層次。人物設(shè)計上則強調(diào)簡約與繪本風(fēng)格，使用干練的簡筆線條勾勒形象。

OpenAI正在為免費用戶生成的圖像測試水印，而ChatGPT Plus用戶則可保存無水印圖像。

今天就一起來看看ChatGPT的魔法，測評一下OpenAI 的吉卜力實力。

prompt1：沒有圓柏的北京春天陽光明媚周末的馬路上人群穿梭中景吉卜力風(fēng)格

prompt2：九又四分之三站臺有人在抽煙旁邊有人斜視近景吉卜力風(fēng)格

prompt3：自由女神在電腦面前辦公戴著防藍光眼鏡臉上流露出牛馬的苦惱特寫吉卜力風(fēng)格

參與測評的玩家則有即夢、可靈和ChatGPT，也看看各家所長。

即夢AI

即夢的文生圖，速度很快，平均10秒。

不僅如此，支持圖片比例的調(diào)整，在完成圖片生成后，可以挑選圖片進行編輯，支持高清、細節(jié)修復(fù)、局部重繪、生成視頻、擴圖、消除筆等功能。

最終生成圖如下。

prompt1：沒有圓柏的北京春天陽光明媚周末的馬路上人群穿梭中景吉卜力風(fēng)格

prompt2：九又四分之三站臺有人在抽煙旁邊有人斜視近景吉卜力風(fēng)格

prompt3：自由女神在電腦面前辦公戴著防藍光眼鏡臉上流露出牛馬的苦惱特寫吉卜力風(fēng)格

可靈AI

可靈的等待時間略長于即夢，大約30秒生成完畢。

不過，可靈有著較好的生態(tài)組合，prompt輸入框的右上角就有著DeepSeek的提示詞優(yōu)化入口，圖片生成完成后，又可以一鍵點擊生成視頻。也就是說，從文到圖、再從圖到視頻，可靈給安排得明明白白。

最終生成效果如下。

prompt1：沒有圓柏的北京春天陽光明媚周末的馬路上人群穿梭中景吉卜力風(fēng)格

prompt2：九又四分之三站臺有人在抽煙旁邊有人斜視近景吉卜力風(fēng)格

prompt3：自由女神在電腦面前辦公戴著防藍光眼鏡臉上流露出牛馬的苦惱特寫吉卜力風(fēng)格

ChatGPT

根據(jù)OpenAI在官網(wǎng)的介紹，它的文生圖模型DALL·E 3 是基于 ChatGPT 原生構(gòu)建的，它適用于利用 ChatGPT 做頭腦風(fēng)暴創(chuàng)意，只需要詢問 ChatGPT 想在從簡單句子到詳細段落的任何內(nèi)容中看到什么即可。

和可靈借助DeepSeek一樣，ChatGPT 會自動為 DALL·E 3 生成量身定制的詳細提示。

同時支持對圖片的微調(diào)，即如果對某張圖片大致滿意，但又有不太合適的地方，可以要求 ChatGPT 用幾句話進行調(diào)整。

點開右邊的更多，可以看到創(chuàng)建圖片的選項。選擇創(chuàng)建圖片，輸入prompt即可。

整體來說，操作簡單，流程絲滑，30秒左右的時候已經(jīng)產(chǎn)生基本色調(diào)，但整個過程的平均等待時長達到了150秒。

下面是成果。

prompt1：沒有圓柏的北京春天陽光明媚周末的馬路上人群穿梭中景吉卜力風(fēng)格

prompt2：九又四分之三站臺有人在抽煙旁邊有人斜視近景吉卜力風(fēng)格

prompt3：自由女神在電腦面前辦公戴著防藍光眼鏡臉上流露出牛馬的苦惱特寫吉卜力風(fēng)格

總結(jié)

即夢以平均10秒的生成速度脫穎而出，這種即時性對于需要快速迭代創(chuàng)意的用戶來說是巨大的優(yōu)勢。然而，速度的提升往往伴隨著細節(jié)把控的妥協(xié)。從生成效果來看，即夢的圖像雖然能夠快速呈現(xiàn)吉卜力風(fēng)格的基調(diào)，但在情緒傳達和層次調(diào)度上稍顯不足。尤其是prompt1中“沒有圓柏的北京”這一復(fù)雜場景，即夢的生成結(jié)果未能完全捕捉到“高級灰”與“自然氛圍”的微妙平衡。

相比之下，可靈雖然生成速度稍慢（約30秒），但通過DeepSeek的提示詞優(yōu)化和視頻生成能力，構(gòu)建了一個從文到圖再到視頻的完整生態(tài)。這種生態(tài)整合能力，尤其適合需要多模態(tài)輸出的用戶，比如動畫創(chuàng)作者或短視頻制作者。

從生成圖片的質(zhì)量上看，ChatGPT對吉卜力風(fēng)格有著更好的理解，色調(diào)和情緒的把控都相對準確。例如，在prompt3“自由女神在電腦前辦公”這一腦洞場景中，ChatGPT成功捕捉到了“防藍光眼鏡”與“牛馬的苦惱”之間的微妙情緒張力，同時保持了吉卜力風(fēng)格的輕盈與溫柔。

這種優(yōu)勢源于ChatGPT的提示詞優(yōu)化機制。它能夠根據(jù)用戶輸入的prompt，自動生成更詳細的描述，從而提升生成圖像的精準度。此外，ChatGPT支持對圖像的微調(diào)功能，允許用戶通過簡單的語言描述調(diào)整細節(jié)，這種靈活性進一步增強了其在創(chuàng)意表達上的競爭力。

官網(wǎng)的展示中，ChatGPT所生成的圖片風(fēng)格并不限于吉卜力，還有如下的細節(jié)圖、腦洞圖和創(chuàng)意圖。

而對于圖片版權(quán)問題，大方開源，使用 DALL·E 3 創(chuàng)建的圖像歸屬用戶，無需獲得OpenAI許可即可重印、出售或銷售。

不僅如此，OpenAI確認正在開發(fā)ImageGen API，未來開發(fā)者可利用該API構(gòu)建應(yīng)用產(chǎn)品，拓展圖像生成模型的應(yīng)用場景。開發(fā)者可以利用該API構(gòu)建自己的應(yīng)用產(chǎn)品，比如教育工具、設(shè)計輔助平臺等。這種開放生態(tài)的構(gòu)建，將推動AI生成圖像技術(shù)的普及與創(chuàng)新。

ChatGPT這次換了個思路。似乎顯示著，大語言模型一枝獨秀還不夠，集成多種生態(tài)的多元賽道勢頭正好。用產(chǎn)品cue著中國的大模型：該你出牌了。

本內(nèi)容為作者獨立觀點，不代表虎嗅立場。未經(jīng)允許不得轉(zhuǎn)載，授權(quán)事宜請聯(lián)系 hezuo@huxiu.com

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4218368.html?f=wyxwapp

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.