最近兩周,“吉卜力畫風”突然就火了。
事情的開始是這樣的,3月26日,OpenAI推出了基于GPT-4o多模態大模型的高精度圖像生成功能“4o Image Generation”,按照他們的說法,現在用戶只需一句簡單的文字描述,就能實現精美的廣告或平面圖的制作、應用界面的UI設計、LOGO或圖片風格的切換等等。
結果呢?整個互聯網的人,都在用它變身“賽博宮崎駿”。
不開玩笑,小雷是真被這玩意給刷屏了,這兩天一打開群聊,就能看到無法無天的群友們在拿GPT-4o瘋狂整活,有做頭像的,有做表情包的,甚至還有把“黃O大道東”變成吉卜力畫風的,推特上的國外網友玩得更是樂此不疲,看得我都有點心癢癢的。
(圖源:X)
幸好,類似的功能,國內大模型并不是沒有。
比如說字節跳動的SeedEdit,同樣可以實現“自然語意修圖”,用戶只需輸入簡單的自然語言,便可對圖像進行多樣化編輯操作。
最重要的是,這功能可不需要你想方設法翻出去用,在字節跳動的豆包官網就直接能用,而且目前豆包的“圖像生成”功能是完全免費且不存在限制的,這一波甚至能把開會員的錢也給直接省下來。
話不說多,我們這邊直接開整!
豆包這款產品,讓人人都是宮崎駿
想體驗這個功能的話,其實還蠻簡單的就是了。
打開豆包網頁版,在輸入框下面就有「圖片生成」,應該就能看到上傳參考圖的選項了,這里就是SeedEdit模型的入口。
要做的事情很簡單,上傳圖片,然后輸入我們想要改變的內容。
(圖源:雷科技)
話不多說,先來看圖。
首先,小雷這邊選用了一張來自知名音樂錄像帶里的截圖,讓豆包和最近巨火的GPT-4o都試著“幫我換成吉卜力風格”。
這是原圖:
(圖源:Youtube)
這是豆包的成品:
(圖源:豆包)
這是GPT-4o的成品:
(圖源:GPT)
對比下來,GPT-4o的衣服還原度更高,手部沒有變形,只是沒有維持原圖比例;豆包雖然整體構圖、配色更加貼近原圖,但是衣服有些微變化,手部有些變形,甚至多了一只抓著麥克風的手。
接著試一下大家都關心的名人,比如說馬斯克:
(圖源:豆包)
比方說喬布斯:
(圖源:豆包)
再給喬布斯換個迪士尼風格:
(圖源:豆包)
從結果來看,豆包的轉換效果可以說是非常成熟。
最后,我們試一試影視劇集里的名場面,這次就拿《和平使者》里面約翰·塞納飾演的克里斯多福·史密斯的名場面做例子:
(原圖,圖源:HBO Max)
(圖源:豆包)
(圖源:GPT)
這次差距其實更加明顯一些,GPT-4o甚至把金屬頭盔保留了下來,身邊的兩名角色也做到了精準的畫風轉制,但是圖片比例有所修改,文字信息也沒有保留下來。
作為對比,豆包則是試圖在整幅畫面上進行對齊,然而人數一多起來,角色的服裝和樣子就沒多少能對上的。
但是,接著我就要說但是了,豆包的效果還是比Gemini 2.0要強上一大截的,谷歌這玩意雖然支持自然語意修圖,但是既不懂吉卜力風格是啥意思,也搞不清楚怎么修改圖片比例。
(圖源:Gemini 2.0)
可惡的谷歌,不要給我看這一堆不知所謂的東西!
其實把思路反過來,把畫改成真實風格,豆包搞得也不錯,我上傳了一張刻在不少人基因里的Meme圖片,讓它以此為原型,生成一張真實照片。
(圖源:豆包)
嗯...只能說像是挺像的,就是沒了那種沖擊感。
如果再簡單調整一下的話,就能做出下面這種效果:
(圖源:豆包)
雖說臉型有點不對,笑得也是有點猙獰,但是這種打破次元壁的做法,還真就只有AI大模型能夠實現。
豆包圖片處理能力在線,但仍有較大改進空間
不過,人人都在用吉卜力畫風,也帶來了新一輪的版權問題。
畢竟早在2016年,宮崎駿評價AI動畫技術時就直言:這是對生命本身的侮辱。
宮崎駿反對用技術代替手工創作,他認為AI生成圖像缺乏對生命力的敬畏,而在2025年的今天,技術力的進步,反而讓大家對這件事情變得更肆無忌憚了起來,確實是有點諷刺的。
(圖源:Youtube)
既然如此,我們不妨轉換一下思路,把它當成PS來用?
比如在設計行業里源遠流長的梗,“讓大象轉個身”這種要求,我們在豆包上能不能實現呢?
答案是“完全可以,輕易可以”。
可以看到,SeedEdit生成的大象背面是非常合乎邏輯的,耳朵的形狀、腳部的位置、身體的顏色都做得相當不錯,周圍的環境也保持了高度的一致,很難看出畫面上有什么破綻。
不過類似海報的效果,豆包就做得不咋樣了,和GPT-4o可以說一眼就能看出差別了。
(圖源:豆包)
(圖源:GPT)
只能說,豆包在審美這塊,還真有挺多要學的地方。
最后,我也試了一下豆包憑空進行“圖片生成”的效果。
提示詞如下:
一位年輕的印度女性,黑發扎著敞開的馬尾辮,身穿黑色夾克,站在大學校園里,直視著鏡頭。該圖像具有1990年代風格的電影靜態美學,在陽光明媚的日子里拍下的特寫肖像。
(圖源:雷科技)
對比豆包,GPT-4o產出的圖更有特寫感;Midjourney V7產出的圖片光線更加自然,人物臉部的膚色也相對更加清晰,細節更加豐富,畫面焦點更加清晰,但總的來說,三者都沒啥肉眼可見的問題。
AI修圖,爆發在即
不可否認,如今AI大模型在“繪畫”上足以獨當一面了。
但是在圖像編輯領域,AI大模型依然是相對落后的,無法進行精準編輯一直是行業的老大難問題。
前些年,這類需求一般可以通過Stable Diffusion的ControlNet插件來實現。
它可以獲取額外的輸入圖像,通過不同的預處理器轉換為控制圖,進而作為Stable Diffusion擴散的額外條件,只需使用文本提示詞,就可以在保持圖像主體特征的前提下任意修改圖像細節。
(圖源:新浪微博,識別特征并進行重新繪制)
然而本地部署AI應用這事,和大部分小白是基本無緣的。
所以在進入今年后,包括GPT-4o、Gemini 2、Midjourney V7等先后上線了通過自然語意修圖的功能。
個人認為,這種只需給定輸入圖像和告訴模型要做什么的文本描述,然后模型就能遵循描述指令來編輯圖像的功能,甚至可以被視為重大突破,曾經被視為必備技能的PS,如今似乎陷入了“可學可不學”的微妙處境。
當然了,目前這類模型在生成圖片時還是有一些問題存在的。
直到今天,豆包AI修圖依然缺乏人像前后的一致性,也缺乏圖片內容的方向性,只要涉及到人物面部的修圖,那么最終出來的圖像和原圖的差異會很夸張,豆包本身也很難判斷你要修改的是圖片里的哪個元素。
(圖源:豆包)
倒是文字處理能力,相較以往有了一定提升,現在SeedEdit在修圖時已經不會隨便編造文字內容,但是圖片生成時的錯字現象依然需要改善。
不管怎么說,豆包SeedEdit算是彌補了國產大模型在語義AI修圖應用這塊的空白。
可以預見的是,隨著AI圖像編輯技術的不斷發展,未來手機、電腦都可能會集成這項功能,就像AI消除、AI擴圖那樣走進尋常百姓家。無論是小白還是大咖,每個人都有機會輕松上手使用,讓自己對美的理解可以更直觀地展現出來。
修圖有手就行?或許真的不是夢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.