北京時間3月26日凌晨,OpenAI發(fā)布GPT-4o的原生圖像生成功能。這兩天,隨著吉卜力風(fēng)格AI圖像成了社交平臺的焦點,大家才重新審視這次“重磅”發(fā)布。
此文作者張好蔚,95后,從零開始接觸AI,自學(xué)用comfy生圖流搭建了一套“文生圖”視覺系統(tǒng)——目前大部分文生圖應(yīng)用也是這么來的。但GPT-4o來了,似乎她媽媽這樣的外行動動手指也能完成她的工作,無數(shù)個通宵達(dá)旦的努力突然就沒了支點。
3月27日,凌晨2點,距離前一日GPT-4o的更新剛過去一天。
杭州的雨下得很大很大,一聲驚雷過后,我就再也睡不著了,掏出手機刷著朋友圈,看到許久未發(fā)新動態(tài)的同行朋友木可寫著:這真是沮喪的一天,測試了許久后大概率確認(rèn)了,4o是真的可以取代80%的comfy生圖流能力了……
木可在圈子里小有名氣,國內(nèi)許多使用comfy搭建工作流的人都或多或少用過他做的插件。震驚于這個評價,我速刷了b站和社交媒體的所有相關(guān)動態(tài),然后越刷越心驚,越刷越清醒……如果說此前的谷歌大模型Gemini flash還像一個未來可期的學(xué)生,讓人看到了多模態(tài)模型的潛力卻又不那么滿意它的表現(xiàn),那么4o的圖像能力是真的將改變整個行業(yè)的生態(tài)了。
先來簡單解釋下comfy生圖流,以當(dāng)前世界AI生圖的能力來說,Midjourney風(fēng)格化優(yōu)秀但可控性差,基于diffusion框架的可控性高但操作復(fù)雜。comfy生圖流其實就是一條流水線,讓AI在生圖的每一個重要環(huán)節(jié)都有人工的指引,因為AI能力不夠,實際應(yīng)用時往往需要進(jìn)行多步操作,甚至在幾個軟件之間相互倒騰。
比如,下面這張圖就是我在工作中搭建的一個comfy生圖流:
圖表1 工作流通常需要經(jīng)過多個節(jié)點的參與和調(diào)整才能完成AI圖片的生成
圖表2 封裝完使用的平臺生圖為了確保生圖質(zhì)量依然要上傳參考選擇參數(shù)
當(dāng)工作流的參數(shù)設(shè)置對當(dāng)前生圖需求不那么適用時,你經(jīng)常會得到一張讓你很崩潰的圖片,然后就是漫長的參數(shù)反復(fù)修改+測試。
然而,當(dāng)4o上線的一刻,這一切都不需要了。
用戶要做的事情只有,打開輸入框,告訴4o你的想法,甚至你都可以不需要說全,它都會自行理解。比如:
再來看下面這個人臉互換的經(jīng)典案例。在此之前,如果使用comfy或者傳統(tǒng)ps來做下述需求,是需要通過redux等技術(shù)先把產(chǎn)品換了,再串聯(lián)換臉換裝的節(jié)點來跑一遍工作流,精修后再重新跑一遍圖以高清化和優(yōu)化光影的。
功能能實現(xiàn),但效果也不會比4o好更多,而4o卻只需要一句大白話的提示詞,就這樣水靈靈地出圖了。
如果對部分不滿意,還可以接著告訴他怎么修改,真的“只用嘴就行”。不忙時期的生成速度也只需要等待1-2分鐘,完全是連我媽這樣智能手機都摸不太明白的人也能操作的程度,根本沒有學(xué)習(xí)成本可言。
再看看這樣的例子,PS和當(dāng)前各大AI消除功能都能完成,但得要很多步精細(xì)手工操作才能有滿意的效果,在這個過程中,圖像還有可能出現(xiàn)明顯的涂抹感和修正錯誤,而4o的結(jié)果:清晰、正確、高效。
在文字生成領(lǐng)域,甚至是中文生成領(lǐng)域,4o也展現(xiàn)出了目前最先進(jìn)級別的能力。在此之前,剪映旗下的“即夢”中文海報生成能力已經(jīng)足夠讓人驚艷,而現(xiàn)在4o,不僅僅是簡單的banner設(shè)計,連風(fēng)格化字體都能做得這么好了。
天知道曾經(jīng)字體設(shè)計在平面領(lǐng)域有多麻煩多讓我頭痛,這下好了,不僅省時省力,連字體版權(quán)都可以規(guī)避了。
說真的,心情很復(fù)雜。除去新技術(shù)所帶來的興奮,說不清的迷茫和失落也像這幾天的天氣一樣揮之不去。所有人都知道,這才是AI應(yīng)該展現(xiàn)的姿態(tài),但當(dāng)它真正來臨時,你作為受到?jīng)_擊的從業(yè)者,就像一個站在拳擊臺上的選手,一下子被技術(shù)性擊倒。更別提,它可以繼續(xù)進(jìn)步。
這幾日中外AI社區(qū),對4o的測試層出不窮,它確實存在一些問題,比如一致性仍需加強、細(xì)節(jié)度不夠、無法批量化處理圖片、隱私問題等等,comfy仍然會是很長一段時間里本地部署的最優(yōu)策略。
但這些問題,終究會在某一個來日被不動聲響地攻克。只要價格合適,吃過蘋果肉的人不會甘愿再去舔蘋果核,未來的大模型一定會以更加易用、更加高質(zhì)的方式改變普通人的行為模式——就先從圖片設(shè)計領(lǐng)域開始。科技巨頭們造出的盛宴,也將湮滅一直以來無數(shù)小團(tuán)隊和個人開發(fā)者的堅持和努力。
就像這位大佬說的一樣,過去一年的時間里,無數(shù)個點燈熬油的晚上,凝聚了我對曾經(jīng)優(yōu)秀大模型新技術(shù)的研究和期待。接近一個T的硬盤空間里,裝著上百個測試模型和節(jié)點數(shù)據(jù),這些心血卻在一次大模型的更新面前變得如此蒼白無力。如同地球人在看見三體文明的那一刻,所感知到的無助和震撼。
“大模型的能力才是一切的基礎(chǔ)” 這是一年之前我在和同事分享AI資訊時寫在ppt上的一句話,如今4o再次驗證了這點。我突然想到那句話“這是一個最好的時代,也是一個最壞的時代”,我們被科技力量裹挾著前進(jìn),努力在時代洪流中掙出自己的未來;見證著這個世紀(jì)最偉大的變革,也將承受最多的動蕩和挑戰(zhàn)。
但無論如何,這都是一輪新升的太陽,當(dāng)未來多模態(tài)模型兼具音視頻一體的功能時,生產(chǎn)方式將會被徹底改變,優(yōu)秀的內(nèi)容才會不受限制地被表達(dá)被看見,想必世界一定會變得更有趣更精彩。
所以,只能祝福我自己和屏幕前的你,努力跟上這個時代吧。
文 | 張好蔚
VIEW MORE
@杭州城北藏著一個“瘋狂星期四” >>
@15年后他再次站到黃仁勛旁邊 >>
@這屆AI逼瘋每一個古人 >>
@華人“芯”事>>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.