題圖由 GPT-4o 生成,提示詞是“請(qǐng)你根據(jù)下面這句話生成一個(gè)吉卜力風(fēng)格的圖像:周圍有一圈人,看著一個(gè)機(jī)器吐出圖像”。
文丨賀乾明
編輯丨黃俊杰
新產(chǎn)品發(fā)布兩天后,在 OpenAI 創(chuàng)始人山姆·阿爾特曼(Sam Altman)的推文下,有人祝賀他十年努力終于帶來(lái)了 AGI——社交網(wǎng)絡(luò)上全是吉卜力圖像 “All Ghibli Images”。
3 月 26 日,OpenAI 更新 GPT-4o 文生圖功能。付費(fèi)用戶可以在 ChatGPT 直接調(diào)用 4o 生成、修改圖片,不再需要使用 OpenAI 的文生圖模型 DALL-E。僅僅一天時(shí)間,近年影響較大的照片和 meme 圖都被 4o 重做了一遍,最流行的就是宮崎駿的畫(huà)風(fēng)。
人人都用生成吉卜力畫(huà)風(fēng)不僅僅因?yàn)閷m崎駿對(duì)世界的卓絕貢獻(xiàn),也因?yàn)?OpenAI 的引導(dǎo)——阿爾特曼在 GPT-4o 新功能發(fā)布的直播里選擇生成吉卜力風(fēng)格的三人自拍照。但其實(shí) GPT-4o 生成其他風(fēng)格效果通常也不錯(cuò)。
文生圖已經(jīng)不新鮮,此前也有文生圖產(chǎn)品能實(shí)現(xiàn)風(fēng)格化效果。比如 Midjourney 年付費(fèi)用戶可以改照片風(fēng)格,Stable Diffusion 也有專門(mén)訓(xùn)練成吉卜力風(fēng)格的模型,Gemini 2.0 半個(gè)月前也增強(qiáng)了文生圖功能。
但 GPT-4o 在多個(gè)領(lǐng)域明顯超過(guò)所有對(duì)手,比如圖像中的文字(尤其是英文)基本不再是亂碼。以圖生圖時(shí),畫(huà)面細(xì)節(jié)更符合現(xiàn)實(shí)情況,修改圖片時(shí)畫(huà)面細(xì)節(jié)能保證較高的一致性。
右圖是原圖,有兩輪提示詞,分別是 “保留圖片中的文字,把圖片改成動(dòng)漫風(fēng)格”“在周圍加一圈貓”。
提示詞是 “請(qǐng)幫我生成一個(gè)泡泡瑪特的 MOLLY ,畫(huà)面中是它正在爆炸起飛,像皇帝一樣登基了,周圍有人朝拜它”“那你改成 3D 版本”。
GPT-4o 對(duì)技術(shù)普及影響最大的可能是控制更容易也更精確,整個(gè)過(guò)程不再需要復(fù)雜、精確的提示詞,像平時(shí)說(shuō)話一樣給修改建議就行。
文生圖開(kāi)源模型 Stable Diffusion 在 2022 年發(fā)布。需要制圖、畫(huà)插畫(huà)的行業(yè)很快就將它引入工作。但 Stable Diffusion 本身不夠可控,于是 LoRA、ControlNet 等技術(shù)被發(fā)明出來(lái),新的創(chuàng)業(yè)公司應(yīng)運(yùn)而生,幫助完善產(chǎn)品、提供服務(wù),搭建起一套實(shí)際可用的工作流程。
“(GPT-4o)直接干翻了之前很多創(chuàng)業(yè)公司的產(chǎn)品。” 資深用戶體驗(yàn)設(shè)計(jì)師章蕭醇說(shuō)。“他們花了那么多時(shí)間、人力、投資人的錢(qián),調(diào)優(yōu)的算法、工作流、模型,直接被一次大模型的更新取代了。”
“因?yàn)榇竽P妥兊眠^(guò)于強(qiáng)大,一種新型編程方式正在興起。”AI 科學(xué)家安德烈·卡帕斯(Andrej Karpathy)把它稱為 “Vibe Coding(氛圍編程)”,“只是看東西、說(shuō)話、運(yùn)行程序和復(fù)制粘貼,就能開(kāi)發(fā)程序,這套流程大多數(shù)時(shí)候都能正常工作。”
而 GPT-4o 的文生圖功能就像是 Vibe Painting。
技術(shù)細(xì)節(jié)有限,推論是 OpenAI 靠底層能力提升
不論是 Google 還是 OpenAI,發(fā)布新的文生圖功能時(shí),都沒(méi)有介紹技術(shù)細(xì)節(jié),以至于許多人去問(wèn) ChatGPT,OpenAI 到底是怎么做到的。
相對(duì)權(quán)威的技術(shù)介紹,是 OpenAI 的研究員加布里埃爾·吳(Gabriel Goh)在直播中提到的兩點(diǎn):
全模態(tài)的 GPT-4o 是這項(xiàng)功能的基礎(chǔ),它有生成各種類型數(shù)據(jù)如文本、圖像、音頻和視頻的能力。
采用自回歸(autoregressive)方法(根據(jù)已經(jīng)生成的內(nèi)容來(lái)預(yù)測(cè)下一個(gè)元素)——從左到右、從上到下順序生成圖像,類似于文本的書(shū)寫(xiě)方式——而不是大多數(shù)圖像生成模型(如 DALL-E)使用的擴(kuò)散模型(Diffusion Model)技術(shù),一次性創(chuàng)建整個(gè)圖像,然后降噪提高清晰度。
GPT-4o 是 OpenAI 去年 5 月發(fā)布的大模型,與 GPT-4.5、DeepSeek-V3 等專注文本能力的模型不同,它用文本、視覺(jué)、音頻等數(shù)據(jù)訓(xùn)練。OpenAI 稱,它可以處理用戶輸入文本、音頻、圖像或視頻的組合內(nèi)容,也可以反饋文本、音頻、圖像或視頻組合內(nèi)容——不過(guò)現(xiàn)在 GPT-4o 還沒(méi)有完全具備上述能力。
OpenAI 新發(fā)布的文生圖功能,是其沿著 GPT-4o 技術(shù)路線發(fā)掘到的新成果。
清華大學(xué) NICS-EFC 實(shí)驗(yàn)室專注文生圖研究的博士生趙天辰對(duì)《晚點(diǎn) LatePost》說(shuō),GPT-4o 用自回歸技術(shù)可能不是圖像生成能力大幅提升的核心原因,而是 OpenAI 大幅提升了“文本-圖像對(duì)齊”(text-image alignment)能力。
行業(yè)內(nèi)慣用的文生圖模型,如 Midjourney、DALL-E 系列,生成圖像時(shí)會(huì)用到多個(gè)組件:先理解用戶輸入的提示詞,轉(zhuǎn)換為文本特征,再聚合對(duì)應(yīng)的圖像特征,最后生成圖像。
趙天辰說(shuō),目前開(kāi)源的文生圖模型,引入文本控制信號(hào)上,存在以下不足:
一般都采用較小的模型提取文本特征(CLIP/T5),文本的理解能力會(huì)受到 “不夠強(qiáng)” 的文本制約,損失一些文本信息。
引入控制信號(hào)的方式 “相對(duì)樸素”,用注意力機(jī)制融合文本特征與圖像特征,即使文本特征足夠好,也無(wú)法保證圖像特征能夠準(zhǔn)確遵循文本特征。
許多開(kāi)發(fā)文生圖工具的公司或者使用文生圖工具的設(shè)計(jì)師,往往用精心調(diào)教的提示詞、層層疊加的插件、環(huán)環(huán)相扣的模型鏈彌補(bǔ)缺陷,把它變成可用的工具。
OpenAI 用 GPT-4o 提升了模型的理解文本特征和提示詞的能力。“如果我去畫(huà)一幅圖,雖然能力有限,但也會(huì)用自己積累的知識(shí)完成它”。ChatGPT 多模態(tài)產(chǎn)品負(fù)責(zé)人杰基·香農(nóng)(Jackie Shannon)說(shuō),“大模型有通用知識(shí),當(dāng)你用 GPT-4o 生成一張牛頓棱鏡實(shí)驗(yàn)的圖像時(shí),你不需要解釋那是什么,就能得到相應(yīng)的結(jié)果。”
趙天辰推測(cè),OpenAI 模型展示出的驚艷文本遵從能力,尤其是能準(zhǔn)確把握文本描述中多個(gè)對(duì)象,以及形容詞和位置關(guān)系,可能很難通過(guò)傳統(tǒng)的單次文生圖“端到端”達(dá)成。在現(xiàn)有模型中,如果提示詞中有很多顏色,比如 “藍(lán)色的帽子” 和 “紅色的衣服”,直接交給模型端到端生成,結(jié)果可能是衣服和帽子都有藍(lán)有紅,顏色混在一起。
GPT-4o 基本不會(huì)有類似錯(cuò)誤。他認(rèn)為可能采用了 “組合-分解式” 的生成方案,比如生成一個(gè)人在左邊,再生成一條狗在右邊,然后把這些圖疊起來(lái),最后整體生成一遍,把它們?nèi)诤显谝黄稹?/p>
從編程到圖片生成,大模型試圖吞噬依賴它的應(yīng)用
編程是大模型最早規(guī)模商業(yè)化的場(chǎng)景。2021 年 OpenAI 推出 GPT-3 不久,微軟就用它做出了 GitHub Copilot。
就像它的名字那樣,受限于模型能力,GitHub Copilot 很長(zhǎng)時(shí)間只能作為輔助編程工具,它最好用的場(chǎng)景是補(bǔ)全代碼和 Debug,程序員還要做不少引導(dǎo)工作。
隨著大模型能力持續(xù)提升,GitHub Copilot 在 2023 年用上新模型后,年化收入迅速突破 1 億美元。行業(yè)內(nèi)也誕生了 Cursor、甚至 Devin 這樣的產(chǎn)品。它們集成了 Anthropic、OpenAI 的最新模型,編寫(xiě)簡(jiǎn)單的代碼多數(shù)情況都不需要程序員干預(yù),但寫(xiě)復(fù)雜的代碼還是需要程序員引導(dǎo)。
Cursor 等產(chǎn)品還面臨一批競(jìng)爭(zhēng)對(duì)手——它們依賴的大模型公司,如 Anthropic、OpenAI 等。它們?cè)诔掷m(xù)提高大模型本身的編程能力,每一次更新都有可能削減 Cursor 等產(chǎn)品的價(jià)值。比如編程競(jìng)賽 CodeForces 的測(cè)試,OpenAI 的 o3 的編程能力已經(jīng)達(dá)到了 Top 200 人類程序員的水平。雖然它并不代表實(shí)際的編程水平,但證明了大模型本身的潛力。
這就是安德烈·卡帕斯提出 Vibe Coding 的背景,編程 “幾乎不用碰鍵盤(pán)”,收到報(bào)錯(cuò)信息時(shí),只用復(fù)制粘貼進(jìn)去,通常就能解決問(wèn)題。
硅谷創(chuàng)業(yè)孵化器 YC CEO 陳嘉興(Garry Tan)接受采訪說(shuō),創(chuàng)業(yè)者不再需要第一個(gè) 50 或 100 人的工程師團(tuán)隊(duì),可以用 10 個(gè)人建立每年賺 1000 萬(wàn)或 1 億美元的公司。最新一期 YC 創(chuàng)業(yè)營(yíng)中,有 1/4 的公司采用 Vibe Coding, 95% 的代碼由大模型直接生成。
GPT-4o 也推動(dòng)文生圖沿著類似的趨勢(shì)發(fā)展。過(guò)去的文生圖模型可以生產(chǎn)出來(lái)以假亂真的圖像,但還是有足夠高的門(mén)檻——更懂模型的人、更有審美的人、更會(huì)寫(xiě)提示詞的人,再自己訓(xùn)練模型、找插件,可能還得動(dòng)手 PS 一下,才能得到理想的圖。
現(xiàn)在模型本身變成了一個(gè)聰明的專業(yè)人士。
“我曾引以為傲的復(fù)雜工作流程——精心調(diào)教的提示詞、層層疊加的插件、環(huán)環(huán)相扣的模型鏈——如今都被一個(gè)簡(jiǎn)單對(duì)話界面所取代。” 資深產(chǎn)品設(shè)計(jì)師歸藏說(shuō),他認(rèn)為這會(huì)是 AI 領(lǐng)域的常態(tài),“復(fù)雜工程化注定會(huì)被模型碾碎”。
GPT-4o 圖片生成功能推出后,文生圖領(lǐng)域明星創(chuàng)業(yè)公司 Midjourney CEO 創(chuàng)始人大衛(wèi)·霍爾茲(David Holz)在公司舉辦的活動(dòng)中說(shuō),OpenAI 只是 “在試圖籌錢(qián),并以一種有毒的方式競(jìng)爭(zhēng),它只是一個(gè)梗而不是創(chuàng)意工具”,未來(lái) Midjourney 還是會(huì)基于社區(qū)的反饋驅(qū)動(dòng)改進(jìn),而不是外部的市場(chǎng)壓力。
Midjourney 的成長(zhǎng)得益于 OpenAI 在 2021 年推出的文本-圖像對(duì)齊模型 CLIP。在后續(xù)的產(chǎn)品迭代中,Midjourney 用更精細(xì)的工程能力,對(duì)生成圖像審美的苛刻關(guān)注,訓(xùn)練了效果更好的模型,僅靠 Discord 就迅速獲得每年數(shù)億美元的收入。類似的例子還有 AI 搜索應(yīng)用 Perplexity。
如果大模型本身的能力進(jìn)步有限,就是這類創(chuàng)業(yè)公司的機(jī)會(huì)——他們針對(duì)垂直領(lǐng)域的功能優(yōu)化或者訓(xùn)練小模型,可以更好地發(fā)揮大模型效果。
但如果大模型能持續(xù)進(jìn)步,許多精心調(diào)教后的產(chǎn)品能力成為龐大模型的一部分,用戶直接說(shuō)幾句話就能實(shí)現(xiàn)想要的效果,那大模型本身就是終極產(chǎn)品。能投入組建大團(tuán)隊(duì)、巨資訓(xùn)練模型的公司才有資格參與大模型性能的比拼。
技術(shù)演進(jìn)偏向哪一端,最終將決定 AI 生態(tài)的未來(lái)更偏向大公司還是新銳團(tuán)隊(duì)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.