網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI 復(fù)制吉卜力，大模型正在吞噬一切產(chǎn)品？

2025-03-27 23:33:45　來(lái)源: 晚點(diǎn)LatePost

北京舉報(bào)

分享至

題圖由 GPT-4o 生成，提示詞是“請(qǐng)你根據(jù)下面這句話生成一個(gè)吉卜力風(fēng)格的圖像：周圍有一圈人，看著一個(gè)機(jī)器吐出圖像”。

文丨賀乾明
編輯丨黃俊杰

新產(chǎn)品發(fā)布兩天后，在 OpenAI 創(chuàng)始人山姆·阿爾特曼（Sam Altman）的推文下，有人祝賀他十年努力終于帶來(lái)了 AGI——社交網(wǎng)絡(luò)上全是吉卜力圖像 “All Ghibli Images”。

3 月 26 日，OpenAI 更新 GPT-4o 文生圖功能。付費(fèi)用戶可以在 ChatGPT 直接調(diào)用 4o 生成、修改圖片，不再需要使用 OpenAI 的文生圖模型 DALL-E。僅僅一天時(shí)間，近年影響較大的照片和 meme 圖都被 4o 重做了一遍，最流行的就是宮崎駿的畫(huà)風(fēng)。

人人都用生成吉卜力畫(huà)風(fēng)不僅僅因?yàn)閷m崎駿對(duì)世界的卓絕貢獻(xiàn)，也因?yàn)?OpenAI 的引導(dǎo)——阿爾特曼在 GPT-4o 新功能發(fā)布的直播里選擇生成吉卜力風(fēng)格的三人自拍照。但其實(shí) GPT-4o 生成其他風(fēng)格效果通常也不錯(cuò)。

文生圖已經(jīng)不新鮮，此前也有文生圖產(chǎn)品能實(shí)現(xiàn)風(fēng)格化效果。比如 Midjourney 年付費(fèi)用戶可以改照片風(fēng)格，Stable Diffusion 也有專門(mén)訓(xùn)練成吉卜力風(fēng)格的模型，Gemini 2.0 半個(gè)月前也增強(qiáng)了文生圖功能。

但 GPT-4o 在多個(gè)領(lǐng)域明顯超過(guò)所有對(duì)手，比如圖像中的文字（尤其是英文）基本不再是亂碼。以圖生圖時(shí)，畫(huà)面細(xì)節(jié)更符合現(xiàn)實(shí)情況，修改圖片時(shí)畫(huà)面細(xì)節(jié)能保證較高的一致性。

右圖是原圖，有兩輪提示詞，分別是 “保留圖片中的文字，把圖片改成動(dòng)漫風(fēng)格”“在周圍加一圈貓”。

提示詞是 “請(qǐng)幫我生成一個(gè)泡泡瑪特的 MOLLY ，畫(huà)面中是它正在爆炸起飛，像皇帝一樣登基了，周圍有人朝拜它”“那你改成 3D 版本”。

GPT-4o 對(duì)技術(shù)普及影響最大的可能是控制更容易也更精確，整個(gè)過(guò)程不再需要復(fù)雜、精確的提示詞，像平時(shí)說(shuō)話一樣給修改建議就行。

文生圖開(kāi)源模型 Stable Diffusion 在 2022 年發(fā)布。需要制圖、畫(huà)插畫(huà)的行業(yè)很快就將它引入工作。但 Stable Diffusion 本身不夠可控，于是 LoRA、ControlNet 等技術(shù)被發(fā)明出來(lái)，新的創(chuàng)業(yè)公司應(yīng)運(yùn)而生，幫助完善產(chǎn)品、提供服務(wù)，搭建起一套實(shí)際可用的工作流程。

“（GPT-4o）直接干翻了之前很多創(chuàng)業(yè)公司的產(chǎn)品。” 資深用戶體驗(yàn)設(shè)計(jì)師章蕭醇說(shuō)。“他們花了那么多時(shí)間、人力、投資人的錢(qián)，調(diào)優(yōu)的算法、工作流、模型，直接被一次大模型的更新取代了。”

“因?yàn)榇竽Ｐ妥兊眠^(guò)于強(qiáng)大，一種新型編程方式正在興起。”AI 科學(xué)家安德烈·卡帕斯（Andrej Karpathy）把它稱為 “Vibe Coding（氛圍編程）”，“只是看東西、說(shuō)話、運(yùn)行程序和復(fù)制粘貼，就能開(kāi)發(fā)程序，這套流程大多數(shù)時(shí)候都能正常工作。”

而 GPT-4o 的文生圖功能就像是 Vibe Painting。

技術(shù)細(xì)節(jié)有限，推論是 OpenAI 靠底層能力提升

不論是 Google 還是 OpenAI，發(fā)布新的文生圖功能時(shí)，都沒(méi)有介紹技術(shù)細(xì)節(jié)，以至于許多人去問(wèn) ChatGPT，OpenAI 到底是怎么做到的。

相對(duì)權(quán)威的技術(shù)介紹，是 OpenAI 的研究員加布里埃爾·吳（Gabriel Goh）在直播中提到的兩點(diǎn)：

全模態(tài)的 GPT-4o 是這項(xiàng)功能的基礎(chǔ)，它有生成各種類型數(shù)據(jù)如文本、圖像、音頻和視頻的能力。

采用自回歸（autoregressive）方法（根據(jù)已經(jīng)生成的內(nèi)容來(lái)預(yù)測(cè)下一個(gè)元素）——從左到右、從上到下順序生成圖像，類似于文本的書(shū)寫(xiě)方式——而不是大多數(shù)圖像生成模型（如 DALL-E）使用的擴(kuò)散模型（Diffusion Model）技術(shù)，一次性創(chuàng)建整個(gè)圖像，然后降噪提高清晰度。

GPT-4o 是 OpenAI 去年 5 月發(fā)布的大模型，與 GPT-4.5、DeepSeek-V3 等專注文本能力的模型不同，它用文本、視覺(jué)、音頻等數(shù)據(jù)訓(xùn)練。OpenAI 稱，它可以處理用戶輸入文本、音頻、圖像或視頻的組合內(nèi)容，也可以反饋文本、音頻、圖像或視頻組合內(nèi)容——不過(guò)現(xiàn)在 GPT-4o 還沒(méi)有完全具備上述能力。

OpenAI 新發(fā)布的文生圖功能，是其沿著 GPT-4o 技術(shù)路線發(fā)掘到的新成果。

清華大學(xué) NICS-EFC 實(shí)驗(yàn)室專注文生圖研究的博士生趙天辰對(duì)《晚點(diǎn) LatePost》說(shuō)，GPT-4o 用自回歸技術(shù)可能不是圖像生成能力大幅提升的核心原因，而是 OpenAI 大幅提升了“文本-圖像對(duì)齊”（text-image alignment）能力。

行業(yè)內(nèi)慣用的文生圖模型，如 Midjourney、DALL-E 系列，生成圖像時(shí)會(huì)用到多個(gè)組件：先理解用戶輸入的提示詞，轉(zhuǎn)換為文本特征，再聚合對(duì)應(yīng)的圖像特征，最后生成圖像。

趙天辰說(shuō)，目前開(kāi)源的文生圖模型，引入文本控制信號(hào)上，存在以下不足：

一般都采用較小的模型提取文本特征（CLIP/T5），文本的理解能力會(huì)受到 “不夠強(qiáng)” 的文本制約，損失一些文本信息。

引入控制信號(hào)的方式 “相對(duì)樸素”，用注意力機(jī)制融合文本特征與圖像特征，即使文本特征足夠好，也無(wú)法保證圖像特征能夠準(zhǔn)確遵循文本特征。

許多開(kāi)發(fā)文生圖工具的公司或者使用文生圖工具的設(shè)計(jì)師，往往用精心調(diào)教的提示詞、層層疊加的插件、環(huán)環(huán)相扣的模型鏈彌補(bǔ)缺陷，把它變成可用的工具。

OpenAI 用 GPT-4o 提升了模型的理解文本特征和提示詞的能力。“如果我去畫(huà)一幅圖，雖然能力有限，但也會(huì)用自己積累的知識(shí)完成它”。ChatGPT 多模態(tài)產(chǎn)品負(fù)責(zé)人杰基·香農(nóng)（Jackie Shannon）說(shuō)，“大模型有通用知識(shí)，當(dāng)你用 GPT-4o 生成一張牛頓棱鏡實(shí)驗(yàn)的圖像時(shí)，你不需要解釋那是什么，就能得到相應(yīng)的結(jié)果。”

趙天辰推測(cè)，OpenAI 模型展示出的驚艷文本遵從能力，尤其是能準(zhǔn)確把握文本描述中多個(gè)對(duì)象，以及形容詞和位置關(guān)系，可能很難通過(guò)傳統(tǒng)的單次文生圖“端到端”達(dá)成。在現(xiàn)有模型中，如果提示詞中有很多顏色，比如 “藍(lán)色的帽子” 和 “紅色的衣服”，直接交給模型端到端生成，結(jié)果可能是衣服和帽子都有藍(lán)有紅，顏色混在一起。

GPT-4o 基本不會(huì)有類似錯(cuò)誤。他認(rèn)為可能采用了 “組合-分解式” 的生成方案，比如生成一個(gè)人在左邊，再生成一條狗在右邊，然后把這些圖疊起來(lái)，最后整體生成一遍，把它們?nèi)诤显谝黄稹?/p>

從編程到圖片生成，大模型試圖吞噬依賴它的應(yīng)用

編程是大模型最早規(guī)模商業(yè)化的場(chǎng)景。2021 年 OpenAI 推出 GPT-3 不久，微軟就用它做出了 GitHub Copilot。

就像它的名字那樣，受限于模型能力，GitHub Copilot 很長(zhǎng)時(shí)間只能作為輔助編程工具，它最好用的場(chǎng)景是補(bǔ)全代碼和 Debug，程序員還要做不少引導(dǎo)工作。

隨著大模型能力持續(xù)提升，GitHub Copilot 在 2023 年用上新模型后，年化收入迅速突破 1 億美元。行業(yè)內(nèi)也誕生了 Cursor、甚至 Devin 這樣的產(chǎn)品。它們集成了 Anthropic、OpenAI 的最新模型，編寫(xiě)簡(jiǎn)單的代碼多數(shù)情況都不需要程序員干預(yù)，但寫(xiě)復(fù)雜的代碼還是需要程序員引導(dǎo)。

Cursor 等產(chǎn)品還面臨一批競(jìng)爭(zhēng)對(duì)手——它們依賴的大模型公司，如 Anthropic、OpenAI 等。它們?cè)诔掷m(xù)提高大模型本身的編程能力，每一次更新都有可能削減 Cursor 等產(chǎn)品的價(jià)值。比如編程競(jìng)賽 CodeForces 的測(cè)試，OpenAI 的 o3 的編程能力已經(jīng)達(dá)到了 Top 200 人類程序員的水平。雖然它并不代表實(shí)際的編程水平，但證明了大模型本身的潛力。

這就是安德烈·卡帕斯提出 Vibe Coding 的背景，編程 “幾乎不用碰鍵盤(pán)”，收到報(bào)錯(cuò)信息時(shí)，只用復(fù)制粘貼進(jìn)去，通常就能解決問(wèn)題。

硅谷創(chuàng)業(yè)孵化器 YC CEO 陳嘉興（Garry Tan）接受采訪說(shuō)，創(chuàng)業(yè)者不再需要第一個(gè) 50 或 100 人的工程師團(tuán)隊(duì)，可以用 10 個(gè)人建立每年賺 1000 萬(wàn)或 1 億美元的公司。最新一期 YC 創(chuàng)業(yè)營(yíng)中，有 1/4 的公司采用 Vibe Coding， 95% 的代碼由大模型直接生成。

GPT-4o 也推動(dòng)文生圖沿著類似的趨勢(shì)發(fā)展。過(guò)去的文生圖模型可以生產(chǎn)出來(lái)以假亂真的圖像，但還是有足夠高的門(mén)檻——更懂模型的人、更有審美的人、更會(huì)寫(xiě)提示詞的人，再自己訓(xùn)練模型、找插件，可能還得動(dòng)手 PS 一下，才能得到理想的圖。

現(xiàn)在模型本身變成了一個(gè)聰明的專業(yè)人士。

“我曾引以為傲的復(fù)雜工作流程——精心調(diào)教的提示詞、層層疊加的插件、環(huán)環(huán)相扣的模型鏈——如今都被一個(gè)簡(jiǎn)單對(duì)話界面所取代。” 資深產(chǎn)品設(shè)計(jì)師歸藏說(shuō)，他認(rèn)為這會(huì)是 AI 領(lǐng)域的常態(tài)，“復(fù)雜工程化注定會(huì)被模型碾碎”。

GPT-4o 圖片生成功能推出后，文生圖領(lǐng)域明星創(chuàng)業(yè)公司 Midjourney CEO 創(chuàng)始人大衛(wèi)·霍爾茲（David Holz）在公司舉辦的活動(dòng)中說(shuō)，OpenAI 只是 “在試圖籌錢(qián)，并以一種有毒的方式競(jìng)爭(zhēng)，它只是一個(gè)梗而不是創(chuàng)意工具”，未來(lái) Midjourney 還是會(huì)基于社區(qū)的反饋驅(qū)動(dòng)改進(jìn)，而不是外部的市場(chǎng)壓力。

Midjourney 的成長(zhǎng)得益于 OpenAI 在 2021 年推出的文本-圖像對(duì)齊模型 CLIP。在后續(xù)的產(chǎn)品迭代中，Midjourney 用更精細(xì)的工程能力，對(duì)生成圖像審美的苛刻關(guān)注，訓(xùn)練了效果更好的模型，僅靠 Discord 就迅速獲得每年數(shù)億美元的收入。類似的例子還有 AI 搜索應(yīng)用 Perplexity。

如果大模型本身的能力進(jìn)步有限，就是這類創(chuàng)業(yè)公司的機(jī)會(huì)——他們針對(duì)垂直領(lǐng)域的功能優(yōu)化或者訓(xùn)練小模型，可以更好地發(fā)揮大模型效果。

但如果大模型能持續(xù)進(jìn)步，許多精心調(diào)教后的產(chǎn)品能力成為龐大模型的一部分，用戶直接說(shuō)幾句話就能實(shí)現(xiàn)想要的效果，那大模型本身就是終極產(chǎn)品。能投入組建大團(tuán)隊(duì)、巨資訓(xùn)練模型的公司才有資格參與大模型性能的比拼。

技術(shù)演進(jìn)偏向哪一端，最終將決定 AI 生態(tài)的未來(lái)更偏向大公司還是新銳團(tuán)隊(duì)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.