99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI 復(fù)制吉卜力,大模型正在吞噬一切產(chǎn)品?

0
分享至



題圖由 GPT-4o 生成,提示詞是“請(qǐng)你根據(jù)下面這句話生成一個(gè)吉卜力風(fēng)格的圖像:周圍有一圈人,看著一個(gè)機(jī)器吐出圖像”。

文丨賀乾明
編輯丨黃俊杰

新產(chǎn)品發(fā)布兩天后,在 OpenAI 創(chuàng)始人山姆·阿爾特曼(Sam Altman)的推文下,有人祝賀他十年努力終于帶來(lái)了 AGI——社交網(wǎng)絡(luò)上全是吉卜力圖像 “All Ghibli Images”。

3 月 26 日,OpenAI 更新 GPT-4o 文生圖功能。付費(fèi)用戶可以在 ChatGPT 直接調(diào)用 4o 生成、修改圖片,不再需要使用 OpenAI 的文生圖模型 DALL-E。僅僅一天時(shí)間,近年影響較大的照片和 meme 圖都被 4o 重做了一遍,最流行的就是宮崎駿的畫(huà)風(fēng)。











人人都用生成吉卜力畫(huà)風(fēng)不僅僅因?yàn)閷m崎駿對(duì)世界的卓絕貢獻(xiàn),也因?yàn)?OpenAI 的引導(dǎo)——阿爾特曼在 GPT-4o 新功能發(fā)布的直播里選擇生成吉卜力風(fēng)格的三人自拍照。但其實(shí) GPT-4o 生成其他風(fēng)格效果通常也不錯(cuò)。

文生圖已經(jīng)不新鮮,此前也有文生圖產(chǎn)品能實(shí)現(xiàn)風(fēng)格化效果。比如 Midjourney 年付費(fèi)用戶可以改照片風(fēng)格,Stable Diffusion 也有專門(mén)訓(xùn)練成吉卜力風(fēng)格的模型,Gemini 2.0 半個(gè)月前也增強(qiáng)了文生圖功能。

但 GPT-4o 在多個(gè)領(lǐng)域明顯超過(guò)所有對(duì)手,比如圖像中的文字(尤其是英文)基本不再是亂碼。以圖生圖時(shí),畫(huà)面細(xì)節(jié)更符合現(xiàn)實(shí)情況,修改圖片時(shí)畫(huà)面細(xì)節(jié)能保證較高的一致性。





右圖是原圖,有兩輪提示詞,分別是 “保留圖片中的文字,把圖片改成動(dòng)漫風(fēng)格”“在周圍加一圈貓”。





提示詞是 “請(qǐng)幫我生成一個(gè)泡泡瑪特的 MOLLY ,畫(huà)面中是它正在爆炸起飛,像皇帝一樣登基了,周圍有人朝拜它”“那你改成 3D 版本”。

GPT-4o 對(duì)技術(shù)普及影響最大的可能是控制更容易也更精確,整個(gè)過(guò)程不再需要復(fù)雜、精確的提示詞,像平時(shí)說(shuō)話一樣給修改建議就行。

文生圖開(kāi)源模型 Stable Diffusion 在 2022 年發(fā)布。需要制圖、畫(huà)插畫(huà)的行業(yè)很快就將它引入工作。但 Stable Diffusion 本身不夠可控,于是 LoRA、ControlNet 等技術(shù)被發(fā)明出來(lái),新的創(chuàng)業(yè)公司應(yīng)運(yùn)而生,幫助完善產(chǎn)品、提供服務(wù),搭建起一套實(shí)際可用的工作流程。

“(GPT-4o)直接干翻了之前很多創(chuàng)業(yè)公司的產(chǎn)品。” 資深用戶體驗(yàn)設(shè)計(jì)師章蕭醇說(shuō)。“他們花了那么多時(shí)間、人力、投資人的錢(qián),調(diào)優(yōu)的算法、工作流、模型,直接被一次大模型的更新取代了。”

“因?yàn)榇竽P妥兊眠^(guò)于強(qiáng)大,一種新型編程方式正在興起。”AI 科學(xué)家安德烈·卡帕斯(Andrej Karpathy)把它稱為 “Vibe Coding(氛圍編程)”,“只是看東西、說(shuō)話、運(yùn)行程序和復(fù)制粘貼,就能開(kāi)發(fā)程序,這套流程大多數(shù)時(shí)候都能正常工作。”

而 GPT-4o 的文生圖功能就像是 Vibe Painting。

技術(shù)細(xì)節(jié)有限,推論是 OpenAI 靠底層能力提升

不論是 Google 還是 OpenAI,發(fā)布新的文生圖功能時(shí),都沒(méi)有介紹技術(shù)細(xì)節(jié),以至于許多人去問(wèn) ChatGPT,OpenAI 到底是怎么做到的。

相對(duì)權(quán)威的技術(shù)介紹,是 OpenAI 的研究員加布里埃爾·吳(Gabriel Goh)在直播中提到的兩點(diǎn):

全模態(tài)的 GPT-4o 是這項(xiàng)功能的基礎(chǔ),它有生成各種類型數(shù)據(jù)如文本、圖像、音頻和視頻的能力。

采用自回歸(autoregressive)方法(根據(jù)已經(jīng)生成的內(nèi)容來(lái)預(yù)測(cè)下一個(gè)元素)——從左到右、從上到下順序生成圖像,類似于文本的書(shū)寫(xiě)方式——而不是大多數(shù)圖像生成模型(如 DALL-E)使用的擴(kuò)散模型(Diffusion Model)技術(shù),一次性創(chuàng)建整個(gè)圖像,然后降噪提高清晰度。

GPT-4o 是 OpenAI 去年 5 月發(fā)布的大模型,與 GPT-4.5、DeepSeek-V3 等專注文本能力的模型不同,它用文本、視覺(jué)、音頻等數(shù)據(jù)訓(xùn)練。OpenAI 稱,它可以處理用戶輸入文本、音頻、圖像或視頻的組合內(nèi)容,也可以反饋文本、音頻、圖像或視頻組合內(nèi)容——不過(guò)現(xiàn)在 GPT-4o 還沒(méi)有完全具備上述能力。

OpenAI 新發(fā)布的文生圖功能,是其沿著 GPT-4o 技術(shù)路線發(fā)掘到的新成果。

清華大學(xué) NICS-EFC 實(shí)驗(yàn)室專注文生圖研究的博士生趙天辰對(duì)《晚點(diǎn) LatePost》說(shuō),GPT-4o 用自回歸技術(shù)可能不是圖像生成能力大幅提升的核心原因,而是 OpenAI 大幅提升了“文本-圖像對(duì)齊”(text-image alignment)能力。

行業(yè)內(nèi)慣用的文生圖模型,如 Midjourney、DALL-E 系列,生成圖像時(shí)會(huì)用到多個(gè)組件:先理解用戶輸入的提示詞,轉(zhuǎn)換為文本特征,再聚合對(duì)應(yīng)的圖像特征,最后生成圖像。

趙天辰說(shuō),目前開(kāi)源的文生圖模型,引入文本控制信號(hào)上,存在以下不足:

一般都采用較小的模型提取文本特征(CLIP/T5),文本的理解能力會(huì)受到 “不夠強(qiáng)” 的文本制約,損失一些文本信息。

引入控制信號(hào)的方式 “相對(duì)樸素”,用注意力機(jī)制融合文本特征與圖像特征,即使文本特征足夠好,也無(wú)法保證圖像特征能夠準(zhǔn)確遵循文本特征。

許多開(kāi)發(fā)文生圖工具的公司或者使用文生圖工具的設(shè)計(jì)師,往往用精心調(diào)教的提示詞、層層疊加的插件、環(huán)環(huán)相扣的模型鏈彌補(bǔ)缺陷,把它變成可用的工具。

OpenAI 用 GPT-4o 提升了模型的理解文本特征和提示詞的能力。“如果我去畫(huà)一幅圖,雖然能力有限,但也會(huì)用自己積累的知識(shí)完成它”。ChatGPT 多模態(tài)產(chǎn)品負(fù)責(zé)人杰基·香農(nóng)(Jackie Shannon)說(shuō),“大模型有通用知識(shí),當(dāng)你用 GPT-4o 生成一張牛頓棱鏡實(shí)驗(yàn)的圖像時(shí),你不需要解釋那是什么,就能得到相應(yīng)的結(jié)果。”

趙天辰推測(cè),OpenAI 模型展示出的驚艷文本遵從能力,尤其是能準(zhǔn)確把握文本描述中多個(gè)對(duì)象,以及形容詞和位置關(guān)系,可能很難通過(guò)傳統(tǒng)的單次文生圖“端到端”達(dá)成。在現(xiàn)有模型中,如果提示詞中有很多顏色,比如 “藍(lán)色的帽子” 和 “紅色的衣服”,直接交給模型端到端生成,結(jié)果可能是衣服和帽子都有藍(lán)有紅,顏色混在一起。

GPT-4o 基本不會(huì)有類似錯(cuò)誤。他認(rèn)為可能采用了 “組合-分解式” 的生成方案,比如生成一個(gè)人在左邊,再生成一條狗在右邊,然后把這些圖疊起來(lái),最后整體生成一遍,把它們?nèi)诤显谝黄稹?/p>

從編程到圖片生成,大模型試圖吞噬依賴它的應(yīng)用

編程是大模型最早規(guī)模商業(yè)化的場(chǎng)景。2021 年 OpenAI 推出 GPT-3 不久,微軟就用它做出了 GitHub Copilot。

就像它的名字那樣,受限于模型能力,GitHub Copilot 很長(zhǎng)時(shí)間只能作為輔助編程工具,它最好用的場(chǎng)景是補(bǔ)全代碼和 Debug,程序員還要做不少引導(dǎo)工作。

隨著大模型能力持續(xù)提升,GitHub Copilot 在 2023 年用上新模型后,年化收入迅速突破 1 億美元。行業(yè)內(nèi)也誕生了 Cursor、甚至 Devin 這樣的產(chǎn)品。它們集成了 Anthropic、OpenAI 的最新模型,編寫(xiě)簡(jiǎn)單的代碼多數(shù)情況都不需要程序員干預(yù),但寫(xiě)復(fù)雜的代碼還是需要程序員引導(dǎo)。

Cursor 等產(chǎn)品還面臨一批競(jìng)爭(zhēng)對(duì)手——它們依賴的大模型公司,如 Anthropic、OpenAI 等。它們?cè)诔掷m(xù)提高大模型本身的編程能力,每一次更新都有可能削減 Cursor 等產(chǎn)品的價(jià)值。比如編程競(jìng)賽 CodeForces 的測(cè)試,OpenAI 的 o3 的編程能力已經(jīng)達(dá)到了 Top 200 人類程序員的水平。雖然它并不代表實(shí)際的編程水平,但證明了大模型本身的潛力。

這就是安德烈·卡帕斯提出 Vibe Coding 的背景,編程 “幾乎不用碰鍵盤(pán)”,收到報(bào)錯(cuò)信息時(shí),只用復(fù)制粘貼進(jìn)去,通常就能解決問(wèn)題。

硅谷創(chuàng)業(yè)孵化器 YC CEO 陳嘉興(Garry Tan)接受采訪說(shuō),創(chuàng)業(yè)者不再需要第一個(gè) 50 或 100 人的工程師團(tuán)隊(duì),可以用 10 個(gè)人建立每年賺 1000 萬(wàn)或 1 億美元的公司。最新一期 YC 創(chuàng)業(yè)營(yíng)中,有 1/4 的公司采用 Vibe Coding, 95% 的代碼由大模型直接生成。

GPT-4o 也推動(dòng)文生圖沿著類似的趨勢(shì)發(fā)展。過(guò)去的文生圖模型可以生產(chǎn)出來(lái)以假亂真的圖像,但還是有足夠高的門(mén)檻——更懂模型的人、更有審美的人、更會(huì)寫(xiě)提示詞的人,再自己訓(xùn)練模型、找插件,可能還得動(dòng)手 PS 一下,才能得到理想的圖。

現(xiàn)在模型本身變成了一個(gè)聰明的專業(yè)人士。

“我曾引以為傲的復(fù)雜工作流程——精心調(diào)教的提示詞、層層疊加的插件、環(huán)環(huán)相扣的模型鏈——如今都被一個(gè)簡(jiǎn)單對(duì)話界面所取代。” 資深產(chǎn)品設(shè)計(jì)師歸藏說(shuō),他認(rèn)為這會(huì)是 AI 領(lǐng)域的常態(tài),“復(fù)雜工程化注定會(huì)被模型碾碎”。

GPT-4o 圖片生成功能推出后,文生圖領(lǐng)域明星創(chuàng)業(yè)公司 Midjourney CEO 創(chuàng)始人大衛(wèi)·霍爾茲(David Holz)在公司舉辦的活動(dòng)中說(shuō),OpenAI 只是 “在試圖籌錢(qián),并以一種有毒的方式競(jìng)爭(zhēng),它只是一個(gè)梗而不是創(chuàng)意工具”,未來(lái) Midjourney 還是會(huì)基于社區(qū)的反饋驅(qū)動(dòng)改進(jìn),而不是外部的市場(chǎng)壓力。

Midjourney 的成長(zhǎng)得益于 OpenAI 在 2021 年推出的文本-圖像對(duì)齊模型 CLIP。在后續(xù)的產(chǎn)品迭代中,Midjourney 用更精細(xì)的工程能力,對(duì)生成圖像審美的苛刻關(guān)注,訓(xùn)練了效果更好的模型,僅靠 Discord 就迅速獲得每年數(shù)億美元的收入。類似的例子還有 AI 搜索應(yīng)用 Perplexity。

如果大模型本身的能力進(jìn)步有限,就是這類創(chuàng)業(yè)公司的機(jī)會(huì)——他們針對(duì)垂直領(lǐng)域的功能優(yōu)化或者訓(xùn)練小模型,可以更好地發(fā)揮大模型效果。

但如果大模型能持續(xù)進(jìn)步,許多精心調(diào)教后的產(chǎn)品能力成為龐大模型的一部分,用戶直接說(shuō)幾句話就能實(shí)現(xiàn)想要的效果,那大模型本身就是終極產(chǎn)品。能投入組建大團(tuán)隊(duì)、巨資訓(xùn)練模型的公司才有資格參與大模型性能的比拼。

技術(shù)演進(jìn)偏向哪一端,最終將決定 AI 生態(tài)的未來(lái)更偏向大公司還是新銳團(tuán)隊(duì)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大陸圍臺(tái)演訓(xùn)剛結(jié)束,不到12小時(shí),美改變對(duì)臺(tái)稱呼,要對(duì)華攤牌?

大陸圍臺(tái)演訓(xùn)剛結(jié)束,不到12小時(shí),美改變對(duì)臺(tái)稱呼,要對(duì)華攤牌?

林子說(shuō)事
2025-04-04 10:21:47
衛(wèi)星圖片曝光,美軍大動(dòng)作!

衛(wèi)星圖片曝光,美軍大動(dòng)作!

都市快報(bào)橙柿互動(dòng)
2025-04-04 16:06:48
越南縣級(jí)機(jī)關(guān)7月1日起停止運(yùn)作,行政體系簡(jiǎn)化為中央-省-鄉(xiāng)三級(jí)

越南縣級(jí)機(jī)關(guān)7月1日起停止運(yùn)作,行政體系簡(jiǎn)化為中央-省-鄉(xiāng)三級(jí)

長(zhǎng)平投研
2025-04-03 21:00:04
人民幣,狂飆超1000點(diǎn)!美聯(lián)儲(chǔ),突傳重磅!

人民幣,狂飆超1000點(diǎn)!美聯(lián)儲(chǔ),突傳重磅!

證券時(shí)報(bào)
2025-04-04 17:15:02
蘋(píng)果CEO庫(kù)克套現(xiàn)超1.7億元!一年內(nèi)已三次減持蘋(píng)果股票,累計(jì)套現(xiàn)達(dá)8億元

蘋(píng)果CEO庫(kù)克套現(xiàn)超1.7億元!一年內(nèi)已三次減持蘋(píng)果股票,累計(jì)套現(xiàn)達(dá)8億元

每日經(jīng)濟(jì)新聞
2025-04-03 15:34:06
特朗普給美股捅出大出血!對(duì)等關(guān)稅真正意圖是為戰(zhàn)爭(zhēng)做準(zhǔn)備?

特朗普給美股捅出大出血!對(duì)等關(guān)稅真正意圖是為戰(zhàn)爭(zhēng)做準(zhǔn)備?

二向箔
2025-04-04 13:52:44
11箭齊發(fā)!中方堅(jiān)決反制美“對(duì)等關(guān)稅”

11箭齊發(fā)!中方堅(jiān)決反制美“對(duì)等關(guān)稅”

環(huán)球網(wǎng)資訊
2025-04-04 19:25:42
特朗普給我們宣布增加34%的關(guān)稅后,中美幾乎不存在談判可能了

特朗普給我們宣布增加34%的關(guān)稅后,中美幾乎不存在談判可能了

橘色密碼
2025-04-03 11:10:36
邊牧在墓區(qū)偷吃供品胖成百斤“肥豬”,墓園:會(huì)叮囑大爺看好狗狗

邊牧在墓區(qū)偷吃供品胖成百斤“肥豬”,墓園:會(huì)叮囑大爺看好狗狗

瀟湘晨報(bào)
2025-04-04 16:05:04
圍島軍演后不到一天,國(guó)際反應(yīng)來(lái)了:29國(guó)明確表示不許武力收臺(tái)!

圍島軍演后不到一天,國(guó)際反應(yīng)來(lái)了:29國(guó)明確表示不許武力收臺(tái)!

翻開(kāi)歷史和現(xiàn)實(shí)
2025-04-03 16:39:46
兩腮無(wú)肉,滿臉疲態(tài),這樣的顏值艷壓梅婷,到底是誰(shuí)的審美出問(wèn)題

兩腮無(wú)肉,滿臉疲態(tài),這樣的顏值艷壓梅婷,到底是誰(shuí)的審美出問(wèn)題

溫柔娛公子
2025-04-04 14:45:40
俄羅斯情侶在芭提雅海里公然發(fā)生性行為,引發(fā)轟動(dòng)

俄羅斯情侶在芭提雅海里公然發(fā)生性行為,引發(fā)轟動(dòng)

曼谷陳大叔
2025-04-04 15:24:11
炸裂!健身房竟組織賣淫,還任由客人挑選,過(guò)程更毀三觀!

炸裂!健身房竟組織賣淫,還任由客人挑選,過(guò)程更毀三觀!

老鵜愛(ài)說(shuō)事
2025-04-04 12:31:25
把美股捅出大出血之后,特朗普發(fā)文自夸

把美股捅出大出血之后,特朗普發(fā)文自夸

魯中晨報(bào)
2025-04-04 09:46:04
惠譽(yù)再次下調(diào)中國(guó)信用評(píng)級(jí),美國(guó)36萬(wàn)億債務(wù)獲高評(píng)級(jí)!雙標(biāo)嚴(yán)重?

惠譽(yù)再次下調(diào)中國(guó)信用評(píng)級(jí),美國(guó)36萬(wàn)億債務(wù)獲高評(píng)級(jí)!雙標(biāo)嚴(yán)重?

王五說(shuō)說(shuō)看
2025-04-04 16:34:05
央行突擊降準(zhǔn)牛市?4月4日,深夜爆出三大重要消息持續(xù)發(fā)酵!

央行突擊降準(zhǔn)牛市?4月4日,深夜爆出三大重要消息持續(xù)發(fā)酵!

風(fēng)口招財(cái)豬
2025-04-04 00:32:56
烏軍大規(guī)模空襲莫斯科附近的空軍機(jī)場(chǎng)!造成20起爆炸

烏軍大規(guī)模空襲莫斯科附近的空軍機(jī)場(chǎng)!造成20起爆炸

項(xiàng)鵬飛
2025-04-04 19:38:25
重磅!中方反制:對(duì)美加征34%關(guān)稅!中重稀土出口管制!美股盤(pán)前暴跌,美指期貨狂泄超1100點(diǎn),國(guó)際油價(jià)跳水

重磅!中方反制:對(duì)美加征34%關(guān)稅!中重稀土出口管制!美股盤(pán)前暴跌,美指期貨狂泄超1100點(diǎn),國(guó)際油價(jià)跳水

每日經(jīng)濟(jì)新聞
2025-04-04 19:26:03
一家三口被撞案六旬母親:沒(méi)有后代了

一家三口被撞案六旬母親:沒(méi)有后代了

大象新聞
2025-04-04 17:01:04
爆冷門(mén)!女單大種子出局,8強(qiáng)誕生4:朱雨玲險(xiǎn)勝,早田希娜被淘汰

爆冷門(mén)!女單大種子出局,8強(qiáng)誕生4:朱雨玲險(xiǎn)勝,早田希娜被淘汰

知軒體育
2025-04-04 15:06:03
2025-04-04 23:15:00
晚點(diǎn)LatePost
晚點(diǎn)LatePost
晚一點(diǎn),好一點(diǎn)。商業(yè)的真相總是在晚點(diǎn)。《晚點(diǎn)LatePost》官方賬號(hào)
2616文章數(shù) 21760關(guān)注度
往期回顧 全部

科技要聞

5年最慘!美股遭血洗,蘋(píng)果暴跌9.2%

頭條要聞

美媒感慨:特朗普給了中國(guó)黃金機(jī)遇 讓他們贏得全世界

頭條要聞

美媒感慨:特朗普給了中國(guó)黃金機(jī)遇 讓他們贏得全世界

體育要聞

挑對(duì)手!恩怨局!CBA季后賽故事可太多了

娛樂(lè)要聞

汪小菲懶理S媽暗諷,帶孩子戶外散步

財(cái)經(jīng)要聞

中方多箭齊發(fā)!對(duì)美加征34%關(guān)稅

汽車要聞

別克GL8陸尚內(nèi)飾官圖發(fā)布 有望上海車展亮相

態(tài)度原創(chuàng)

家居
時(shí)尚
親子
本地
健康

家居要聞

詮釋東方神韻 展現(xiàn)大宅之美

在春天,遇見(jiàn)最美的配色

親子要聞

給孩子玩手機(jī)不如給他玩這個(gè)回旋飛行球,提升專注力

本地新聞

我在新昌當(dāng)女主|大佛寺氛圍感拉滿 古偶頂流機(jī)位GET

在中國(guó),到底哪些人在吃“偉哥”?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 安阳市| 崇仁县| 巴中市| 东阿县| 海南省| 昭觉县| 五指山市| 田林县| 乐业县| 威海市| 五寨县| 临西县| 蚌埠市| 年辖:市辖区| 江西省| 翼城县| 玉门市| 桦南县| 桦川县| 湖北省| 天峨县| 东辽县| 长子县| 衢州市| 亳州市| 志丹县| 石门县| 黄陵县| 万山特区| 容城县| 南郑县| 昌平区| 成安县| 新巴尔虎左旗| 卢湾区| 海淀区| 农安县| 呼伦贝尔市| 彩票| 广州市| 福建省|