99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-4o圖像生成的秘密,OpenAI沒說,網(wǎng)友已經(jīng)拼出真相?

0
分享至


內(nèi)容來自:機器之心

編輯:Panda、陳陳

自從 OpenAI 發(fā)布 GPT-4o 圖像生成功能以來,短短幾天時間,我們眼睛里看的,耳朵里聽的,幾乎都是關(guān)于它的消息。

不會 PS 也能化身繪圖專家,隨便打開一個社交媒體,一眼望去都是 GPT-4o 生成的案例。

比如,吉卜力畫風的特朗普「積極坦誠對話」?jié)蛇B斯基:


然而,OpenAI 一向并不 Open,這次也不例外。他們只是發(fā)布一份 GPT-4o 系統(tǒng)卡附錄(增補文件),其中也主要是論述了評估、安全和治理方面的內(nèi)容。


系統(tǒng)卡地址:

https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

對于技術(shù),在這份長達 13 頁的附錄文件中,也僅在最開始時提到了一句:「不同于基于擴散模型的 DALL?E,4o 圖像生成是一個嵌入在 ChatGPT 中的自回歸模型。」

OpenAI 對技術(shù)保密,也抵擋不住大家對 GPT-4o 工作方式的熱情,現(xiàn)在網(wǎng)絡(luò)上已經(jīng)出現(xiàn)了各種猜測、逆向工程。

比如谷歌 DeepMind 研究者 Jon Barron 根據(jù) 4o 出圖的過程猜測其可能是組合使用了某種多尺度技術(shù)與自回歸。


不過,值得一提的是,香港中文大學博士生劉杰(Jie Liu)在研究 GPT-4o 的前端時發(fā)現(xiàn),用戶在生成圖像時看到的逐行生成圖像的效果其實只是瀏覽器上的前端動畫效果,并不能準確真實地反映其圖像生成的具體過程。實際上,在每次生成過程中,OpenAI 的服務(wù)器只會向用戶端發(fā)送 5 張中間圖像。您甚至可以在控制臺手動調(diào)整模糊函數(shù)的高度來改變生成圖像的模糊范圍!


因此,在推斷 GPT-4o 的工作原理時,其生成時的前端展示效果可能并不是一個好依據(jù)。

盡管如此,還是讓我們來看看各路研究者都做出了怎樣的猜測。整體來說,對 GPT-4o 原生圖像生成能力的推斷主要集中在兩個方向:自回歸 + 擴散生成、非擴散的自回歸生成。下面我們詳細盤點一下相關(guān)猜想,并會簡單介紹網(wǎng)友們猜想關(guān)聯(lián)的一些相關(guān)論文。

猜想一:自回歸 + 擴散

很多網(wǎng)友猜想 GPT-4o 的圖像生成采用了「自回歸 + 擴散」的范式。比如 CMU 博士生 Sangyun Lee 在該功能發(fā)布后不久就發(fā)推猜想 GPT-4o 會先生成視覺 token,再由擴散模型將其解碼到像素空間。而且他認為,GPT-4o 使用的擴散方法是類似于 Rolling Diffusion 的分組擴散解碼器,會以從上到下的順序進行解碼。


他進一步給出了自己得出如此猜想的依據(jù)。


  • 理由 1:如果有一個強大的條件信號(如文本,也可能有視覺 token),用戶通常會先看到將要生成的內(nèi)容的模糊草圖。因此,那些待生成區(qū)域會顯示粗糙的結(jié)構(gòu)。

  • 理由 2:其 UI 表明,圖像是從頂部到底部生成的。Sangyun Lee 曾在自己的研究中嘗試過底部到頂部的順序。

Sangyun Lee 猜想到,這樣的分組模式下,高 NFE(函數(shù)評估數(shù)量)區(qū)域的 FID 會更好一些。但在他研究發(fā)現(xiàn)這一點時,他只是認為這是個 bug,而非特性。但現(xiàn)在情況不一樣了,人們都在研究測試時計算。


最后,他得出結(jié)論說:「因此,這是一種介于擴散和自回歸模型之間的模型。事實上,通過設(shè)置 num_groups=num_pixels,你甚至可以恢復自回歸!」

另外也有其他一些研究者給出了類似的判斷:


如果你對這一猜想感興趣,可以參看以下論文:

Rolling Diffusion Models,arXiv:2402.09470;

Sequential Data Generation with Groupwise Diffusion Process, arXiv:2310.01400

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,arXiv:2408.11039

猜想二:非擴散的自回歸生成

使用過 GPT-4o 的都知道,其在生成圖像的過程中總是先出現(xiàn)上半部分,然后才生成完整的圖像。

Moonpig 公司 AI 主管 Peter Gostev 認為,GPT-4o 是采用從圖像的頂部流 token 開始生成圖像的,就像文本生成方式一樣。


https://www.linkedin.com/feed/update/urn:li:activity:7311176227078172674/

Gostev 表示,與傳統(tǒng)的圖像生成模型相比,GPT-4o 圖像生成的關(guān)鍵區(qū)別在于它是一個自回歸模型。這意味著它會像生成文本一樣,按順序逐個流式傳輸圖像 token。相比之下,基于擴散過程的模型(例如 Midjourney、DALL-E、Stable Diffusion)通常是從噪聲到清晰圖像一次性完成轉(zhuǎn)換。


這種自回歸模型的主要優(yōu)勢在于,模型不需要一次性生成整個全局圖像。相反,它可以通過以下方式來生成圖像:

  • 利用其模型權(quán)重中嵌入的通用知識;

  • 通過按順序流式傳輸 token 來更連貫地生成圖像。

更進一步的,Gostev 認為,如果你使用 ChatGPT 并點擊檢查(Inspect),然后在瀏覽器中導航到網(wǎng)絡(luò)(Network)標簽,就可以監(jiān)控瀏覽器與服務(wù)器之間的流量。這讓你能夠查看 ChatGPT 在圖像生成過程中發(fā)送的中間圖像,從而獲得一些有價值的線索。

Gostev 給出了一些初步的觀察結(jié)果(可能并不完整):

  • 圖像是從上到下生成的;

  • 這個過程確實涉及流 token,與擴散方法截然不同;

  • 從一開始,就可以看到圖像的大致輪廓;

  • 先前生成的像素在生成過程中可能會發(fā)生顯著變化;

  • 這可能表明模型采用了某種連貫性優(yōu)化,尤其是在接近完成階段時更加明顯。

最后,Gostev 表示還有一些無法直接從圖像中看到的額外觀察結(jié)果:

  • 對于簡單的圖像生成,GPT-4o 速度要快得多,通常只有一個中間圖像,而不是多個。這可能暗示使用了推測解碼或其他類似方法;

  • 圖像生成還具備背景移除功能,從目前的情況來說,最初 GPT-4o 生成圖片會呈現(xiàn)一個假的棋盤格背景,直到最后才移除實際背景,這會略微降低圖像質(zhì)量。這似乎是一個額外的處理過程,而不是 GPT-4o 本身的功能。

開發(fā)者 @KeyTryer 也給出了自己的猜想。他說 4o 是一種自回歸模型,通過多次通過來逐像素地生成圖像,而不是像擴散模型那樣執(zhí)行去噪步驟。


而這種能力本身就是 GPT-4o LLM 神經(jīng)網(wǎng)絡(luò)的一部分。理論上講,它能夠比擴散系統(tǒng)更好地掌握它們正在操作的概念,而擴散系統(tǒng)只是對隨機噪聲的一種猜測。

GPT-4o 還能夠使用 LLM「知道」的信息來生成圖像。也因此,它們具有更好的泛化能力,能夠使用多條消息進行上下文學習,通過特定的編輯輸出相同(或非常接近)的結(jié)果,并且具有廣義的空間和場景感。

芬蘭赫爾辛基的大學副教授 Luigi Acerbi 也指出,GPT-4o 基本就只是使用 Transformer 來預測下一個 token,并且其原生圖像生成能力一開始就有,只是一直以來都沒有公開發(fā)布。


不過,Acerbi 教授也提到,OpenAI 可能使用了擴散模型或或一些修飾模型來為 GPT-4o 生成的圖像執(zhí)行一些清理或添加小細節(jié)。

GPT-4o 原生圖像生成功能究竟是如何實現(xiàn)的?這一點終究還得等待 OpenAI 自己來揭秘。對此,你有什么自己的猜想呢?

https://x.com/karminski3/status/1905765848423211237

https://x.com/iScienceLuvr/status/1905730169631080564

https://x.com/AcerbiLuigi/status/1904793122015522922

https://x.com/Hesamation/status/1905762746056278278

https://x.com/jie_liu1/status/1905761704195346680

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
專打國家元首的金牛座導彈抵烏!紅場勝利日閱兵式需要掂量了

專打國家元首的金牛座導彈抵烏!紅場勝利日閱兵式需要掂量了

大風文字
2025-04-25 18:56:10
又美又颯!吳艷妮13米00奪第七:戰(zhàn)斗天使真美,挑戰(zhàn)世界頂尖選手

又美又颯!吳艷妮13米00奪第七:戰(zhàn)斗天使真美,挑戰(zhàn)世界頂尖選手

李喜林籃球絕殺
2025-04-26 21:09:17
調(diào)度中心不雅畫面人員被停職調(diào)查,知情者披露兩人疑似身份內(nèi)情

調(diào)度中心不雅畫面人員被停職調(diào)查,知情者披露兩人疑似身份內(nèi)情

Likepres
2025-04-25 22:29:07
儲戶慌嗎?存款方面迎來4個方面的調(diào)整,已存的人咋辦?

儲戶慌嗎?存款方面迎來4個方面的調(diào)整,已存的人咋辦?

話史官1
2025-04-26 15:03:19
深圳殉情男子遺書稱想與妻子合葬 岳母:連女兒的牙刷他都不舍得丟 想不到他深情到這個地步

深圳殉情男子遺書稱想與妻子合葬 岳母:連女兒的牙刷他都不舍得丟 想不到他深情到這個地步

閃電新聞
2025-04-26 10:42:31
小米YU9曝光,雷軍讓3億中產(chǎn)沸騰了

小米YU9曝光,雷軍讓3億中產(chǎn)沸騰了

互聯(lián)網(wǎng)品牌官
2025-04-24 16:06:32
喬-科爾:希望穆里尼奧回英超,想在三、四年內(nèi)奪冠找他就對了

喬-科爾:希望穆里尼奧回英超,想在三、四年內(nèi)奪冠找他就對了

直播吧
2025-04-26 21:55:12
2025年一季度出口值30強城市:蘇州、寧波環(huán)比大增,鄭州漲勢喜人

2025年一季度出口值30強城市:蘇州、寧波環(huán)比大增,鄭州漲勢喜人

Data居士
2025-04-26 10:59:59
美麗的新娘

美麗的新娘

動物奇奇怪怪
2025-04-27 00:35:07
69年九大名單出爐,毛主席發(fā)怒:怎么沒他?此人痛哭:主席記得我

69年九大名單出爐,毛主席發(fā)怒:怎么沒他?此人痛哭:主席記得我

可樂88
2024-04-26 09:14:34
不滿裁判吹罰?崔康熙:大家都是足球人 有些問題我沒法直說

不滿裁判吹罰?崔康熙:大家都是足球人 有些問題我沒法直說

球事百科吖
2025-04-27 04:40:14
航母才是最大的捕魚船?遼寧艦每次帶回數(shù)十噸海鮮,全部銷毀!

航母才是最大的捕魚船?遼寧艦每次帶回數(shù)十噸海鮮,全部銷毀!

百態(tài)人間
2025-04-22 16:26:25
中年女人有意讓你“拿下”,會有一個表現(xiàn):兩個字

中年女人有意讓你“拿下”,會有一個表現(xiàn):兩個字

蓮子說情感
2025-01-11 10:26:07
王勵勤遇當頭一棒!國乒大潰敗,單打16人參賽15人出局;日本強勢

王勵勤遇當頭一棒!國乒大潰敗,單打16人參賽15人出局;日本強勢

莼侃體育
2025-04-26 08:27:26
王菲現(xiàn)身謝霆鋒演唱會!《玉蝴蝶》唱響時,王菲陶醉起舞,太甜了

王菲現(xiàn)身謝霆鋒演唱會!《玉蝴蝶》唱響時,王菲陶醉起舞,太甜了

叨嘮
2025-04-26 02:45:58
1-0大冷門,90分鐘絕殺,英冠第22掀翻英冠第6,蘭帕德率隊2連敗

1-0大冷門,90分鐘絕殺,英冠第22掀翻英冠第6,蘭帕德率隊2連敗

側(cè)身凌空斬
2025-04-26 21:39:34
北京房價:泡沫與走勢分析

北京房價:泡沫與走勢分析

流蘇晚晴
2025-04-26 21:36:36
殺人誅心!大S離世后,小玥兒的第一個生日現(xiàn)場曝光,網(wǎng)友集體破防了

殺人誅心!大S離世后,小玥兒的第一個生日現(xiàn)場曝光,網(wǎng)友集體破防了

瞎說娛樂
2025-04-26 10:55:49
大比分2-1!塔圖姆空砍36+9,黑馬雙星合砍61分,凱爾特人遭逆轉(zhuǎn)

大比分2-1!塔圖姆空砍36+9,黑馬雙星合砍61分,凱爾特人遭逆轉(zhuǎn)

老梁體育漫談
2025-04-26 10:06:15
突降6℃!湖北接下來大反轉(zhuǎn)

突降6℃!湖北接下來大反轉(zhuǎn)

魯中晨報
2025-04-26 11:20:10
2025-04-27 05:28:49
學術(shù)頭條
學術(shù)頭條
致力于學術(shù)傳播和科學普及,重點關(guān)注人工智能、生命科學等前沿科學進展。
1247文章數(shù) 5069關(guān)注度
往期回顧 全部

科技要聞

百度心響實測:“能用版Manus”開了個好頭

頭條要聞

特朗普將舉行集會慶祝執(zhí)政100天 美媒:時機不妙

頭條要聞

特朗普將舉行集會慶祝執(zhí)政100天 美媒:時機不妙

體育要聞

廣廈19分勝遼寧獲開門紅 孫銘徽13分3助崴腳

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經(jīng)要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

本地
房產(chǎn)
家居
公開課
軍事航空

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

房產(chǎn)要聞

教育理念再進階!解碼新世界星輝如何構(gòu)筑「家校社成長生態(tài)圈」!

家居要聞

清徐現(xiàn)代 有溫度有態(tài)度

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

白宮爭吵后特朗普與澤連斯基"首度"碰面

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 平果县| 英德市| 新竹市| 鄂州市| 宜良县| 淮阳县| 哈巴河县| 绩溪县| 吉水县| 塔城市| 武义县| 汤阴县| 罗定市| 阳西县| 荣昌县| 剑河县| 凯里市| 安岳县| 德保县| 梨树县| 铁力市| 屏东县| 盐津县| 惠东县| 乐平市| 蚌埠市| 磴口县| 伊宁县| 永修县| 三穗县| 张家港市| 黄骅市| 囊谦县| 汝城县| 宽甸| 东兰县| 宜丰县| 天全县| 都昌县| 苍溪县| 南汇区|