99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

何愷明新作“分形生成模型”:逐像素建模高分辨率圖像,效率提升4000倍

0
分享至


內容來自:機器之心

這才過幾天,大神何愷明又放出一篇新論文!

這次構建了一種全新的生成模型。類似于數學中的分形,研究者推出了一種被稱為分形生成模型(Fractal Generative Models)的自相似分形架構

在計算機科學領域,它的核心是模塊化概念,比如深度神經網絡由作為模塊化單元的原子「層」構建而成。同樣地,現代生成模型(如擴散模型和自回歸模型)由原子「生成步驟」構建而成,每個步驟都由深度神經網絡實現。

通過將復雜函數抽象為這些原子構建塊,模塊化使得可以通過組合這些模塊來創建更復雜的系統。基于這一概念,研究者提出將生成模型本身抽象為一個模塊,以開發更高級的生成模型。一作 Tianhong Li 為 MIT 博士后研究員、二作 Qinyi Sun 為 MIT 本科生(大三)。


論文鏈接:https://arxiv.org/abs/2502.17437

GitHub 地址:https://github.com/LTH14/fractalgen

具體來講,研究者提出的分形生成模型通過在其內部遞歸調用同類生成模型來構建。這種遞歸策略產生了一個生成框架,在下圖中展示了其跨不同模塊級別的具有自相似性的復雜架構。


如前文所述,本文分形生成模型類似于數學中的分形概念。分形是使用被稱為「生成器」的遞歸規則構建的自相似模式。同樣地,本文框架也是通過在生成模型中調用生成模型的遞歸過程構建的,并在不同層次上表現出自相似性。因此,研究者將其命名為「分形生成模型」。

本文的分形生成模型的靈感來自于生物神經網絡和自然數據中觀察到的分形特性。與自然的分形結構類似,研究者設計的關鍵組件是定義遞歸生成規則的生成器,比如這樣的生成器可以是自回歸模型,如上圖所示。在此實例中,每個自回歸模型都由本身就是自回歸模型的模塊組成。

具體而言,每個父自回歸塊都會生成多個子自回歸塊,每個子塊都會進一步生成更多自回歸塊。由此產生的架構在不同級別上表現出類似分形的自相似模式。

在實驗環節,研究者在一個具有挑戰性的測試平臺上(逐像素圖像生成)檢驗了這個分形實例。結果顯示,本文的分形框架在這一具有挑戰性的重要任務上表現出色,它不僅可以逐像素生成原始圖像,同時實現了準確的似然估計和高生成質量,效果如下所示。


研究者希望這一充滿潛力的的結果能夠激勵大家進一步研究分形生成模型的設計和應用,最終在生成建模中建立一種全新的范式。

有人評論道,「分形生成模型代表了AI領域一個令人興奮的前沿。自回歸模型的遞歸性質反映了學習如何反映自然模式。這不僅僅是理論,它是通往更豐富、適應性更強的AI系統的途徑。」


圖源:https://x.com/abhivendra/status/1894421316012577231

分形生成模型詳解

研究者表示,分形生成模型的關鍵思路是「從現有的原子生成模塊中遞歸地構建更高級的生成模型?!?/p>

具體來講,該分形生成模型將一個原子生成模塊用作了參數分形生成器。這樣一來,神經網絡就可以直接從數據中「學習」遞歸規則。通過將指數增長的分形輸出與神經生成模塊相結合,分形框架可以對高維非序列數據進行建模。

接下來,研究者展示了如何通過將自回歸模型用作分形生成器來構建分形生成模型。他們將自回歸模型用作了說明性原子模塊,以演示分形生成模型的實例化,并用來對高緯數據分布進行建模。

假設每個自回歸模型中的序列長度是一個可管理的常數 k,并使隨機變量的總數為 N = k^n,其中 n = log_k (N) 表示分形框架中的遞歸級別數。然后,分形框架的第一個自回歸級別將聯合分布劃分為 k 個子集,每個子集包含 k^n?1 個變量。

在形式上,研究者進行了如下解耦:

接著每個具有 k^n?1 個變量的條件分布 p (???|???) 由第二個遞歸級別的自回歸模型建模,并依此類推。

研究者表示,通過遞歸地調用這種分而治之(divide-and-conquer)的過程,分形框架可以使用 n 級自回歸模型高效地處理 k^n 個變量的聯合分布,并且每個模型都對可管理的序列長度 k 進行操作。

這種遞歸過程代表了一種標準的分而治之策略。通過遞歸地解耦聯合分布,本文分形自回歸架構不僅相較于單個大型自回歸模型顯著降低了計算成本,而且還捕獲了數據中的內在層次結構。從概念上講,只要數據表現出可以分而治之的組織結構,就可以在該分形框架內自然地對其進行建模。

實現:圖像生成實例化

研究者展示了分形自回歸架構如何用于解決具有挑戰性的逐像素圖像生成任務。

架構概覽

如下圖所示,每個自回歸模型將上一級的生成器的輸出作為其輸入,并為下一級生成器生成了多個輸出。該模型還獲取一張圖像(也可以是原始圖像的 patch),將其分割成 patch,并將它們嵌入以形成一個 transformer 模型的輸入序列。這些 patch 也被饋送到相應的下一級生成器。

接下來,transformer 模型將上一個生成器的輸出作為單獨的 token,放在圖像 token 的前面?;诖私M合序列,transformer 為下一級生成器生成多個輸出。

研究者將第一級生成器 g_0 的序列長度設置為 256,將原始圖像分成 16 × 16 個 patch。然后,第二級生成器對每個 patch 進行建模,并進一步將它們細分為更小的 patch,并繼續遞歸執行此過程。為了管理計算成本,他們逐步減少較小 patch 的寬度和 transformer 塊的數量,這樣做是因為對較小 patch 進行建模通常比對較大 patch 更容易。

在最后一級,研究者使用一個非常輕量級的 transformer 來自回歸地建模每個像素的 RGB 通道,并在預測中應用 256 路交叉熵損失。


不同遞歸級別和分辨率下,每個 transformer 的精確配置和計算成本如下表 1 所示。值得注意的是,通過本文的分形設計,建模分辨率為 256×256 圖像的計算成本僅為建模分辨率為 64×64 圖像的兩倍。


本文方法支持不同的自回歸設計。研究者主要考慮了兩種變體:光柵順序、類 GPT 的因果 transformer (AR) 和隨機順序、類 BERT 的雙向 transformer (MAR),具體如下圖所示。


尺度空間自回歸模型

最近,一些模型已經提出為自回歸圖像生成執行下一尺度(next-scale)預測。這些尺度空間自回歸模型與本文方法的一個主要區別是:它們使用單個自回歸模型來逐尺度地預測 token。

相比之下,本文分形框架采用分而治之的策略,使用生成式子模塊對原始像素進行遞歸建模。另一個關鍵區別在于計算復雜性:尺度空間自回歸模型在生成下一尺度 token 的整個序列時需要執行完全注意力操作,這會導致計算復雜性大大增加。

舉例而言,在生成分辨率為 256×256 的圖像時,在最后一個尺度上,尺度空間自回歸模型每個注意力塊中的注意力矩陣大小為 (256 ×256)^2 即 4,294,967,296。相比之下,本文方法在對像素 (4×4) 相互依賴性進行建模時對非常小的 patch 執行注意力,其中每個 patch 的注意力矩陣只有 (4 × 4)^2 = 256,導致總注意力矩陣大小為 (64 × 64) × (4 × 4)^2 = 1,048,576 次操作。

這種減少使得本文方法在最精細分辨率下的計算效率提高了 4000 倍,從而首次能夠逐像素建模高分辨率圖像。

長序列建模

之前大多數關于逐像素生成的研究都將問題表述為長序列建模,并利用語言建模的方法來解決。與這些方法不同,研究者將此類數據視為由多個元素組成的集合(而不是序列),并采用分而治之的策略以遞歸方式對具有較少元素的較小子集進行建模。

這種方法的動機是觀察到大部分數據都呈現出了近乎分形的結構。圖像由子圖像組成,分子由子分子組成,生物神經網絡由子網絡組成。因此,設計用于處理此類數據的生成模型應該由本身就是生成模型的子模塊組成。

實驗結果

本文在 ImageNet 數據集上進行了實驗,圖像分辨率分別為 64×64 和 256×256。評估包括無條件和類條件圖像生成,涵蓋模型的各個方面,如似然估計、保真度、多樣性和生成質量。

因此,本文報告了負對數似然(NLL)、Frechet Inception Distance(FID)、Inception Score(IS)、精度(Precision)和調回率(Recall)以及可視化結果,以全面評估分形框架。

似然估計。本文首先在無條件 ImageNet 64×64 生成任務上進行了評估,以檢驗其似然估計能力。為了驗證分形框架的有效性,本文比較了不同分形層級數量下框架的似然估計性能,如表 2 所示。


再來看生成質量評估。研究者在分辨率為 256×256 的類條件圖像生成這一挑戰性任務上,使用四個分形級別對 FractalMAR 進行了評估。指標包括了 FID、Inception Score、精度和召回率,具體如下表 4 所示。


值得注意的是,本文方法實現了強大的 Inception Score 和精度,表明它能夠生成具有高保真度和細粒度細節的圖像,如下圖所示。


最后是條件逐像素預測評估。

研究者進一步使用圖像編輯中的常規任務來檢驗本文方法的條件逐像素預測性能。下圖提供了幾個具體示例,包括修復、去除修復、取消裁剪和類條件編輯。

結果顯示,本文方法可以根據未遮蔽區域來準確預測被遮蔽的像素,還可以有效地從類標簽中捕獲高級語義并將其反映在預測像素中。


更多實驗結果參閱原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
妻子出軌,丈夫將15公分蠟燭塞進妻子的陰道內

妻子出軌,丈夫將15公分蠟燭塞進妻子的陰道內

胖胖侃咖
2025-04-13 08:00:08
澤連斯基承認:烏克蘭沒有足夠武器,缺乏重新控制克里米亞所需軍力

澤連斯基承認:烏克蘭沒有足夠武器,缺乏重新控制克里米亞所需軍力

環球網資訊
2025-04-26 14:07:06
英媒:諾丁漢森林希望簽下格拉利什,曼城標價5700英鎊

英媒:諾丁漢森林希望簽下格拉利什,曼城標價5700英鎊

雷速體育
2025-04-26 20:52:09
小s麻煩大了!網友爆大s天價包在小s女兒手上 曾否認拍賣姐姐遺物

小s麻煩大了!網友爆大s天價包在小s女兒手上 曾否認拍賣姐姐遺物

鄭丁嘉話
2025-04-26 10:03:20
瑞銀:市場押注特朗普美聯儲齊救市 重申標普500指數年底目標5800點

瑞銀:市場押注特朗普美聯儲齊救市 重申標普500指數年底目標5800點

財聯社
2025-04-26 15:08:04
法甲紀錄保住了!南特官推曬連續32場不敗紀念海報

法甲紀錄保住了!南特官推曬連續32場不敗紀念海報

直播吧
2025-04-26 06:40:11
校園“奶頭樂”現象盛行,不少學生深陷其中,家長卻渾然不知……

校園“奶頭樂”現象盛行,不少學生深陷其中,家長卻渾然不知……

大道微言
2025-04-11 06:47:45
川普政府讓步,宣布恢復國際學生SEVIS簽證登記!印度和中國留學生影響最大

川普政府讓步,宣布恢復國際學生SEVIS簽證登記!印度和中國留學生影響最大

華人生活網
2025-04-26 02:26:17
特朗普500萬美元金卡的最新進展

特朗普500萬美元金卡的最新進展

新鴻出國
2025-04-25 12:47:46
艾倫談世錦賽八強戰:輸了每局比分接近的比賽,本應讓韋克林緊張

艾倫談世錦賽八強戰:輸了每局比分接近的比賽,本應讓韋克林緊張

世界體壇觀察家
2025-04-26 08:31:50
只用了39場,斯盧茨基執教申花已在中超拿到100分

只用了39場,斯盧茨基執教申花已在中超拿到100分

懂球帝
2025-04-27 00:14:45
一口價后,別克成交均價上升五萬達21萬!上汽通用:已堪比豪華車

一口價后,別克成交均價上升五萬達21萬!上汽通用:已堪比豪華車

明鏡pro
2025-04-25 09:29:33
安徽美女道士遠近聞名,靠身體“日進斗金”,九個男徒弟曝光內幕

安徽美女道士遠近聞名,靠身體“日進斗金”,九個男徒弟曝光內幕

林林故事揭秘
2025-03-07 14:02:09
正式簽約!四川首家市內免稅店落地成都市錦江區

正式簽約!四川首家市內免稅店落地成都市錦江區

紅星新聞
2025-04-26 13:52:38
政審時名下莫名多家公司,我沒啃聲,直接用法人身份把他公司拆了

政審時名下莫名多家公司,我沒啃聲,直接用法人身份把他公司拆了

蘭姐說故事
2025-04-24 15:00:06
炸鍋!海南安居房被吐槽像智商稅???

炸鍋!海南安居房被吐槽像智商稅???

海南樓市一線
2025-04-25 18:31:23
得分能力實在太差了!湖人還打算繼續讓替補后場留在輪換陣容中?

得分能力實在太差了!湖人還打算繼續讓替補后場留在輪換陣容中?

稻谷與小麥
2025-04-26 22:52:44
安徽鐵塔的瓜!疑內部人員稱:各自有家庭,事發時媒體設備沒開機

安徽鐵塔的瓜!疑內部人員稱:各自有家庭,事發時媒體設備沒開機

奇思妙想草葉君
2025-04-25 23:29:40
詹姆斯征服對手!里德:他可是詹姆斯!40歲還能這樣打!

詹姆斯征服對手!里德:他可是詹姆斯!40歲還能這樣打!

歷史第一人梅西
2025-04-26 20:55:30
明明長得一樣,為啥一個叫牡蠣,一個叫生蠔?今天終于明白了

明明長得一樣,為啥一個叫牡蠣,一個叫生蠔?今天終于明白了

森羅萬象視頻
2025-04-07 19:09:39
2025-04-27 00:59:00
學術頭條
學術頭條
致力于學術傳播和科學普及,重點關注人工智能、生命科學等前沿科學進展。
1247文章數 5069關注度
往期回顧 全部

科技要聞

百度心響實測:“能用版Manus”開了個好頭

頭條要聞

馬斯克和美財長激烈爭吵細節披露:胸口相抵 狂飆臟話

頭條要聞

馬斯克和美財長激烈爭吵細節披露:胸口相抵 狂飆臟話

體育要聞

廣廈19分勝遼寧獲開門紅 孫銘徽13分3助崴腳

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

游戲
家居
旅游
健康
親子

《羊蹄山》全新藝術照公開:"戰鬼"女主眼神兇狠

家居要聞

清徐現代 有溫度有態度

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

唇皰疹和口腔潰瘍是"同伙"嗎?

親子要聞

這首歌是為有兒子的家庭量身打造的吧? 楊雪呀

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 三门峡市| 通河县| 巴彦淖尔市| 天峨县| 富裕县| 剑阁县| 栖霞市| 泸溪县| 六盘水市| 喀什市| 西乌珠穆沁旗| 将乐县| 临清市| 浠水县| 洛阳市| 舞钢市| 杨浦区| 齐河县| 上栗县| 嘉善县| 荔浦县| 咸宁市| 兴和县| 股票| 澄城县| 阆中市| 肥城市| 延庆县| 治多县| 巫溪县| 武汉市| 景宁| 武隆县| 东乌珠穆沁旗| 永康市| 香港 | 东宁县| 襄樊市| 阿拉善盟| 疏勒县| 宜黄县|