內容來自:機器之心
編輯:蛋醬、杜偉
一直以來,研究者普遍認為,去噪擴散模型要想成功運行,噪聲條件是必不可少的。
而大神何愷明的一項最新研究,對這個觀點提出了「質疑」。
「受圖像盲去噪研究的啟發,我們研究了各種基于去噪的生成模型在沒有噪聲調節的情況下的表現。出乎我們意料的是,大多數模型都表現出了優美的退化,它們甚至在沒有噪聲條件的情況下表現得更好。」
論文標題:Is Noise Conditioning Necessary for Denoising Generative Models?
論文地址:https://arxiv.org/pdf/2502.13129
研究者對這些模型在無噪聲條件情況下的行為進行了理論分析。具體來說,他們研究了噪聲水平分布中固有的不確定性、在沒有噪聲條件的情況下去噪所造成的誤差以及迭代采樣器中的累積誤差。綜合這些因素,提出了一個誤差邊界,該誤差邊界的計算無需任何訓練,完全取決于噪聲條件和數據集。
實驗表明,這個誤差邊界與所研究的模型的噪聲 - 無條件行為有很好的相關性,特別是在模型出現災難性失敗的情況下,其誤差邊界要高出幾個數量級。
由于噪聲 - 無條件模型很少被考慮,專門為這種未充分探索的情況設計模型是有價值的。為此,研究者從 EDM 模型中提出了一個簡單的替代方案。在沒有噪聲條件的情況下,該變體可以實現很強的性能,在 CIFAR10 數據集上的 FID 得分達到 2.23。這一結果大大縮小了噪聲 - 無條件系統與噪聲 - 條件系統之間的差距(例如,EDM 的 FID 為 1.97)。
關于未來,研究者希望消除噪聲條件將為基于去噪的生成模型的新進展鋪平道路,激勵業界重新審視相關方法的基本原理,并探索去噪生成模型領域的新方向。例如,只有在沒有噪聲條件的情況下,基于分數的模型才能學習到獨特的分數函數,并實現經典的、基于物理學的朗格文動力學。
對于這項新研究,有人評論稱:我們花了數年時間來完善噪聲條件技術,到頭來卻發現即使沒有噪聲條件,模型同樣能運行得很好。所以,科學其實就是利用額外數學的反復試錯。
去噪生成模型的重構
研究者提出了一種可以總結各種去噪生成模型訓練和采樣過程的重構(reformulation),核心動機是隔離神經網絡 NN_θ,從而專注于其在噪聲條件方面的行為。
首先來看去噪生成模型的訓練目標。在訓練期間,從數據分布 p (x) 中采樣一個數據點 x,并從噪聲分布 p (?)(例如正態分布 N (0, I))中采樣噪聲 ?。噪聲圖像 z 由以下公式得出:
一般來說,去噪生成模型涉及最小化損失函數,該函數可以寫成:
現有幾種方法(iDDPM、DDIM、EDM 和 FM)的調度函數具體如下表 1 所示。值得注意的是,在研究者的重構中,他們關注的是回歸目標 r 與神經網絡 NN_θ 直接輸出之間的關系。
其次是采樣。給定訓練好的 NN_θ,采樣器迭代地進行去噪。具體來講,對于初始噪聲 x_0 ~ N (0, b (t_max)^2I),采樣器迭代地計算如下:
最后是噪聲條件網絡。在現有方法中,神經網絡 NN_θ(z|t) 以 t 指定的噪聲水平為條件,具體可以參見圖 1(左)。
同時,t-embedding 提供時間級信息作為網絡額外輸入。本文的研究涉及這種噪聲條件的影響,即考慮了 NN_θ(z) 和 NN_θ(z|t),參見圖 1(右)。
無噪聲條件模型
基于上述重構,研究者對消除噪聲條件的影響進行了理論分析,其中涉及到了訓練目標和采樣過程。他們首先分析了訓練階段的有效回歸目標和單個去噪步驟中的誤差,然后給出了迭代采樣器中累積誤差的上限。
有效目標
形式上,優化公式 (2) 中的損失等同于優化以下損失,其中預期 E [?] 中的每個項都有對應的唯一有效目標:
對于無噪聲條件的有效目標,同樣地,如果網絡 NN_θ(z) 不接受 t 作為條件,則其唯一的有效目標 R (z) 應該僅取決于Z。在這種情況下,損失為:
唯一有效目標如下:
后驗集中 p (t|z)
接下來,研究者探究了 p (t|z) 與狄拉克 δ 函數的相似度。對于圖像等高維數據,人們早已意識到可以可靠地對噪聲水平進行估計,這意味著可以得到一個集中的 p (t|z)。
陳述 1:(p (t|z) 集中)。考慮單個數據點 x ? [-1, 1]^d,則 ?~(0, I),t~U [-0, 1] 以及 z = (1 - t) x + t?(流匹配情況)。給定一個由已有 t_?生成的噪聲圖像 z = (1 - t_?) x + t_??,條件分布 p (t|z) 下 t 的方差如下:
有效回歸目標的誤差
使用 p (t|z),研究者探究了有效回歸目標 R (z) 和 R (z|t) 之間的誤差。在形式上,考慮如下:
他們表明,方差 E (z) 明顯小于 R (z) 的范數。
陳述 2(有效回歸目標的誤差)。考慮到陳述 1 中的場景以及流匹配情況,公式 (10) 中定義的誤差滿足如下:
采樣中的累積誤差
到目前為止,研究者關注到了單個回歸步驟的誤差。而在去噪生成模型中,推理采樣器是迭代的,因而進一步研究了迭代采樣器中的累積誤差。
為了便于分析,研究者假設網絡 NN_θ 足以擬合有效回歸目標 R (z|t) 或 R (z)。在此假設下,他們將上面公式 (4) 中的 NN_θ 替換為 R。這就有了以下陳述 3:
陳述 3(累積誤差的上限)。考慮公式 (4) 中 N 個步驟的采樣過程,從相同的初始噪聲 x_0 = x’_0 開始。通過噪聲調節,采樣器計算如下:
而在無噪聲條件下,計算如下:
作為參考,EDM 設置為 ,其中 σ_d 為數據標準差。由于 是應用于網絡 NN_θ 的系數,因而研究者將其設置為常數以使該網絡不用建模一個 t - 依賴尺度。在實驗中,這種簡單的設計表現出了比 EDM 更低的誤差上限(陳述 3),因而被命名為了 uEDM,它是無噪聲條件的縮寫。
實驗結果
研究者對各種模型的噪聲條件影響進行了實證評估:
擴散:iDDPM、ADM、uEDM
基于流的模型:此處采用了 Rectified Flow (1-RF)
一致性模型:iCT ECM
下表 2 總結了不同生成模型中的 FID 變化情況,有或無噪聲調節分別用 “w/t ” 和 “w/o t ” 表示。
劃重點如下:
(i) 與通常的看法相反,噪聲條件并不是大多數基于去噪模型發揮作用的有利因素。大多數變體都能優雅地工作,表現出微小但適當的衰減(黃色);
(ii) 在去除噪聲條件后,一些基于流的變體可以獲得更好的 FID(綠色);
(ili) uEDM 變體在不使用噪聲條件的情況下實現了 2.23 的 FID,縮小了與噪聲條件方法的強基線的差距;
(iv) 與擴散模型相關但目標函數有很大不同的一致性模型,也可以表現得很優美;
(v) 在本文研究的所有變體中,只有「DDIM w/ ODEsampler*」會導致災難性失敗(紅色),FID 顯著惡化至 40.90。圖 5 (a) 展示了其定性表現:模型仍然能夠理解形狀和結構,但 「overshoot」或「undershoot」會產生過飽和或噪聲結果。
在圖 4 中,研究者根據經驗評估了在 100 步 ODE 采樣器下不同方法的陳述 3 中的誤差邊界。誤差邊界的計算只取決于每種方法的時間表和數據集。圖 4 也展示了理論邊界與經驗行為之間的緊密聯系。具體來說,DDIM 的災難性失敗可以用其誤差邊界高出幾個數量級來解釋。另一方面,EDMFM 和 uEDM 在整個過程中的誤差邊界都很小。
隨機性水平。在表 2 中,DDIM 只在確定性 ODE 采樣器中失敗;在 SDE 采樣器(即 DDPM 采樣器)中仍然表現良好。
如圖 6 所示,隨機性越大,FID 分數越高。當 λ=1 時,DDIM 的表現與 iDDP 類似。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.