我們承認 DNF [9]和 PCAflow 可以與我們的方法進行定量比較
Denoising Normalizing Flow
去噪歸一化流
https://proceedings.neurips.cc/paper_files/paper/2021/file/4c07fe24771249c343e70c32289c1192-Paper.pdf
摘要
歸一化流(NF)是一種表達能力強且易于處理的密度估計方法,只要密度的支持集與整個數據空間是微分同胚的即可。然而,現實世界中的數據通常位于(或非常接近)低維流形上,這使得標準歸一化流在實際問題中的適用性受到挑戰。本文提出了一種新方法——去噪歸一化流(DNF),它可以在估計低維流形上的密度的同時學習該流形。DNF的工作分為三個步驟。首先,它將流形膨脹,使其與整個數據空間微分同胚。其次,它在膨脹后的流形上學習一個歸一化流。最后,它學習一個去噪映射,類似于去噪自編碼器。DNF依賴于一個單一的成本函數,不需要在密度估計階段和流形學習階段之間交替,這與最近的其他方法不同。此外,我們還展示了DNF可以從自然圖像中學習有意義的低維表示,并生成高質量的樣本。
1 引言
2 問題陳述
在接下來的內容中,我們將展示為什么標準歸一化流(NFs)不適合推斷給定數據的低維表示。本節最后將提出我們在第3節中將研究的研究問題。
3 去噪歸一化流
我們基于在 [20] 中開發的理論工作來回答研究問題。首先,我們簡要回顧這項工作,然后介紹去噪歸一化流(DNF)。
4 相關工作
5 結果
我們嚴格遵循 [10] 中的實驗設置。對于 M-flow 和 DNF,我們使用相同的網絡架構和訓練協議。這些架構基于仿射耦合層 [13]、神經樣條 [14] 和可訓練排列 [25]。PAE 分別使用卷積神經網絡作為編碼器和解碼器。對于圖像,我們使用最近開發的一種 VAE 的變體——InfoMax-VAE [33],它利用信息論的見解來學習有意義的潛在表示。更多訓練細節請參閱附錄。
5.1 密度估計
我們使用類似的架構對標準NF(右上)、M?flow(左中)、DNF(右中)、PAE(左下)和VAE(右下)進行了訓練,訓練了100個周期,每批100個樣本。正如圖2所示,標準NF的雅可比行列式退化了,所學密度坍縮成單點。令人驚訝的是,無論我們使用哪種訓練計劃,M?flow都無法學習p(x)(我們展示了順序訓練的結果)。PAE學習了一個膨脹版本的p(x),但它沒有一個放氣過程。標準VAE簡單地將p(x)等同于潛在變量上的高斯先驗(我們取ELBO的點估計來近似p(x))。
所有密度都在一個 100×100 的網格上進行評估。為此,M?flow 為每個點計算所學習到的生成器 g 的格拉姆行列式(見公式(16)和圖 1(c))。通過這種方式,在 GPU5 上評估包含 500 個點的批次的密度大約需要 188 秒。在相同的設備上,對于相同大小的批次,DNF 僅需要 1 秒即可評估密度。這說明了需要計算完整格拉姆行列式的缺點(見第 2 節)。
在補充材料中,我們進行了更多的密度估計實驗,并將 DNF 與膨脹-收縮方法 [20] 進行了比較。對于圓上的 von Mises 分布以及球面上的 von Mises 分布混合,DNF 幾乎完全準確地學習到了密度,這表明了公式(15)的正確性。同樣在補充材料中,我們按照 [10] 中使用的協議,利用 DNF 進行概率推斷。
5.2 StyleGAN 圖像流形
M?flow 和 DNF 的一個缺點是必須事先知道真實的流形維度 d。對于真實世界的數據集,d 是未知的。因此,[10] 使用在 FFHQ 數據集 [22] 上訓練的 StyleGAN2 模型 [23] 來生成一個 d 維流形,方法是僅改變前 d 個潛在變量,而保持其余變量固定。
為了進一步評估生成測試樣本的質量,我們在表 1 中展示了 Fréchet 起始距離(FID 分數),以及用于衡量流形學習的平均重構誤差。我們在 FID 分數上略微優于 M?flow,并且在平均重構誤差上顯著優于 M?flow。后者的發現令人驚訝,因為 M?flow 是直接在重構誤差上進行訓練的。PAE 和 InfoMax-VAE 的表現不如 M?flow 和 DNF,這表明這些模型的潛在維度選擇并不理想。
( d = 64 ):我們在 2×10? 張圖像上訓練模型,訓練周期為 200 次。在圖 4 中,我們在前 5 列分別展示了原始數據集(頂部)、M?flow(第二行)、DNF(第三行)、InfoMax-VAE(第四行)和 PAE(最后一行)的樣本。在剩余的 5 列中,我們展示了這些模型在潛在空間中線性插值的平滑程度。為此,我們在潛在空間中對兩個訓練圖像進行線性插值,并展示圖像空間中對應的軌跡。我們在表 1 中比較了這些模型的 FID 和平均重構誤差。與 ( d = 2 ) 的情況類似,DNF 在 FID 和平均重構誤差方面優于 M?flow、InfoMax-VAE 和 PAE。
6 總結與討論
我們的模型基于 [20] 所建立的理論工作,從而自然地將 NF 和 DAE 結合起來,形成了 DNF。與類似方法相比,DNF 是通過一個單一的目標函數進行訓練的,該函數結合了流形學習和密度學習。為了使用 NF 學習一個支持在低維流形上的密度,需要計算流的格拉姆行列式。DNF 避免了這一需求,并且可以用來近似它。我們已經將 DNF 歸類到相關文獻中,并將其在自然圖像上的性能與其他相關方法(M?flow、PAE、VAE)進行了比較。在這些方法中,我們發現 DNF 生成的圖像質量最高(以 FID 衡量),并且能夠以最低的 L2 距離重建給定的輸入。
眾所周知,在輸入中添加噪聲可以提高監督學習任務中的泛化性能 [2, 8, 29]。然而,這通常會以樣本質量降低或密度估計變差為代價。DNF 有潛力避免這種權衡,并且通過實驗表明,在圖像中添加噪聲可以帶來更好的采樣質量和流形學習性能。
其他最近開發的方法(例如 PAE 或 M?flow)將流形學習與密度學習分開。我們發現這種分離并非必要,并且使用了不同的啟發式方法來評估學習質量。對于p(x)的值,我們可視化了所學習到的(潛在)密度(圖 2)。對于潛在表示的質量,我們生成了一個圖像網格(圖 3),對于潛在空間中的平滑性,我們生成了一個圖像路徑(圖 4)。我們使用 FID 來衡量采樣質量,使用平均重構誤差來衡量流形學習(表 1)。鑒于這些不同的啟發式方法,人們期望有一個統一的性能評估標準。
更廣泛的影響:以盡可能少的信息損失來壓縮日益高維的數據正變得越來越重要。DNF 與 M?flow 的結合表明,即使是自然圖像,這種壓縮也是可能的。與其他所有生成模型一樣,DNF 可能產生的負面影響是生成虛假數據。更積極地說,DNF 可能會改善分布外檢測,甚至提高對對抗性攻擊的魯棒性,這兩者對于機器學習在社會中的可靠應用都是至關重要的。
原文鏈接:https://tilde.ini.uzh.ch/users/jpfister/public_html/papers/Horvat_21a.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.