給大家分享一項在計算機視覺頂會CVPR 2025上被接收的重磅研究,來自上海交通大學,上海人工智能實驗室等機構,論文名為 《Dataset Distillation with Neural Characteristic Function: A Minmax Perspective》(基于神經特征函數的數據集蒸餾:一個 Minmax 視角)
這項研究可以說是在數據蒸餾領域投下了一顆“深水炸彈”,它提出了一種全新的方法NCFM (Neural Characteristic Function Matching,神經特征函數匹配),不僅大幅提升了數據蒸餾的性能,更在資源效率上實現了質的飛躍!
相比于 DATM 等 SOTA 方法,NCFM 的 GPU 顯存占用降低了 300 倍以上! 訓練速度提升了 20 倍!更令人震驚的是,NCFM 僅用 2.3GB 顯存,就在單張 NVIDIA 2080 Ti GPU 上成功完成了 CIFAR-100 的無損蒸餾! 這在之前是難以想象的
話不多說,我給大家劃個重點
背景:大數據時代的“瘦身術”——數據集蒸餾
在人工智能領域,我們常說“數據為王”。 模型要強大,海量數據少不了。 然而,大數據也帶來了新的挑戰:
? 存儲壓力山大: 動輒TB甚至PB級別的數據,存儲成本高昂
? 訓練耗時漫長: 在海量數據上訓練模型,計算資源和時間成本都讓人望而卻步
? 內存瓶頸凸顯:大模型 + 大數據,GPU顯存分分鐘被榨干
為了解決這些問題,數據蒸餾 (Dataset Distillation)技術應運而生。 它的目標就像給數據集做“瘦身”, 用少量合成數據 (Synthetic Data) “濃縮” 原始大數據集 (Real Data) 的精華信息,讓模型僅用這些“迷你”數據就能達到甚至超越在原始數據集上的訓練效果
現有方法的困境: “像素級”匹配 vs. “分布級”差異
目前,數據集蒸餾方法主要分為兩大類:
? 特征匹配 (Feature Matching): 這類方法就像“像素級”比對,直接比較合成數據和真實數據在特征空間的相似度。 例如,早期的MSE (均方誤差)方法就是典型代表,但它往往忽略了數據的高維語義信息,效果有限。
? 分布匹配 (Distribution Matching): 這類方法更注重“分布級”的相似性,試圖讓合成數據和真實數據在分布上盡可能一致。MMD (最大均值差異)是常用的度量指標,但研究表明,MMD僅僅對齊了數據的低階矩,并不能保證整體分布的相似性,而且計算復雜度較高。
簡單來說,現有方法要么過于簡單粗暴,無法捕捉數據的深層分布;要么計算復雜,效率不高。這就限制了數據集蒸餾技術的進一步發展
NCFM: Minmax 博弈下的“神經特征函數”
為了突破現有方法的瓶頸,NCFM 從全新的 Minmax 博弈視角出發, 引入了 “神經特征函數差異 (Neural Characteristic Function Discrepancy, NCFD)” 這一創新度量指標
1. Minmax 博弈: “矛與盾”的對抗學習
NCFM 將數據集蒸餾問題重新定義為一個Minmax 優化問題,就像一場“矛與盾”的對抗游戲:
? “矛” (Discrepancy Metric Network, 差異度量網絡 ψ):它的目標是 最大化 (Max)合成數據和真實數據之間的差異 (Discrepancy), 努力找到一個最能區分二者分布的“判別器”。 這個“判別器”就是神經特征函數差異 (NCFD)
? “盾” (Synthetic Data, 合成數據 D):它的目標是最小化 (Min)在 “矛” 的度量下,合成數據和真實數據之間的差異, 努力生成盡可能“逼真”的合成數據, “欺騙” “判別器”
通過 “矛與盾” 的不斷對抗和迭代優化,NCFM 能夠自適應地學習到一個更魯棒、更有效的差異度量指標 (NCFD), 并生成更高質量的合成數據。 這種 Minmax 框架與 GANs 的對抗生成思想有異曲同工之妙,但目標和實現方式卻截然不同。
2. NCFD: 基于“特征函數”的全面分布刻畫
NCFD 的核心創新在于 “神經特征函數差異” 這一度量指標。 它巧妙地利用了特征函數 (Characteristic Function, CF)的強大能力來刻畫數據分布
什么是特征函數 (CF)?簡單來說, 特征函數就是概率密度函數的傅里葉變換。它具有以下關鍵優勢:
? 唯一性:一個分布對應唯一的特征函數,反之亦然。這意味著特征函數能夠完整、無損地編碼分布的全部信息
? 全面性: 特征函數包含了分布的所有矩信息,比 MMD 僅對齊低階矩更全面
NCFD 如何“神經”?NCFM 并沒有直接使用傳統的特征函數,而是引入了一個輕量級的神經網絡 ψ 來學習特征函數的頻率參數 t 的采樣策略。這樣做的好處是:
? 自適應性: 神經網絡 ψ 可以根據數據分布的特點, 動態調整頻率參數的采樣策略, 最大化差異度量 (NCFD)
? 高效性:相比于 MMD 的二次復雜度, NCFD 的計算復雜度是線性的,更高效
3. 相位 (Phase) 與幅度 (Amplitude) 的精妙平衡
NCFM 在 NCFD 的計算中, 特別關注了神經網絡特征在復數域的 “相位 (Phase)” 和 “幅度 (Amplitude)” 信息
? 相位信息:編碼了數據的 “中心” 和 “模式”, 對于保證合成數據的 “真實性 (Realism)”至關重要
? 幅度信息:反映了數據的“尺度” 和 “范圍”, 有助于提升合成數據的“多樣性 (Diversity)”。
NCFM 通過精妙地平衡相位和幅度信息, 使得合成數據既能保持真實感,又能兼顧多樣性, 從而顯著提升了蒸餾性能
實驗結果: 性能與效率的雙重 “王炸”
實驗結果充分證明了 NCFM 的卓越性能和效率:
? 性能大幅超越 SOTA: 在 CIFAR-10, CIFAR-100, Tiny ImageNet 以及高分辨率的 ImageNet 子集上,NCFM 都顯著超越了現有最先進 (SOTA) 的數據集蒸餾方法。 在 ImageSquawk 高分辨率數據集上,NCFM 甚至取得了驚人的 20.5% 的精度提升!
? 資源效率驚人:相比于 DATM 等 SOTA 方法,NCFM 的 GPU 顯存占用降低了 300 倍以上! 訓練速度提升了 20 倍!更令人震驚的是,NCFM 僅用 2.3GB 顯存,就在單張 NVIDIA 2080 Ti GPU 上成功完成了 CIFAR-100 的無損蒸餾! 這在之前是難以想象的
參考:
https://arxiv.org/abs/2502.20653
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.