網易首頁 > 網易號 > 正文申請入駐

上交CVPR 滿分論文數據蒸餾技術，直接把 GPU 顯存 “砍掉” 300 倍

2025-03-03 17:41:54　來源: AI寒武紀

江蘇舉報

分享至

給大家分享一項在計算機視覺頂會CVPR 2025上被接收的重磅研究，來自上海交通大學，上海人工智能實驗室等機構，論文名為《Dataset Distillation with Neural Characteristic Function: A Minmax Perspective》（基于神經特征函數的數據集蒸餾：一個 Minmax 視角）

這項研究可以說是在數據蒸餾領域投下了一顆“深水炸彈”，它提出了一種全新的方法NCFM (Neural Characteristic Function Matching，神經特征函數匹配)，不僅大幅提升了數據蒸餾的性能，更在資源效率上實現了質的飛躍！

相比于 DATM 等 SOTA 方法，NCFM 的 GPU 顯存占用降低了 300 倍以上！訓練速度提升了 20 倍！更令人震驚的是，NCFM 僅用 2.3GB 顯存，就在單張 NVIDIA 2080 Ti GPU 上成功完成了 CIFAR-100 的無損蒸餾！這在之前是難以想象的

話不多說，我給大家劃個重點

背景：大數據時代的“瘦身術”——數據集蒸餾

在人工智能領域，我們常說“數據為王”。模型要強大，海量數據少不了。然而，大數據也帶來了新的挑戰：

? 存儲壓力山大：動輒TB甚至PB級別的數據，存儲成本高昂
? 訓練耗時漫長：在海量數據上訓練模型，計算資源和時間成本都讓人望而卻步
? 內存瓶頸凸顯：大模型 + 大數據，GPU顯存分分鐘被榨干

為了解決這些問題，數據蒸餾 (Dataset Distillation)技術應運而生。它的目標就像給數據集做“瘦身”，用少量合成數據 (Synthetic Data) “濃縮” 原始大數據集 (Real Data) 的精華信息，讓模型僅用這些“迷你”數據就能達到甚至超越在原始數據集上的訓練效果

現有方法的困境： “像素級”匹配 vs. “分布級”差異

目前，數據集蒸餾方法主要分為兩大類：

? 特征匹配 (Feature Matching)：這類方法就像“像素級”比對，直接比較合成數據和真實數據在特征空間的相似度。例如，早期的MSE (均方誤差)方法就是典型代表，但它往往忽略了數據的高維語義信息，效果有限。
? 分布匹配 (Distribution Matching)：這類方法更注重“分布級”的相似性，試圖讓合成數據和真實數據在分布上盡可能一致。MMD (最大均值差異)是常用的度量指標，但研究表明，MMD僅僅對齊了數據的低階矩，并不能保證整體分布的相似性，而且計算復雜度較高。

簡單來說，現有方法要么過于簡單粗暴，無法捕捉數據的深層分布；要么計算復雜，效率不高。這就限制了數據集蒸餾技術的進一步發展

NCFM： Minmax 博弈下的“神經特征函數”

為了突破現有方法的瓶頸，NCFM 從全新的 Minmax 博弈視角出發，引入了 “神經特征函數差異 (Neural Characteristic Function Discrepancy, NCFD)” 這一創新度量指標

1. Minmax 博弈： “矛與盾”的對抗學習

NCFM 將數據集蒸餾問題重新定義為一個Minmax 優化問題，就像一場“矛與盾”的對抗游戲：

? “矛” (Discrepancy Metric Network, 差異度量網絡 ψ)：它的目標是最大化 (Max)合成數據和真實數據之間的差異 (Discrepancy)，努力找到一個最能區分二者分布的“判別器”。這個“判別器”就是神經特征函數差異 (NCFD)
? “盾” (Synthetic Data, 合成數據 D)：它的目標是最小化 (Min)在 “矛” 的度量下，合成數據和真實數據之間的差異，努力生成盡可能“逼真”的合成數據， “欺騙” “判別器”

通過 “矛與盾” 的不斷對抗和迭代優化，NCFM 能夠自適應地學習到一個更魯棒、更有效的差異度量指標 (NCFD)，并生成更高質量的合成數據。這種 Minmax 框架與 GANs 的對抗生成思想有異曲同工之妙，但目標和實現方式卻截然不同。

2. NCFD：基于“特征函數”的全面分布刻畫

NCFD 的核心創新在于 “神經特征函數差異” 這一度量指標。它巧妙地利用了特征函數 (Characteristic Function, CF)的強大能力來刻畫數據分布

什么是特征函數 (CF)？簡單來說，特征函數就是概率密度函數的傅里葉變換。它具有以下關鍵優勢：

? 唯一性：一個分布對應唯一的特征函數，反之亦然。這意味著特征函數能夠完整、無損地編碼分布的全部信息
? 全面性：特征函數包含了分布的所有矩信息，比 MMD 僅對齊低階矩更全面

NCFD 如何“神經”？NCFM 并沒有直接使用傳統的特征函數，而是引入了一個輕量級的神經網絡 ψ 來學習特征函數的頻率參數 t 的采樣策略。這樣做的好處是：

? 自適應性：神經網絡 ψ 可以根據數據分布的特點，動態調整頻率參數的采樣策略，最大化差異度量 (NCFD)
? 高效性：相比于 MMD 的二次復雜度， NCFD 的計算復雜度是線性的，更高效

3. 相位 (Phase) 與幅度 (Amplitude) 的精妙平衡

NCFM 在 NCFD 的計算中，特別關注了神經網絡特征在復數域的 “相位 (Phase)” 和 “幅度 (Amplitude)” 信息

? 相位信息：編碼了數據的 “中心” 和 “模式”，對于保證合成數據的 “真實性 (Realism)”至關重要
? 幅度信息：反映了數據的“尺度” 和 “范圍”，有助于提升合成數據的“多樣性 (Diversity)”。

NCFM 通過精妙地平衡相位和幅度信息，使得合成數據既能保持真實感，又能兼顧多樣性，從而顯著提升了蒸餾性能

實驗結果：性能與效率的雙重 “王炸”

實驗結果充分證明了 NCFM 的卓越性能和效率：

? 性能大幅超越 SOTA：在 CIFAR-10, CIFAR-100, Tiny ImageNet 以及高分辨率的 ImageNet 子集上，NCFM 都顯著超越了現有最先進 (SOTA) 的數據集蒸餾方法。在 ImageSquawk 高分辨率數據集上，NCFM 甚至取得了驚人的 20.5% 的精度提升！
? 資源效率驚人：相比于 DATM 等 SOTA 方法，NCFM 的 GPU 顯存占用降低了 300 倍以上！訓練速度提升了 20 倍！更令人震驚的是，NCFM 僅用 2.3GB 顯存，就在單張 NVIDIA 2080 Ti GPU 上成功完成了 CIFAR-100 的無損蒸餾！這在之前是難以想象的

參考：
https://arxiv.org/abs/2502.20653

?星標AI寒武紀，好內容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.