99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

上交CVPR 滿分論文數據蒸餾技術,直接把 GPU 顯存 “砍掉” 300 倍

0
分享至


給大家分享一項在計算機視覺頂會CVPR 2025上被接收的重磅研究,來自上海交通大學,上海人工智能實驗室等機構,論文名為 《Dataset Distillation with Neural Characteristic Function: A Minmax Perspective》(基于神經特征函數的數據集蒸餾:一個 Minmax 視角)


這項研究可以說是在數據蒸餾領域投下了一顆“深水炸彈”,它提出了一種全新的方法NCFM (Neural Characteristic Function Matching,神經特征函數匹配),不僅大幅提升了數據蒸餾的性能,更在資源效率上實現了質的飛躍!

相比于 DATM 等 SOTA 方法,NCFM 的 GPU 顯存占用降低了 300 倍以上! 訓練速度提升了 20 倍!更令人震驚的是,NCFM 僅用 2.3GB 顯存,就在單張 NVIDIA 2080 Ti GPU 上成功完成了 CIFAR-100 的無損蒸餾! 這在之前是難以想象的

話不多說,我給大家劃個重點

背景:大數據時代的“瘦身術”——數據集蒸餾

在人工智能領域,我們常說“數據為王”。 模型要強大,海量數據少不了。 然而,大數據也帶來了新的挑戰:

  • ? 存儲壓力山大: 動輒TB甚至PB級別的數據,存儲成本高昂

  • ? 訓練耗時漫長: 在海量數據上訓練模型,計算資源和時間成本都讓人望而卻步

  • ? 內存瓶頸凸顯:大模型 + 大數據,GPU顯存分分鐘被榨干

為了解決這些問題,數據蒸餾 (Dataset Distillation)技術應運而生。 它的目標就像給數據集做“瘦身”, 用少量合成數據 (Synthetic Data) “濃縮” 原始大數據集 (Real Data) 的精華信息,讓模型僅用這些“迷你”數據就能達到甚至超越在原始數據集上的訓練效果

現有方法的困境: “像素級”匹配 vs. “分布級”差異

目前,數據集蒸餾方法主要分為兩大類:

  • ? 特征匹配 (Feature Matching): 這類方法就像“像素級”比對,直接比較合成數據和真實數據在特征空間的相似度。 例如,早期的MSE (均方誤差)方法就是典型代表,但它往往忽略了數據的高維語義信息,效果有限。

  • ? 分布匹配 (Distribution Matching): 這類方法更注重“分布級”的相似性,試圖讓合成數據和真實數據在分布上盡可能一致。MMD (最大均值差異)是常用的度量指標,但研究表明,MMD僅僅對齊了數據的低階矩,并不能保證整體分布的相似性,而且計算復雜度較高。

簡單來說,現有方法要么過于簡單粗暴,無法捕捉數據的深層分布;要么計算復雜,效率不高。這就限制了數據集蒸餾技術的進一步發展

NCFM: Minmax 博弈下的“神經特征函數”

為了突破現有方法的瓶頸,NCFM 從全新的 Minmax 博弈視角出發, 引入了 “神經特征函數差異 (Neural Characteristic Function Discrepancy, NCFD)” 這一創新度量指標


1. Minmax 博弈: “矛與盾”的對抗學習

NCFM 將數據集蒸餾問題重新定義為一個Minmax 優化問題,就像一場“矛與盾”的對抗游戲:

  • ? “矛” (Discrepancy Metric Network, 差異度量網絡 ψ):它的目標是 最大化 (Max)合成數據和真實數據之間的差異 (Discrepancy), 努力找到一個最能區分二者分布的“判別器”。 這個“判別器”就是神經特征函數差異 (NCFD)

  • ? “盾” (Synthetic Data, 合成數據 D):它的目標是最小化 (Min)在 “矛” 的度量下,合成數據和真實數據之間的差異, 努力生成盡可能“逼真”的合成數據, “欺騙” “判別器”

通過 “矛與盾” 的不斷對抗和迭代優化,NCFM 能夠自適應地學習到一個更魯棒、更有效的差異度量指標 (NCFD), 并生成更高質量的合成數據。 這種 Minmax 框架與 GANs 的對抗生成思想有異曲同工之妙,但目標和實現方式卻截然不同。

2. NCFD: 基于“特征函數”的全面分布刻畫

NCFD 的核心創新在于 “神經特征函數差異” 這一度量指標。 它巧妙地利用了特征函數 (Characteristic Function, CF)的強大能力來刻畫數據分布

什么是特征函數 (CF)?簡單來說, 特征函數就是概率密度函數的傅里葉變換。它具有以下關鍵優勢:

  • ? 唯一性:一個分布對應唯一的特征函數,反之亦然。這意味著特征函數能夠完整、無損地編碼分布的全部信息

  • ? 全面性: 特征函數包含了分布的所有矩信息,比 MMD 僅對齊低階矩更全面

NCFD 如何“神經”?NCFM 并沒有直接使用傳統的特征函數,而是引入了一個輕量級的神經網絡 ψ 來學習特征函數的頻率參數 t 的采樣策略。這樣做的好處是:

  • ? 自適應性: 神經網絡 ψ 可以根據數據分布的特點, 動態調整頻率參數的采樣策略, 最大化差異度量 (NCFD)

  • ? 高效性:相比于 MMD 的二次復雜度, NCFD 的計算復雜度是線性的,更高效

3. 相位 (Phase) 與幅度 (Amplitude) 的精妙平衡

NCFM 在 NCFD 的計算中, 特別關注了神經網絡特征在復數域的 “相位 (Phase)” 和 “幅度 (Amplitude)” 信息

  • ? 相位信息:編碼了數據的 “中心” 和 “模式”, 對于保證合成數據的 “真實性 (Realism)”至關重要

  • ? 幅度信息:反映了數據的“尺度” 和 “范圍”, 有助于提升合成數據的“多樣性 (Diversity)”。

NCFM 通過精妙地平衡相位和幅度信息, 使得合成數據既能保持真實感,又能兼顧多樣性, 從而顯著提升了蒸餾性能

實驗結果: 性能與效率的雙重 “王炸”

實驗結果充分證明了 NCFM 的卓越性能和效率:

  • ? 性能大幅超越 SOTA: 在 CIFAR-10, CIFAR-100, Tiny ImageNet 以及高分辨率的 ImageNet 子集上,NCFM 都顯著超越了現有最先進 (SOTA) 的數據集蒸餾方法。 在 ImageSquawk 高分辨率數據集上,NCFM 甚至取得了驚人的 20.5% 的精度提升!

  • ? 資源效率驚人:相比于 DATM 等 SOTA 方法,NCFM 的 GPU 顯存占用降低了 300 倍以上! 訓練速度提升了 20 倍!更令人震驚的是,NCFM 僅用 2.3GB 顯存,就在單張 NVIDIA 2080 Ti GPU 上成功完成了 CIFAR-100 的無損蒸餾! 這在之前是難以想象的

參考:
https://arxiv.org/abs/2502.20653

?星標AI寒武紀,好內容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
斯諾克賽程:決出4席8強,丁俊暉龐俊旭必敗,斯佳輝會師趙心童?

斯諾克賽程:決出4席8強,丁俊暉龐俊旭必敗,斯佳輝會師趙心童?

劉姚堯的文字城堡
2025-04-28 06:46:01
C羅打進生涯第935球,超越阿森納傳奇升至RSSSF歷史射手榜第三

C羅打進生涯第935球,超越阿森納傳奇升至RSSSF歷史射手榜第三

仰臥撐FTUer
2025-04-27 19:47:04
新星炸裂!18歲超新星橫空出世,廣東男籃崛起關鍵拼圖降臨!

新星炸裂!18歲超新星橫空出世,廣東男籃崛起關鍵拼圖降臨!

中山印象體育攝影師
2025-04-27 16:32:47
麥克托米奈:顯然現在我們位居榜首,但我們需要放松心態

麥克托米奈:顯然現在我們位居榜首,但我們需要放松心態

懂球帝
2025-04-28 06:08:14
最毒的5種隔夜菜,再也別吃了!剩菜要這樣處理才對,別不懂!

最毒的5種隔夜菜,再也別吃了!剩菜要這樣處理才對,別不懂!

富貴說
2025-04-26 07:08:07
外媒:中方已實控蘇巖礁,中韓海警激烈沖突,強占25年被收回

外媒:中方已實控蘇巖礁,中韓海警激烈沖突,強占25年被收回

華山穹劍
2025-04-26 18:30:16
38歲楊冪獨自現身香港西九龍高鐵站,被曝看望9歲女兒小糯米

38歲楊冪獨自現身香港西九龍高鐵站,被曝看望9歲女兒小糯米

FM93浙江交通之聲
2025-04-28 08:52:00
中日友好醫院醫生出軌6人:小一流產2次、小四待產,更多內幕曝光

中日友好醫院醫生出軌6人:小一流產2次、小四待產,更多內幕曝光

溫柔看世界
2025-04-27 10:21:55
魯比奧下禁令,要凍結中國在美資產?不到24小時,中方送上16個字

魯比奧下禁令,要凍結中國在美資產?不到24小時,中方送上16個字

天行艦
2025-04-27 05:54:01
姜大衛一家九口出席金像獎,哥哥秦沛蒼老很多,弟弟爾冬升氣場大

姜大衛一家九口出席金像獎,哥哥秦沛蒼老很多,弟弟爾冬升氣場大

尋墨閣
2025-04-28 11:57:11
烏度卡:沒過多考慮小賈巴里進首發 我們的比賽開局表現一直不錯

烏度卡:沒過多考慮小賈巴里進首發 我們的比賽開局表現一直不錯

直播吧
2025-04-28 09:41:13
NBA戰況:四組3-1,雄鹿、湖人皆危在旦夕,步行者晉級在望

NBA戰況:四組3-1,雄鹿、湖人皆危在旦夕,步行者晉級在望

燒體壇
2025-04-28 12:10:32
性張力拉滿,這部史詩級尺度大作,震碎我三觀

性張力拉滿,這部史詩級尺度大作,震碎我三觀

天天美劇吧
2025-04-27 21:15:44
雷迪克談五人組打滿下半場:這不在我們的計劃內,半場才決定的

雷迪克談五人組打滿下半場:這不在我們的計劃內,半場才決定的

懂球帝
2025-04-28 07:22:11
劉燁深夜回應“暴瘦傳聞”:氣得渾身發抖!

劉燁深夜回應“暴瘦傳聞”:氣得渾身發抖!

新民周刊
2025-04-27 13:03:31
幾千年沒過的日子,我們這一代人竟然趕上了

幾千年沒過的日子,我們這一代人竟然趕上了

黑噪音
2025-04-21 04:10:35
美國至今想不通:一個沒留過學的中國人,憑什么造出于敏構型?

美國至今想不通:一個沒留過學的中國人,憑什么造出于敏構型?

Thurman在昆明
2025-04-26 05:25:23
又是大四喜!哲凱賴什30場進38球,力壓薩拉赫領跑歐洲金靴獎

又是大四喜!哲凱賴什30場進38球,力壓薩拉赫領跑歐洲金靴獎

雷速體育
2025-04-28 08:26:09
今天四月初一,明后天4月29~30號強降雨繼續,新一輪大回暖已確定

今天四月初一,明后天4月29~30號強降雨繼續,新一輪大回暖已確定

振華觀史
2025-04-28 11:04:47
神速!暗殺俄總參少將外逃土耳其的烏殺手被俄聯邦安全局緝拿歸案

神速!暗殺俄總參少將外逃土耳其的烏殺手被俄聯邦安全局緝拿歸案

風華講史
2025-04-28 10:21:31
2025-04-28 12:40:49
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
649文章數 259關注度
往期回顧 全部

科技要聞

大廠圍獵AI人才:部分實習生日薪可達2000

頭條要聞

美多位專家:中美若在能源方面合作 對全人類將是好事

頭條要聞

美多位專家:中美若在能源方面合作 對全人類將是好事

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

王寶強座位引眾怒 論演技誰能壓得了

財經要聞

事關穩就業、穩經濟 四部門聯合發聲

汽車要聞

中型純電轎跑SUV/6月上市 豐田bZ5預售13-16萬

態度原創

時尚
教育
游戲
親子
藝術

今年一定要擁有的5件配飾,時髦又百搭

教育要聞

四川賽區決賽落幕!第七屆全國中小學生華語辯論錦標賽在成都舉行

盤點上古卷軸4RE中有趣的彩蛋!天際省友情出演!

親子要聞

我家的可愛茉莉#treasure#土豆王國彩虹糖#甜妹

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宝兴县| 怀宁县| 白河县| 永兴县| 安远县| 天门市| 开远市| 盐池县| 禹州市| 黔江区| 含山县| 苏州市| 古蔺县| 南木林县| 南投市| 内丘县| 兴城市| 扬州市| 洮南市| 抚顺市| 昌邑市| 常宁市| 固始县| 新郑市| 青州市| 连山| 浪卡子县| 蛟河市| 滦南县| 新疆| 镇江市| 民丰县| 梁河县| 永兴县| 博客| 永平县| 肇东市| 兴海县| 巧家县| 宁阳县| 定襄县|