在當今高度互聯的世界中,移動設備、智能家居和物聯網產品正源源不斷地產生海量數據,如果能將這些數據充分利用起來,毫無疑問能夠為 AI 模型的訓練帶來更多有價值的養料。但這些數據往往分散在各個終端設備上,在保護隱私的前提下,有效利用這些分散數據訓練人工智能模型是一個棘手的難題。
傳統的聯邦學習,比如聯邦平均(FedAvg,Federated Averaging)算法,雖然允許多個設備在不共享原始數據的情況下訓練模型,但通常假設所有參與者使用相同的模型架構——這一假設在現實世界中很少成立。
在實際部署中,邊緣設備在計算能力、內存和網絡條件方面差異很大。這種異構性使得要求所有設備訓練單一、龐大的模型變得不切實際。
為了解決這一根本限制,三星電子研究員 Honggu Kang 及其合作者開發了生成模型輔助聯邦學習(GeFL,Generative Model-Aided Federated Learning),這種新型聯邦學習方法能使具有不同 AI 模型架構的設備能夠從分散數據中協同學習。
日前,相關論文以《GeFL: 基于生成模型的通用聯邦學習》(GeFL: Model-Agnostic Federated Learning with Generative Models)發表在預印本網站 arXiv 上 [1]。Honggu Kang 是第一作者。
圖丨相關論文(來源:arXiv)
通過生成模型實現知識共享
GeFL 的技術核心在于,巧妙地利用一個聯邦生成模型作為知識傳遞的橋梁。不同于強制每個客戶端共享共同模型,GeFL 允許每個客戶端訓練自己的目標網絡,同時為全局生成模型做出貢獻。該生成模型以聯邦方式使用各客戶端的本地數據進行訓練,然后生成合成樣本——可以是原始圖像或在增強版的中間特征表示——用于增強異構模型的訓練。
圖丨 GFL 的示意圖(來源:arXiv)
Honggu Kang 對此解釋道:“我們的框架由兩個主要步驟組成。首先是生成知識聚合階段,各個客戶端使用本地數據訓練生成模型。服務器收集并聚合這些模型參數,形成一個具有全局知識的生成模型,然后分享給所有客戶端。”
在這一階段,研究團隊探索了多種生成模型架構,包括生成對抗網絡(GAN,Generative Adversarial Network)、變分自編碼器(VAE,Variational Autoencoder)和去噪擴散概率模型(DDPM,Denoising Diffusion Probabilistic Model)。每種模型都有其特點:GAN 能提供高質量、快速的樣本生成但容易模式崩潰;VAE 提供多樣化但質量較低的樣本;DDPM 提供高質量、多樣化的樣本但計算開銷大。
這些生成模型雖然架構不同,但在 GeFL 框架中扮演著相同的角色:它們學習捕捉分布在不同客戶端上的數據特征,并通過生成合成樣本來傳遞這些知識。通過聯邦學習方式訓練,這些模型能夠整合來自不同設備的知識,而無需直接訪問原始數據。
“第二階段是目標網絡訓練和精煉。”Kang 繼續解釋道。“每個客戶端使用全局生成模型產生的合成樣本來增強其本地訓練數據。具體來說,我們的算法會對隨機標簽條件下生成樣本,將這些樣本作為額外的訓練數據,多個本地訓練周期后,再用真實數據進行精煉。”
這種雙階段方法不僅支持設備根據自身能力定制模型,還通過捕捉更廣泛的數據分布顯著提升了模型性能。研究團隊的理論分析表明,這種生成模型驅動的知識聚合方式能有效緩解個別客戶端數據不足和過擬合問題。
在實驗評估中,GeFL 在多個公共數據集上進行了測試,包括 MNIST、Fashion-MNIST 和 CIFAR10。結果顯示,與基線方法 FedAvg 相比,在 MNIST 數據集上,GeFL 使用 FedDDPM(w=0)達到了 96.44% 的準確率,比 FedAvg 的 92.62% 提高了 3.82 個百分點。在 Fashion-MNIST 上,GeFL(FedDCGAN)達到 83.11%,超過 FedAvg 的 80.58%。在 CIFAR10 數據集上,GeFL(FedDDPM)達到 59.36%,而 FedAvg 僅為 55.65%。
(來源:arXiv)
“在評估性能時,我們發現一個有趣的現象,”Kang 分享道,“生成模型的初始距離和初始得分等傳統指標與下游任務性能并沒有明顯相關性。這表明,評估生成模型在聯邦學習中的作用需要一個更全面的視角,而不僅僅關注生成圖像的質量。”
在研究過程中,該團隊發現了一個關鍵問題。Kang 回憶說:“我們進行了一系列隱私評估后,發現了一個嚴重的問題。數據明確顯示,我們的生成模型雖然強大,但也在合成新樣本時保留了太多關于個別數據點的信息。這不僅令人驚訝,還成為了我們研究的一個重大轉折點。”
這一發現促使團隊重新思考方法。Kang 解釋:“認識到保護隱私的重要性,我們決定開發一個增強框架,即特征級生成模型輔助聯邦學習(GeFL-F,Feature-level Generative Model-Aided Federated Learning)。在 GeFL-F 中,我們不再生成原始圖像,而是轉向特征生成模型,這些模型生成的是更低分辨率、抽象的表示。”
增強隱私保護的特征級聯邦學習
GeFL-F 的核心創新在于網絡分解方法。它將目標網絡拆分為兩部分:共同特征提取器和特定于模型的頭部。特征提取器是所有客戶端共享的輕量級組件,通常由一個或幾個卷積層組成,負責將原始圖像轉換為中間特征表示。這些特征表示比原始圖像尺寸小得多,信息更為抽象,從而減輕了隱私泄露風險。
模型頭部則是專門針對各種模型架構定制的,負責將特征映射到最終預測。這種分解策略允許客戶端在共享部分知識的同時,保持模型架構的多樣性。在實驗中,對 MNIST 和 Fashion-MNIST,特征提取器輸出 16×16 大小的特征圖;對 CIFAR10 等更復雜的數據集,輸出 8×8 特征圖。這種設計在信息提取和隱私保護之間取得了良好平衡。
圖丨 GFL-F 算法的示意圖(來源:arXiv)
GeFL-F 的訓練過程分為三個緊密相連的階段。首先是預熱階段,專注于訓練共同特征提取器。在這一階段,服務器將當前特征提取器和頭部參數分發給客戶端,客戶端使用本地數據訓練完整模型,然后上傳更新后的參數。服務器分別聚合特征提取器和頭部參數,確保參數聚合的一致性。這一過程持續數輪通信,直至特征提取器收斂,為后續階段奠定基礎。
第二階段是特征生成模型訓練,這是 GeFL-F 的關鍵創新。客戶端使用訓練好的特征提取器處理本地數據,生成特征表示,然后在這些特征上訓練生成模型。與原始 GeFL 不同,這些生成模型學習的是特征空間分布而非圖像空間分布。由于特征維度遠低于原始圖像,生成模型更容易學習,所需參數量也大幅減少,提高了通信效率。
最后階段是目標網絡頭部訓練。客戶端使用全局特征生成模型生成合成特征,基于這些合成特征訓練網絡頭部。隨后,客戶端使用從本地數據提取的特征進一步優化頭部。這種方法讓客戶端能夠學習超出本地數據范圍的知識,同時保持模型架構的多樣性。
通過這種特征級生成方法,GeFL-F 顯著增強了隱私保護能力。實驗結果證明,在客戶端數量增加的情況下,GeFL-F 顯示出更強的魯棒性,同時在隱私保護方面也有顯著改善。通過測量平均最近鄰距離(MND,Mean Nearest Neighbor Distance)比率,研究團隊發現使用特征生成模型顯著降低了記憶化問題。
“為了驗證特征生成模型的隱私保護能力,我們嘗試用模型反轉技術從生成的特征重建原始圖像。”Kang 表示,“結果顯示,與 GeFL 相比,重建圖像的質量顯著下降,證實了我們的方法確實加強了隱私保護。”
值得注意的是,GeFL-F 不僅增強了隱私保護,還在資源效率方面展現出優勢。特征級生成模型的參數量和計算成本都顯著低于原始圖像生成模型。這些改進使得該框架更適合資源受限的邊緣設備,提高了實際部署的可行性。
(來源:arXiv)
努力實現基于設備能力的自適應量化聯邦學習
這項技術的潛在應用相當廣泛,尤其在數據分散且設備異構的領域。
例如,在醫療診斷領域,可穿戴監測器、便攜式成像設備和移動健康應用等醫療設備的計算資源通常受限。GeFL 可以讓這些設備訓練個性化模型,同時受益于全局知識池。合成數據的使用幫助緩解數據稀缺和隱私問題,確保患者數據保持機密。
另一個重要應用領域是自動系統和物聯網環境,如自動駕駛汽車或智能城市,設備在處理能力上差異顯著。GeFL 有助于每個設備訓練適合其能力的模型,同時利用全局洞察,增強安全性和操作可靠性。
Kang 特別強調了在數據有限環境中的應用:“在數據稀缺或難以獲取的情況下——如在遙感或罕見疾病診斷中——用合成樣本增強訓練數據可以顯著提高模型性能。我們的實驗表明,當真實數據量有限時,GeFL 的性能增益更為顯著。”
目前,Honggu Kang 博士已加入三星電子擔任研究工程師。此前,他曾先后畢業于在韓國漢陽大學與韓國科學技術院。
圖丨 Honggu Kang(來源:arXiv)
談到自己的研究歷程,Honggu Kang 分享道:“大學時代,我被算法解決實際問題的魅力深深吸引。我清晰記得第一次成功實現自主導航小車的那一刻——看到簡單算法如何從數據中提取有用信息的過程讓我著迷,這推動我深入探索計算機科學和數學領域。”
“讀研期間,我有幸遇到了鼓勵創新思維的導師,他教會我從多角度思考問題、挑戰傳統觀念。第一次接觸分布式學習概念是個轉折點——在保護隱私的同時,讓分散數據源協同訓練模型的想法激發了我的創造力,最終引領我開發了 GeFL。”
未來,Kang 將探索更多隱私增強技術,如差分隱私和模型反轉防御機制。同時,他們計劃將框架擴展到更大規模、更多樣化的部署環境,優化極端異構條件下的聚合策略。
“尤其讓我興奮的是一個全新研究方向:基于設備能力的自適應量化聯邦學習。通過為不同硬件能力的設備定制量化級別,我們希望在保持模型性能的同時,優化通信效率和計算資源利用。”
Kang 最后表示:“GeFL 不僅是技術創新,更是建設更包容、更適應性強的 AI 生態系統的重要一步。通過讓不同架構的設備能夠有效協作,我們能將深度學習的好處帶給更廣泛的設備和應用場景。”
參考資料:
1. https://arxiv.org/abs/2412.18460
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.