網易首頁 > 網易號 > 正文申請入駐

挖掘DiT位置解耦特性,Personalize Anything免訓練個性化圖像生成

2025-03-25 14:45:37　來源: 機器之心Pro

北京舉報

分享至

本文的主要作者來自北京航空航天大學、清華大學和中國人民大學。本文的第一作者為清華大學碩士生封皓然，共同第一作者暨項目負責人為北京航空航天大學碩士生黃澤桓，團隊主要研究方向為計算機視覺與生成式人工智能。本文的通訊作者為北京航空航天大學副教授盛律。

個性化圖像生成是圖像生成領域的一項重要技術，正以前所未有的速度吸引著廣泛關注。它能夠根據用戶提供的獨特概念，精準合成定制化的視覺內容，滿足日益增長的個性化需求，并同時支持對生成結果進行細粒度的語義控制與編輯，使其能夠精確實現心中的創意愿景。隨著圖像生成模型的持續突破，這項技術已在廣告營銷、角色設計、虛擬時尚等多個領域展現出巨大的應用潛力和商業價值，正在深刻地改變著我們創造和消費視覺內容的方式。

然而當人們對個性化圖像生成的期望不斷上升時，傳統的個性化圖像生成方法面臨著以下幾個挑戰：①細節還原瓶頸（如何更精準地還原物體細節，尤其是在多物體的情況下）② 交互控制難題（如何在進行個性化生成的同時，支持對物體位置等空間因素的精準控制）③ 應用拓展受限（如何將個性化和編輯統一在同一框架，以滿足更多應用需求）。這些挑戰嚴重制約著個性化圖像生成技術的進一步突破，亟需構建更高效的生成框架。

因此，清華大學、北京航空航天大學團隊推出了全新的架構設計 ——Personalize Anything，它能夠在無需訓練的情況下，完成概念主體的高度細節還原，支持用戶對物體進行細粒度的位置操控，并能夠擴展至多個應用中，為個性化圖像生成引入了一個新范式。

總結而言，Personalize Anything 的特點如下：

高效的免訓練框架：無需訓練，具備較高的計算效率，僅需一次反演（inversion）和一次推理過程
高保真度與可控性：在保持高精度細節的同時兼顧了物體姿態的多樣性，并支持位置控制
高擴展性：同時支持多種任務，包括多物體處理、物體與場景的整合、inpainting 和 outpainting 等

論文標題：Personalize Anything for Free with Diffusion Transformer
論文鏈接：https://arxiv.org/abs/2503.12590
項目主頁：https://fenghora.github.io/Personalize-Anything-Page/
代碼倉庫：https://github.com/fenghora/personalize-anything

效果展示：無需訓練，支持個性化、多物體組合、編輯

Personalize Anything 能夠在多種任務上表現出色，可以對多組物體與場景進行組合，并同時自由控制主體位置，這是以往個性化圖像生成模型難以做到的。

下面圖像中依次展示了 Personalize Anything 在布局引導生成、inpainting、outpainting 三種任務上的表現。可以看到，Personalize Anything 在多種任務上都能夠生成貼合文本的高質量圖像。

技術突破：從 DiT 架構的新發現到個性化任意內容

個性化圖像生成的傳統方法通常需要對定制概念進行微調，或者在大規模數據集上進行預訓練，這不僅消耗大量計算資源，還影響模型的泛化能力。最近，無需訓練的方法嘗試通過注意力共享機制來避免這些問題，但這些方法難以保持概念的一致性。此外，由于這些方法主要針對傳統的 UNet 架構設計，無法應用于最新的 DiT 架構模型，導致它們無法應用在更大規模和更好效果的圖像生成模型上。

注意力共享機制不適用于 DiT 架構

在了解 Personalize Anything 技術細節前，先來看看為什么傳統無需訓練的方法不能夠應用在 DiT 架構的圖像生成模型上。

如上文所述，傳統無需訓練的方法多通過注意力共享機制，也就是在運算自注意力時，將概念圖像特征直接與生成圖像特征進行拼接，但是經由團隊實驗發現，對于 DiT 架構而言，由于位置編碼的影響，當去噪圖像和參考圖像共用同一套位置編碼時，會導致過度關注，從而在生成的圖像中產生重影（圖 a）；當調整參考圖像的位置編碼避免沖突時，生成圖像的注意力幾乎不出現在參考圖像中，導致主體一致性較弱（如圖 b 和圖 c），這限制了傳統方法在 DiT 架構上的應用。

通過上述實驗發現，DiT 中顯式編碼的位置信息對其注意力機制具有強烈影響 —— 這與 U-Net 隱式處理位置的方式存在根本差異。這使得生成的圖像難以在傳統的注意力共享中正確地關注參考對象的標記。

DiT 架構的新啟發：標記替換引發主體重建

基于對 DiT 架構顯式位置編碼的認識，團隊繼續對 DiT 的特征表示進行了探索。團隊發現，將參考圖像未帶位置編碼的標記替換進去噪圖像的指定位置，能夠重建出良好的主體圖像。而傳統 Unet 架構所具有的卷積操作會導致位置編碼與圖像特征混雜在一起，導致在進行特征替換時影響最后的圖像質量。

這一發現使團隊意識到，簡單但有效的特征替換，對于 DiT 架構而言是一個可行的個性化圖像生成方法。

定制任意內容：時間步適應替換策略與特征擾動

基于上述發現，團隊將特征替換引入個性化圖像生成方法中，并創新地提出了時間步適應標記替換機制(Timestep-adaptive Token Replacement) 。

在整個流程中，首先對參考圖像進行反演，并通過 mask 獲取參考圖像未帶位置編碼的標記。在去噪過程的早期階段，為了保留物體特征細節，將參考圖像主體的標記直接替換進生成圖像中。而在后期，則轉為傳統的注意力共享機制。這種時間適應特征替換機制能夠增圖像生成后概念主體的多樣性，同時減少生成圖像的割裂感。

為了進一步保證概念主體姿態的多樣性，團隊又額外提出了特征擾動，旨在通過對概念圖像特征進行重排，或者調整 mask，來控制特征替換時的概念圖像特征代表的物體姿態等，從而為生成的圖像引入多樣性。

更多應用：無縫擴展至布局引導、多物體組合、編輯等

Personalize Anything 除了在核心任務上表現出色，還具有強大的擴展能力，可以應用于更復雜的實際場景。首先，可以通過自由選擇特征注入的位置，來實現位置引導的生成；其次，框架支持對多物體進行自由組合，采取順序注入的方式，支持物體間層級關系的控制；并且 Personalize Anything 支持用戶將將圖像視為整體，允許用戶保留部分圖像內容，同時對另一部分進行可控編輯。這種靈活的可擴展性為未來的研究和應用開辟了更為廣闊的前景。

卓越性能：在保真度和多功能性等多個維度上表現突出

團隊從單物體定制，多物體組合，物體 - 場景組合這三個任務入手，與眾多優秀的開源模型進行定性定量的對比。可以看到 Personalize Anything 的結果基本都優于現有方法，并在后續的人類偏好測試中取得了顯著優勢。

單物體個性化生成

多物體組合生成

物體 - 場景組合

未來展望

Personalize Anything 研究團隊揭示了 DiT 中位置解耦表示的性質，為免訓練的圖像空間操縱、個性化生成奠定基礎。團隊期待 DiT 的幾何編程原理能夠進一步拓展到視頻、3D 生成等領域，實現更復雜、更精細的場景構建與編輯。希望通過深入研究和廣泛應用，讓這一思路激發更多可控生成的研究，推動 AI 在創意內容生成、虛擬現實、數字孿生等領域的廣泛應用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.