99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

挖掘DiT位置解耦特性,Personalize Anything免訓練個性化圖像生成

0
分享至



本文的主要作者來自北京航空航天大學、清華大學和中國人民大學。本文的第一作者為清華大學碩士生封皓然,共同第一作者暨項目負責人為北京航空航天大學碩士生黃澤桓,團隊主要研究方向為計算機視覺與生成式人工智能。本文的通訊作者為北京航空航天大學副教授盛律。



個性化圖像生成是圖像生成領域的一項重要技術,正以前所未有的速度吸引著廣泛關注。它能夠根據用戶提供的獨特概念,精準合成定制化的視覺內容,滿足日益增長的個性化需求,并同時支持對生成結果進行細粒度的語義控制與編輯,使其能夠精確實現心中的創意愿景。隨著圖像生成模型的持續突破,這項技術已在廣告營銷、角色設計、虛擬時尚等多個領域展現出巨大的應用潛力和商業價值,正在深刻地改變著我們創造和消費視覺內容的方式。

然而當人們對個性化圖像生成的期望不斷上升時,傳統的個性化圖像生成方法面臨著以下幾個挑戰:①細節還原瓶頸(如何更精準地還原物體細節,尤其是在多物體的情況下)② 交互控制難題(如何在進行個性化生成的同時,支持對物體位置等空間因素的精準控制)③ 應用拓展受限(如何將個性化和編輯統一在同一框架,以滿足更多應用需求)。這些挑戰嚴重制約著個性化圖像生成技術的進一步突破,亟需構建更高效的生成框架。

因此,清華大學、北京航空航天大學團隊推出了全新的架構設計 ——Personalize Anything,它能夠在無需訓練的情況下,完成概念主體的高度細節還原,支持用戶對物體進行細粒度的位置操控,并能夠擴展至多個應用中,為個性化圖像生成引入了一個新范式。

總結而言,Personalize Anything 的特點如下:

  • 高效的免訓練框架:無需訓練,具備較高的計算效率,僅需一次反演(inversion)和一次推理過程
  • 高保真度與可控性:在保持高精度細節的同時兼顧了物體姿態的多樣性,并支持位置控制
  • 高擴展性:同時支持多種任務,包括多物體處理、物體與場景的整合、inpainting 和 outpainting 等



  • 論文標題:Personalize Anything for Free with Diffusion Transformer
  • 論文鏈接:https://arxiv.org/abs/2503.12590
  • 項目主頁:https://fenghora.github.io/Personalize-Anything-Page/
  • 代碼倉庫:https://github.com/fenghora/personalize-anything

效果展示:無需訓練,支持個性化、多物體組合、編輯

Personalize Anything 能夠在多種任務上表現出色,可以對多組物體與場景進行組合,并同時自由控制主體位置,這是以往個性化圖像生成模型難以做到的。



下面圖像中依次展示了 Personalize Anything 在布局引導生成、inpainting、outpainting 三種任務上的表現。可以看到,Personalize Anything 在多種任務上都能夠生成貼合文本的高質量圖像。



技術突破:從 DiT 架構的新發現到個性化任意內容

個性化圖像生成的傳統方法通常需要對定制概念進行微調,或者在大規模數據集上進行預訓練,這不僅消耗大量計算資源,還影響模型的泛化能力。最近,無需訓練的方法嘗試通過注意力共享機制來避免這些問題,但這些方法難以保持概念的一致性。此外,由于這些方法主要針對傳統的 UNet 架構設計,無法應用于最新的 DiT 架構模型,導致它們無法應用在更大規模和更好效果的圖像生成模型上。

注意力共享機制不適用于 DiT 架構

在了解 Personalize Anything 技術細節前,先來看看為什么傳統無需訓練的方法不能夠應用在 DiT 架構的圖像生成模型上。



如上文所述,傳統無需訓練的方法多通過注意力共享機制,也就是在運算自注意力時,將概念圖像特征直接與生成圖像特征進行拼接,但是經由團隊實驗發現,對于 DiT 架構而言,由于位置編碼的影響,當去噪圖像和參考圖像共用同一套位置編碼時,會導致過度關注,從而在生成的圖像中產生重影(圖 a);當調整參考圖像的位置編碼避免沖突時,生成圖像的注意力幾乎不出現在參考圖像中,導致主體一致性較弱(如圖 b 和圖 c),這限制了傳統方法在 DiT 架構上的應用。

通過上述實驗發現,DiT 中顯式編碼的位置信息對其注意力機制具有強烈影響 —— 這與 U-Net 隱式處理位置的方式存在根本差異。這使得生成的圖像難以在傳統的注意力共享中正確地關注參考對象的標記。

DiT 架構的新啟發:標記替換引發主體重建



基于對 DiT 架構顯式位置編碼的認識,團隊繼續對 DiT 的特征表示進行了探索。團隊發現,將參考圖像未帶位置編碼的標記替換進去噪圖像的指定位置,能夠重建出良好的主體圖像。而傳統 Unet 架構所具有的卷積操作會導致位置編碼與圖像特征混雜在一起,導致在進行特征替換時影響最后的圖像質量。

這一發現使團隊意識到,簡單但有效的特征替換,對于 DiT 架構而言是一個可行的個性化圖像生成方法。

定制任意內容:時間步適應替換策略與特征擾動



基于上述發現,團隊將特征替換引入個性化圖像生成方法中,并創新地提出了時間步適應標記替換機制(Timestep-adaptive Token Replacement) 。

在整個流程中,首先對參考圖像進行反演,并通過 mask 獲取參考圖像未帶位置編碼的標記。在去噪過程的早期階段,為了保留物體特征細節,將參考圖像主體的標記直接替換進生成圖像中。而在后期,則轉為傳統的注意力共享機制。這種時間適應特征替換機制能夠增圖像生成后概念主體的多樣性,同時減少生成圖像的割裂感。

為了進一步保證概念主體姿態的多樣性,團隊又額外提出了特征擾動,旨在通過對概念圖像特征進行重排,或者調整 mask,來控制特征替換時的概念圖像特征代表的物體姿態等,從而為生成的圖像引入多樣性。

更多應用:無縫擴展至布局引導、多物體組合、編輯等



Personalize Anything 除了在核心任務上表現出色,還具有強大的擴展能力,可以應用于更復雜的實際場景。首先,可以通過自由選擇特征注入的位置,來實現位置引導的生成;其次,框架支持對多物體進行自由組合,采取順序注入的方式,支持物體間層級關系的控制;并且 Personalize Anything 支持用戶將將圖像視為整體,允許用戶保留部分圖像內容,同時對另一部分進行可控編輯。這種靈活的可擴展性為未來的研究和應用開辟了更為廣闊的前景。

卓越性能:在保真度和多功能性等多個維度上表現突出

團隊從單物體定制,多物體組合,物體 - 場景組合這三個任務入手,與眾多優秀的開源模型進行定性定量的對比。可以看到 Personalize Anything 的結果基本都優于現有方法,并在后續的人類偏好測試中取得了顯著優勢。

單物體個性化生成







多物體組合生成







物體 - 場景組合





未來展望

Personalize Anything 研究團隊揭示了 DiT 中位置解耦表示的性質,為免訓練的圖像空間操縱、個性化生成奠定基礎。團隊期待 DiT 的幾何編程原理能夠進一步拓展到視頻、3D 生成等領域,實現更復雜、更精細的場景構建與編輯。希望通過深入研究和廣泛應用,讓這一思路激發更多可控生成的研究,推動 AI 在創意內容生成、虛擬現實、數字孿生等領域的廣泛應用。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
6-0!4-1!亞洲杯瘋狂夜:澳大利亞+日本翻車 韓國狂勝 印尼晉級

6-0!4-1!亞洲杯瘋狂夜:澳大利亞+日本翻車 韓國狂勝 印尼晉級

侃球熊弟
2025-04-08 03:16:32
某省體制內員工:出差吃飯財務系統記賬,小數點后兩位清清楚楚!領導也得走流程

某省體制內員工:出差吃飯財務系統記賬,小數點后兩位清清楚楚!領導也得走流程

西虹市閑話
2025-04-07 14:22:18
4月7日俄烏最新:21世紀最殘酷的戰役

4月7日俄烏最新:21世紀最殘酷的戰役

西樓飲月
2025-04-07 20:29:20
難怪俄烏打了3年,美媒公開后普京才知道,美軍“殺死”上萬俄軍

難怪俄烏打了3年,美媒公開后普京才知道,美軍“殺死”上萬俄軍

空天力量
2025-04-07 19:10:45
全世界還在睡覺,俄羅斯公布重要消息:80萬烏軍只剩下17個月生命

全世界還在睡覺,俄羅斯公布重要消息:80萬烏軍只剩下17個月生命

二向箔
2025-04-07 20:45:33
臺“大批戰機異常起降”,全副武裝的F-16V,想要監控山東艦?

臺“大批戰機異常起降”,全副武裝的F-16V,想要監控山東艦?

空天力量
2025-04-07 17:12:46
證監會決心保護投資者!4月8日,凌晨的三大重要消息沖擊來襲!

證監會決心保護投資者!4月8日,凌晨的三大重要消息沖擊來襲!

風口招財豬
2025-04-08 00:35:29
美媒稱美副總統“中國鄉巴佬”用詞令人震驚,網友:愚不可及!他顯然該去中國看看

美媒稱美副總統“中國鄉巴佬”用詞令人震驚,網友:愚不可及!他顯然該去中國看看

環球網資訊
2025-04-07 20:51:25
全部上交!重慶藍天救援隊在緬甸曼德勒發現20公斤黃金

全部上交!重慶藍天救援隊在緬甸曼德勒發現20公斤黃金

大象新聞
2025-04-07 21:45:16
太惡心!女生無意間發現,里面臟成“黑芝麻糊”!很多人天天都在用!

太惡心!女生無意間發現,里面臟成“黑芝麻糊”!很多人天天都在用!

佛山電視臺小強熱線
2025-04-07 19:54:01
全球股市巨震!國家隊出手穩市

全球股市巨震!國家隊出手穩市

大眾日報
2025-04-07 20:40:14
人民日報深夜發文,隨時降準降息,房貸又降了,每月有能少還了!

人民日報深夜發文,隨時降準降息,房貸又降了,每月有能少還了!

明月聊史
2025-04-07 20:52:41
為什么總是外國人先知道 國內多少大事兒 都是外媒走在前

為什么總是外國人先知道 國內多少大事兒 都是外媒走在前

混沌錄
2025-04-07 18:25:23
美到認不出!錘娜麗莎發文:重度脂肪肝減了70斤!顏值重回女團期

美到認不出!錘娜麗莎發文:重度脂肪肝減了70斤!顏值重回女團期

小娛樂悠悠
2025-04-07 10:03:07
3-0,英超第7完勝英超前冠軍,一夜反超曼城,48歲范尼率隊9連敗

3-0,英超第7完勝英超前冠軍,一夜反超曼城,48歲范尼率隊9連敗

側身凌空斬
2025-04-08 05:26:16
網傳特朗普總統競選時,手持的競選特制吉他,其實是貴州制造的!

網傳特朗普總統競選時,手持的競選特制吉他,其實是貴州制造的!

小星球探索
2025-04-07 14:30:29
官方公告:王力宏,取消!

官方公告:王力宏,取消!

浙江之聲
2025-04-07 21:41:19
劉維偉結束青島生涯?CBA官方臨時變更名單 青島臨場主帥變劉明濤

劉維偉結束青島生涯?CBA官方臨時變更名單 青島臨場主帥變劉明濤

醉臥浮生
2025-04-07 19:28:07
真大!我好像進入了“黃巢”……

真大!我好像進入了“黃巢”……

印象逍遙子
2025-04-06 17:17:13
如果戰爭真的來了,帶上這4樣東西,比什么都重要!

如果戰爭真的來了,帶上這4樣東西,比什么都重要!

搬磚營Z
2025-04-06 00:59:18
2025-04-08 07:08:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10324文章數 142284關注度
往期回顧 全部

科技要聞

Llama 4發布36小時差評如潮!匿名員工爆料

頭條要聞

特朗普再對歐盟施壓:必須從美國購入能源

頭條要聞

特朗普再對歐盟施壓:必須從美國購入能源

體育要聞

刷屏中文互聯網,甲亢哥是怎么火的?

娛樂要聞

汪小菲身旁的朋友,對馬筱梅的評價

財經要聞

美股巨震!特朗普關稅,又有新變化?

汽車要聞

途昂Pro的五套組合拳打完 看清油車的自我救贖

態度原創

家居
數碼
游戲
旅游
軍事航空

家居要聞

通透開放 富有人文關懷

數碼要聞

英偉達 RTX 5090 移動版顯卡跑分:略高于桌面版 RTX 5070

鋼嵐:奧菲利亞+卡夏專武實測報告!這次策劃還真是要另辟蹊徑了

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

特朗普關稅名單上沒俄羅斯 白宮:為了不影響俄烏和談

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 栾城县| 翁牛特旗| 绵竹市| 曲周县| 澄迈县| 沭阳县| 时尚| 胶州市| 万山特区| 泽普县| 台江县| 保亭| 额尔古纳市| 珠海市| 修文县| 道孚县| 龙川县| 册亨县| 沙坪坝区| 龙陵县| 观塘区| 丹凤县| 平武县| 朝阳县| 宣武区| 陇川县| 高要市| 彭泽县| 深州市| 通海县| 庆云县| 长岛县| 旅游| 蓬安县| 阜阳市| 蒙山县| 商都县| 綦江县| 安塞县| 永丰县| 商南县|