網易首頁 > 網易號 > 正文申請入駐

UniReal登場：統一圖像生成與編輯，還學到真實世界動態變化規律

2024-12-20 15:14:55　來源: 機器之心Pro

北京舉報

分享至

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

論文一作陳汐，現為香港大學三年級博士生，在此之前本科碩士畢業于浙江大學，同時獲得法國馬賽中央理工雙碩士學位。主要研究方向為圖像視頻生成與理解，在領域內頂級期刊會議上發表論文十余篇，并且 GitHub 開源項目獲得超過 5K star.

本文中，香港大學與 Adobe 聯合提出名為 UniReal 的全新圖像編輯與生成范式。該方法將多種圖像任務統一到視頻生成框架中，通過將不同類別和數量的輸入/輸出圖像建模為視頻幀，從大規模真實視頻數據中學習屬性、姿態、光照等多種變化規律，從而實現高保真的生成效果。

論文標題：UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
項目主頁：https://xavierchen34.github.io/UniReal-Page/
論文鏈接：https://arxiv.org/abs/2412.07774

效果展示

我們重點展示了圖像生成與編輯中最具挑戰性的三個任務的效果：圖像定制化生成、指令編輯和物體插入。

此外，UniReal 還支持多種圖像生成、編輯及感知任務，例如文本生成圖像、可控圖像生成、圖像修復、深度估計和目標分割等。

在單目標定制化生成任務中，UniReal 能夠在準確保留目標細節（如 logo）的同時，生成具有較大姿態和場景變化的圖像，并自然地模擬物體在不同環境下的狀態，從而實現高質量的生成效果。

與此同時，UniReal 展現了強大的多目標組合能力，能夠精確建模不同物體之間的交互關系，生成高度協調且逼真的圖像效果。

值得注意的是，我們并未專門收集人像數據進行訓練，UniReal 仍能夠生成自然且真實的全身像定制化效果，展現了其出色的泛化能力。

在指令編輯方面，UniReal 支持用戶通過自由輸入文本對圖像進行靈活編輯，例如添加或刪除物體、修改屬性等。實驗結果表明，UniReal 展現出了卓越的場景理解能力，能夠真實地模擬物體的陰影、反射以及前后遮擋關系，生成高度逼真的編輯效果。

UniReal 支持從圖像中提取特定目標作為前景，插入到背景圖像中，天然適用于虛擬試衣、Logo 遷移、物體傳送等任務。實驗表明，UniReal 插入的目標能夠非常自然地融入背景圖像，呈現出與背景一致的和諧角度、倒影效果及環境匹配度，顯著提升了任務的生成質量。

除了上述任務外，UniReal 還支持文本生成圖像、可控圖像生成、參考式圖像補全、目標分割、深度估計等多種任務，并能夠同時生成多張圖像。此外，UniReal 支持各類任務的相互組合，從而展現出許多未經過專門訓練的強大能力，進一步證明其通用性和擴展性。

方法介紹

UniReal 的目標是為圖像生成與編輯任務構建一個統一框架。我們觀察到，不同任務通常存在多樣化的輸入輸出圖像種類與數量，以及各自獨特的具體要求。然而，這些任務之間共享一個核心需求：在保持輸入輸出圖像一致性的同時，根據控制信號建模圖像的變化。

這一需求與視頻生成任務有天然的契合性。視頻生成需要同時滿足幀間內容的一致性與運動變化，并能夠支持不同的幀數輸出。受到近期類似 Sora 的視頻生成模型所取得優異效果的啟發，我們提出將不同的圖像生成與編輯任務統一到視頻生成架構中。

此外，考慮到視頻中自然包含真實世界中多樣化的動態變化，我們直接從原始視頻出發，構建大規模訓練數據，使模型能夠學習和模擬真實世界的變化規律，從而實現高保真的生成與編輯效果。

模型結構：我們借鑒了與Sora類似的視頻生成架構，將不同的輸入輸出圖像統一視作視頻幀處理。具體來說，圖像通過 VAE 編碼后被轉換為視覺 token，接著輸入 Transformer 進行處理。與此同時，我們引入了T5 text encoder對輸入指令進行編碼，將生成的文本 token 與視覺 token 一同輸入 Transformer。通過使用full attention機制，模型能夠充分建模視覺和文本之間的關系，實現跨模態信息的高效融合和綜合理解。這種設計確保了模型在處理多樣化任務時的靈活性和生成效果的一致性。

層級化提示：為了解決不同任務和數據之間的沖突問題，同時支持多樣化的任務與數據，我們提出了一種Hierarchical Prompt（層級化提示）設計。在傳統提示詞（Prompt）的基礎上，引入了Context Prompt和Image Prompt兩個新組件。

Context Prompt：用于補充描述不同任務和數據集的特性，包括任務目標、數據分特點等背景信息，從而為模型提供更豐富的上下文理解。
Image Prompt：對輸入圖像進行層次化劃分，將其分為三類：
Asset（前景）：需要重點操作或變更的目標區域；
Canvas（畫布）：作為生成或編輯的背景場景；
Control（控制）：提供約束或引導的輸入信號，如參考圖像或控制參數。

為每種類別的輸入圖像單獨訓練不同的 embedding，從而幫助模型在聯合訓練中區分輸入圖像的作用和語義，避免不同任務和數據引發的沖突與歧義。

通過這種層級化提示設計，模型能夠更高效地整合多樣化的任務和數據，顯著提升聯合訓練的效果，進一步增強其生成和編輯能力。

數據構造：我們基于原始視頻數據構建了大規模訓練數據集，以支持多樣化的任務需求。具體步驟如下：

1. 編輯數據生成

從視頻中隨機抽取前后兩幀，分別作為編輯前和編輯后的圖像結果，并借助視覺語言模型（VLM）生成對應的編輯指令，以模擬多樣化的圖像編輯任務。

2. 多目標定制化生成

我們結合 VLM 與 SAM2，在視頻首幀中分割出不同的目標區域，并利用這些目標區域重建后續幀，構造多目標定制化生成的數據。這種方式能夠模擬目標在復雜場景中的動態變化，并為多目標生成任務提供高質量的數據支持。

3. 可控生成與圖像理解標注

利用一系列圖像理解模型（如深度估計模型）對視頻和圖像進行自動打標。這些標簽不僅為可控生成任務（如深度控制生成）提供了豐富的條件信息，還為圖像理解任務（如深度估計、目標分割）提供了標準參考。

通過這種基于原始視頻的多層次數據構造策略，我們的模型能夠學習真實世界中的動態變化規律，同時支持多種復雜的圖像生成與理解任務，顯著提升了數據集的多樣性和模型的泛化能力。

效果對比

在指令編輯任務中，UniReal 能夠更好地保持背景像素的一致性，同時完成更具挑戰性的編輯任務。例如，它可以根據用戶指令生成 “螞蟻抬起轎車” 的畫面，并在轎車被抬起后動態調整冰面上的反射，使其與場景的物理變化相一致。這種能力充分展現了 UniReal 在場景理解和細節生成上的強大性能。

在定制化生成任務中，無論是細節的精確保留還是對指令的準確執行，UniReal 都展現出了顯著的優勢。其生成結果不僅能夠忠實還原目標細節，還能靈活響應多樣化的指令需求，體現出卓越的生成能力和任務適應性。

在物體插入任務中，我們與此前的代表性方法 AnyDoor 進行了對比，UniReal 展現出了更強的環境理解能力。例如，它能夠正確模擬狗在水中的姿態，自動調整易拉罐在桌子上的視角，以及精確建模衣服在模特身上的狀態，同時保留模特的頭發細節。這種對場景和物體關系的高度理解，使 UniReal 在生成真實感和一致性上遠超現有方法。

未來展望

UniReal 在多個任務中展現了強大的潛力。然而，隨著輸入和輸出圖像數量的進一步擴大，訓練與推理效率問題成為需要解決的關鍵挑戰。為此，我們計劃探索設計更高效的注意力結構，以降低計算成本并提高處理速度。同時，我們還將這一方案進一步擴展到視頻生成與編輯任務中，利用高效的結構應對更復雜的數據規模和動態場景需求，推動模型性能與實用性的全面提升。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.