99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

UniReal登場:統一圖像生成與編輯,還學到真實世界動態變化規律

0
分享至

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

論文一作陳汐,現為香港大學三年級博士生,在此之前本科碩士畢業于浙江大學,同時獲得法國馬賽中央理工雙碩士學位。主要研究方向為圖像視頻生成與理解,在領域內頂級期刊會議上發表論文十余篇,并且 GitHub 開源項目獲得超過 5K star.

本文中,香港大學與 Adobe 聯合提出名為 UniReal 的全新圖像編輯與生成范式。該方法將多種圖像任務統一到視頻生成框架中,通過將不同類別和數量的輸入/輸出圖像建模為視頻幀,從大規模真實視頻數據中學習屬性、姿態、光照等多種變化規律,從而實現高保真的生成效果。

  • 論文標題:UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
  • 項目主頁:https://xavierchen34.github.io/UniReal-Page/
  • 論文鏈接:https://arxiv.org/abs/2412.07774



效果展示

我們重點展示了圖像生成與編輯中最具挑戰性的三個任務的效果:圖像定制化生成、指令編輯和物體插入

此外,UniReal 還支持多種圖像生成、編輯及感知任務,例如文本生成圖像、可控圖像生成、圖像修復、深度估計和目標分割等。



在單目標定制化生成任務中,UniReal 能夠在準確保留目標細節(如 logo)的同時,生成具有較大姿態和場景變化的圖像,并自然地模擬物體在不同環境下的狀態,從而實現高質量的生成效果。



與此同時,UniReal 展現了強大的多目標組合能力,能夠精確建模不同物體之間的交互關系,生成高度協調且逼真的圖像效果。



值得注意的是,我們并未專門收集人像數據進行訓練,UniReal 仍能夠生成自然且真實的全身像定制化效果,展現了其出色的泛化能力。



在指令編輯方面,UniReal 支持用戶通過自由輸入文本對圖像進行靈活編輯,例如添加或刪除物體、修改屬性等。實驗結果表明,UniReal 展現出了卓越的場景理解能力,能夠真實地模擬物體的陰影、反射以及前后遮擋關系,生成高度逼真的編輯效果。



UniReal 支持從圖像中提取特定目標作為前景,插入到背景圖像中,天然適用于虛擬試衣、Logo 遷移、物體傳送等任務。實驗表明,UniReal 插入的目標能夠非常自然地融入背景圖像,呈現出與背景一致的和諧角度、倒影效果及環境匹配度,顯著提升了任務的生成質量。



除了上述任務外,UniReal 還支持文本生成圖像、可控圖像生成、參考式圖像補全、目標分割、深度估計等多種任務,并能夠同時生成多張圖像。此外,UniReal 支持各類任務的相互組合,從而展現出許多未經過專門訓練的強大能力,進一步證明其通用性和擴展性。

方法介紹

UniReal 的目標是為圖像生成與編輯任務構建一個統一框架。我們觀察到,不同任務通常存在多樣化的輸入輸出圖像種類與數量,以及各自獨特的具體要求。然而,這些任務之間共享一個核心需求:在保持輸入輸出圖像一致性的同時,根據控制信號建模圖像的變化。

這一需求與視頻生成任務有天然的契合性。視頻生成需要同時滿足幀間內容的一致性與運動變化,并能夠支持不同的幀數輸出。受到近期類似 Sora 的視頻生成模型所取得優異效果的啟發,我們提出將不同的圖像生成與編輯任務統一到視頻生成架構中。

此外,考慮到視頻中自然包含真實世界中多樣化的動態變化,我們直接從原始視頻出發,構建大規模訓練數據,使模型能夠學習和模擬真實世界的變化規律,從而實現高保真的生成與編輯效果。



模型結構:我們借鑒了與Sora類似的視頻生成架構,將不同的輸入輸出圖像統一視作視頻幀處理。具體來說,圖像通過 VAE 編碼后被轉換為視覺 token,接著輸入 Transformer 進行處理。與此同時,我們引入了T5 text encoder對輸入指令進行編碼,將生成的文本 token 與視覺 token 一同輸入 Transformer。通過使用full attention機制,模型能夠充分建模視覺和文本之間的關系,實現跨模態信息的高效融合和綜合理解。這種設計確保了模型在處理多樣化任務時的靈活性和生成效果的一致性。

層級化提示:為了解決不同任務和數據之間的沖突問題,同時支持多樣化的任務與數據,我們提出了一種Hierarchical Prompt(層級化提示)設計。在傳統提示詞(Prompt)的基礎上,引入了Context PromptImage Prompt兩個新組件。

  • Context Prompt:用于補充描述不同任務和數據集的特性,包括任務目標、數據分特點等背景信息,從而為模型提供更豐富的上下文理解。
  • Image Prompt:對輸入圖像進行層次化劃分,將其分為三類:
  • Asset(前景):需要重點操作或變更的目標區域;
  • Canvas(畫布):作為生成或編輯的背景場景;
  • Control(控制):提供約束或引導的輸入信號,如參考圖像或控制參數。

為每種類別的輸入圖像單獨訓練不同的 embedding,從而幫助模型在聯合訓練中區分輸入圖像的作用和語義,避免不同任務和數據引發的沖突與歧義。

通過這種層級化提示設計,模型能夠更高效地整合多樣化的任務和數據,顯著提升聯合訓練的效果,進一步增強其生成和編輯能力。



數據構造:我們基于原始視頻數據構建了大規模訓練數據集,以支持多樣化的任務需求。具體步驟如下:

1. 編輯數據生成

從視頻中隨機抽取前后兩幀,分別作為編輯前和編輯后的圖像結果,并借助視覺語言模型(VLM)生成對應的編輯指令,以模擬多樣化的圖像編輯任務。

2. 多目標定制化生成

我們結合 VLM 與 SAM2,在視頻首幀中分割出不同的目標區域,并利用這些目標區域重建后續幀,構造多目標定制化生成的數據。這種方式能夠模擬目標在復雜場景中的動態變化,并為多目標生成任務提供高質量的數據支持。

3. 可控生成與圖像理解標注

利用一系列圖像理解模型(如深度估計模型)對視頻和圖像進行自動打標。這些標簽不僅為可控生成任務(如深度控制生成)提供了豐富的條件信息,還為圖像理解任務(如深度估計、目標分割)提供了標準參考。

通過這種基于原始視頻的多層次數據構造策略,我們的模型能夠學習真實世界中的動態變化規律,同時支持多種復雜的圖像生成與理解任務,顯著提升了數據集的多樣性和模型的泛化能力。

效果對比

指令編輯任務中,UniReal 能夠更好地保持背景像素的一致性,同時完成更具挑戰性的編輯任務。例如,它可以根據用戶指令生成 “螞蟻抬起轎車” 的畫面,并在轎車被抬起后動態調整冰面上的反射,使其與場景的物理變化相一致。這種能力充分展現了 UniReal 在場景理解和細節生成上的強大性能。



定制化生成任務中,無論是細節的精確保留還是對指令的準確執行,UniReal 都展現出了顯著的優勢。其生成結果不僅能夠忠實還原目標細節,還能靈活響應多樣化的指令需求,體現出卓越的生成能力和任務適應性。



物體插入任務中,我們與此前的代表性方法 AnyDoor 進行了對比,UniReal 展現出了更強的環境理解能力。例如,它能夠正確模擬狗在水中的姿態,自動調整易拉罐在桌子上的視角,以及精確建模衣服在模特身上的狀態,同時保留模特的頭發細節。這種對場景和物體關系的高度理解,使 UniReal 在生成真實感和一致性上遠超現有方法。



未來展望

UniReal 在多個任務中展現了強大的潛力。然而,隨著輸入和輸出圖像數量的進一步擴大,訓練與推理效率問題成為需要解決的關鍵挑戰。為此,我們計劃探索設計更高效的注意力結構,以降低計算成本并提高處理速度。同時,我們還將這一方案進一步擴展到視頻生成與編輯任務中,利用高效的結構應對更復雜的數據規模和動態場景需求,推動模型性能與實用性的全面提升。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
反小球領軍人,火箭雙塔的內線復興機會?

反小球領軍人,火箭雙塔的內線復興機會?

籃球盛世
2025-04-08 11:33:22
農村孩子未來在哪里

農村孩子未來在哪里

民間胡扯老哥
2025-03-19 08:28:16
王玉雯真是標準藝術生校花臉和氣質,被養的很好的感覺,好美好瘦

王玉雯真是標準藝術生校花臉和氣質,被養的很好的感覺,好美好瘦

手工制作阿殲
2025-04-08 09:19:22
錘娜麗莎談暴瘦70斤心態:重要的是健康快樂

錘娜麗莎談暴瘦70斤心態:重要的是健康快樂

大象新聞
2025-04-07 11:45:04
知名主持人患黑色素癌晚期,全身近10個腫瘤,已經走到生命倒計時

知名主持人患黑色素癌晚期,全身近10個腫瘤,已經走到生命倒計時

東方不敗然多多
2025-04-07 16:03:25
他們在炫耀收到了1196273份簡歷,網友的評論才是真正的扎心

他們在炫耀收到了1196273份簡歷,網友的評論才是真正的扎心

觀察鑒娛
2025-04-07 11:01:33
澤連斯基首次正式表態稱烏軍在俄別爾哥羅德州作戰

澤連斯基首次正式表態稱烏軍在俄別爾哥羅德州作戰

界面新聞
2025-04-08 07:05:49
4000萬,加盟火箭!休城撿了大便宜,他將會成為球隊未來的核心

4000萬,加盟火箭!休城撿了大便宜,他將會成為球隊未來的核心

呆哥聊球
2025-04-07 15:59:21
智商是的無敵,道德是無語的

智商是的無敵,道德是無語的

我是歷史其實挺有趣
2025-04-07 10:44:29
癱子娘、瘋子爹,744分高考狀元被清華錄取八年后,現狀令人淚目

癱子娘、瘋子爹,744分高考狀元被清華錄取八年后,現狀令人淚目

來科點譜
2025-04-06 08:45:03
果粉們的天塌了!受新規影響,iPhone17恐將成為史上最貴蘋果手機

果粉們的天塌了!受新規影響,iPhone17恐將成為史上最貴蘋果手機

小8說科技
2025-04-05 18:04:54
52歲男子糖尿病離世,醫生呼吁:4種早餐應撤下餐桌,別再貪吃了

52歲男子糖尿病離世,醫生呼吁:4種早餐應撤下餐桌,別再貪吃了

39健康網
2025-03-30 20:30:44
一場2-0爆冷,讓亞洲杯死亡之組亂了!日本下輪輸澳洲,提前出局

一場2-0爆冷,讓亞洲杯死亡之組亂了!日本下輪輸澳洲,提前出局

侃球熊弟
2025-04-08 03:55:14
“首次”,外媒:為避免與美升級沖突,數個受伊朗支持的伊拉克民兵組織準備解除武裝

“首次”,外媒:為避免與美升級沖突,數個受伊朗支持的伊拉克民兵組織準備解除武裝

環球網資訊
2025-04-07 17:19:19
全部上交!重慶藍天救援隊在緬甸曼德勒發現20公斤黃金

全部上交!重慶藍天救援隊在緬甸曼德勒發現20公斤黃金

大風新聞
2025-04-07 22:13:06
美財長:50多個國家聯系了美國,想要進行貿易談判

美財長:50多個國家聯系了美國,想要進行貿易談判

鳳凰衛視
2025-04-07 13:46:05
英偉達完成收購賈清揚公司

英偉達完成收購賈清揚公司

半導體行業觀察
2025-04-08 09:42:58
權貴越無恥,民粹越極端

權貴越無恥,民粹越極端

特例的貓
2025-04-07 07:55:54
進入全線施工階段,廣州站至廣州南站有望15分鐘直達

進入全線施工階段,廣州站至廣州南站有望15分鐘直達

魯中晨報
2025-04-08 07:27:23
兩國可能合并,一旦成功將成為超級大國,或終結美國一家獨大局面

兩國可能合并,一旦成功將成為超級大國,或終結美國一家獨大局面

史二了
2024-07-27 17:12:02
2025-04-08 12:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10325文章數 142285關注度
往期回顧 全部

科技要聞

特朗普堅持征收關稅 周一美科技股劇烈震蕩

頭條要聞

美方威脅進一步對華加征50%關稅 商務部回應

頭條要聞

美方威脅進一步對華加征50%關稅 商務部回應

體育要聞

極限一穿四,他把韓國主場打到靜音

娛樂要聞

尷尬!甲亢哥想聯動大張偉,卻被迫錄節目

財經要聞

"中國版平準基金"橫空出世 央行表態

汽車要聞

一季度車企銷量:下沉與上行,覺醒與迷惘

態度原創

藝術
房產
數碼
時尚
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

生猛!三亞開始巨量拆遷!

數碼要聞

RTX 5060/Ti現身發貨清單:確認128bit GDDR7顯存

別再披頭散發了!今春流行“奶奶發飾”,好看巨顯臉小

軍事要聞

特朗普關稅名單上沒俄羅斯 白宮:為了不影響俄烏和談

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 财经| 陵水| 乌海市| 乌什县| 星座| 静宁县| 岢岚县| 宁乡县| 定西市| 北票市| 宁武县| 偏关县| 额敏县| 伊吾县| 鄂温| 扎囊县| 新晃| 苍梧县| 新化县| 那坡县| 惠州市| 襄城县| 上杭县| 望奎县| 故城县| 五峰| 什邡市| 新乡市| 额尔古纳市| 灌南县| 盐山县| 都江堰市| 田东县| 江源县| 高雄县| 澄江县| 威海市| 临汾市| 平原县| 武川县| 许昌县|