網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

視頻可以精準(zhǔn)控制了！一句話給熊戴眼鏡的那種，擴散模型立功

2025-03-21 15:43:34　來源: 量子位

北京舉報

分享至

ReLER Lab團隊
量子位 | 公眾號 QbitAI

如何讓你的模型能感知到視頻的粒度，隨著你的心思想編輯哪就編輯哪呢？

Sora掀起了一股視頻生成的熱潮，視頻編輯作為視頻生成的一個熱門方向一直飽受關(guān)注。但是以往的視頻編輯方法主要關(guān)注視頻的風(fēng)格轉(zhuǎn)換，或者只編輯單一的目標(biāo)。

如果用戶想要同時編輯視頻的多個區(qū)域，大到多個目標(biāo)，小到頭發(fā)絲或者身體的一部分，應(yīng)該怎么辦呢？

來自悉尼科技大學(xué)的ReLER lab實驗室的同學(xué)和浙江大學(xué)的學(xué)者合作提出了一種多粒度視頻編輯的任務(wù)，包括類別級、實例級和局部級的視頻編輯。

通過深入研究擴散模型內(nèi)部的表征空間，提出了VideoGrain的解決框架，無需任何訓(xùn)練，即可實現(xiàn)文本到多個區(qū)域的控制，實例級別的特征分離，在真實世界的視頻上取得了最優(yōu)性能。

論文已被ICLR 2025接收，是當(dāng)天的HuggingFace daily paper top1。目前所有的數(shù)據(jù)集，模型，代碼都已開源。

本文第一作者楊向鵬是悉尼科技大學(xué)的在讀博士生，主要研究方向為擴散模型、視頻生成與編輯，師從浙江大學(xué)計算機學(xué)院楊易教授和朱霖潮副教授。

多粒度視頻編輯是什么？

首先來看看多粒度視頻編輯是什么，到底有什么挑戰(zhàn)。

根據(jù)真實世界的視頻粒度，受語義分割任務(wù)的啟迪，他們可以將視頻的編輯分為三個的層次（粒度逐漸加深）：

(1)類別級編輯(Class Level)：編輯同一類別內(nèi)的對象。（例如，將兩個男人變?yōu)椤爸┲雮b”，原視頻中的兩人都屬于人這一類別，視頻上方第二列所示）
(2)實例級編輯(Instance Level)：將視頻中每個單獨的實例編輯為不同的對象。(例如，將左邊的男人編輯為“蜘蛛俠”，右邊的男人編輯為“北極熊”，視頻上方第三列所示）
(3)局部級編輯(Part Level)：對單個實例的特定元素進行部件級別的編輯，包括添加新的object和修改局部屬性。（例如，在將右邊的男人編輯為“北極熊”時添加“太陽鏡”，視頻上方第四列所示）。

盡管現(xiàn)有的方法采用了各種視覺一致性的表征，比如檢測框(groundvdieo)或者特征響應(yīng)(TokenFlow)等等，但這些信號沒有空間的感知能力，基于T2V模型的視頻編輯，比如CVPR24的DMT，再至目前工業(yè)界的SOTA-Pika，仍然無法實現(xiàn)多粒度的視頻編輯結(jié)果。

這里的原因是什么呢？

作者通過對擴散模型的特征進行深入研究，說明了多粒度視頻編輯的兩大挑戰(zhàn)。

1、特征耦合：如圖(b)，在對inversion過程中的自注意力特征進行聚類之后，可以發(fā)現(xiàn)：雖然聚類的結(jié)果是有清晰的布局信息的，但是無法“左邊的人”和“右邊的人“。當(dāng)增加聚類的數(shù)量之后，會導(dǎo)致更細致的分割結(jié)果比如頭，上半身，下半身，但仍然無法區(qū)分左右。因此，實例之間的特征耦合影響了多粒度視頻編輯中的有效性。
2、文本到多個區(qū)域的控制：使用SDEdit將同一類的兩個男人編輯為左邊鋼鐵俠，右邊蜘蛛俠，樹變成櫻花。結(jié)果如上圖(d)示，“鋼鐵俠”和“蜘蛛俠”的權(quán)重在左邊的人上重疊，“花朵”的權(quán)重泄漏到右邊的人上，導(dǎo)致了(c)中的編輯失敗。因此，另一個難點在于：能否調(diào)節(jié)交叉注意力以確保每個局部編輯的權(quán)重準(zhǔn)確分布在預(yù)期區(qū)域。

VideoGrain整體框架

基于之前的觀察，交叉注意力的分布和編輯的結(jié)果密切相關(guān)，而自注意力對于生成時間一致性的視頻又十分重要。然而，一個區(qū)域內(nèi)的像素有可能關(guān)注到外部或者相似的區(qū)域，這對于多粒度的視頻編輯造成了很大的挑戰(zhàn)。因此，需要去同時修改交叉和自注意力來讓每個像素或者文本embedding只關(guān)注到正確的區(qū)域。

為了實現(xiàn)上述目標(biāo)，團隊提出**ST-Layout Attention (時空布局注意力機制），以一種unified的方式（即增強positive，減弱negative）來調(diào)節(jié)自注意力和交叉注意力。

具體來說，對于第i幀，他們修改Query-key對的condiation map:

調(diào)節(jié)交叉注意力(cross-attn)以實現(xiàn)文本到區(qū)域控制

在交叉注意力層中，文本特征作為key和value，與來自video latents的query特征進行交互。由于編輯目標(biāo)的外觀和位置與交叉注意力的權(quán)重分布密切相關(guān)，團隊目標(biāo)是將每個實例的文本特征聚集到想要去編輯的位置。

如上圖右側(cè)所示，在增加positive value和減去negative value后，“Spiderman”的原始交叉注意力權(quán)重（例如 p）被放大并集中在左邊的人身上。而“polar bear”的權(quán)重則集中在右邊的人身上。這表明他們調(diào)節(jié)將每個局部文本提示的權(quán)重重新分配到目標(biāo)區(qū)域上，實現(xiàn)了精確的文本到多個區(qū)域的控制。

調(diào)節(jié)自注意力(self-attention)以保持特征分離

為了使T2I模型SD適應(yīng)T2V編輯，作者將整個視頻視為“一個更大的圖像”，用時空自注意力替換空間注意力。這增強了跨幀交互，并提供了更廣泛的視覺上下文。

然而，簡單的自注意力可能導(dǎo)致，模型關(guān)注不相關(guān)或相似的區(qū)域（例如，上圖底部，調(diào)節(jié)前左邊人的鼻子p同時關(guān)注到左右兩個人的鼻子），這會導(dǎo)致紋理混合。

為了解決這個問題，需要加強同一區(qū)域內(nèi)的正向關(guān)注，并限制不同區(qū)域之間的負向交互。

如上圖右側(cè)所示，在應(yīng)用自注意力調(diào)節(jié)后，來自左側(cè)人物鼻子的query特征(例如p)僅關(guān)注左側(cè)的人，避免了對右側(cè)的人關(guān)注。這表明，自注意力調(diào)節(jié)打破了擴散模型原有的類別級特征響應(yīng)，確保了實例級甚至以上的特征分離。

實驗結(jié)果

VideoGrain視頻編輯結(jié)果

作者在涵蓋類別級、實例級和部分級編輯的視頻上評估了VideoGrain。

首先VideoGrain可以保持背景不變，單獨的修左邊的人和右邊的人，或者同時修改兩個人。

實例級別：VideoGrain對動物實例也同樣有效，兩個猴子可以被分別修改為泰迪熊和金毛犬。

在復(fù)雜的非剛性運動場景中，例如打羽毛球。以前的方法往往在處理這種非剛性運動時表現(xiàn)不佳，VideoGrain可以成功編輯。此外，該方法還可以多區(qū)域編輯，既可以編輯前景也可以編輯背景，在手推車場景中，背景變?yōu)椤吧种械暮希L滿苔蘚的石橋”。

部件級別：VideoGrain可以做到在將當(dāng)前人的身份修改為超人的同時，給超人加上墨鏡，這屬于新增加新的object。同時，也可以修改物體的原有部分屬性，比如小貓的頭改成橘色。

總體而言，對于多粒度編輯，VideoGrain表現(xiàn)出色。

定性和定量的比較

定性比較

下圖是VideoGrain與SOTA之間的比較，包括T2I和T2V方法的實例級和部分級編輯。

(1)部分級編輯：VideoGrain可以同時編輯太陽鏡和拳擊手套。ControlVideo編輯了手套，但在太陽鏡和運動一致性方面表現(xiàn)不佳。TokenFlow和DMT只編輯了太陽鏡，但未能修改手套或背景。

(2)人類實例：所有基于T2I的方法都將兩個人都編輯成鋼鐵俠。VideoGrain則可以分別編輯，將左側(cè)人物變成鋼鐵俠，右側(cè)人物轉(zhuǎn)變?yōu)楹镒樱蚱屏巳祟愵悇e的限制。

(3)動物實例：即使是具有視頻生成先驗的DMT，也仍然將熊貓和貴賓犬的特征混合在一起。相比之下，VideoGrain成功地將一個編輯成熊貓，另一個編輯成貴賓犬。

定量比較

消融實驗

ST-Layout Attn的時間一致性：作為視頻的編輯方法，時空一致性一直是及其重要的一點，VideoGrain可以在準(zhǔn)確的編輯多個區(qū)域的情況下，充分的保證時間一致性，防止編輯目標(biāo)的紋理的抖動或者不穩(wěn)定。

定位概念+準(zhǔn)確編輯

和最近twitter上很火的concept attention不同，該方法可以在localize concept（定位概念)的同時實現(xiàn)編輯：

目前，VideoGrain的數(shù)據(jù)和所有代碼都已開源。

研究團隊表示，VideoGrain為擴散模型提供了新的視頻編輯范式，或?qū)⑼苿右曨l生成，擴散模型等領(lǐng)域以及視頻編輯軟件出現(xiàn)更多，好玩有趣的應(yīng)用。

目前，該團隊還在進一步的拓展視頻生成方向，比如音視頻的生成，視頻的切換視角生成，以及電影級的多人物有聲長視頻生成，歡迎工業(yè)界有資源的小伙伴合作與加入，共同探索視頻生成的未來。

論文鏈接：https://arxiv.org/abs/2502.17258
項目主頁：https://knightyxp.github.io/VideoGrain_project_page
Github：https://github.com/knightyxp/VideoGrain

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.