ReLER Lab團隊
量子位 | 公眾號 QbitAI
如何讓你的模型能感知到視頻的粒度,隨著你的心思想編輯哪就編輯哪呢?
Sora掀起了一股視頻生成的熱潮,視頻編輯作為視頻生成的一個熱門方向一直飽受關(guān)注。但是以往的視頻編輯方法主要關(guān)注視頻的風(fēng)格轉(zhuǎn)換,或者只編輯單一的目標(biāo)。
如果用戶想要同時編輯視頻的多個區(qū)域,大到多個目標(biāo),小到頭發(fā)絲或者身體的一部分,應(yīng)該怎么辦呢?
來自悉尼科技大學(xué)的ReLER lab實驗室的同學(xué)和浙江大學(xué)的學(xué)者合作提出了一種多粒度視頻編輯的任務(wù),包括類別級、實例級和局部級的視頻編輯。
通過深入研究擴散模型內(nèi)部的表征空間,提出了VideoGrain的解決框架,無需任何訓(xùn)練,即可實現(xiàn)文本到多個區(qū)域的控制,實例級別的特征分離,在真實世界的視頻上取得了最優(yōu)性能。
論文已被ICLR 2025接收,是當(dāng)天的HuggingFace daily paper top1。目前所有的數(shù)據(jù)集,模型,代碼都已開源。
本文第一作者楊向鵬是悉尼科技大學(xué)的在讀博士生,主要研究方向為擴散模型、視頻生成與編輯,師從浙江大學(xué)計算機學(xué)院楊易教授和朱霖潮副教授。
多粒度視頻編輯是什么?
首先來看看多粒度視頻編輯是什么,到底有什么挑戰(zhàn)。
根據(jù)真實世界的視頻粒度,受語義分割任務(wù)的啟迪,他們可以將視頻的編輯分為三個的層次(粒度逐漸加深):
- (1)類別級編輯(Class Level):編輯同一類別內(nèi)的對象。(例如,將兩個男人變?yōu)椤爸┲雮b”,原視頻中的兩人都屬于人這一類別,視頻上方第二列所示)
- (2)實例級編輯(Instance Level):將視頻中每個單獨的實例編輯為不同的對象。(例如,將左邊的男人編輯為“蜘蛛俠”,右邊的男人編輯為“北極熊”,視頻上方第三列所示)
- (3)局部級編輯(Part Level):對單個實例的特定元素進行部件級別的編輯,包括添加新的object和修改局部屬性。(例如,在將右邊的男人編輯為“北極熊”時添加“太陽鏡”,視頻上方第四列所示)。
盡管現(xiàn)有的方法采用了各種視覺一致性的表征,比如檢測框(groundvdieo)或者特征響應(yīng)(TokenFlow)等等,但這些信號沒有空間的感知能力,基于T2V模型的視頻編輯,比如CVPR24的DMT,再至目前工業(yè)界的SOTA-Pika,仍然無法實現(xiàn)多粒度的視頻編輯結(jié)果。
這里的原因是什么呢?
作者通過對擴散模型的特征進行深入研究,說明了多粒度視頻編輯的兩大挑戰(zhàn)。
- 1、特征耦合:如圖(b),在對inversion過程中的自注意力特征進行聚類之后,可以發(fā)現(xiàn):雖然聚類的結(jié)果是有清晰的布局信息的,但是無法“左邊的人”和“右邊的人“。當(dāng)增加聚類的數(shù)量之后,會導(dǎo)致更細致的分割結(jié)果比如頭,上半身,下半身,但仍然無法區(qū)分左右。因此,實例之間的特征耦合影響了多粒度視頻編輯中的有效性。
- 2、文本到多個區(qū)域的控制:使用SDEdit將同一類的兩個男人編輯為左邊鋼鐵俠,右邊蜘蛛俠,樹變成櫻花。結(jié)果如上圖(d)示,“鋼鐵俠”和“蜘蛛俠”的權(quán)重在左邊的人上重疊,“花朵”的權(quán)重泄漏到右邊的人上,導(dǎo)致了(c)中的編輯失敗。因此,另一個難點在于:能否調(diào)節(jié)交叉注意力以確保每個局部編輯的權(quán)重準(zhǔn)確分布在預(yù)期區(qū)域。
VideoGrain整體框架
基于之前的觀察,交叉注意力的分布和編輯的結(jié)果密切相關(guān),而自注意力對于生成時間一致性的視頻又十分重要。然而,一個區(qū)域內(nèi)的像素有可能關(guān)注到外部或者相似的區(qū)域,這對于多粒度的視頻編輯造成了很大的挑戰(zhàn)。因此,需要去同時修改交叉和自注意力來讓每個像素或者文本embedding只關(guān)注到正確的區(qū)域。
為了實現(xiàn)上述目標(biāo),團隊提出**ST-Layout Attention (時空布局注意力機制),以一種unified的方式(即增強positive,減弱negative)來調(diào)節(jié)自注意力和交叉注意力。
具體來說,對于第i幀,他們修改Query-key對的condiation map:
調(diào)節(jié)交叉注意力(cross-attn)以實現(xiàn)文本到區(qū)域控制
在交叉注意力層中,文本特征作為key和value,與來自video latents的query特征進行交互。由于編輯目標(biāo)的外觀和位置與交叉注意力的權(quán)重分布密切相關(guān),團隊目標(biāo)是將每個實例的文本特征聚集到想要去編輯的位置。
如上圖右側(cè)所示,在增加positive value和減去negative value后,“Spiderman”的原始交叉注意力權(quán)重(例如 p)被放大并集中在左邊的人身上。而“polar bear”的權(quán)重則集中在右邊的人身上。這表明他們調(diào)節(jié)將每個局部文本提示的權(quán)重重新分配到目標(biāo)區(qū)域上,實現(xiàn)了精確的文本到多個區(qū)域的控制。
調(diào)節(jié)自注意力(self-attention)以保持特征分離
為了使T2I模型SD適應(yīng)T2V編輯,作者將整個視頻視為“一個更大的圖像”,用時空自注意力替換空間注意力。這增強了跨幀交互,并提供了更廣泛的視覺上下文。
然而,簡單的自注意力可能導(dǎo)致,模型關(guān)注不相關(guān)或相似的區(qū)域(例如,上圖底部,調(diào)節(jié)前左邊人的鼻子p同時關(guān)注到左右兩個人的鼻子),這會導(dǎo)致紋理混合。
為了解決這個問題,需要加強同一區(qū)域內(nèi)的正向關(guān)注,并限制不同區(qū)域之間的負向交互。
如上圖右側(cè)所示,在應(yīng)用自注意力調(diào)節(jié)后,來自左側(cè)人物鼻子的query特征(例如p)僅關(guān)注左側(cè)的人,避免了對右側(cè)的人關(guān)注。這表明,自注意力調(diào)節(jié)打破了擴散模型原有的類別級特征響應(yīng),確保了實例級甚至以上的特征分離。
實驗結(jié)果
VideoGrain視頻編輯結(jié)果
作者在涵蓋類別級、實例級和部分級編輯的視頻上評估了VideoGrain。
首先VideoGrain可以保持背景不變,單獨的修左邊的人和右邊的人,或者同時修改兩個人。
實例級別:VideoGrain對動物實例也同樣有效,兩個猴子可以被分別修改為泰迪熊和金毛犬。
在復(fù)雜的非剛性運動場景中,例如打羽毛球。以前的方法往往在處理這種非剛性運動時表現(xiàn)不佳,VideoGrain可以成功編輯。此外,該方法還可以多區(qū)域編輯,既可以編輯前景也可以編輯背景,在手推車場景中,背景變?yōu)椤吧种械暮希L滿苔蘚的石橋”。
部件級別:VideoGrain可以做到在將當(dāng)前人的身份修改為超人的同時,給超人加上墨鏡,這屬于新增加新的object。同時,也可以修改物體的原有部分屬性,比如小貓的頭改成橘色。
總體而言,對于多粒度編輯,VideoGrain表現(xiàn)出色。
定性和定量的比較
定性比較
下圖是VideoGrain與SOTA之間的比較,包括T2I和T2V方法的實例級和部分級編輯。
(1)部分級編輯:VideoGrain可以同時編輯太陽鏡和拳擊手套。ControlVideo編輯了手套,但在太陽鏡和運動一致性方面表現(xiàn)不佳。TokenFlow和DMT只編輯了太陽鏡,但未能修改手套或背景。
(2)人類實例:所有基于T2I的方法都將兩個人都編輯成鋼鐵俠。VideoGrain則可以分別編輯,將左側(cè)人物變成鋼鐵俠,右側(cè)人物轉(zhuǎn)變?yōu)楹镒樱蚱屏巳祟愵悇e的限制。
(3)動物實例:即使是具有視頻生成先驗的DMT,也仍然將熊貓和貴賓犬的特征混合在一起。相比之下,VideoGrain成功地將一個編輯成熊貓,另一個編輯成貴賓犬。
定量比較
消融實驗
ST-Layout Attn的時間一致性:作為視頻的編輯方法,時空一致性一直是及其重要的一點,VideoGrain可以在準(zhǔn)確的編輯多個區(qū)域的情況下,充分的保證時間一致性,防止編輯目標(biāo)的紋理的抖動或者不穩(wěn)定。
定位概念+準(zhǔn)確編輯
和最近twitter上很火的concept attention不同,該方法可以在localize concept(定位概念)的同時實現(xiàn)編輯:
目前,VideoGrain的數(shù)據(jù)和所有代碼都已開源。
研究團隊表示,VideoGrain為擴散模型提供了新的視頻編輯范式,或?qū)⑼苿右曨l生成,擴散模型等領(lǐng)域以及視頻編輯軟件出現(xiàn)更多,好玩有趣的應(yīng)用。
目前,該團隊還在進一步的拓展視頻生成方向,比如音視頻的生成,視頻的切換視角生成,以及電影級的多人物有聲長視頻生成,歡迎工業(yè)界有資源的小伙伴合作與加入,共同探索視頻生成的未來。
論文鏈接:https://arxiv.org/abs/2502.17258
項目主頁:https://knightyxp.github.io/VideoGrain_project_page
Github:https://github.com/knightyxp/VideoGrain
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.