99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

視頻可以精準(zhǔn)控制了!一句話給熊戴眼鏡的那種,擴散模型立功

0
分享至

ReLER Lab團隊
量子位 | 公眾號 QbitAI

如何讓你的模型能感知到視頻的粒度,隨著你的心思想編輯哪就編輯哪呢?

Sora掀起了一股視頻生成的熱潮,視頻編輯作為視頻生成的一個熱門方向一直飽受關(guān)注。但是以往的視頻編輯方法主要關(guān)注視頻的風(fēng)格轉(zhuǎn)換,或者只編輯單一的目標(biāo)。

如果用戶想要同時編輯視頻的多個區(qū)域,大到多個目標(biāo),小到頭發(fā)絲或者身體的一部分,應(yīng)該怎么辦呢?

來自悉尼科技大學(xué)的ReLER lab實驗室的同學(xué)和浙江大學(xué)的學(xué)者合作提出了一種多粒度視頻編輯的任務(wù),包括類別級、實例級和局部級的視頻編輯。

通過深入研究擴散模型內(nèi)部的表征空間,提出了VideoGrain的解決框架,無需任何訓(xùn)練,即可實現(xiàn)文本到多個區(qū)域的控制,實例級別的特征分離,在真實世界的視頻上取得了最優(yōu)性能。

論文已被ICLR 2025接收,是當(dāng)天的HuggingFace daily paper top1。目前所有的數(shù)據(jù)集,模型,代碼都已開源



本文第一作者楊向鵬是悉尼科技大學(xué)的在讀博士生,主要研究方向為擴散模型、視頻生成與編輯,師從浙江大學(xué)計算機學(xué)院楊易教授和朱霖潮副教授。

多粒度視頻編輯是什么?

首先來看看多粒度視頻編輯是什么,到底有什么挑戰(zhàn)。



根據(jù)真實世界的視頻粒度,受語義分割任務(wù)的啟迪,他們可以將視頻的編輯分為三個的層次(粒度逐漸加深):

  • (1)類別級編輯(Class Level):編輯同一類別內(nèi)的對象。(例如,將兩個男人變?yōu)椤爸┲雮b”,原視頻中的兩人都屬于人這一類別,視頻上方第二列所示)
  • (2)實例級編輯(Instance Level):將視頻中每個單獨的實例編輯為不同的對象。(例如,將左邊的男人編輯為“蜘蛛俠”,右邊的男人編輯為“北極熊”,視頻上方第三列所示)
  • (3)局部級編輯(Part Level):對單個實例的特定元素進行部件級別的編輯,包括添加新的object和修改局部屬性。(例如,在將右邊的男人編輯為“北極熊”時添加“太陽鏡”,視頻上方第四列所示)。

盡管現(xiàn)有的方法采用了各種視覺一致性的表征,比如檢測框(groundvdieo)或者特征響應(yīng)(TokenFlow)等等,但這些信號沒有空間的感知能力,基于T2V模型的視頻編輯,比如CVPR24的DMT,再至目前工業(yè)界的SOTA-Pika,仍然無法實現(xiàn)多粒度的視頻編輯結(jié)果。



這里的原因是什么呢?

作者通過對擴散模型的特征進行深入研究,說明了多粒度視頻編輯的兩大挑戰(zhàn)。



  • 1、特征耦合:如圖(b),在對inversion過程中的自注意力特征進行聚類之后,可以發(fā)現(xiàn):雖然聚類的結(jié)果是有清晰的布局信息的,但是無法“左邊的人”和“右邊的人“。當(dāng)增加聚類的數(shù)量之后,會導(dǎo)致更細致的分割結(jié)果比如頭,上半身,下半身,但仍然無法區(qū)分左右。因此,實例之間的特征耦合影響了多粒度視頻編輯中的有效性。
  • 2、文本到多個區(qū)域的控制:使用SDEdit將同一類的兩個男人編輯為左邊鋼鐵俠,右邊蜘蛛俠,樹變成櫻花。結(jié)果如上圖(d)示,“鋼鐵俠”和“蜘蛛俠”的權(quán)重在左邊的人上重疊,“花朵”的權(quán)重泄漏到右邊的人上,導(dǎo)致了(c)中的編輯失敗。因此,另一個難點在于:能否調(diào)節(jié)交叉注意力以確保每個局部編輯的權(quán)重準(zhǔn)確分布在預(yù)期區(qū)域。

VideoGrain整體框架

基于之前的觀察,交叉注意力的分布和編輯的結(jié)果密切相關(guān),而自注意力對于生成時間一致性的視頻又十分重要。然而,一個區(qū)域內(nèi)的像素有可能關(guān)注到外部或者相似的區(qū)域,這對于多粒度的視頻編輯造成了很大的挑戰(zhàn)。因此,需要去同時修改交叉和自注意力來讓每個像素或者文本embedding只關(guān)注到正確的區(qū)域。



為了實現(xiàn)上述目標(biāo),團隊提出**ST-Layout Attention (時空布局注意力機制),以一種unified的方式(即增強positive,減弱negative)來調(diào)節(jié)自注意力和交叉注意力。

具體來說,對于第i幀,他們修改Query-key對的condiation map:



調(diào)節(jié)交叉注意力(cross-attn)以實現(xiàn)文本到區(qū)域控制



在交叉注意力層中,文本特征作為key和value,與來自video latents的query特征進行交互。由于編輯目標(biāo)的外觀和位置與交叉注意力的權(quán)重分布密切相關(guān),團隊目標(biāo)是將每個實例的文本特征聚集到想要去編輯的位置。

如上圖右側(cè)所示,在增加positive value和減去negative value后,“Spiderman”的原始交叉注意力權(quán)重(例如 p)被放大并集中在左邊的人身上。而“polar bear”的權(quán)重則集中在右邊的人身上。這表明他們調(diào)節(jié)將每個局部文本提示的權(quán)重重新分配到目標(biāo)區(qū)域上,實現(xiàn)了精確的文本到多個區(qū)域的控制。

調(diào)節(jié)自注意力(self-attention)以保持特征分離



為了使T2I模型SD適應(yīng)T2V編輯,作者將整個視頻視為“一個更大的圖像”,用時空自注意力替換空間注意力。這增強了跨幀交互,并提供了更廣泛的視覺上下文。

然而,簡單的自注意力可能導(dǎo)致,模型關(guān)注不相關(guān)或相似的區(qū)域(例如,上圖底部,調(diào)節(jié)前左邊人的鼻子p同時關(guān)注到左右兩個人的鼻子),這會導(dǎo)致紋理混合。

為了解決這個問題,需要加強同一區(qū)域內(nèi)的正向關(guān)注,并限制不同區(qū)域之間的負向交互。

如上圖右側(cè)所示,在應(yīng)用自注意力調(diào)節(jié)后,來自左側(cè)人物鼻子的query特征(例如p)僅關(guān)注左側(cè)的人,避免了對右側(cè)的人關(guān)注。這表明,自注意力調(diào)節(jié)打破了擴散模型原有的類別級特征響應(yīng),確保了實例級甚至以上的特征分離。

實驗結(jié)果

VideoGrain視頻編輯結(jié)果

作者在涵蓋類別級、實例級和部分級編輯的視頻上評估了VideoGrain。

首先VideoGrain可以保持背景不變,單獨的修左邊的人和右邊的人,或者同時修改兩個人。

實例級別:VideoGrain對動物實例也同樣有效,兩個猴子可以被分別修改為泰迪熊和金毛犬。

在復(fù)雜的非剛性運動場景中,例如打羽毛球。以前的方法往往在處理這種非剛性運動時表現(xiàn)不佳,VideoGrain可以成功編輯。此外,該方法還可以多區(qū)域編輯,既可以編輯前景也可以編輯背景,在手推車場景中,背景變?yōu)椤吧种械暮希L滿苔蘚的石橋”。

部件級別:VideoGrain可以做到在將當(dāng)前人的身份修改為超人的同時,給超人加上墨鏡,這屬于新增加新的object。同時,也可以修改物體的原有部分屬性,比如小貓的頭改成橘色。

總體而言,對于多粒度編輯,VideoGrain表現(xiàn)出色。

定性和定量的比較

定性比較

下圖是VideoGrain與SOTA之間的比較,包括T2I和T2V方法的實例級和部分級編輯。



(1)部分級編輯:VideoGrain可以同時編輯太陽鏡和拳擊手套。ControlVideo編輯了手套,但在太陽鏡和運動一致性方面表現(xiàn)不佳。TokenFlow和DMT只編輯了太陽鏡,但未能修改手套或背景。



(2)人類實例:所有基于T2I的方法都將兩個人都編輯成鋼鐵俠。VideoGrain則可以分別編輯,將左側(cè)人物變成鋼鐵俠,右側(cè)人物轉(zhuǎn)變?yōu)楹镒樱蚱屏巳祟愵悇e的限制。



(3)動物實例:即使是具有視頻生成先驗的DMT,也仍然將熊貓和貴賓犬的特征混合在一起。相比之下,VideoGrain成功地將一個編輯成熊貓,另一個編輯成貴賓犬。

定量比較



消融實驗

ST-Layout Attn的時間一致性:作為視頻的編輯方法,時空一致性一直是及其重要的一點,VideoGrain可以在準(zhǔn)確的編輯多個區(qū)域的情況下,充分的保證時間一致性,防止編輯目標(biāo)的紋理的抖動或者不穩(wěn)定。

定位概念+準(zhǔn)確編輯

和最近twitter上很火的concept attention不同,該方法可以在localize concept(定位概念)的同時實現(xiàn)編輯:

目前,VideoGrain的數(shù)據(jù)和所有代碼都已開源。

研究團隊表示,VideoGrain為擴散模型提供了新的視頻編輯范式,或?qū)⑼苿右曨l生成,擴散模型等領(lǐng)域以及視頻編輯軟件出現(xiàn)更多,好玩有趣的應(yīng)用。

目前,該團隊還在進一步的拓展視頻生成方向,比如音視頻的生成,視頻的切換視角生成,以及電影級的多人物有聲長視頻生成,歡迎工業(yè)界有資源的小伙伴合作與加入,共同探索視頻生成的未來。

論文鏈接:https://arxiv.org/abs/2502.17258
項目主頁:https://knightyxp.github.io/VideoGrain_project_page
Github:https://github.com/knightyxp/VideoGrain

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
小伙在丈母娘家跳樓身亡,年僅26歲,剛結(jié)婚一年,母親透露細節(jié)

小伙在丈母娘家跳樓身亡,年僅26歲,剛結(jié)婚一年,母親透露細節(jié)

深析古今
2025-04-09 13:59:13
“令人震驚、史無前例”!美媒爆:美政府將6000多名仍在世合法身份移民列入死亡人口數(shù)據(jù)庫

“令人震驚、史無前例”!美媒爆:美政府將6000多名仍在世合法身份移民列入死亡人口數(shù)據(jù)庫

環(huán)球網(wǎng)資訊
2025-04-11 22:05:13
52歲演員牛莉,肥乳厚臀,豐腴圓潤的身材,微胖的曲線更有女人味

52歲演員牛莉,肥乳厚臀,豐腴圓潤的身材,微胖的曲線更有女人味

星辰生肖館
2025-03-09 04:55:03
這就是惹怒中方的下場!見沒機會訪華,美國任命了亞太“一把手”

這就是惹怒中方的下場!見沒機會訪華,美國任命了亞太“一把手”

雷霆亮劍
2025-04-07 17:48:56
快船險翻車,勇士完勝,NBA西部最新排名出爐,湖人鎖定第三!

快船險翻車,勇士完勝,NBA西部最新排名出爐,湖人鎖定第三!

漣漪讀史
2025-04-12 13:40:27
大勢已去!一個銀行朋友給我的警告:手中有存款的人需緊急準(zhǔn)備

大勢已去!一個銀行朋友給我的警告:手中有存款的人需緊急準(zhǔn)備

涵豆說歷史
2025-03-03 17:11:46
超600枚核彈頭,平均三天生產(chǎn)一枚?中國擴核速度,遠超美國預(yù)期

超600枚核彈頭,平均三天生產(chǎn)一枚?中國擴核速度,遠超美國預(yù)期

阿傖說事
2025-04-12 13:08:11
東莞20年:親眼目睹工廠女工的性生活,她們的孤獨壓抑和肆意歡歌

東莞20年:親眼目睹工廠女工的性生活,她們的孤獨壓抑和肆意歡歌

農(nóng)村情感故事
2025-04-06 20:07:35
輪休2場挖掘3將,火箭隊三陣中鋒8+6,28歲鋒線0分辜負烏度卡信任

輪休2場挖掘3將,火箭隊三陣中鋒8+6,28歲鋒線0分辜負烏度卡信任

替補席看球
2025-04-12 13:05:28
雷蒙多:中國是個大難題,但所有領(lǐng)先的芯片客戶,都是美國人

雷蒙多:中國是個大難題,但所有領(lǐng)先的芯片客戶,都是美國人

近史談
2025-04-11 18:29:07
2025年身份證換證潮來襲,各年齡段必看指南,別錯過“黃金期”

2025年身份證換證潮來襲,各年齡段必看指南,別錯過“黃金期”

錘不倒的拖油瓶
2025-04-12 07:08:08
北京一戶人家曬出89平的家,堅持?jǐn)嗌犭x,全屋一塵不染太干凈!

北京一戶人家曬出89平的家,堅持?jǐn)嗌犭x,全屋一塵不染太干凈!

一起讀裝修
2025-04-10 22:03:10
個人職業(yè)生涯首次!約基奇成為NBA歷史上首位獲得場均三雙的中鋒

個人職業(yè)生涯首次!約基奇成為NBA歷史上首位獲得場均三雙的中鋒

雷速體育
2025-04-12 10:52:56
女人愛聽的二個“稱呼”,男人喊得越多,她越愛你

女人愛聽的二個“稱呼”,男人喊得越多,她越愛你

伊人河畔
2025-04-12 11:17:24
無錫一個中石化加油站整體拍賣,被剛成立5天的公司2653萬競得

無錫一個中石化加油站整體拍賣,被剛成立5天的公司2653萬競得

天天話事
2025-04-12 10:24:18
事態(tài)升級!葉海洋前女友再發(fā)文,曝二女兒是小助理生的,內(nèi)幕流出

事態(tài)升級!葉海洋前女友再發(fā)文,曝二女兒是小助理生的,內(nèi)幕流出

野山歷史
2025-04-11 14:20:34
追夢:快船是一支陣容完整的強隊 小卡狀態(tài)極佳&是熟悉的他

追夢:快船是一支陣容完整的強隊 小卡狀態(tài)極佳&是熟悉的他

直播吧
2025-04-12 14:04:11
美國3月份雞蛋價格達歷史新高 12個約合46元人民幣

美國3月份雞蛋價格達歷史新高 12個約合46元人民幣

財聯(lián)社
2025-04-11 11:07:15
關(guān)稅暴漲150%?中國會怕?外交部公布毛主席講話視頻,特朗普聽好

關(guān)稅暴漲150%?中國會怕?外交部公布毛主席講話視頻,特朗普聽好

說天說地說實事
2025-04-11 20:55:47
在大學(xué)里,看背影就知道誰是“富養(yǎng)女”,一張照片令人看清現(xiàn)實

在大學(xué)里,看背影就知道誰是“富養(yǎng)女”,一張照片令人看清現(xiàn)實

妍妍教育日記
2024-12-26 17:16:41
2025-04-12 14:48:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10303文章數(shù) 176094關(guān)注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

媒體:中國元首將應(yīng)邀訪問越南 不僅是外交方面的事情

頭條要聞

媒體:中國元首將應(yīng)邀訪問越南 不僅是外交方面的事情

體育要聞

當(dāng)意甲冠軍跌入意乙降級區(qū) 老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經(jīng)要聞

造假累計數(shù)百億 揭秘東旭集團造假手法

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態(tài)度原創(chuàng)

本地
數(shù)碼
時尚
親子
公開課

本地新聞

華北將迎“歷史罕見”大風(fēng)

數(shù)碼要聞

平價顯卡不遠了!RTX 5070在英國首次低于定價銷售

才女光環(huán)沒了,上《浪姐6》被罵上熱搜:她終于裝不下去了!

親子要聞

媽媽分享家里的三胞胎,出門總是被誤會是生了三胎。

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 定西市| 灌阳县| 霞浦县| 临沭县| 蒙阴县| 泾阳县| 义乌市| 托里县| 朝阳市| 民县| 峨眉山市| 米脂县| 皋兰县| 贵州省| 慈利县| 中牟县| 湖北省| 西峡县| 海安县| 乐安县| 象山县| 彩票| 镇巴县| 炉霍县| 沂源县| 舟山市| 手游| 安阳县| 晋城| 鹤庆县| 耒阳市| 香港 | 郎溪县| 南京市| 英超| 江川县| 原阳县| 安宁市| 上犹县| 嘉义县| 商城县|