本文由南洋理工大學(xué)和商湯科技聯(lián)合完成。第一作者楊沛青為南洋理工大學(xué) MMLab@NTU 在讀博士生,在 CVPR、NeurIPS、IJCV 等國(guó)際頂級(jí)會(huì)議與期刊上發(fā)表多篇研究成果。項(xiàng)目負(fù)責(zé)作者為該校研究助理教授周尚辰和校長(zhǎng)講席教授呂建勤。
視頻人物摳像技術(shù)在電影、游戲、短視頻制作和實(shí)時(shí)視頻通訊中具有廣泛的應(yīng)用價(jià)值,但面對(duì)復(fù)雜背景和多目標(biāo)干擾時(shí),如何實(shí)現(xiàn)一套兼顧發(fā)絲級(jí)細(xì)節(jié)精度及分割級(jí)語(yǔ)義穩(wěn)定的視頻摳圖系統(tǒng),始終是個(gè)挑戰(zhàn)。
來自南洋理工大學(xué) S-Lab 與商湯科技的研究團(tuán)隊(duì)最新提出了一個(gè)高效、穩(wěn)定、實(shí)用的視頻摳圖新方法 ——MatAnyone。與傳統(tǒng)無輔助方法不同,MatAnyone 提出一種基于記憶傳播的「目標(biāo)指定型」視頻摳像方法:只需在第一幀通過人物遮罩指定摳像目標(biāo),即可在整個(gè)視頻中實(shí)現(xiàn)穩(wěn)定、高質(zhì)量的目標(biāo)提取。
- 論文標(biāo)題:MatAnyone: Stable Video Matting with Consistent Memory Propagation
- 論文鏈接:https://arxiv.org/abs/2501.14677
- 視頻:https://youtu.be/oih0Zk-UW18
- 代碼:https://github.com/pq-yang/MatAnyone
- 網(wǎng)頁(yè):https://pq-yang.github.io/projects/MatAnyone/
MatAnyone 一經(jīng)發(fā)布在社交媒體上獲得了大眾的討論和關(guān)注,其核心亮點(diǎn)總結(jié)如下:
- 快速摳圖,目標(biāo)可控
僅需首幀目標(biāo)指定,無需額外輔助信息,支持靈活定義摳圖對(duì)象,滿足多場(chǎng)景需求。
- 穩(wěn)定跟蹤,全程不抖
創(chuàng)新 “區(qū)域自適應(yīng)記憶融合” 機(jī)制,有效保持目標(biāo)一致性,實(shí)現(xiàn)長(zhǎng)視頻中的穩(wěn)定人像跟蹤。
- 細(xì)節(jié)出眾,發(fā)絲級(jí)還原
融合真實(shí)分割數(shù)據(jù)與高質(zhì)量新數(shù)據(jù)集,邊界處理自然平滑,摳圖效果更貼近真實(shí)。
「目標(biāo)指定型」:更貼近真實(shí)使用場(chǎng)景
目前主流的視頻摳圖方法根據(jù) “除輸入視頻外是否有其他輔助輸入” 這一條件可以分為兩類:
- 無輔助型方法(如 RVM):用戶只需上傳輸入視頻即可。
- 輔助引導(dǎo)型方法(如 MaGGIe):除輸入視頻外,用戶需通過如三分掩膜(trimap)或分割掩膜(segmentation mask)等方式在一幀或多幀指定摳像目標(biāo)。
無輔助型方法雖然方便,但是由于主體目標(biāo)不明確,在真實(shí)使用場(chǎng)景中容易出現(xiàn)影響實(shí)際使用的錯(cuò)摳、漏摳等現(xiàn)象。
- 【場(chǎng)景一】前景存在多個(gè)主要人物:在實(shí)際應(yīng)用中,很可能出現(xiàn)的需求是單獨(dú)摳出其中特定一位,合成到另外場(chǎng)景中制作視頻,無輔助型方法不能實(shí)現(xiàn)目標(biāo)的指定,導(dǎo)致輸出的結(jié)果無法直接投入使用。
- 【場(chǎng)景二】背景存在混淆人物:即使前景只存在一位主體人物,背景中來來往往的行人往往會(huì) “混淆視聽”,尤其是行人路過前景人物時(shí),無輔助型方法往往會(huì)把背景行人的肢體也一并摳出,使輸出結(jié)果不夠準(zhǔn)確干凈。
因此,為了讓視頻摳像技術(shù)能被更好地使用,MatAnyone 選擇了輔助引導(dǎo)型的設(shè)定,并專注解決的是這樣一個(gè)場(chǎng)景:
「設(shè)定主角,其他交給模型」:給定目標(biāo)人物在第一幀的掩膜,后續(xù)的摳像自動(dòng)鎖定目標(biāo)完成。無需逐幀修正,準(zhǔn)確、自然、連貫地?fù)赋稣我曨l。
這種設(shè)置既兼顧用戶可控性,又具有更強(qiáng)的實(shí)用性和魯棒性,是當(dāng)前視頻編輯領(lǐng)域最具潛力的落地方案之一。
面向「視頻摳圖」任務(wù):記憶傳播與訓(xùn)練策略的新范式
任務(wù)對(duì)比:「視頻摳圖」比「視頻分割」更難一層
雖然 “目標(biāo)指定型” 的任務(wù)設(shè)定在視頻目標(biāo)分割(Video Object Segmentation, VOS)中已經(jīng)被廣泛研究,通常被稱為 “半監(jiān)督” 分割(即只給第一幀的掩膜),但視頻摳圖(Video Matting, VM)的難度卻更進(jìn)一步。
在 VOS 中,模型的任務(wù)為“是 / 否為目標(biāo)前景” 的二值判斷題;而在 VM 中,基于這個(gè)語(yǔ)義判斷,模型還需預(yù)測(cè)目標(biāo)前景在每個(gè)像素點(diǎn)上的 “透明度(alpha)”—— 這不僅要求核心區(qū)域的語(yǔ)義精準(zhǔn),更要求邊界細(xì)節(jié)的提?。ㄈ绨l(fā)絲、衣角的半透明過渡)。
MatAnyone 正是在這一背景下提出了面向視頻摳圖任務(wù)的全新記憶傳播與訓(xùn)練策略,在達(dá)到分割級(jí)語(yǔ)義穩(wěn)定的基礎(chǔ)上進(jìn)一步實(shí)現(xiàn)了發(fā)絲級(jí)細(xì)節(jié)精度。
1. 一致性記憶傳播機(jī)制:Matting 專屬的 “記憶力”
相比靜態(tài)圖像摳圖,視頻摳圖面臨更大的挑戰(zhàn),不僅需要逐幀生成高質(zhì)量的透明通道( alpha matte),還必須確保前后幀之間的時(shí)序一致性,否則就會(huì)出現(xiàn)閃爍、跳變等明顯視覺問題。為此,MatAnyone 借鑒視頻分割中的記憶機(jī)制,在此基礎(chǔ)上提出了專為視頻摳圖設(shè)計(jì)的一致性記憶傳播機(jī)制(Consistent Memory Propagation)。
區(qū)域自適應(yīng)融合記憶(Region-Adaptive Fusion)
模型會(huì)在每一幀中預(yù)測(cè)哪些區(qū)域與上一幀差異較大(如身體邊緣),哪些區(qū)域變化很小(如身體主干),并分別處理:
- 對(duì)于變化幅度較大的區(qū)域(通常出現(xiàn)在目標(biāo)邊緣,如頭發(fā)、衣擺),模型更依賴當(dāng)前幀從記憶庫(kù)中檢索到的記憶信息;
- 而對(duì)變化較小的區(qū)域(如身體內(nèi)部),則更多保留上一幀的記憶信息,避免重復(fù)建模,減少誤差傳播。
邊界細(xì)節(jié)增強(qiáng),核心區(qū)域穩(wěn)定
這種區(qū)域感知式的信息融合方式,在訓(xùn)練階段引導(dǎo)模型更專注于細(xì)節(jié)邊界,在推理階段則提升了語(yǔ)義穩(wěn)定性與時(shí)間一致性。尤其在復(fù)雜背景或人物交互頻繁的場(chǎng)景下,MatAnyone 能夠穩(wěn)準(zhǔn)地識(shí)別目標(biāo)、摳出清晰自然的邊緣效果,極大提升了視頻摳圖的可用性與觀感質(zhì)量。
2. 共頭監(jiān)督策略:讓分割數(shù)據(jù) “真正為摳圖所用”
一直以來,「視頻摳圖」的一個(gè)核心難點(diǎn)始終是真實(shí)訓(xùn)練數(shù)據(jù)的缺失。相較于「視頻分割」在真實(shí)數(shù)據(jù)上的標(biāo)注成本,「視頻摳圖」所需要的帶透明度標(biāo)注的數(shù)據(jù)格外昂貴,這限制了模型在穩(wěn)定性與泛化能力上的進(jìn)一步提升。
在真實(shí)透明度數(shù)據(jù)稀缺的背景下,Video Matting 模型往往會(huì)引入大量真實(shí)分割數(shù)據(jù)進(jìn)行輔助訓(xùn)練,以提升模型在復(fù)雜環(huán)境中的穩(wěn)定性和泛化能力。
- 傳統(tǒng)做法通常采用 “平行預(yù)測(cè)頭” 結(jié)構(gòu):在輸出層增加一個(gè)僅用于訓(xùn)練階段的分割頭,用于分割數(shù)據(jù)的監(jiān)督,而摳圖主頭則僅由合成摳圖數(shù)據(jù)驅(qū)動(dòng)。
這種結(jié)構(gòu)雖然能一定程度引入語(yǔ)義信息對(duì)摳圖頭的監(jiān)督,但其不直接的監(jiān)督方式導(dǎo)致語(yǔ)義信息在特征傳播過程中被稀釋,無法充分發(fā)揮分割數(shù)據(jù)對(duì)提升穩(wěn)定性的優(yōu)勢(shì)。
- MatAnyone 提出了結(jié)構(gòu)創(chuàng)新的 “共頭監(jiān)督策略”:拋棄 “平行預(yù)測(cè)頭”,直接將真實(shí)分割數(shù)據(jù)引入摳圖主頭進(jìn)行訓(xùn)練,讓所有數(shù)據(jù)源在同一個(gè)通道上對(duì)模型進(jìn)行統(tǒng)一監(jiān)督。
這種方式極大提高了語(yǔ)義信息的共享效率,也最大程度地利用了真實(shí)分割數(shù)據(jù)對(duì)透明通道預(yù)測(cè)的泛化性和穩(wěn)定性的提升。
具體操作上:
- 在核心區(qū)域,使用分割掩膜進(jìn)行逐像素監(jiān)督,確保模型對(duì)語(yǔ)義結(jié)構(gòu)的穩(wěn)定理解;
- 在邊界區(qū)域,引入改進(jìn)版的 DDC 損失(Scaled DDC Loss),即便分割數(shù)據(jù)沒有 alpha 標(biāo)簽,也能通過圖像結(jié)構(gòu)引導(dǎo)模型生成過渡自然的邊緣。
這一策略的核心優(yōu)勢(shì)在于:讓分割數(shù)據(jù) “真正服務(wù)于摳圖任務(wù)本身”,而非僅僅提供輔助信號(hào)。
3. 自建高質(zhì)數(shù)據(jù)集:訓(xùn)練更穩(wěn),評(píng)估更難
高質(zhì)量的數(shù)據(jù)始終是訓(xùn)練穩(wěn)定、泛化強(qiáng)的視頻摳圖模型的基礎(chǔ)。針對(duì)現(xiàn)有數(shù)據(jù)集在規(guī)模、細(xì)節(jié)和多樣性上的不足,MatAnyone 團(tuán)隊(duì)自建了兩套關(guān)鍵數(shù)據(jù)資源:
- VM800 訓(xùn)練集:相較于主流的 VideoMatte240K,VM800 的規(guī)模翻倍,覆蓋更多發(fā)型、服飾和運(yùn)動(dòng)狀態(tài),在核心區(qū)域和邊界區(qū)域的質(zhì)量都顯著提升,有效增強(qiáng)了模型在摳圖任務(wù)中的魯棒性;
- YouTubeMatte 測(cè)試集:相較于主流的 VideoMatte240K 測(cè)試集,我們構(gòu)建了一個(gè)前景更加多樣的測(cè)試集,并且在合成前后景的過程中進(jìn)行了和諧化的后處理,使其更加貼近真實(shí)分布,有效提高了該測(cè)試集的難度。
這兩套數(shù)據(jù)集為 MatAnyone 提供了扎實(shí)的訓(xùn)練基礎(chǔ)與更貼近真實(shí)世界的驗(yàn)證標(biāo)準(zhǔn),在推動(dòng)模型性能提升的同時(shí),也為未來視頻摳圖研究提供了更具挑戰(zhàn)性的新 benchmark。
多場(chǎng)景適用性:靈活應(yīng)對(duì)多類應(yīng)用場(chǎng)景
MatAnyone 在模型設(shè)計(jì)與推理機(jī)制上的靈活性,使其具備良好的任務(wù)泛化能力,能夠適配多種實(shí)際視頻處理場(chǎng)景(更多例子請(qǐng)移步主頁(yè)):
通用視頻摳圖(General Matting):適用于短視頻剪輯、直播背景替換、電影 / 廣告 / 游戲后期等常見場(chǎng)景,僅需第一幀提供目標(biāo)掩膜,后續(xù)幀即可自動(dòng)完成穩(wěn)定摳圖,具備邊界清晰、背景干凈、跨幀一致性強(qiáng)的優(yōu)勢(shì)。
視頻詳情:https://mp.weixin.qq.com/s/CbmtljvBnzri60nrQIvJjA
視頻詳情:https://mp.weixin.qq.com/s/CbmtljvBnzri60nrQIvJjA
視頻詳情:https://mp.weixin.qq.com/s/CbmtljvBnzri60nrQIvJjA
實(shí)例摳圖(Instance Matting):面對(duì)多人物或復(fù)雜背景的視頻內(nèi)容,MatAnyone 支持通過第一幀掩膜指定目標(biāo)對(duì)象,進(jìn)行后續(xù)穩(wěn)定追蹤與摳圖,有效避免目標(biāo)混淆或漂移,適合虛擬人剪輯、人物聚焦等實(shí)例級(jí)編輯任務(wù)。
視頻詳情:https://mp.weixin.qq.com/s/CbmtljvBnzri60nrQIvJjA
推理階段增強(qiáng)(Iterative Refinement):對(duì)于高精度場(chǎng)景,如廣告制作、影視后期等,MatAnyone 提供可選的首幀迭代優(yōu)化機(jī)制,通過多輪推理精細(xì)化第一幀alpha matte,從而進(jìn)一步提升整段視頻的細(xì)節(jié)還原與邊界自然度。
視頻詳情:https://mp.weixin.qq.com/s/CbmtljvBnzri60nrQIvJjA
實(shí)驗(yàn)結(jié)果:領(lǐng)先的細(xì)節(jié)質(zhì)量與時(shí)序穩(wěn)定
為了系統(tǒng)評(píng)估 MatAnyone 在視頻摳圖任務(wù)中的綜合表現(xiàn),我們從定性與定量?jī)蓚€(gè)角度進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果顯示 MatAnyone 在精度、穩(wěn)定性與視覺質(zhì)量等多個(gè)維度均優(yōu)于現(xiàn)有主流無輔助型及輔助引導(dǎo)型方法。
定性評(píng)估(Qualitative)
在真實(shí)視頻案例中,我們展示了 MatAnyone 與現(xiàn)有方法 RVM、FTP-VM、MaGGIe 的可視化對(duì)比。結(jié)果表明,MatAnyone 能夠更準(zhǔn)確地提取目標(biāo)人物輪廓,尤其是在人物動(dòng)作劇烈或背景復(fù)雜的情況下,依然能保持頭發(fā)、邊緣衣物等細(xì)節(jié)的清晰度,并有效避免背景穿透與邊界斷裂等常見問題。同時(shí),它也具備更強(qiáng)的實(shí)例區(qū)分能力,即使畫面中存在多個(gè)顯著人物,也能準(zhǔn)確鎖定目標(biāo)對(duì)象并保持一致跟蹤。
定量評(píng)估(Quantitative)
在合成數(shù)據(jù)集 VideoMatte 和自建的 YouTubeMatte 上,我們使用五個(gè)關(guān)鍵指標(biāo)對(duì)各方法進(jìn)行全面評(píng)估:
- MAD(Mean Absolute Difference)與 MSE(Mean Squared Error)用于衡量語(yǔ)義準(zhǔn)確性;
- Grad(Gradient)用于細(xì)節(jié)銳利度評(píng)估;
- Conn(Connectivity)代表整體視覺連貫性;
- dtSSD 則衡量跨幀間的時(shí)序一致性。
如 Table 1 所示,MatAnyone 在高、低分辨率的所有數(shù)據(jù)集上均取得最低的 MAD 和 dtSSD,表現(xiàn)出極高的語(yǔ)義穩(wěn)定性與時(shí)間一致性;同時(shí)在 Conn 指標(biāo)上也位居首位,驗(yàn)證了其在整體觀感和邊緣處理上的領(lǐng)先表現(xiàn)。
總結(jié)與展望
MatAnyone 是一套面向真實(shí)使用場(chǎng)景的人像視頻摳圖系統(tǒng),專注于在僅提供首幀目標(biāo)的前提下,實(shí)現(xiàn)語(yǔ)義穩(wěn)定且邊界精細(xì)的視頻級(jí)摳圖。根據(jù)「視頻摳圖」任務(wù)的特性,它引入了區(qū)域自適應(yīng)的記憶融合機(jī)制,在保持語(yǔ)義穩(wěn)定性的同時(shí),精細(xì)提取了頭發(fā)等細(xì)節(jié)區(qū)域。借助新構(gòu)建的 VM800 高質(zhì)量數(shù)據(jù)集與全新的訓(xùn)練策略,MatAnyone 顯著提升了在復(fù)雜背景下的摳圖穩(wěn)定性。
面對(duì)真實(shí)訓(xùn)練數(shù)據(jù)的制約,「視頻摳圖」任務(wù)仍然像是在 “戴著鐐銬跳舞”,當(dāng)前的效果雖有顯著突破,但仍有廣闊的提升空間。未來,我們團(tuán)隊(duì)將繼續(xù)探索更高效的訓(xùn)練策略、更泛化的數(shù)據(jù)構(gòu)建方式,以及更通用的記憶建模機(jī)制,推動(dòng)視頻摳圖技術(shù)在真實(shí)世界中實(shí)現(xiàn)更強(qiáng)魯棒性與更廣應(yīng)用性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.