機(jī)器之心報道
編輯:梓文
動作捕捉,剛剛發(fā)生了革命。
在 GPT-4o 的風(fēng)到處吹時,X 平臺(原推特)上有好多帶視頻的帖子爆了。到底是什么引來了一百萬的瀏覽量?
沒錯,是瑪麗蓮?夢露「活了過來」。她不僅能夠語音 — 口型保持一致,動作也能復(fù)刻參考示例。在大幅度的手臂擺動時,也不會出現(xiàn)嚴(yán)重的變形或虛影。
網(wǎng)友瞳孔震驚,「別告訴我,這些都是 AI 生成的......」
這兩段視頻更是 Next Level。相比夢露黑白視頻示例,他們所處的環(huán)境光影更具挑戰(zhàn)。仔細(xì)觀察,二者舉手投足都能看到光影相應(yīng)正確的變化,甚至灰色衣服男子的衣服在不同幅度的動作下有對應(yīng)擺動。
網(wǎng)友都感慨到,AI 真的很偉大,或許已經(jīng)爭取到了不再用動捕的勝利。
不僅還原度極高,它還能掌握不同風(fēng)格的生成。
本周四在網(wǎng)絡(luò)上爆火的 AI 視頻生成效果,都來自字節(jié)跳動提出的一個全新的框架 DreamActor-M1—— 基于擴(kuò)散式 Transformer(DiT)的人體動畫生成框架,通過混合引導(dǎo)機(jī)制,實現(xiàn)對動畫的精細(xì)化整體控制、多尺度適應(yīng)以及長時間一致性。
只需一張參考圖像,DreamActor-M1 就能模仿視頻中的人物行為,跨尺度生成從肖像到全身的高質(zhì)量、富有表現(xiàn)力且真實感十足的人體動畫。最終生成的視頻不僅在時間上保持連貫性,還能準(zhǔn)確保留人物身份特征,畫面細(xì)節(jié)也高度還原。
- 論文標(biāo)題: DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance
- 論文鏈接:https://arxiv.org/pdf/2504.01724
- 項目頁面:https://grisoon.github.io/DreamActor-M1/
我們先快速梳理一下這項研究的要點:
- 在運動引導(dǎo)方面,研究者設(shè)計了一套融合隱式面部特征、3D 頭部球體和 3D 身體骨架的混合控制信號,能夠穩(wěn)健地驅(qū)動面部表情與身體動作的生成,同時保證動畫的表現(xiàn)力與人物身份的一致性。
- 在尺度適應(yīng)方面,為了應(yīng)對從特寫肖像到全身圖像等不同尺度和姿態(tài)的變化,字節(jié)跳動采用了逐步訓(xùn)練策略,利用多分辨率、多比例的數(shù)據(jù)進(jìn)行訓(xùn)練,提升模型的泛化能力。
- 在外觀引導(dǎo)方面,他們將連續(xù)幀中的運動模式與互補(bǔ)的視覺參考相結(jié)合,有效增強(qiáng)了復(fù)雜動作中未顯區(qū)域的時間一致性。實驗結(jié)果表明,該方法在肖像、半身以及全身動畫生成任務(wù)中均優(yōu)于現(xiàn)有先進(jìn)技術(shù),能夠持續(xù)輸出富有表現(xiàn)力且長期穩(wěn)定的一致性動畫。
下圖概述了 DreamActor-M1 的總體流程:
首先,從驅(qū)動視頻的幀中提取出人體的骨架(表示姿勢)和頭部的球體(表示頭部的位置和朝向),這一步就像是先把人的動作「抽象出來」。接著,這些信息會被姿態(tài)編碼器的模塊處理,轉(zhuǎn)化為姿態(tài)潛變量。可以簡單理解為這個動作變成了數(shù)字表示。
同時,研究者還會從整個視頻中截取一小段,用 3D VAE 進(jìn)行編碼,得到視頻潛變量。這個潛變量是被加了噪聲的(也就是故意讓它模糊一點,方便訓(xùn)練)。然后,把視頻潛變量和先前得到的姿態(tài)潛變量融合在一起,作為輸入。
面部表情則面部動作編碼器單獨處理,把它編碼成隱式的面部信息,比如笑、皺眉這些表情特征,也用數(shù)字方式表示出來。
系統(tǒng)還可以選取輸入視頻中的一張或幾張圖像,作為參考圖像。這些圖像里包含了人物的外觀細(xì)節(jié),比如穿什么衣服、長什么樣。在訓(xùn)練時,這些參考圖像會作為額外的信息輸入,幫助模型更好地保留人物的外貌。
在訓(xùn)練過程中,DreamActor-M1 采用了共享權(quán)重的雙分支結(jié)構(gòu):一個處理噪聲 token,一個處理參考 token。模型通過對比生成的去噪視頻潛變量與真實視頻潛變量來進(jìn)行監(jiān)督學(xué)習(xí),從而逐步學(xué)會還原人物動作。
此外,在每個 DiT 模塊中,面部動作 token 通過跨注意力機(jī)制被融合進(jìn)噪聲 token 分支,而參考 token 的外觀信息則通過連接式自注意力和后續(xù)的跨注意力機(jī)制注入到噪聲 token 中。
在模型訓(xùn)練完之后,如何用它來生成一個帶動作的動畫視頻?生動來講,就是真人帶著模型跳舞,用一張人物圖片和一段動作視頻就能讓圖片中的人物動起來。敲敲黑板,為了保持人物在不同視角的一致性,參考圖可以使一張圖,也可以是模型合成的「偽多視角」。
對比其他 SOTA 方法,不難發(fā)現(xiàn),DreamActor-M1 有著更好的保真性。人物在動作過程中能更好地保留自身特征,也鮮有鬼影、變形的情況出現(xiàn)。
DreamActor-M1 與其他動畫方法在五項關(guān)鍵指標(biāo)上的定量對比實驗中也表現(xiàn)優(yōu)異。
不過在一些案例里,我們還是可以發(fā)現(xiàn)某些局限性。例如這個說唱的示例,由于視角問題,生成畫面中的嘴部動作沒法兒跟上示例。
不過,再給這些技術(shù)一段時間,可能不僅動捕慢慢會被取代,電影里的危險特技也能有方法代替了
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.