第一作者、第二作者分別為復旦大學研究生涂樹源、邢楨,通訊作者為復旦大學吳祖煊副教授。
近年來,擴散模型在圖像與視頻合成領域展現出強大能力,為圖像動畫技術的發展帶來了新的契機。特別是在人物圖像動畫方面,該技術能夠基于一系列預設姿態驅動參考圖像,使其動態化,從而生成高度可控的人體動畫視頻。此類技術在多個應用場景中展現出巨大潛力,包括:(1)影視行業:為動畫制作提供高效解決方案,使虛擬角色的動畫生成更加精細與便捷。(2)游戲行業:賦予游戲角色和虛擬人物自然流暢的動作表現,增強交互體驗,使虛擬世界更加真實。(3)自媒體內容創作:助力短視頻創作者與數字藝術家拓展創意邊界,實現高度定制化的動態形象設計。
人像動畫生成的關鍵在于:基于參考圖像和輸入的動作序列合成動態視頻,同時確保人物身份特征(尤其是面部信息)的一致性。然而,現有方法在處理復雜動作變化時仍然面臨諸多挑戰:(1)身份一致性受損,面部區域在劇烈動作下易產生形變和失真,難以保持穩定的個體特征。(2)視頻質量下降,當前最先進的人像動畫生成模型(如 MimicMotion 和 ControlneXt)依賴外部換臉工具(FaceFusion)進行后處理,這種方式雖能改善局部細節,但往往降低整體視頻的視覺質量。(3)空間與時間建模的矛盾,即便已有眾多專注于身份一致性的圖像生成模型,直接將其嵌入視頻擴散模型卻常導致建模沖突。其根本原因在于,視頻擴散模型引入時間建模層后,原本穩定的空間特征分布被擾動,而基于圖像 的 ID 保護方法通常依賴于靜態的空間特征分布,這種失衡導致身份保持能力下降,并在 ID 還原與視頻流時序暢度之間產生難以調和的矛盾。
為了解決上述問題,我們提出了 StableAnimator 框架,以實現高質量和高保真的 ID 一致性人類視頻生成,目前代碼已開源,包括推理代碼和訓練代碼。
- 論文地址:https://arxiv.org/abs/2411.17697
- 項目主頁:https://francis-rings.github.io/StableAnimator/
- 項目代碼:https://github.com/Francis-Rings/StableAnimator
- 項目 Demo: https://www.bilibili.com/video/BV1X5zyYUEuD
方法簡介
如圖所示,StableAnimator 在 Stable Video Diffusion (SVD) 這一常用骨干模型的基礎上進行構建,以高效處理用戶輸入的參考圖像,生成符合輸入姿態序列的視頻。其關鍵流程包括三條并行的特征提取與融合路徑:(1)參考圖像首先通過凍結的 VAE 編碼器轉換為潛變量特征,這些特征被復制以匹配視頻幀數,并與主要潛變量拼接,以確保時序一致性。(2)圖像同時經過 CLIP 圖像編碼器,提取全局外觀嵌入,這些嵌入分別輸入至去噪 U-Net 的每個交叉注意力層以及 StableAnimator 專門設計的面部編碼器,以增強生成圖像的外觀一致性。(3)此外,圖像還經過 ArcFace 進行面部特征提取,生成的面部嵌入進一步由 StableAnimator 的面部編碼器優化,以提升面部對齊度和身份一致性,優化后的嵌入最終輸入至去噪 U-Net 以指導生成過程。同時,PoseNet 結構(類似于 AnimateAnyone)負責提取輸入姿態序列的運動特征,并將其添加至噪聲潛變量特征中,以確保生成視頻的姿態精準匹配輸入序列。
在推理階段,StableAnimator 采用去噪生成策略,將原始輸入視頻幀替換為隨機噪聲,同時保持其他輸入信息不變,以確保生成過程的靈活性和泛化能力。其核心創新在于引入了一種基于 Hamilton-Jacobi-Bellman(HJB)方程的面部優化方法,以提升身份一致性并徹底擺脫對外部換臉工具的依賴。具體而言,該方法將 HJB 方程的求解過程嵌入到去噪步驟中,通過計算 HJB 方程的最優解,引導 U-Net 在潛變量特征的分布調整上朝向更高的身份一致性方向收斂。這樣一來,去噪過程不僅僅是對隨機噪聲的純粹去除,更是一個動態優化過程,使生成的視頻在保持高質量的同時,實現面部特征的精準保留,從而在身份一致性與視頻保真度之間達到更優的平衡。
StableAnimator 的核心技術點包括以下三個方面:
(1)全局內容感知面部編碼器(Global Content-aware Face Encoder):該編碼器創新性地將面部特征與全局圖像布局深度融合,利用多層交叉注意力機制,使面部嵌入特征精準對齊參考圖像的整體上下文。通過這種方式,它有效過濾掉與身份無關的背景噪聲,確保面部建模更加穩定,從而提高面部特征的一致性和清晰度。
(2)分布感知的身份適配器(Distribution-aware ID Adapter):針對擴散模型中時序層對空間特征分布的干擾問題,該適配器引入了一種分布對齊策略。具體而言,它通過計算面部特征和全局圖像特征的均值與方差,確保二者在整個去噪過程中保持一致性,避免特征偏移和失真。該適配器的設計使得面部特征能夠無縫適配時序建模層,同時維持視頻整體的空間一致性和視覺質量。
(3)基于 Hamilton-Jacobi-Bellman (HJB) 方程的面部優化:此優化過程僅在推理階段激活,并不會影響 U-Net 的參數更新。StableAnimator 通過在擴散推理過程中引入 HJB 方程優化,使面部特征的調整遵循最優路徑選擇原則。HJB 優化過程與去噪步驟并行進行,使優化后的變量對去噪路徑施加約束,從而促使模型在生成過程中保留更高的身份一致性,同時顯著減少面部區域的細節損失,確保視頻的高質量輸出。
生成結果示例
請點擊訪問項目主頁(https://francis-rings.github.io/StableAnimator/)獲取以上示例的高清原視頻。
實驗對比分析
1. 與 SOTA 方法的定性對比實驗
現有方法在處理面部和身體變形以及服裝變化方面存在明顯局限。例如,Disco、MagicAnimate、AnimateAnyone 和 Champ 在姿態轉換過程中容易導致面部特征扭曲或服裝結構丟失,而 Unianimate 在動作匹配方面表現良好,能夠精準調整參考圖像的姿態,但仍難以保證身份一致性。同時,MimicMotion 和 ControlNeXt 在保留服裝細節方面具有優勢,但在身份特征一致性上仍然存在缺陷。相比之下,StableAnimator 通過精確建模姿勢序列驅動圖像動畫化,在動態生成過程中不僅保持了參考圖像的身份特征完整性,而且確保了生成結果的細節準確性和生動性,充分展現了在身份一致性和高質量動畫生成方面的顯著優勢。
2. 與 SOTA 方法的定量對比實驗
StableAnimator 在 TikTok 數據集和 Unseen100 數據集上與當前最先進(SOTA)的人像圖像動畫模型進行了定量對比。其中,Unseen100 數據集從主流視頻網站額外收集的 100 個視頻組成,相較于 TikTok 數據集,Unseen100 具有更復雜的動作信息和更精細的主體外觀,尤其是包含位置變化和面部表情動態變化(如搖頭動作),使得保持身份一致性更具挑戰性。為了確保公平性,所有模型均在 StableAnimator 的訓練集上進行訓練后,再在 Unseen100 上進行評估。對比實驗結果表明,StableAnimator 在面部質量(CSIM)和視頻保真度(FVD)方面均超越所有對比模型,同時保持了較高的單幀質量。特別是,相較于當前最優的 Unianimate,StableAnimator 在 TikTok 和 Unseen100 數據集上的 CSIM 分別提升了 36.9% 和 45.8%,而這一顯著的身份一致性提升并未以犧牲視頻保真度和單幀質量為代價,充分驗證了其在高質量人像動畫生成中的卓越性能。
3. 與 SOTA 方法在長視頻生成的對比實驗
視頻鏈接:https://mp.weixin.qq.com/s/qK3s-us2XeDv7phW83W5BQ
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.