本文由加拿大滑鐵盧大學魏聰、陳文虎教授團隊與 Meta GenAI 共同完成。第一作者魏聰為加拿大滑鐵盧大學計算機科學系二年級博士生,導師為陳文虎教授,陳文虎教授為通訊作者。
近年來,視頻生成技術在動作真實性方面取得了顯著進展,但在角色驅動的敘事生成這一關鍵任務上仍存在不足,限制了其在自動化影視制作與動畫創作中的應用潛力。現有方法多聚焦于Talking Head場景,僅生成面部區域,且高度依賴輔助條件(如首幀圖像或精確關鍵點),導致生成內容在動作幅度與連貫性方面受限,難以展現自然流暢的全身動態與豐富的對話場景。此外,已有方法通常僅支持單角色說話,無法滿足多角色對話與交互的生成需求。
為此,研究團隊提出了MoCha,首個面向Talking Characters任務的視頻生成方法,致力于僅基于語音(Speech)與文本 (text) 輸入,直接生成完整角色的對話視頻,無需依賴任何輔助信號,突破了現有技術僅限于面部區域生成(Talking Head)及動作受限的局限,為自動化敘事視頻生成提供了全新解決方案。
該方法面向角色近景至中景(close shot to medium shot)的全身區域,支持一個或多個人物在多輪對話場景中的動態交互。為實現語音與視頻內容的精準同步,MoCha 設計了Speech-Video Window Attention機制,有效對齊語音與視頻的時序特征,確保角色口型與身體動作的一致性。同時,針對大規模語音標注視頻數據稀缺的問題,研究團隊提出了聯合訓練策略,充分利用語音標注與文本標注的視頻數據,顯著提升了模型在多樣角色動作與對話內容下的泛化能力。此外,團隊創新性地設計了結構化提示模板,引入角色標簽,使 MoCha 首次實現了多角色、多輪對話的生成,能夠驅動 AI 角色在上下文連貫的場景中展開具備電影敘事性的對話。通過大量定性與定量實驗,包括用戶偏好調研與基準對比,研究團隊驗證了 MoCha 在真實感、表現力、可控性與泛化性方面的領先性能,為 AI 驅動的電影敘事生成樹立了新標桿。
- 論文鏈接:https://arxiv.org/pdf/2503.23307
- Hugging face 論文地址:https://huggingface.co/papers/2503.23307
- 項目地址:https://congwei1230.github.io/MoCha/
目前,該研究在 X 平臺上引起了廣泛的關注與討論,相關熱帖已經有一百多萬的瀏覽量。
性能展示
MoCha 能夠實現基于角色對話驅動的敘事視頻生成。以下為研究團隊基于 MoCha 生成的視頻樣例,并通過簡單剪輯制作成宣傳視頻,以展示未來自動化電影生成的可行性與潛力。
MoCha 能夠生成 高度準確的唇動同步效果,展現出精細的語音 - 視頻對齊能力。
情緒可控性:MoCha能夠根據輸入文本靈活控制角色情緒,自動生成符合語境的角色表情與情緒動作,同時保證 唇動同步 與 面部表情與上下文的一致性。
動作可控性:MoCha支持通過文本提示靈活控制角色動作,生成符合語境的動態表現,同時確保 唇動同步 與 面部表情與上下文的協調性。
Zero-shot中文對話生成(無間道臺詞):盡管MoCha未在中文語音數據上進行訓練,模型仍展現出良好的跨語言泛化能力,能夠生成同步較為自然的中文對話視頻。
多角色對話生成:MoCha支持多角色對話生成,能夠在單角色發言時,保證所角色的動作與表現合理連貫,整體對話場景保持視覺一致性與敘事連貫性。
多角色多輪對話生成:MoCha支持多角色、多輪對話(Turn-based Dialog)生成,能夠實現鏡頭切換與多角色動態對話的自然銜接,突破現有方法僅支持單角色發言的局限,生成具有鏡頭語言與劇情連貫性的復雜對話視頻。
核心方法
下圖展示了 MoCha 的整體框架。
端到端訓練,無需輔助條件:與現有方法(如 EMO、OmniHuman-1、SONIC、Echomimicv2、Loopy 和 Hallo3)不同,這些方法通常依賴參考圖像、骨骼姿態或關鍵點等外部控制信號,MoCha實現了 完全基于語音與文本的端到端訓練,無需任何輔助條件。這一設計有效簡化了模型架構,同時顯著提升了動作多樣性與泛化能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.