網易首頁 > 網易號 > 正文申請入駐

AI視覺圖靈時代來了！字節OmniHuman，一張圖配上音頻生成視頻

2025-02-05 17:10:00　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

機器之心編輯部

還記得半年前在 X 上引起熱議的肖像音頻驅動技術 Loopy 嗎？升級版技術方案來了，字節跳動數字人團隊推出了新的多模態數字人方案 OmniHuman, 其可以對任意尺寸和人物占比的單張圖片結合一段輸入的音頻進行視頻生成，生成的人物視頻效果生動，具有非常高的自然度。

如對下面圖片和音頻：

音頻鏈接：

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

OmniHuman 生成的人物可以在視頻中自然運動：

視頻鏈接：

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

從項目主頁上可以看到 OmniHuman 對肖像、半身以及全身這些不同人物占比、不同圖片尺寸的輸入都可以通過單個模型進行支持，人物可以在視頻中生成和音頻匹配的動作，包括演講、唱歌、樂器演奏以及移動。對于人物視頻生成中常見的手勢崩壞，也相比現有的方法有顯著的改善。

視頻鏈接：

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

作者也展示模型對非真人圖片輸入的支持，可以看到對動漫、3D 卡通的支持也很不錯，能保持特定風格原有的運動模式。據悉，該技術方案已落地即夢 AI，相關功能將于近期開啟測試。

視頻鏈接：

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

更多細節和展示效果，請查看：

論文項目主頁：https://omnihuman-lab.github.io/
技術報告：https://arxiv.org/abs/2502.01061

研究問題

基于擴散 Transformer（DiT）的視頻生成模型通過海量視頻 - 文本數據訓練，已能輸出逼真的通用視頻內容。其核心優勢在于從大規模數據中學習到的強大通用知識，使模型在推理時展現出優異的泛化能力。在細分的人像動畫領域，現有技術主要聚焦兩類任務：音頻驅動的面部生成（如語音口型同步）和姿勢驅動的身體運動合成（如舞蹈動作生成）。2023 年后端到端訓練方案的突破，使得現有技術方案通常能夠對具有固定尺寸和人像比例的輸入圖像生成動畫，實現精準的口型同步與微表情捕捉。

然而，技術瓶頸日益凸顯：當前模型依賴高度過濾的訓練數據（如固定構圖、純語音片段），雖保障了訓練穩定性，卻引發 "溫室效應"— 模型僅在受限場景（如固定構圖、真人形象）中表現良好，難以適應不同畫面比例、多樣化風格等復雜輸入。更嚴重的是，現有數據清洗機制在排除干擾因素時，往往也丟失了大量有價值的數據，導致生成效果自然度低、質量差。

這種困境導致技術路線陷入兩難：直接擴大數據規模會因訓練目標模糊（如音頻信號與肢體運動的弱相關性）導致模型性能下降；而維持嚴格篩選策略又難以突破場景限制。如何既能保留有效運動模式學習，又能從大數據規模學習中受益成為當前研究重點。

技術方案

據技術報告，OmniHuman，面向端到端人像驅動任務中高質量數據稀缺的問題，采用了一種 Omni-Conditions Training 的混合多模態訓練策略，并相應的設計了一個 OmniHuman 模型，通過這種混合多模態訓練的設計，可以將多種模態的數據一起加入模型進行訓練，從而大幅度的增加了人像驅動模型的可訓練數據，使得模型可以從大規模數據中受益，對各種類似的輸入形式有了比較好的支持。

Omni-Conditions Training.在模型訓練過程中，作者將多種模態按照和運動的相關性進行區分，依序進行混合條件訓練。這個多模態訓練遵循兩個原則：

原則 1: 較強條件的任務可以利用較弱條件的任務及其數據來擴展訓練數據規模。例如，由于口型同步準確性、姿態可見性和穩定性等過濾標準，音頻和姿態條件任務中排除的數據可以用于文本和圖像條件任務。因此，在早期階段舍棄音頻和姿態條件，在后期逐步加入。

原則 2: 條件越強，訓練比例應越低。較強的運動相關條件（如姿態）由于歧義較少，訓練效果通常優于較弱的條件（如音頻）。當兩種條件同時存在時，模型傾向于依賴較強條件進行運動生成，導致較弱條件無法有效學習。因此，需要確保較弱條件的訓練比例高于較強條件。

基于以上原則設計他們構建了多個階段的訓練過程，依次增加文本、圖像、音頻以及姿態模態參與模型訓練，并降低對應的訓練占比。

OmniHuman 技術框架圖

Omni-Conditions Model.除了 Omni-Conditions Training 訓練策略以外，OmniHuman 采用了基于 DiT 架構的視頻生成框架，使得模型兼容多種模態的條件注入方式，包括文本、圖像、音頻和姿態，多模態的條件被區分為兩類：驅動條件和外觀條件。

對于驅動條件，作者對音頻特征通過 cross attention 實現條件注入，對于姿態特征通過 Heatmap 特征編碼后和 Noise 特征進行拼接實現條件注入，對于文本特征，則保持了 MMDiT 的條件注入方式。

對于外觀條件，作者沒有像現有工作一樣采用一個單獨的參考圖網絡 (Reference Net)，而是直接利用去噪聲網絡 (Denoising Net) 對輸入圖像進行特征編碼，復用了 backbone 的特征提取方式，參考圖特征會和 Noise 特征進行拼接實現條件注入

效果對比

作者給出了和目前行業領先的方案的效果對比，通過單個模型同時對比了針對不同人物占比的專有模型，仍然可以取得顯著的整體效果優勢。

除了數值分析以外，作者也分析基于 Omni-Conditions Training 可以改善在人體手勢生成、多樣性輸入圖像上的視頻生成效果，并展示了混合多模態訓練可以使得單個模型同時兼容多種模態驅動，生成可控的生動人像視頻的例子。

結論

OmniHuman 是一個端到端的多模態條件人像視頻生成框架，能夠基于單張圖像和運動信號（如音頻、視頻或兩者）生成人像動畫視頻。它提出了一個多模態混合訓練的技術方案，并調研了具體的訓練策略，設計了相應的多模態混合控制的人像視頻生成模型，從而克服了以往方法面臨的高質量數據稀缺問題，從大規模數據訓練中受益，學習自然的運動模式。OmniHuman 顯著優于現有方法，能夠從弱信號（尤其是音頻）生成生動的人類視頻。它支持任意縱橫比的圖像（如肖像、半身或全身），在各種場景下提供生動、高質量的結果。

團隊介紹

字節跳動智能創作數字人團隊，智能創作是字節跳動 AI & 多媒體技術中臺，通過建設領先的計算機視覺、音視頻編輯、特效處理等技術，支持抖音、剪映、頭條等公司內眾多產品線；同時為外部 ToB 合作伙伴提供業界最前沿的智能創作能力與行業解決方案。其中數字人方向專注于建設行業領先的數字人生成和驅動技術，豐富智能創作內容生態。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.