99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI視覺圖靈時代來了!字節OmniHuman,一張圖配上音頻生成視頻

0
分享至

機器之心發布

機器之心編輯部

還記得半年前在 X 上引起熱議的肖像音頻驅動技術 Loopy 嗎?升級版技術方案來了,字節跳動數字人團隊推出了新的多模態數字人方案 OmniHuman, 其可以對任意尺寸和人物占比的單張圖片結合一段輸入的音頻進行視頻生成,生成的人物視頻效果生動,具有非常高的自然度。

如對下面圖片和音頻:





音頻鏈接:

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

OmniHuman 生成的人物可以在視頻中自然運動:



視頻鏈接:

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

從項目主頁上可以看到 OmniHuman 對肖像、半身以及全身這些不同人物占比、不同圖片尺寸的輸入都可以通過單個模型進行支持,人物可以在視頻中生成和音頻匹配的動作,包括演講、唱歌、樂器演奏以及移動。對于人物視頻生成中常見的手勢崩壞,也相比現有的方法有顯著的改善。



視頻鏈接:

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

作者也展示模型對非真人圖片輸入的支持,可以看到對動漫、3D 卡通的支持也很不錯,能保持特定風格原有的運動模式。據悉,該技術方案已落地即夢 AI,相關功能將于近期開啟測試。



視頻鏈接:

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

更多細節和展示效果,請查看:

  • 論文項目主頁:https://omnihuman-lab.github.io/
  • 技術報告:https://arxiv.org/abs/2502.01061

研究問題

基于擴散 Transformer(DiT)的視頻生成模型通過海量視頻 - 文本數據訓練,已能輸出逼真的通用視頻內容。其核心優勢在于從大規模數據中學習到的強大通用知識,使模型在推理時展現出優異的泛化能力。在細分的人像動畫領域,現有技術主要聚焦兩類任務:音頻驅動的面部生成(如語音口型同步)和姿勢驅動的身體運動合成(如舞蹈動作生成)。2023 年后端到端訓練方案的突破,使得現有技術方案通常能夠對具有固定尺寸和人像比例的輸入圖像生成動畫,實現精準的口型同步與微表情捕捉。

然而,技術瓶頸日益凸顯:當前模型依賴高度過濾的訓練數據(如固定構圖、純語音片段),雖保障了訓練穩定性,卻引發 "溫室效應"— 模型僅在受限場景(如固定構圖、真人形象)中表現良好,難以適應不同畫面比例、多樣化風格等復雜輸入。更嚴重的是,現有數據清洗機制在排除干擾因素時,往往也丟失了大量有價值的數據,導致生成效果自然度低、質量差。

這種困境導致技術路線陷入兩難:直接擴大數據規模會因訓練目標模糊(如音頻信號與肢體運動的弱相關性)導致模型性能下降;而維持嚴格篩選策略又難以突破場景限制。如何既能保留有效運動模式學習,又能從大數據規模學習中受益成為當前研究重點。

技術方案

據技術報告,OmniHuman,面向端到端人像驅動任務中高質量數據稀缺的問題,采用了一種 Omni-Conditions Training 的混合多模態訓練策略,并相應的設計了一個 OmniHuman 模型,通過這種混合多模態訓練的設計,可以將多種模態的數據一起加入模型進行訓練,從而大幅度的增加了人像驅動模型的可訓練數據,使得模型可以從大規模數據中受益,對各種類似的輸入形式有了比較好的支持。

Omni-Conditions Training.在模型訓練過程中,作者將多種模態按照和運動的相關性進行區分,依序進行混合條件訓練。這個多模態訓練遵循兩個原則:

原則 1: 較強條件的任務可以利用較弱條件的任務及其數據來擴展訓練數據規模。例如,由于口型同步準確性、姿態可見性和穩定性等過濾標準,音頻和姿態條件任務中排除的數據可以用于文本和圖像條件任務。因此,在早期階段舍棄音頻和姿態條件,在后期逐步加入。

原則 2: 條件越強,訓練比例應越低。較強的運動相關條件(如姿態)由于歧義較少,訓練效果通常優于較弱的條件(如音頻)。當兩種條件同時存在時,模型傾向于依賴較強條件進行運動生成,導致較弱條件無法有效學習。因此,需要確保較弱條件的訓練比例高于較強條件。

基于以上原則設計他們構建了多個階段的訓練過程,依次增加文本、圖像、音頻以及姿態模態參與模型訓練,并降低對應的訓練占比。





OmniHuman 技術框架圖

Omni-Conditions Model.除了 Omni-Conditions Training 訓練策略以外,OmniHuman 采用了基于 DiT 架構的視頻生成框架,使得模型兼容多種模態的條件注入方式,包括文本、圖像、音頻和姿態,多模態的條件被區分為兩類:驅動條件和外觀條件。

對于驅動條件,作者對音頻特征通過 cross attention 實現條件注入,對于姿態特征通過 Heatmap 特征編碼后和 Noise 特征進行拼接實現條件注入,對于文本特征,則保持了 MMDiT 的條件注入方式。

對于外觀條件,作者沒有像現有工作一樣采用一個單獨的參考圖網絡 (Reference Net),而是直接利用去噪聲網絡 (Denoising Net) 對輸入圖像進行特征編碼,復用了 backbone 的特征提取方式,參考圖特征會和 Noise 特征進行拼接實現條件注入

效果對比

作者給出了和目前行業領先的方案的效果對比,通過單個模型同時對比了針對不同人物占比的專有模型,仍然可以取得顯著的整體效果優勢。



除了數值分析以外,作者也分析基于 Omni-Conditions Training 可以改善在人體手勢生成、多樣性輸入圖像上的視頻生成效果,并展示了混合多模態訓練可以使得單個模型同時兼容多種模態驅動,生成可控的生動人像視頻的例子。

結論

OmniHuman 是一個端到端的多模態條件人像視頻生成框架,能夠基于單張圖像和運動信號(如音頻、視頻或兩者)生成人像動畫視頻。它提出了一個多模態混合訓練的技術方案,并調研了具體的訓練策略,設計了相應的多模態混合控制的人像視頻生成模型,從而克服了以往方法面臨的高質量數據稀缺問題,從大規模數據訓練中受益,學習自然的運動模式。OmniHuman 顯著優于現有方法,能夠從弱信號(尤其是音頻)生成生動的人類視頻。它支持任意縱橫比的圖像(如肖像、半身或全身),在各種場景下提供生動、高質量的結果。

團隊介紹

字節跳動智能創作數字人團隊,智能創作是字節跳動 AI & 多媒體技術中臺,通過建設領先的計算機視覺、音視頻編輯、特效處理等技術,支持抖音、剪映、頭條等公司內眾多產品線;同時為外部 ToB 合作伙伴提供業界最前沿的智能創作能力與行業解決方案。其中數字人方向專注于建設行業領先的數字人生成和驅動技術,豐富智能創作內容生態。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中美貨幣戰爭打響,人民幣拒絕貶值背后,中國在下一盤大棋

中美貨幣戰爭打響,人民幣拒絕貶值背后,中國在下一盤大棋

允華說
2025-04-08 17:22:36
8個月沒生一個孩子?人口第一大省,成了中國“最不敢生”的省份

8個月沒生一個孩子?人口第一大省,成了中國“最不敢生”的省份

云景侃記
2024-12-13 06:40:08
陳奕迅連發11個感嘆號!熱搜第一,真的不得了

陳奕迅連發11個感嘆號!熱搜第一,真的不得了

大象新聞
2025-04-07 07:53:05
一個銀牌,徹底戳穿了全紅嬋的“真實處境”,陳芋汐的話有人信了

一個銀牌,徹底戳穿了全紅嬋的“真實處境”,陳芋汐的話有人信了

曉風說
2025-04-08 09:32:15
軍事專家戴旭:目前全世界沒有一個國家,在軍事方面敢和我們較量

軍事專家戴旭:目前全世界沒有一個國家,在軍事方面敢和我們較量

boss外傳
2025-04-07 17:35:05
國家隊重倉股:中央匯金+證金,含券商、通信、醫藥、軟件、消費

國家隊重倉股:中央匯金+證金,含券商、通信、醫藥、軟件、消費

小波股事歷程
2025-04-08 12:42:36
新疆天價胎菊事件:老板退款!表明他是個實在人,引發網友熱議

新疆天價胎菊事件:老板退款!表明他是個實在人,引發網友熱議

魔都姐姐雜談
2025-04-08 10:00:03
特朗普攤牌了!若對中國關稅再加征50%,統一臺灣時間將加速到來

特朗普攤牌了!若對中國關稅再加征50%,統一臺灣時間將加速到來

夢史
2025-04-08 10:09:00
國家發展改革委主任鄭柵潔主持召開座談會,聽取民營企業對當前宏觀經濟形勢的意見建議

國家發展改革委主任鄭柵潔主持召開座談會,聽取民營企業對當前宏觀經濟形勢的意見建議

澎湃新聞
2025-04-08 15:01:07
勇士不敵火箭季后賽警鐘敲響:如何成功限制庫里不是秘密,他們短板也暴露了

勇士不敵火箭季后賽警鐘敲響:如何成功限制庫里不是秘密,他們短板也暴露了

雷速體育
2025-04-08 17:58:09
一男子取到18萬假鈔,銀行避諱不認,男子的做法直接讓銀行傻眼

一男子取到18萬假鈔,銀行避諱不認,男子的做法直接讓銀行傻眼

秋風專欄
2025-04-07 16:09:02
編外人員“清退”開始了,輔警、城管協管、護士,將面臨失業風險

編外人員“清退”開始了,輔警、城管協管、護士,將面臨失業風險

巢客HOME
2025-04-02 00:05:08
大S豪宅法拍新進展!神秘人物空降襲來,要求保留現有裝修和設施

大S豪宅法拍新進展!神秘人物空降襲來,要求保留現有裝修和設施

振華觀史
2025-04-08 14:26:26
宋清輝被胖東來起訴后,丑惡一幕出現:跳樓身亡的兒子成應戰工具

宋清輝被胖東來起訴后,丑惡一幕出現:跳樓身亡的兒子成應戰工具

不寫散文詩
2025-04-08 00:11:40
江蘇65歲阿姨感染艾滋病,查明原因,醫生:這個細節被忽視了

江蘇65歲阿姨感染艾滋病,查明原因,醫生:這個細節被忽視了

黃家湖的憂傷
2025-03-31 17:26:16
事關小米SU7!小米澄清:嚴重失實,已報案!

事關小米SU7!小米澄清:嚴重失實,已報案!

每日經濟新聞
2025-04-07 20:56:06
丈夫癱瘓在床后,公公和兒媳外出跑大車賺錢,過年回家時卻發生意外

丈夫癱瘓在床后,公公和兒媳外出跑大車賺錢,過年回家時卻發生意外

溫情郵局
2025-03-26 11:58:52
廣末涼子被逮捕!事務所回應:暫停所有的演藝活動

廣末涼子被逮捕!事務所回應:暫停所有的演藝活動

大象新聞
2025-04-08 10:42:11
查爾斯夫婦抵達意大利!卡米拉發型被風吹亂,結婚20周年照卻優雅

查爾斯夫婦抵達意大利!卡米拉發型被風吹亂,結婚20周年照卻優雅

游古史
2025-04-08 10:30:57
“甲亢哥”長沙直播,誤食路人給的檳榔,在車上捂喉嚨難受大叫!

“甲亢哥”長沙直播,誤食路人給的檳榔,在車上捂喉嚨難受大叫!

小蘿卜絲
2025-04-07 17:31:53
2025-04-08 18:24:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10330文章數 142286關注度
往期回顧 全部

科技要聞

iPhone在美會賣2萬元上嗎?在中國會漲價嗎

頭條要聞

美媒談"貿易戰":"明代中國"已給特朗普政府敲響警鐘

頭條要聞

美媒談"貿易戰":"明代中國"已給特朗普政府敲響警鐘

體育要聞

極限一穿四,他把韓國主場打到靜音

娛樂要聞

尷尬!甲亢哥想聯動大張偉,卻被迫錄節目

財經要聞

"中國版平準基金"橫空出世 央行表態

汽車要聞

一季度車企銷量:下沉與上行,覺醒與迷惘

態度原創

時尚
房產
家居
手機
教育

別再披頭散發了!今春流行“奶奶發飾”,好看巨顯臉小

房產要聞

生猛!三亞開始巨量拆遷!

家居要聞

現代風格 年輕簡約

手機要聞

酷賽科技旗下產品登頂紅點獎 中國智造再獲國際設計界權威認證

教育要聞

允許孩子小錯不斷,他才能大錯不犯

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 开封县| 张家口市| 随州市| 民权县| 达拉特旗| 怀远县| 嘉黎县| 河南省| 东城区| 丰宁| 泉州市| 长白| 安远县| 上林县| 太原市| 桃园市| 西丰县| 江口县| 屯门区| 左云县| 内乡县| 常宁市| 綦江县| 垫江县| 万源市| 南郑县| 康马县| 岑巩县| 瓮安县| 聊城市| 分宜县| 射阳县| 海门市| 都兰县| 钟祥市| 河南省| 晋中市| 通州区| 宁明县| 浦江县| 临漳县|