99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

免費用!阿里通義大模型上新,超逼真音視頻生成SOTA!

0
分享至

機器之心發(fā)布

機器之心編輯部

近日,阿里通義實驗室推出了全新數(shù)字人視頻生成大模型 OmniTalker,只需上傳一段參考視頻,不僅能學會視頻中人物的表情和聲音,還能模仿說話風格。相比傳統(tǒng)的數(shù)字人生產(chǎn)流程,該方法能夠有效降低制作成本,提高生成內(nèi)容的真實感和互動體驗,滿足更廣泛的應用需求。目前該項目已在魔搭社區(qū)、HuggingFace 開放體驗入口,并提供了十多個模板,所有人可以直接免費使用。



  • 論文:https://arxiv.org/abs/2504.02433v1
  • 項目頁:https://humanaigc.github.io/omnitalker
  • 體驗頁:https://huggingface.co/spaces/Mrwrichard/OmniTalker

是不是已經(jīng)分辨不出小李子萊昂納多和 LeCun 是AI復刻出來的了?感興趣的讀者也可以從項目頁查看更多Demo。

接下來,就讓我們看下阿里通義實驗室 HumanAIGC 團隊對此論文的解讀。

背景

近年來,隨著語言大模型的迅速發(fā)展,虛擬主播、虛擬助手等應用得到了廣泛的推廣與使用。然而,針對文本驅(qū)動的數(shù)字人生成研究仍然較少,現(xiàn)有方法主要采用級聯(lián)流水線的方式,將文本轉語音(Text-to-Speech, TTS)系統(tǒng)與音頻驅(qū)動的數(shù)字人模型相結合。這種傳統(tǒng)流水線一方面引入了系統(tǒng)復雜性和延遲開銷,尤其是在實時互動場景下,各模塊之間的延遲問題成為影響用戶體驗的重要因素;另一方面還從根本上存在音畫輸出不同步以及生成語音與視覺表情風格不一致的問題,無法完美復制真人的說話風格。

為了解決這些局限性,我們提出了 OmniTalker,能夠在零樣本實時場景中,根據(jù)文本和參考視頻同時生成同步的語音和數(shù)字人視頻,同時保留語音風格和面部風格。該框架采用雙分支 DiT 架構:音頻分支從文本合成梅爾頻譜圖,而視覺分支預測精細的頭部姿態(tài)和面部動態(tài)。為了橋接模態(tài)間的信息,我們引入了一種新穎的視聽融合模塊,整合跨模態(tài)信息以確保音頻和視覺輸出在時間上的同步性和風格上的一致性。此外,我們的上下文參考學習模塊能夠從單個參考視頻中有效捕捉語音和面部風格特征,而無需額外引入風格提取模塊。此方法特別注重保持聲音的一致性和說話風格的真實性,同時優(yōu)化了處理速度,確保了實時響應性能,從而顯著提升了數(shù)字人生成的質(zhì)量和效率。相較于傳統(tǒng)的數(shù)字人生產(chǎn)流程,此方法能夠有效降低制作成本,提高生成內(nèi)容的真實感和互動體驗,滿足更廣泛的應用需求。



圖 1. 區(qū)別于傳統(tǒng)級聯(lián)框架,OmniTalker 是一個端到端的統(tǒng)一框架,可根據(jù)文本和一段簡短的參考音視頻實時生成同步的語音和數(shù)字人視頻,同時保持聲音的一致性和說話風格的真實性。

方法介紹



圖 2. OmniTalker 結構圖

我們的目標是在緊湊的網(wǎng)絡架構中實現(xiàn)音視頻聯(lián)合生成,確保音頻和視頻輸出之間的對應關系,同時從參考視頻中復制聲音和面部風格。受啟發(fā)于 LLM 的上下文學習能力,以及多模態(tài) DiT 在文生圖中的優(yōu)勢,我們提出了如圖 2 所示的模型架構。該架構有三個核心部分:(1)三個嵌入模塊來分別捕捉參考音視頻的動態(tài)特征以及文本信息,(2)一個雙流 DiT 模型用于音視頻并行建模,以及 (3) 一個音視頻特征融合模塊來確保音視頻特征的緊密同步。

1. 模型輸入方面,包含驅(qū)動文本和參考音視頻三種模態(tài)特征:

  • 音頻特征:我們從參考視頻中提取音頻流,并利用梅爾譜圖作為音頻特征的表示方法。通過一個基于 MLP 的嵌入模塊,我們將梅爾譜圖轉換為音頻嵌入x^a;
  • 文本特征:使用 ASR 模型將參考音頻轉化為文字,形成參考文本。隨后,輸入文本以及參考文本被轉換成拼音序列(針對中文)或字符 / 字母序列(針對拉丁語系),并進行拼接。為了匹配音頻嵌入x^a的長度,我們以某種填充標記對文本序列進行填充。文本嵌入過程采用了 ConvNeXt-V2 架構,生成的文本嵌入c_t作為條件指導音頻和視覺分支的處理。
  • 視覺特征:對于視頻片段,我們提取包含面部表情的 51 維混合形狀系數(shù)、6 維旋轉與平移參數(shù)(RT),以及每幀的眼球運動系數(shù)在內(nèi)的視覺編碼。如同處理音頻特征一樣,這些視覺編碼也通過一個 MLP 映射到視覺嵌入x^v上,以實現(xiàn)統(tǒng)一的特征表示。

在訓練階段,音頻和視覺特征會隨機掩碼序列的一部分,利用上下文學習來達成風格復刻的需求;而在推理階段,則依據(jù)參考音頻的節(jié)奏及輸入文本的長度對音視頻特征進行零填充,確保處理的一致性。

2. 關于模型結構,我們方法的核心在于建模視頻、音頻和文本模態(tài)之間的交互,旨在生成既連貫又同步的音視頻內(nèi)容。我們的框架由一系列專門設計用于處理音頻和視頻數(shù)據(jù)流的 DiT 塊組成,促進音頻和視頻特征間的跨模態(tài)融合,從而產(chǎn)出一致且同步的結果。模型的關鍵組件包括:

  • 音視頻特征融合模塊:采用雙分支架構,一個分支專注于處理視覺運動信息,另一個則負責解析音頻信息。利用 MM-DiT 注意力機制,網(wǎng)絡能夠動態(tài)評估并平衡音頻與視覺特征的重要性,確保最終生成的視頻在時間軸上以及語義層面與輸入音頻完美對齊。
  • 單模態(tài) DiT 塊:在完成初步的跨模態(tài)融合后,模型使用多個單模態(tài) DiT 塊進一步細化生成過程。這些塊操作于已融合的多模態(tài)特征之上,但針對每個單獨模態(tài)(即音頻或視覺)進行優(yōu)化,以提高輸出質(zhì)量。
  • 音視頻解碼器:經(jīng)過上述步驟生成的音視頻特征隨后通過預訓練的解碼器轉換回原始格式。對于音頻部分,我們使用 Vocos 解碼器將合成的梅爾頻譜圖還原為語音,這是一種高保真聲碼器,也可替換為其他相似聲碼器如 HiFi-GAN。至于視頻解碼,我們設計了一個 GAN 模型(復用 ChatAnyone),它根據(jù)從參考視頻中隨機選取的參考幀為基礎,并按照 DiT 模型預測的頭部姿態(tài)和混合形狀系數(shù)生成新的視頻幀。該模型能以 30FPS 的速度生成分辨率為 512×512 的幀,滿足實時推理的需求。


實驗結果

鑒于當前尚無方法能夠同時生成音頻和視頻,我們對文本轉語音(TTS)技術和音頻驅(qū)動的數(shù)字人生成(Talking Head Generation, THG)技術分別進行了比較分析。在 TTS 方面,我們挑選了三種代表性方法:MaskGCT、F5TTS 和 CosyVoice,并針對錯詞率(WER)和聲音相似度(SIM)進行了對比評估。對于 THG 的評估,我們構建了一個多模態(tài)比較框架,涵蓋以下幾類方法:(1) 兩種基于 GAN 的技術(SadTalker 和 AniTalker);(2) 兩種最先進的基于 diffusion 的方法(EchoMimic 和 Hallo);(3) StyleTalk,一種具備風格保留功能的音頻驅(qū)動 THG 方法。為了確保公平性和結果的可比性,實驗中所有 THG 模型均采用由我們提出的方法生成的音頻信號作為輸入。



表 1. TTS 性能對比

表 1 展示了我們的方法在音頻測試集 Seed 上的測試結果,與 TTS 基線模型相比,我們的生成結果顯示出更低的錯詞率(WER),這表明生成的音頻與文本之間具有更高的一致性。此外,我們的方法在聲音相似度(SIM)指標中排名第二,進一步證實了其在零樣本條件下保持聲音特征的能力。值得注意的是,通過對比包含和不包含運動分支(Ours w/o motion)的模型表現(xiàn),可以看出完整模型實現(xiàn)了更低的 WER,這證明了結合視覺監(jiān)督能有效提升生成音頻的感知質(zhì)量。我們將這種改進歸因于多任務學習的有效性,因為在音頻生成和面部動作之間存在著高度的相關性,兩者結合可以相互促進,從而提高整體輸出的質(zhì)量。

在視覺質(zhì)量評估方面,除了傳統(tǒng)的峰值信噪比(PSNR)、結構相似性(SSIM)、Frechet Inception Distance(FID)、Frechet Video Distance(FVD)、ID 相似度(CSIM)以及口型同步(Sync-C)等指標外,我們還引入了兩個新的評估標準 ——E-FID(表情 FID)和 P-FID(姿勢 FID),以分別衡量生成的面部表情和頭部姿勢的真實感。具體而言,E-FID 結合了 51 維面部混合形狀系數(shù)和 4 維眼動參數(shù)進行計算,而 P-FID 則通過 6 維旋轉 - 平移參數(shù)來量化頭部姿勢的一致性和真實性。



表 2. THG 性能對比

表 2 展示了 OmniTalker 在視覺生成方面的卓越性能。我們的方法在 9 個核心指標中,有 7 個達到了業(yè)界領先水平(SOTA),包括最高的 PSNR 和 SSIM,以及最低的 FID 和 FVD。

這些結果表明,我們的方法在視頻生成質(zhì)量方面具有顯著優(yōu)勢。尤其在 E-FID 和 P-FID 上,我們的方法相比現(xiàn)有技術實現(xiàn)了一個數(shù)量級的提升,突顯了其在保持面部運動風格和頭部姿態(tài)方面的出色能力。這種能力使得我們的方法能夠有效地繼承參考人物的說話風格,從而實現(xiàn)高保真的音視頻克隆。盡管我們的方法在 CSIM 和 Sync-C 指標上獲得了次優(yōu)成績,但根據(jù)我們的經(jīng)驗觀察,這些指標傾向于偏好正面視角的視頻。相比之下,其他對比方法更傾向于生成正面視角的內(nèi)容,而忽略了參考視頻中實際的面部朝向。我們的方法通過準確捕捉并再現(xiàn)原始視頻中的面部方向,提供了更加真實和自然的輸出效果。

為了更直觀地展示 OmniTalker 建模面部運動風格方面的卓越能力,我們對比了不同方法生成結果中的頭部運動累積熱圖。如圖 4 所示,通過將生成的視頻與參考視頻進行比較,可以清晰地看到,我們的方法生成的熱圖與真實數(shù)據(jù)的熱圖更為接近。圖 3 則從時間維度進一步驗證了這一點,我們選擇頭部偏航角(Yaw)作為跟蹤指標來觀察頭部姿態(tài)的變化。左側的紅線代表參考序列,右側展示了由各種方法生成的序列。結果顯示,我們方法生成的序列無論是在幅度還是運動頻率方面,都與參考序列保持了高度的一致性,同時保留了必要的自然差異,這表明我們的方法能夠有效地繼承頭部姿態(tài)的風格特征。相比之下,其他方法生成的頭部運動往往不夠明顯,缺乏動態(tài)變化。特別是 StyleTalk 方法直接復制參考姿勢序列,雖然保證了與參考姿勢的高度一致,但未能考慮語音內(nèi)容與姿態(tài)之間的語義關聯(lián),導致生成結果缺乏靈活性和自然感。

綜上所述,我們的方法不僅能夠在視覺表現(xiàn)上精確模仿原始視頻中的面部運動風格,還能在語義層面上實現(xiàn)更加豐富和自然的表現(xiàn),確保生成的內(nèi)容既真實又生動。



圖 3. 頭部姿態(tài)(Yaw)時間變化曲線



圖 4. 頭部運動累積熱圖

在實時性方面,我們的方法通過創(chuàng)新地采用 flow matching 技術以及相對緊湊的模型架構(僅包含 8 億個參數(shù)),實現(xiàn)了音視頻的實時同步高質(zhì)量輸出。這不僅保證了出色的推理速度,同時也確保了輸出的質(zhì)量優(yōu)于其他現(xiàn)有方法,如表 2 所示。這種能力使得我們的方法在不犧牲輸出質(zhì)量的前提下,滿足了實時應用的需求。

團隊介紹

阿里巴巴通義實驗室的 HumanAIGC 團隊專注于 2D 數(shù)字人和人物視頻生成的研究,在相關領域內(nèi)已發(fā)表了多篇頂會論文,比如單圖驅(qū)動角色視頻生成 Animate Anyone 以及 Animate Anyone2,單圖語音驅(qū)動視頻生成技術 EMO 以及 EMO2,實時數(shù)字人 ChatAnyone 等均出自該團隊。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黑八奇跡?廣廈爆冷慘敗青島丟主場優(yōu)勢,孫銘徽低迷布朗空砍36分

黑八奇跡?廣廈爆冷慘敗青島丟主場優(yōu)勢,孫銘徽低迷布朗空砍36分

環(huán)太平洋老正太
2025-04-15 21:42:45
記者曬自己最佳陣容選票:SGA約基奇老詹一陣 庫里哈登祖巴茨三陣

記者曬自己最佳陣容選票:SGA約基奇老詹一陣 庫里哈登祖巴茨三陣

直播吧
2025-04-16 08:56:17
月薪2萬變8千!上海三甲行政崗哭暈,醫(yī)生卻集體放鞭炮?

月薪2萬變8千!上海三甲行政崗哭暈,醫(yī)生卻集體放鞭炮?

一桶漿糊要一統(tǒng)江湖
2025-04-15 11:42:12
上海一保安,因“撿業(yè)主淘汰的花養(yǎng)”火了,網(wǎng)友:給大叔漲工資~

上海一保安,因“撿業(yè)主淘汰的花養(yǎng)”火了,網(wǎng)友:給大叔漲工資~

老鵜愛說事
2025-04-15 14:55:53
康利談備戰(zhàn)湖人:詹東里有著極佳的配合能力和閱讀比賽的能力

康利談備戰(zhàn)湖人:詹東里有著極佳的配合能力和閱讀比賽的能力

直播吧
2025-04-16 11:04:32
雷迪克:詹姆斯和克萊伯等全員參加了訓練 后者沒有回歸時間表

雷迪克:詹姆斯和克萊伯等全員參加了訓練 后者沒有回歸時間表

直播吧
2025-04-16 09:30:05
百發(fā)百中拿下12分,老鷹鋒線新星在攻防兩端的表現(xiàn)都是可圈可點?

百發(fā)百中拿下12分,老鷹鋒線新星在攻防兩端的表現(xiàn)都是可圈可點?

稻谷與小麥
2025-04-16 11:14:41
退休金二次核算啟動!補發(fā)金額到賬時間表已出,速查你的賬戶變化

退休金二次核算啟動!補發(fā)金額到賬時間表已出,速查你的賬戶變化

二月侃事
2025-04-15 16:54:12
恐怖主義“鼻祖”露出原型,以色列離再次亡國,可能就在眼前了!

恐怖主義“鼻祖”露出原型,以色列離再次亡國,可能就在眼前了!

小lu侃侃而談
2025-04-13 22:56:47
特朗普大禍臨頭了!中方甩出最大“王牌”,不是美債

特朗普大禍臨頭了!中方甩出最大“王牌”,不是美債

花生科技雜談
2025-04-16 02:37:08
美媒:拜登發(fā)表卸任后首次公開講話,批評特朗普政府“造成如此巨大的損害和破壞”

美媒:拜登發(fā)表卸任后首次公開講話,批評特朗普政府“造成如此巨大的損害和破壞”

環(huán)球網(wǎng)資訊
2025-04-16 09:49:20
廣廈主場20分慘敗!王博難掩憤怒情緒:沒有任何借口 就是怪自己

廣廈主場20分慘??!王博難掩憤怒情緒:沒有任何借口 就是怪自己

狼叔評論
2025-04-15 22:41:08
摩根士丹利:受到關稅影響,預期中國將于下半年推出1萬億-1.5萬億元人民幣的額外刺激經(jīng)濟措施,將于二季度降息降準

摩根士丹利:受到關稅影響,預期中國將于下半年推出1萬億-1.5萬億元人民幣的額外刺激經(jīng)濟措施,將于二季度降息降準

和訊網(wǎng)
2025-04-15 16:20:04
新華網(wǎng):權力豈能如此任性

新華網(wǎng):權力豈能如此任性

澎湃新聞
2025-04-15 04:33:58
謝爸接女兒放學,背書包手中提好吃的,頭頂亮了,鄭琴疑現(xiàn)身!

謝爸接女兒放學,背書包手中提好吃的,頭頂亮了,鄭琴疑現(xiàn)身!

歸史
2025-04-16 08:31:47
阿森納傳奇凱文?坎貝爾離世前多器官衰竭,四個月體重驟降127斤

阿森納傳奇凱文?坎貝爾離世前多器官衰竭,四個月體重驟降127斤

仰臥撐FTUer
2025-04-15 18:05:10
“世界上最酷獨裁者”訪美,特朗普盛贊

“世界上最酷獨裁者”訪美,特朗普盛贊

亞太觀瀾
2025-04-15 20:00:13
劉曉慶:我被關在獄中時,與其他五個人共用同一個廁所

劉曉慶:我被關在獄中時,與其他五個人共用同一個廁所

農(nóng)村教育光哥
2025-04-14 09:54:43
越南蘇林68歲,他家庭背景好,夫人是吳芳璃

越南蘇林68歲,他家庭背景好,夫人是吳芳璃

趣文說娛
2025-04-14 10:41:58
中國轉向巴西采購至少240萬噸大豆!美大豆協(xié)會主席慌了:關稅戰(zhàn)將使不少農(nóng)民破產(chǎn)

中國轉向巴西采購至少240萬噸大豆!美大豆協(xié)會主席慌了:關稅戰(zhàn)將使不少農(nóng)民破產(chǎn)

紅星新聞
2025-04-15 19:11:18
2025-04-16 11:32:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10363文章數(shù) 142295關注度
往期回顧 全部

科技要聞

Model 2被斃內(nèi)幕:馬斯克嫌無聊 高管勸不住

頭條要聞

訂婚強奸案二審 審判長:認定強奸事實證據(jù)確實、充分

頭條要聞

訂婚強奸案二審 審判長:認定強奸事實證據(jù)確實、充分

體育要聞

惡性循環(huán)!錫伯杜的壓榨哲學是對是錯?

娛樂要聞

楊冪女兒小糯米長大了,神似媽媽!

財經(jīng)要聞

一季度GDP同比增長5.4%!

汽車要聞

又帥又快超實用 極氪007GT獵裝車才是完美的車?

態(tài)度原創(chuàng)

親子
本地
數(shù)碼
手機
公開課

親子要聞

3歲娃患兒童腫瘤之王 父母送外賣、擺攤、直播籌100多萬

本地新聞

云游湖北|相約安陸,解鎖限定版粉色春天

數(shù)碼要聞

OPPO Pad 4 Pro開售 首款驍龍8至尊版平板 3299元起

手機要聞

IDC:Q1中國智能手機市場增長3.3%,小米出貨1330萬臺升至第一

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 延吉市| 独山县| 赤水市| 仪征市| 大厂| 岐山县| 独山县| 洪洞县| 无锡市| 攀枝花市| 镇平县| 专栏| 璧山县| 无锡市| 玛曲县| 渝中区| 察雅县| 天长市| 分宜县| 望江县| 新疆| 德令哈市| 左贡县| 滨州市| 林口县| 手游| 芜湖县| 密山市| 固阳县| 道孚县| 交城县| 甘孜县| 伊金霍洛旗| 靖西县| 淳安县| 新绛县| 琼结县| 全椒县| 商洛市| 金门县| 新绛县|