99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

免費用!阿里通義大模型上新,超逼真音視頻生成SOTA!

0
分享至

機器之心發布

機器之心編輯部

近日,阿里通義實驗室推出了全新數字人視頻生成大模型 OmniTalker,只需上傳一段參考視頻,不僅能學會視頻中人物的表情和聲音,還能模仿說話風格。相比傳統的數字人生產流程,該方法能夠有效降低制作成本,提高生成內容的真實感和互動體驗,滿足更廣泛的應用需求。目前該項目已在魔搭社區、HuggingFace 開放體驗入口,并提供了十多個模板,所有人可以直接免費使用。



  • 論文:https://arxiv.org/abs/2504.02433v1
  • 項目頁:https://humanaigc.github.io/omnitalker
  • 體驗頁:https://huggingface.co/spaces/Mrwrichard/OmniTalker

是不是已經分辨不出小李子萊昂納多和 LeCun 是AI復刻出來的了?感興趣的讀者也可以從項目頁查看更多Demo。

接下來,就讓我們看下阿里通義實驗室 HumanAIGC 團隊對此論文的解讀。

背景

近年來,隨著語言大模型的迅速發展,虛擬主播、虛擬助手等應用得到了廣泛的推廣與使用。然而,針對文本驅動的數字人生成研究仍然較少,現有方法主要采用級聯流水線的方式,將文本轉語音(Text-to-Speech, TTS)系統與音頻驅動的數字人模型相結合。這種傳統流水線一方面引入了系統復雜性和延遲開銷,尤其是在實時互動場景下,各模塊之間的延遲問題成為影響用戶體驗的重要因素;另一方面還從根本上存在音畫輸出不同步以及生成語音與視覺表情風格不一致的問題,無法完美復制真人的說話風格。

為了解決這些局限性,我們提出了 OmniTalker,能夠在零樣本實時場景中,根據文本和參考視頻同時生成同步的語音和數字人視頻,同時保留語音風格和面部風格。該框架采用雙分支 DiT 架構:音頻分支從文本合成梅爾頻譜圖,而視覺分支預測精細的頭部姿態和面部動態。為了橋接模態間的信息,我們引入了一種新穎的視聽融合模塊,整合跨模態信息以確保音頻和視覺輸出在時間上的同步性和風格上的一致性。此外,我們的上下文參考學習模塊能夠從單個參考視頻中有效捕捉語音和面部風格特征,而無需額外引入風格提取模塊。此方法特別注重保持聲音的一致性和說話風格的真實性,同時優化了處理速度,確保了實時響應性能,從而顯著提升了數字人生成的質量和效率。相較于傳統的數字人生產流程,此方法能夠有效降低制作成本,提高生成內容的真實感和互動體驗,滿足更廣泛的應用需求。



圖 1. 區別于傳統級聯框架,OmniTalker 是一個端到端的統一框架,可根據文本和一段簡短的參考音視頻實時生成同步的語音和數字人視頻,同時保持聲音的一致性和說話風格的真實性。

方法介紹



圖 2. OmniTalker 結構圖

我們的目標是在緊湊的網絡架構中實現音視頻聯合生成,確保音頻和視頻輸出之間的對應關系,同時從參考視頻中復制聲音和面部風格。受啟發于 LLM 的上下文學習能力,以及多模態 DiT 在文生圖中的優勢,我們提出了如圖 2 所示的模型架構。該架構有三個核心部分:(1)三個嵌入模塊來分別捕捉參考音視頻的動態特征以及文本信息,(2)一個雙流 DiT 模型用于音視頻并行建模,以及 (3) 一個音視頻特征融合模塊來確保音視頻特征的緊密同步。

1. 模型輸入方面,包含驅動文本和參考音視頻三種模態特征:

  • 音頻特征:我們從參考視頻中提取音頻流,并利用梅爾譜圖作為音頻特征的表示方法。通過一個基于 MLP 的嵌入模塊,我們將梅爾譜圖轉換為音頻嵌入x^a;
  • 文本特征:使用 ASR 模型將參考音頻轉化為文字,形成參考文本。隨后,輸入文本以及參考文本被轉換成拼音序列(針對中文)或字符 / 字母序列(針對拉丁語系),并進行拼接。為了匹配音頻嵌入x^a的長度,我們以某種填充標記對文本序列進行填充。文本嵌入過程采用了 ConvNeXt-V2 架構,生成的文本嵌入c_t作為條件指導音頻和視覺分支的處理。
  • 視覺特征:對于視頻片段,我們提取包含面部表情的 51 維混合形狀系數、6 維旋轉與平移參數(RT),以及每幀的眼球運動系數在內的視覺編碼。如同處理音頻特征一樣,這些視覺編碼也通過一個 MLP 映射到視覺嵌入x^v上,以實現統一的特征表示。

在訓練階段,音頻和視覺特征會隨機掩碼序列的一部分,利用上下文學習來達成風格復刻的需求;而在推理階段,則依據參考音頻的節奏及輸入文本的長度對音視頻特征進行零填充,確保處理的一致性。

2. 關于模型結構,我們方法的核心在于建模視頻、音頻和文本模態之間的交互,旨在生成既連貫又同步的音視頻內容。我們的框架由一系列專門設計用于處理音頻和視頻數據流的 DiT 塊組成,促進音頻和視頻特征間的跨模態融合,從而產出一致且同步的結果。模型的關鍵組件包括:

  • 音視頻特征融合模塊:采用雙分支架構,一個分支專注于處理視覺運動信息,另一個則負責解析音頻信息。利用 MM-DiT 注意力機制,網絡能夠動態評估并平衡音頻與視覺特征的重要性,確保最終生成的視頻在時間軸上以及語義層面與輸入音頻完美對齊。
  • 單模態 DiT 塊:在完成初步的跨模態融合后,模型使用多個單模態 DiT 塊進一步細化生成過程。這些塊操作于已融合的多模態特征之上,但針對每個單獨模態(即音頻或視覺)進行優化,以提高輸出質量。
  • 音視頻解碼器:經過上述步驟生成的音視頻特征隨后通過預訓練的解碼器轉換回原始格式。對于音頻部分,我們使用 Vocos 解碼器將合成的梅爾頻譜圖還原為語音,這是一種高保真聲碼器,也可替換為其他相似聲碼器如 HiFi-GAN。至于視頻解碼,我們設計了一個 GAN 模型(復用 ChatAnyone),它根據從參考視頻中隨機選取的參考幀為基礎,并按照 DiT 模型預測的頭部姿態和混合形狀系數生成新的視頻幀。該模型能以 30FPS 的速度生成分辨率為 512×512 的幀,滿足實時推理的需求。


實驗結果

鑒于當前尚無方法能夠同時生成音頻和視頻,我們對文本轉語音(TTS)技術和音頻驅動的數字人生成(Talking Head Generation, THG)技術分別進行了比較分析。在 TTS 方面,我們挑選了三種代表性方法:MaskGCT、F5TTS 和 CosyVoice,并針對錯詞率(WER)和聲音相似度(SIM)進行了對比評估。對于 THG 的評估,我們構建了一個多模態比較框架,涵蓋以下幾類方法:(1) 兩種基于 GAN 的技術(SadTalker 和 AniTalker);(2) 兩種最先進的基于 diffusion 的方法(EchoMimic 和 Hallo);(3) StyleTalk,一種具備風格保留功能的音頻驅動 THG 方法。為了確保公平性和結果的可比性,實驗中所有 THG 模型均采用由我們提出的方法生成的音頻信號作為輸入。



表 1. TTS 性能對比

表 1 展示了我們的方法在音頻測試集 Seed 上的測試結果,與 TTS 基線模型相比,我們的生成結果顯示出更低的錯詞率(WER),這表明生成的音頻與文本之間具有更高的一致性。此外,我們的方法在聲音相似度(SIM)指標中排名第二,進一步證實了其在零樣本條件下保持聲音特征的能力。值得注意的是,通過對比包含和不包含運動分支(Ours w/o motion)的模型表現,可以看出完整模型實現了更低的 WER,這證明了結合視覺監督能有效提升生成音頻的感知質量。我們將這種改進歸因于多任務學習的有效性,因為在音頻生成和面部動作之間存在著高度的相關性,兩者結合可以相互促進,從而提高整體輸出的質量。

在視覺質量評估方面,除了傳統的峰值信噪比(PSNR)、結構相似性(SSIM)、Frechet Inception Distance(FID)、Frechet Video Distance(FVD)、ID 相似度(CSIM)以及口型同步(Sync-C)等指標外,我們還引入了兩個新的評估標準 ——E-FID(表情 FID)和 P-FID(姿勢 FID),以分別衡量生成的面部表情和頭部姿勢的真實感。具體而言,E-FID 結合了 51 維面部混合形狀系數和 4 維眼動參數進行計算,而 P-FID 則通過 6 維旋轉 - 平移參數來量化頭部姿勢的一致性和真實性。



表 2. THG 性能對比

表 2 展示了 OmniTalker 在視覺生成方面的卓越性能。我們的方法在 9 個核心指標中,有 7 個達到了業界領先水平(SOTA),包括最高的 PSNR 和 SSIM,以及最低的 FID 和 FVD。

這些結果表明,我們的方法在視頻生成質量方面具有顯著優勢。尤其在 E-FID 和 P-FID 上,我們的方法相比現有技術實現了一個數量級的提升,突顯了其在保持面部運動風格和頭部姿態方面的出色能力。這種能力使得我們的方法能夠有效地繼承參考人物的說話風格,從而實現高保真的音視頻克隆。盡管我們的方法在 CSIM 和 Sync-C 指標上獲得了次優成績,但根據我們的經驗觀察,這些指標傾向于偏好正面視角的視頻。相比之下,其他對比方法更傾向于生成正面視角的內容,而忽略了參考視頻中實際的面部朝向。我們的方法通過準確捕捉并再現原始視頻中的面部方向,提供了更加真實和自然的輸出效果。

為了更直觀地展示 OmniTalker 建模面部運動風格方面的卓越能力,我們對比了不同方法生成結果中的頭部運動累積熱圖。如圖 4 所示,通過將生成的視頻與參考視頻進行比較,可以清晰地看到,我們的方法生成的熱圖與真實數據的熱圖更為接近。圖 3 則從時間維度進一步驗證了這一點,我們選擇頭部偏航角(Yaw)作為跟蹤指標來觀察頭部姿態的變化。左側的紅線代表參考序列,右側展示了由各種方法生成的序列。結果顯示,我們方法生成的序列無論是在幅度還是運動頻率方面,都與參考序列保持了高度的一致性,同時保留了必要的自然差異,這表明我們的方法能夠有效地繼承頭部姿態的風格特征。相比之下,其他方法生成的頭部運動往往不夠明顯,缺乏動態變化。特別是 StyleTalk 方法直接復制參考姿勢序列,雖然保證了與參考姿勢的高度一致,但未能考慮語音內容與姿態之間的語義關聯,導致生成結果缺乏靈活性和自然感。

綜上所述,我們的方法不僅能夠在視覺表現上精確模仿原始視頻中的面部運動風格,還能在語義層面上實現更加豐富和自然的表現,確保生成的內容既真實又生動。



圖 3. 頭部姿態(Yaw)時間變化曲線



圖 4. 頭部運動累積熱圖

在實時性方面,我們的方法通過創新地采用 flow matching 技術以及相對緊湊的模型架構(僅包含 8 億個參數),實現了音視頻的實時同步高質量輸出。這不僅保證了出色的推理速度,同時也確保了輸出的質量優于其他現有方法,如表 2 所示。這種能力使得我們的方法在不犧牲輸出質量的前提下,滿足了實時應用的需求。

團隊介紹

阿里巴巴通義實驗室的 HumanAIGC 團隊專注于 2D 數字人和人物視頻生成的研究,在相關領域內已發表了多篇頂會論文,比如單圖驅動角色視頻生成 Animate Anyone 以及 Animate Anyone2,單圖語音驅動視頻生成技術 EMO 以及 EMO2,實時數字人 ChatAnyone 等均出自該團隊。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
阿媒:網飛斥巨資為旺達打造真人系列劇,飾演伊卡爾迪演員已定

阿媒:網飛斥巨資為旺達打造真人系列劇,飾演伊卡爾迪演員已定

直播吧
2025-04-24 18:42:15
好消息!單親媽媽帶3孩子尋親成功,親生父母給10萬紅包加金項鏈

好消息!單親媽媽帶3孩子尋親成功,親生父母給10萬紅包加金項鏈

阿鳧愛吐槽
2025-04-24 23:16:44
德媒:阿隆索對未來規劃猶豫不決導致藥廠高層不滿,已給他下最后通牒

德媒:阿隆索對未來規劃猶豫不決導致藥廠高層不滿,已給他下最后通牒

雷速體育
2025-04-24 20:40:26
調查發現,每天飯后要午睡的人,不用多久,身體或出現4大改變!

調查發現,每天飯后要午睡的人,不用多久,身體或出現4大改變!

白宸侃片
2025-04-04 14:15:19
再見了,中國股市!!!

再見了,中國股市!!!

風風順
2025-02-07 12:19:41
為啥說贍養老人是個社會難題?網友:一覺睡死,是要經過修行的

為啥說贍養老人是個社會難題?網友:一覺睡死,是要經過修行的

娛樂圈人物大賞
2025-04-24 00:15:06
凱爾特人傷病報告:霍勒迪G3出戰成疑,塔圖姆25%概率出戰

凱爾特人傷病報告:霍勒迪G3出戰成疑,塔圖姆25%概率出戰

懂球帝
2025-04-25 09:34:14
華佗臨終警醒世人:調理身體的根本不在于藥物,這點才是重中之重

華佗臨終警醒世人:調理身體的根本不在于藥物,這點才是重中之重

阿珂讀書
2025-02-06 16:41:59
浙江女子穿特色衣服坐地鐵,網友:這么好看的姑娘被一件衣服毀了

浙江女子穿特色衣服坐地鐵,網友:這么好看的姑娘被一件衣服毀了

星辰生肖館
2025-04-25 02:40:05
“8種舊東西,再窮也不留”,看看你家有沒有,若有快扔

“8種舊東西,再窮也不留”,看看你家有沒有,若有快扔

小柱解說游戲
2025-04-20 12:50:20
宋仁宗“躺平”四十二年真相:一個不會搞事的皇帝如何養出北宋黃金時代

宋仁宗“躺平”四十二年真相:一個不會搞事的皇帝如何養出北宋黃金時代

閱讀悅讀之寫乎
2025-04-16 00:11:28
萬萬沒想到,中國人不把商品賣給美國,對中國的敵意反而下降了

萬萬沒想到,中國人不把商品賣給美國,對中國的敵意反而下降了

花小萌和你聊情感
2025-04-22 19:53:19
大伯無兒無女,我結婚他也沒隨禮,婚禮結束后,他卻拉住了我

大伯無兒無女,我結婚他也沒隨禮,婚禮結束后,他卻拉住了我

蘭姐說故事
2025-03-31 17:00:12
干部被提拔,印了任命文件還不作數,這樣做才算數!

干部被提拔,印了任命文件還不作數,這樣做才算數!

職場火鍋
2025-04-24 22:07:53
24日國乒新動態,王勵勤上任第二天,集體開會,王楚欽短袖配棉鞋

24日國乒新動態,王勵勤上任第二天,集體開會,王楚欽短袖配棉鞋

明月聊史
2025-04-24 17:31:02
王勵勤的賢內助:小10歲,低調富二代,兩人女兒美出圈

王勵勤的賢內助:小10歲,低調富二代,兩人女兒美出圈

草莓解說體育
2025-04-25 02:23:20
劉濤微醺后徹底放飛,穿夾克坐宋佳腿上說話,宋佳一臉寵溺

劉濤微醺后徹底放飛,穿夾克坐宋佳腿上說話,宋佳一臉寵溺

毗那夜迦
2025-03-02 01:00:03
這6種常添加硼砂的食物要少吃,有毒還致癌,很多人都沒發現!

這6種常添加硼砂的食物要少吃,有毒還致癌,很多人都沒發現!

韓胖說裝修
2025-04-13 00:00:26
4艘在建055同框亮相!剛對中國造船業下重手,美軍發現徹底不對勁

4艘在建055同框亮相!剛對中國造船業下重手,美軍發現徹底不對勁

文雅筆墨
2025-04-23 21:06:16
乒協代表大會暴露地位,馬龍靠邊站,劉國梁沒合影,C位無人敢爭

乒協代表大會暴露地位,馬龍靠邊站,劉國梁沒合影,C位無人敢爭

嫹筆牂牂
2025-04-25 08:45:03
2025-04-25 10:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10399文章數 142296關注度
往期回顧 全部

科技要聞

這屆上海車展,沒人靠流量活著

頭條要聞

牛彈琴:形勢很危險 中國兩個重要鄰國又到了戰爭邊緣

頭條要聞

牛彈琴:形勢很危險 中國兩個重要鄰國又到了戰爭邊緣

體育要聞

拒當黑八倒霉蛋!廣廈又站到了遼寧面前

娛樂要聞

黃曉明生二胎!葉柯產女住上海高級醫院

財經要聞

王興注定“永無寧日”

汽車要聞

純電CLA L及Vision V概念車 奔馳這次玩大了

態度原創

游戲
時尚
健康
家居
教育

晨報|老滾4RE性別Mod重新上架 Remedy新作6月發售

穿了十年仍然心動的裙子,它算一條

唇皰疹和口腔潰瘍是"同伙"嗎?

家居要聞

開放空間 滿足功能需求

教育要聞

今晚8點直播|海星程 x Sarah:從占星小白到高手到底有多遠?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 麻阳| 黄石市| 微山县| 元朗区| 平远县| 兴文县| 扎兰屯市| 潍坊市| 浙江省| 武冈市| 梧州市| 台前县| 永春县| 进贤县| 建湖县| 滁州市| 辉南县| 滨海县| 临夏市| 防城港市| 潮安县| 上高县| 江西省| 东乡县| 泾源县| 普格县| 信丰县| 绥芬河市| 东城区| 新宾| 理塘县| 顺昌县| 股票| 合水县| 枝江市| 乌拉特中旗| 黄陵县| 永城市| 吴桥县| 新龙县| 锡林浩特市|