99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

給語音模型戴上「眼鏡」,錯誤率降低12.5%!人大CMU最新開源 | AAAI 2025

0
分享至


新智元報道

編輯:LRST

【新智元導讀】視覺+語音=更強的語音識別!BPO-AVASR通過優(yōu)化音視頻輸入和輸出偏好,提升語音識別在真實場景中的準確性,解決了傳統(tǒng)方法在噪聲、口語化和視覺信息利用不足的問題。

在日常生活中,你是否遇到過這樣的情況:在嘈雜的環(huán)境中,語音助手聽不清你的指令?或者在視頻通話時,對方的發(fā)音不夠清晰,讓你難以理解?

自動語音識別(ASR)技術正在不斷進步,但在真實世界的視頻場景中,ASR仍然面臨許多挑戰(zhàn),如噪聲干擾、口語化表達、以及同音詞混淆等問題。

那么,人們能否利用視覺信息來增強語音識別的準確性呢?


最近,來自中國人民大學及卡耐基梅隆大學的學者們在AAAI 2025會議上正式發(fā)布了他們最新的研究——BPO-AVASR(Bifocal Preference Optimization for Audiovisual Speech Recognition)。

這是一種全新的雙焦點偏好優(yōu)化方法,能夠有效提升多模態(tài)語音識別(AV-ASR)系統(tǒng)的性能,使其在真實世界視頻場景下的表現更加強大!


論文鏈接:https://arxiv.org/pdf/2412.19005

代碼地址:https://github.com/espnet/espnet

語音識別的「視覺外掛」:為什么要結合視覺?

傳統(tǒng)的ASR系統(tǒng)僅依賴音頻輸入進行語音識別,但在現實場景中,單靠音頻往往不足以精準識別用戶的語音。例如:

  • 背景噪聲問題:咖啡廳、地鐵、機場等嘈雜環(huán)境會干擾ASR的準確性。

  • 口語化表達:自發(fā)性語音中包含大量連讀、省略等非標準表達,例如「gonna」代替「going to」。

  • 同音詞歧義:例如,「dark」和「duck」,僅依賴音頻可能會導致錯誤識別。

視覺信息,尤其是視頻中物體、背景信息、文本等,能提供額外的線索來幫助ASR模型更精準地理解語音內容。例如,看到屏幕上出現了一瓶「可口可樂」,ASR 識別「cola」而非「caller」的可能性會更高。因此,AV-ASR(音視頻語音識別)應運而生,結合視覺與語音信息,提升識別準確性。

雙焦點偏好優(yōu)化(BPO)

雖然多模態(tài)ASR近年來取得了顯著進展,但目前的方法仍然存在一些關鍵問題:

  • 未充分利用視覺信息:許多AV-ASR模型雖然引入了視覺特征,但并未明確優(yōu)化模型在視覺線索上的利用能力。

  • 難以適應真實世界的視頻場景:大多數方法僅在干凈的數據集上訓練,泛化能力有限。

  • 忽略真實環(huán)境中的常見錯誤:例如噪聲影響、口語化表達、視覺信息缺失等問題。

為了解決這些問題,研究者們提出了一種全新的雙焦點偏好優(yōu)化(Bifocal Preference Optimization, BPO)方法,以BPO-AVASR模型為核心。這篇工作的創(chuàng)新點包括:

輸入端偏好優(yōu)化(Focal I):通過遮擋音頻或擾動視頻信息,模擬現實世界中的干擾因素,使模型學會如何在音視頻信息缺失時做出更準確的預測。

輸出端偏好優(yōu)化(Focal II):通過引入AI生成的錯誤文本(如同音詞替換、語音模糊重寫等),讓模型學習如何避免這些常見的識別錯誤。

換句話說,不僅要讓模型學會「看」和「聽」,更讓它學會如何在信息不完整或錯誤的情況下做出更好的決策,從而更好地在多模態(tài)的場景下同時利用視覺和聽覺信息識別出準確的文本。

如何構造偏好數據?


BPO-AVASR架構概覽

BPO-AVASR通過構造偏好數據來優(yōu)化ASR,主要涉及輸入端優(yōu)化和輸出端優(yōu)化。


輸入端偏好數據構造(Focal I)

目標:讓模型學會如何處理不完整的音視頻信息,提升對噪聲、模糊信息的適應能力。

  • 掩蔽音頻(Masked Audio):隨機遮擋部分音頻幀,模擬噪聲環(huán)境。

  • 翻轉視覺(Flipped Vision):對視頻幀進行翻轉,使視覺信息變得更難解析,以模擬視角變化的影響。


輸出端偏好數據構造(Focal II)

目標:讓模型學習如何避免常見的識別錯誤,優(yōu)化ASR預測文本的準確性。

  • 同音詞替換(Homophone-based Generation):生成同音詞錯誤,如「die」→「dye」。

  • 口語化改寫(Spontaneous-based Generation):生成口語化改寫錯誤,如「gonna」→「goingto」。

  • 視覺信息忽略(Vision-based Generation):讓ChatGPT生成忽略視覺信息的錯誤文本,例如視頻中的「dylon」被誤識別為「dylan」。


偏好數據構造方法

實驗結果與結論:BPO-AVASR讓ASR更強大!

為了驗證BPO-AVASR的效果,研究者們在多個基準數據集上進行了測試,包括:How2,VisSpeech和Ego4D,在不同領域的多模態(tài)數據上驗證了方法的有效性。

實驗結果表明,BPO-AVASR在大部分測試數據集上取得了SOTA(State-of-the-Art,最優(yōu))性能,尤其在嘈雜環(huán)境和復雜視頻場景下表現出色。例如:

  • 在Ego4D數據集上,相比于現有的AV-ASR模型,BPO-AVASR的識別錯誤率(WER)降低了12.5%!

  • 在How2數據集上,BPO-AVASR僅使用300小時的數據,就超越了使用131K小時數據訓練的SOTA模型AVFormer!



未來展望:讓 AI 更懂「看」與「聽」

BPO-AVASR的成功,不僅讓ASR模型在復雜環(huán)境下更加穩(wěn)定,同時也為未來的多模態(tài)學習提供了新的思路。未來,研究者們希望:

  • 構建更大規(guī)模的開放域 AV-ASR 數據集,提升模型在各種場景下的泛化能力。

  • 探索更復雜的音視頻理解,以多模態(tài)語音識別為基礎,在更多的跨模態(tài)交互任務上提升復雜場景理解的能力。

參考資料:

https://arxiv.org/pdf/2412.19005

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黃金市場迎來歷史性時刻。

黃金市場迎來歷史性時刻。

流蘇晚晴
2025-04-07 19:04:55
為什么說無償獻血是一次最真實的用腳投票呢?

為什么說無償獻血是一次最真實的用腳投票呢?

翻開歷史和現實
2025-04-06 18:57:45
難怪俄烏打了3年,美媒公開后普京才知道,美軍“殺死”上萬俄軍

難怪俄烏打了3年,美媒公開后普京才知道,美軍“殺死”上萬俄軍

空天力量
2025-04-07 19:10:45
穎兒整容失敗!曬宅家練鎖骨視頻,表情怪異嘴唇僵硬疑模樣大變

穎兒整容失敗!曬宅家練鎖骨視頻,表情怪異嘴唇僵硬疑模樣大變

娛圈小樂
2025-04-05 10:49:10
1953年,4架美機擊落蘇聯客機,聲稱“誤會”,2天后就吃了啞巴虧

1953年,4架美機擊落蘇聯客機,聲稱“誤會”,2天后就吃了啞巴虧

文史達觀
2024-06-18 06:45:02
男生女生躲在石頭里約會,釣魚佬全程吃瓜:他們以為別人看不到

男生女生躲在石頭里約會,釣魚佬全程吃瓜:他們以為別人看不到

唐小糖說情感
2025-04-03 16:43:34
廣州問界M7交通事故“產品責任糾紛”案將開庭:華為、賽力斯等8家公司成被告

廣州問界M7交通事故“產品責任糾紛”案將開庭:華為、賽力斯等8家公司成被告

大象新聞
2025-04-07 17:57:14
切記:這5種野菜別吃,很多人還把它當成寶,看后漲知識了!

切記:這5種野菜別吃,很多人還把它當成寶,看后漲知識了!

洪洋美食日記
2025-04-07 08:27:44
突發(fā)!微軟宣布全面退出中國!

突發(fā)!微軟宣布全面退出中國!

大白聊IT
2025-04-07 13:26:38
津媒:津門虎、大連英博均多人受傷,12日兩隊將上演殘陣較量

津媒:津門虎、大連英博均多人受傷,12日兩隊將上演殘陣較量

直播吧
2025-04-08 09:17:22
萬萬沒想到,“隱退”3年回歸的孫儷,沖上熱搜的不是演技而是臉

萬萬沒想到,“隱退”3年回歸的孫儷,沖上熱搜的不是演技而是臉

同知
2025-04-06 18:55:35
超級計算機預測:阿森納獲勝概率41.7%,皇馬獲勝概率31.3%

超級計算機預測:阿森納獲勝概率41.7%,皇馬獲勝概率31.3%

雷速體育
2025-04-08 10:40:10
范冰冰被德國總理接見,穿灰大衣打扮樸素難掩秀外慧中

范冰冰被德國總理接見,穿灰大衣打扮樸素難掩秀外慧中

時髦范
2025-02-17 16:42:01
轉眼26歲!劉若釩結束近兩年半進球荒,昔日“中國金童”拒絕慶祝

轉眼26歲!劉若釩結束近兩年半進球荒,昔日“中國金童”拒絕慶祝

直播吧
2025-04-07 14:18:06
朝鮮公開毛岸英犧牲真相,內容簡短卻十分炸裂,真兇并非美國人!

朝鮮公開毛岸英犧牲真相,內容簡短卻十分炸裂,真兇并非美國人!

天行艦
2025-04-08 00:00:06
“臺灣永遠都不會是中國的一部分”,講出這句話的人,被全網唾罵

“臺灣永遠都不會是中國的一部分”,講出這句話的人,被全網唾罵

忠于法紀
2024-06-07 17:55:19
坦克車成蹦床!四個大學生一腳踩出三年刑期,家長威脅引爆全網

坦克車成蹦床!四個大學生一腳踩出三年刑期,家長威脅引爆全網

天行艦
2025-04-07 07:04:55
男人對一個女人動心了,會有的 3 種表現,一看便知

男人對一個女人動心了,會有的 3 種表現,一看便知

伊人河畔
2025-04-08 09:26:37
若我們這代人不收復臺灣,下代人統(tǒng)一時,或會直接將臺灣打成廢墟

若我們這代人不收復臺灣,下代人統(tǒng)一時,或會直接將臺灣打成廢墟

鳶飛九天
2025-04-03 22:50:06
結局早已注定!只要中國打出這3張牌,全方位瓦解美國對華貿易戰(zhàn)

結局早已注定!只要中國打出這3張牌,全方位瓦解美國對華貿易戰(zhàn)

滄海一書客
2025-04-06 16:31:01
2025-04-08 10:59:00
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
12486文章數 66006關注度
往期回顧 全部

科技要聞

特朗普堅持征收關稅 周一美科技股劇烈震蕩

頭條要聞

美方威脅進一步對華加征50%關稅 商務部回應

頭條要聞

美方威脅進一步對華加征50%關稅 商務部回應

體育要聞

極限一穿四,他把韓國主場打到靜音

娛樂要聞

尷尬!甲亢哥想聯動大張偉,卻被迫錄節(jié)目

財經要聞

"中國版平準基金"橫空出世 央行表態(tài)

汽車要聞

途昂Pro的五套組合拳打完 看清油車的自我救贖

態(tài)度原創(chuàng)

房產
手機
家居
公開課
軍事航空

房產要聞

生猛!三亞開始巨量拆遷!

手機要聞

紅魔10 Air官宣:紅魔史上最輕薄全面屏旗艦

家居要聞

現代風格 年輕簡約

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普關稅名單上沒俄羅斯 白宮:為了不影響俄烏和談

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 张家口市| 东山县| 搜索| 新巴尔虎左旗| 锦州市| 老河口市| 新安县| 台江县| 高尔夫| 同德县| 天峨县| 黄冈市| 石首市| 房山区| 阜新市| 东阿县| 建宁县| 格尔木市| 新丰县| 通榆县| 昌都县| 孝昌县| 平果县| 青龙| 萍乡市| 宜兰市| 建德市| 炎陵县| 子长县| 泽普县| 闻喜县| 获嘉县| 阳春市| 镇远县| 湖北省| 南宁市| 咸宁市| 仙居县| 金乡县| 黔江区| 南充市|