新智元報道
編輯:LRST
【新智元導讀】視覺+語音=更強的語音識別!BPO-AVASR通過優(yōu)化音視頻輸入和輸出偏好,提升語音識別在真實場景中的準確性,解決了傳統(tǒng)方法在噪聲、口語化和視覺信息利用不足的問題。
在日常生活中,你是否遇到過這樣的情況:在嘈雜的環(huán)境中,語音助手聽不清你的指令?或者在視頻通話時,對方的發(fā)音不夠清晰,讓你難以理解?
自動語音識別(ASR)技術正在不斷進步,但在真實世界的視頻場景中,ASR仍然面臨許多挑戰(zhàn),如噪聲干擾、口語化表達、以及同音詞混淆等問題。
那么,人們能否利用視覺信息來增強語音識別的準確性呢?
最近,來自中國人民大學及卡耐基梅隆大學的學者們在AAAI 2025會議上正式發(fā)布了他們最新的研究——BPO-AVASR(Bifocal Preference Optimization for Audiovisual Speech Recognition)。
這是一種全新的雙焦點偏好優(yōu)化方法,能夠有效提升多模態(tài)語音識別(AV-ASR)系統(tǒng)的性能,使其在真實世界視頻場景下的表現更加強大!
論文鏈接:https://arxiv.org/pdf/2412.19005
代碼地址:https://github.com/espnet/espnet
語音識別的「視覺外掛」:為什么要結合視覺?
傳統(tǒng)的ASR系統(tǒng)僅依賴音頻輸入進行語音識別,但在現實場景中,單靠音頻往往不足以精準識別用戶的語音。例如:
背景噪聲問題:咖啡廳、地鐵、機場等嘈雜環(huán)境會干擾ASR的準確性。
口語化表達:自發(fā)性語音中包含大量連讀、省略等非標準表達,例如「gonna」代替「going to」。
同音詞歧義:例如,「dark」和「duck」,僅依賴音頻可能會導致錯誤識別。
視覺信息,尤其是視頻中物體、背景信息、文本等,能提供額外的線索來幫助ASR模型更精準地理解語音內容。例如,看到屏幕上出現了一瓶「可口可樂」,ASR 識別「cola」而非「caller」的可能性會更高。因此,AV-ASR(音視頻語音識別)應運而生,結合視覺與語音信息,提升識別準確性。
雙焦點偏好優(yōu)化(BPO)
雖然多模態(tài)ASR近年來取得了顯著進展,但目前的方法仍然存在一些關鍵問題:
未充分利用視覺信息:許多AV-ASR模型雖然引入了視覺特征,但并未明確優(yōu)化模型在視覺線索上的利用能力。
難以適應真實世界的視頻場景:大多數方法僅在干凈的數據集上訓練,泛化能力有限。
忽略真實環(huán)境中的常見錯誤:例如噪聲影響、口語化表達、視覺信息缺失等問題。
為了解決這些問題,研究者們提出了一種全新的雙焦點偏好優(yōu)化(Bifocal Preference Optimization, BPO)方法,以BPO-AVASR模型為核心。這篇工作的創(chuàng)新點包括:
輸入端偏好優(yōu)化(Focal I):通過遮擋音頻或擾動視頻信息,模擬現實世界中的干擾因素,使模型學會如何在音視頻信息缺失時做出更準確的預測。
輸出端偏好優(yōu)化(Focal II):通過引入AI生成的錯誤文本(如同音詞替換、語音模糊重寫等),讓模型學習如何避免這些常見的識別錯誤。
換句話說,不僅要讓模型學會「看」和「聽」,更讓它學會如何在信息不完整或錯誤的情況下做出更好的決策,從而更好地在多模態(tài)的場景下同時利用視覺和聽覺信息識別出準確的文本。
如何構造偏好數據?
BPO-AVASR架構概覽
BPO-AVASR通過構造偏好數據來優(yōu)化ASR,主要涉及輸入端優(yōu)化和輸出端優(yōu)化。
輸入端偏好數據構造(Focal I)
目標:讓模型學會如何處理不完整的音視頻信息,提升對噪聲、模糊信息的適應能力。
掩蔽音頻(Masked Audio):隨機遮擋部分音頻幀,模擬噪聲環(huán)境。
翻轉視覺(Flipped Vision):對視頻幀進行翻轉,使視覺信息變得更難解析,以模擬視角變化的影響。
輸出端偏好數據構造(Focal II)
目標:讓模型學習如何避免常見的識別錯誤,優(yōu)化ASR預測文本的準確性。
同音詞替換(Homophone-based Generation):生成同音詞錯誤,如「die」→「dye」。
口語化改寫(Spontaneous-based Generation):生成口語化改寫錯誤,如「gonna」→「goingto」。
視覺信息忽略(Vision-based Generation):讓ChatGPT生成忽略視覺信息的錯誤文本,例如視頻中的「dylon」被誤識別為「dylan」。
偏好數據構造方法
實驗結果與結論:BPO-AVASR讓ASR更強大!
為了驗證BPO-AVASR的效果,研究者們在多個基準數據集上進行了測試,包括:How2,VisSpeech和Ego4D,在不同領域的多模態(tài)數據上驗證了方法的有效性。
實驗結果表明,BPO-AVASR在大部分測試數據集上取得了SOTA(State-of-the-Art,最優(yōu))性能,尤其在嘈雜環(huán)境和復雜視頻場景下表現出色。例如:
在Ego4D數據集上,相比于現有的AV-ASR模型,BPO-AVASR的識別錯誤率(WER)降低了12.5%!
在How2數據集上,BPO-AVASR僅使用300小時的數據,就超越了使用131K小時數據訓練的SOTA模型AVFormer!
未來展望:讓 AI 更懂「看」與「聽」
BPO-AVASR的成功,不僅讓ASR模型在復雜環(huán)境下更加穩(wěn)定,同時也為未來的多模態(tài)學習提供了新的思路。未來,研究者們希望:
構建更大規(guī)模的開放域 AV-ASR 數據集,提升模型在各種場景下的泛化能力。
探索更復雜的音視頻理解,以多模態(tài)語音識別為基礎,在更多的跨模態(tài)交互任務上提升復雜場景理解的能力。
參考資料:
https://arxiv.org/pdf/2412.19005
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.