網易首頁 > 網易號 > 正文申請入駐

給語音模型戴上「眼鏡」，錯誤率降低12.5%！人大CMU最新開源 | AAAI 2025

2025-03-24 12:32:50　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】視覺+語音=更強的語音識別！BPO-AVASR通過優(yōu)化音視頻輸入和輸出偏好，提升語音識別在真實場景中的準確性，解決了傳統(tǒng)方法在噪聲、口語化和視覺信息利用不足的問題。

在日常生活中，你是否遇到過這樣的情況：在嘈雜的環(huán)境中，語音助手聽不清你的指令？或者在視頻通話時，對方的發(fā)音不夠清晰，讓你難以理解？

自動語音識別（ASR）技術正在不斷進步，但在真實世界的視頻場景中，ASR仍然面臨許多挑戰(zhàn)，如噪聲干擾、口語化表達、以及同音詞混淆等問題。

那么，人們能否利用視覺信息來增強語音識別的準確性呢？

最近，來自中國人民大學及卡耐基梅隆大學的學者們在AAAI 2025會議上正式發(fā)布了他們最新的研究——BPO-AVASR（Bifocal Preference Optimization for Audiovisual Speech Recognition）。

這是一種全新的雙焦點偏好優(yōu)化方法，能夠有效提升多模態(tài)語音識別（AV-ASR）系統(tǒng)的性能，使其在真實世界視頻場景下的表現更加強大！

論文鏈接：https://arxiv.org/pdf/2412.19005

代碼地址：https://github.com/espnet/espnet

語音識別的「視覺外掛」：為什么要結合視覺？

傳統(tǒng)的ASR系統(tǒng)僅依賴音頻輸入進行語音識別，但在現實場景中，單靠音頻往往不足以精準識別用戶的語音。例如：

背景噪聲問題：咖啡廳、地鐵、機場等嘈雜環(huán)境會干擾ASR的準確性。
口語化表達：自發(fā)性語音中包含大量連讀、省略等非標準表達，例如「gonna」代替「going to」。
同音詞歧義：例如，「dark」和「duck」，僅依賴音頻可能會導致錯誤識別。

視覺信息，尤其是視頻中物體、背景信息、文本等，能提供額外的線索來幫助ASR模型更精準地理解語音內容。例如，看到屏幕上出現了一瓶「可口可樂」，ASR 識別「cola」而非「caller」的可能性會更高。因此，AV-ASR（音視頻語音識別）應運而生，結合視覺與語音信息，提升識別準確性。

雙焦點偏好優(yōu)化（BPO）

雖然多模態(tài)ASR近年來取得了顯著進展，但目前的方法仍然存在一些關鍵問題：

未充分利用視覺信息：許多AV-ASR模型雖然引入了視覺特征，但并未明確優(yōu)化模型在視覺線索上的利用能力。
難以適應真實世界的視頻場景：大多數方法僅在干凈的數據集上訓練，泛化能力有限。
忽略真實環(huán)境中的常見錯誤：例如噪聲影響、口語化表達、視覺信息缺失等問題。

為了解決這些問題，研究者們提出了一種全新的雙焦點偏好優(yōu)化（Bifocal Preference Optimization, BPO）方法，以BPO-AVASR模型為核心。這篇工作的創(chuàng)新點包括：

輸入端偏好優(yōu)化（Focal I）：通過遮擋音頻或擾動視頻信息，模擬現實世界中的干擾因素，使模型學會如何在音視頻信息缺失時做出更準確的預測。

輸出端偏好優(yōu)化（Focal II）：通過引入AI生成的錯誤文本（如同音詞替換、語音模糊重寫等），讓模型學習如何避免這些常見的識別錯誤。

換句話說，不僅要讓模型學會「看」和「聽」，更讓它學會如何在信息不完整或錯誤的情況下做出更好的決策，從而更好地在多模態(tài)的場景下同時利用視覺和聽覺信息識別出準確的文本。

如何構造偏好數據？

BPO-AVASR架構概覽

BPO-AVASR通過構造偏好數據來優(yōu)化ASR，主要涉及輸入端優(yōu)化和輸出端優(yōu)化。

輸入端偏好數據構造（Focal I）

目標：讓模型學會如何處理不完整的音視頻信息，提升對噪聲、模糊信息的適應能力。

掩蔽音頻（Masked Audio）：隨機遮擋部分音頻幀，模擬噪聲環(huán)境。
翻轉視覺（Flipped Vision）：對視頻幀進行翻轉，使視覺信息變得更難解析，以模擬視角變化的影響。

輸出端偏好數據構造（Focal II）

目標：讓模型學習如何避免常見的識別錯誤，優(yōu)化ASR預測文本的準確性。

同音詞替換（Homophone-based Generation）：生成同音詞錯誤，如「die」→「dye」。
口語化改寫（Spontaneous-based Generation）：生成口語化改寫錯誤，如「gonna」→「goingto」。
視覺信息忽略（Vision-based Generation）：讓ChatGPT生成忽略視覺信息的錯誤文本，例如視頻中的「dylon」被誤識別為「dylan」。

偏好數據構造方法

實驗結果與結論：BPO-AVASR讓ASR更強大！

為了驗證BPO-AVASR的效果，研究者們在多個基準數據集上進行了測試，包括：How2，VisSpeech和Ego4D，在不同領域的多模態(tài)數據上驗證了方法的有效性。

實驗結果表明，BPO-AVASR在大部分測試數據集上取得了SOTA（State-of-the-Art，最優(yōu)）性能，尤其在嘈雜環(huán)境和復雜視頻場景下表現出色。例如：

在Ego4D數據集上，相比于現有的AV-ASR模型，BPO-AVASR的識別錯誤率（WER）降低了12.5%！
在How2數據集上，BPO-AVASR僅使用300小時的數據，就超越了使用131K小時數據訓練的SOTA模型AVFormer！

未來展望：讓 AI 更懂「看」與「聽」

BPO-AVASR的成功，不僅讓ASR模型在復雜環(huán)境下更加穩(wěn)定，同時也為未來的多模態(tài)學習提供了新的思路。未來，研究者們希望：

構建更大規(guī)模的開放域 AV-ASR 數據集，提升模型在各種場景下的泛化能力。
探索更復雜的音視頻理解，以多模態(tài)語音識別為基礎，在更多的跨模態(tài)交互任務上提升復雜場景理解的能力。

參考資料：

https://arxiv.org/pdf/2412.19005

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.