圖片中的女子是一名患有失語癥的癱瘓人士,她最近作為受試者參與了一項基于新技術的實驗,在不依賴任何發聲的前提下,該技術能夠直接與她的發聲意圖同步合成語音。
(來源:Noah Berger)
在深度學習模型的幫助之下,本次技術能在 80 毫秒內合成語音,并能同時進行文本解碼,語音解碼能力媲美和 Siri 和 Alexa。利用受試者在無聲嘗試“模仿”或“張嘴”時的神經活動,無需任何發聲即可合成來自于 1024 個單詞詞匯表的句子。即便在離線狀態之下,解碼器也能連續運行數分鐘之久。相關論文于近日發表在Nature Neuroscience
(來源:Nature Neuroscience)
語音解碼能力媲美和 Siri 和 Alexa
這名女子所參與的實驗,由來自美國加州大學伯克利分校和加州大學舊金山分校的一組研究人員完成。實驗中,研究人員借助腦-聲神經假體技術以及基于 AI 的模型,開發了一種流式處理方法。
這種流式處理方法能為神經假體帶來了與 Alexa 和 Siri 等語音助手相同的快速語音解碼能力,故能將腦信號接近實時地合成為能被人耳聽到的語音,從而能夠從人腦中實時傳輸可理解的語音,借此讓這名嚴重癱瘓的患者恢復了自然語言交流能力。
通過使用類似類型的算法,研究人員發現它還可以解碼神經數據,并能首次實現近乎同步的語音流傳輸,與此同時其還具備更自然、更流暢的特點。
本次方法還可以與各種其他腦機接口技術進行良好適配,比如微電極陣列技術或非侵入性記錄技術等。
在其他無聲語音數據集上,本次技術也能實現準確的大腦到語音合成,這說明這項技術并不局限于某一特定類型的設備。只要有良好的信號,同樣的算法就能用于不同的模式。
這種腦-聲神經假體的工作原理是:從大腦中控制言語產生的區域、即從運動皮層之中采集神經數據,然后利用 AI 將大腦功能解碼為言語。
本質上,研究人員是在攔截信號。這些信號位于將思維轉化為語言表達的過程中,以及在此過程中的運動控制階段。因此,研究人員所解碼的是在思維發生后、在決定說什么之后、在決定使用哪些詞匯以及如何移動聲道肌肉之后的信號。
(來源:Nature Neuroscience)
為了收集訓練算法所需的數據,研究人員與上述受試者開展合作。此前,這名患者由于腦干中風而導致嚴重癱瘓,自此以后她再也無法說話,并被診斷為失語癥。
實驗中,研究人員讓受試者看著類似于“嘿,你好嗎?”這樣的屏幕提示詞,然后讓受試者嘗試默念這句話。
這樣一來,研究人員就能在受試者產生的神經活動窗口塊和受試者試圖表達的目標句子之間建立映射。
由于受試者無法發出聲音,因此研究人員無法擁有目標音頻或目標輸出來映射神經數據。但是,他們使用 AI 填補了所缺失的細節,從而解決了這一難題。
具體來說,他們使用一個預訓練的文本到語音模型來生成音頻和模擬目標聲音。同時,他們還使用了受試者患病之前的聲音,這樣一來解碼輸出的聲音在音色上也就更加接近受試者患病之前的聲音。
此前,在解碼聲音時往往存在較長的延遲,單句解碼的延遲約為 8 秒。而本次研究采用新的流式處理方法,因此當受試者嘗試說話時,可以近乎實時地生成可聽見的輸出。
為了測量延遲市場,研究人員采用了語音檢測方法,以便識別出表明受試者開始嘗試說話的大腦信號。
在意圖信號出現后的 1 秒之內,系統就能發出首個聲音。與此同時,本次技術能夠持續解碼語音,因此受試者可以持續地輸出內容。
就參與本次研究的這名受試者來說,她在 2023 年就曾作為受試者參與過該團隊的課題。那時,她參與的是文本到語音解碼方法的實驗。
相比之下,她在本次研究中嘗試的新型流式合成方法,能夠近乎實時地聽到自己的聲音,這增加了她的代入感。她表示,流式合成是一種更加能夠受到意志控制的模式。
盡管實現了更高的速度,但卻并沒有以犧牲精度為代價。與之前的非流式處理方式相比,這種速度更快的腦機接口能夠提供同樣高水平的解碼精度。
研究人員表示,以前人們并不清楚能否從大腦中實時地提取出可被理解的語音信號。同時,此前人們也并不清楚 AI 到底是在學習和適應,還是僅僅在進行模式匹配并重復訓練數據中的部分內容。
為了厘清這一問題,研究人員測試了模型在訓練數據集詞匯之外的單詞合成能力。具體來說:他們測試了 26 個來自北約音標字母表的生僻詞,例如 Alpha、Bravo、Charlie 等。
這樣做的目的是想看看模型能否針對未見過的單詞進行泛化,以及是否能夠真正地解碼受試者的說話模式。結果發現:實時模型做得非常好,這表明它確實是在學習聲音或學習語調的基本要素。
(來源:Nature Neuroscience)
自然流式無聲語音解碼系統
研究中,研究人員設計了一款語音合成神經假體系統:通過植入受試者言語感覺運動皮層及部分顳葉表面的 253 通道皮層電圖陣列采集神經信號,進而合成目標語音,使受試者能夠實現自然流暢的語言表達。
為了針對系統進行訓練,研究人員記錄了受試者在嘗試默念單個句子時的神經數據。
受試者會在屏幕上看到一個文本提示,并被要求在看到綠色的“開始”視覺提示后,立即嘗試默念說話。
合成的語音會通過附近的模擬揚聲器進行播放,解碼后的文本則會顯示在監視器上。
研究人員所使用的神經解碼器采用雙模態設計,其在接受聯合訓練之后,不僅可以合成語音,還能同步解碼文本內容。
實驗中,研究人員將高伽馬活動和低頻信號傳輸到自定義雙峰解碼模型,該模型在每次實驗中從 GO 提示音的前 500 毫秒時,開始以 80 毫秒的增量處理神經特征,針對可聽語音與文本進行同步解碼。
(來源:Nature Neuroscience)
在流式自動語音識別(ASR,automatic speech recognition)方法的啟發之下,研究人員采用了循環神經網絡轉導器(RNN-T,recurrent neural network transducer)框架,這是一種靈活的通用神經網絡架構,其特點在于無需依賴未來輸入上下文。
同時,研究人員針對這一框架加以調整,以便能夠從神經特征中實現流式語音合成和文本解碼。
循環神經網絡(RNN,recurrent neural network)能夠實時處理神經特征,從而生成與語音內容相對應的編碼向量。
在語音合成環節,這些編碼通過自回歸方式與流式聲學語音單元語言模型相結合,從 100 個候選單元中生成下一聲學語音單元的概率分布。
在文本解碼環節,這些編碼同樣能以自回歸方式與流式子詞文本編碼語言模型結合,進而能從 4096 個候選單元中生成下一子詞文本編碼的概率分布。
對于聲學語音單元和文本編碼,研究人員在推理過程中使用基于 RNN-T 的集束搜索算法來確定最有可能的標記。
所預測得到的聲學語音單元,將被輸入個性化語音合成器之中,進而生成與受試者發音嘗試同步播放的波形片段。
為了克服因受試者無法產生可理解語音、而導致的神經數據與言語行為對齊難題,研究人員在訓練過程中采用了 RNN-T 損失函數。
RNN-T 損失函數不僅能夠建模輸出聲學語音單元/文本編碼的概率分布,還能夠建模二者之間的相互依賴關系。
在離線狀態之下,研究人員針對架構中的流式語言模型加以訓練,以便將其用于語音識別任務。在凍結該模塊參數之后,再對系統的其余部分進行端到端訓練。
研究中所使用的目標聲學-語音單元,是使用 HuBERT 提取的。HuBERT 是一種自監督語音表示學習模型,它能將語音波形編碼為一系列時間序列單元,這些單元能夠捕捉語音波形潛在的語音和發音特征。
由于受試者無法說話,因此研究人員使用文本轉語音模型生成了初始參考波形。
與此同時,研究人員訓練了一款自回歸聲學-語音單元合成器,這個合成器能夠針對聲學-語音單元的持續時間進行建模,從而能夠更好地匹配受試者的語速。
所合成的語音,基于受試者失去語言能力之前錄制的一段簡短語音片段。
為了評估系統性能,研究人員使用了小詞匯量句子集“50-phrase-AAC”和大詞匯量句子集“1,024-word-General”。
“50-phrase-AAC”專為表達基礎護理需求而設計,包含預定義的標準化短語組合。“1,024-word-General”則是一個大詞匯量復合句庫,包含從 X 平臺和從電影臺詞采樣的 1,024 個獨特單詞所組成的 12,379 條獨立語句。
在訓練過程中,受試者幾乎完整地針對語料庫進行了兩次遍歷,期間共嘗試了 23,378 次無聲語音。
在訓練過程中,每個句子至少被查看兩次,并且部分句子還得到了多次收集,因此模型在訓練期間平均會查看每個測試句子 6.94 次。
為測試神經解碼器的泛化能力,研究人員額外評估了兩類場景。第一種場景是評估詞匯內新句式,即評估由已知詞匯構成、但受試者從未接觸過的句子。第二種場景是評估詞匯外新詞,即評估超出 1,024 詞庫范圍的陌生單詞。
與此同時,研究人員使用同一模型的文本解碼部分來預測下一個文本片段,然后將其用于調整為該片段合成語音的文本轉語音模型。
這種方案以犧牲語音自然度為代價換取了更高的可懂度。并且,只要所使用的語言模型與解碼器,能夠滿足流式處理與因果性約束,那么在理論上就能夠適配任何文本解碼算法。
助力開發適合失語者日常使用的語音神經假體
總的來說,研究人員展示了一種語音解碼方法,該方法能夠實現低延遲的自然口語交流,同時能夠輸出語音和文本。對于利用腦機接口設備實現自然語音來說,這項工作解決了語音神經假體中長期存在的延遲問題,即受試者嘗試說話與發出聲音之間的時間差,對于讓無法說話的人實現交流來說,本次成果邁出了關鍵一步。
在自然狀態之下,人類的口語交流是即時進行的。哪怕只是超過幾秒鐘的言語延遲,就可能會打斷對話的自然流暢性。這使得那些失語的癱瘓患者難以參與有意義的對話,從而可能會產生孤立感和挫敗感。因此,對于改善嚴重癱瘓且言語受影響患者的生活質量來說,本次技術具有巨大潛力。
不過,這是一項仍在繼續開展的研究,旨在探索究竟能在多大程度上從大腦活動中解碼副語言特征。即便是在傳統音頻合成領域,這也是一個長期存在的問題,而解決這一問題將能彌合通往完全自然表達的差距。
未來,研究人員將繼續優化算法,探索如何更好、更快地生成語音。具體來說,其將致力于為輸出語音構建表現力,以便反映說話時語調、音高或音量的變化,例如反映說話者情緒激動時的聲調特征,希望最終為開發適合失語者日常使用的語音神經假體奠定基礎。
參考資料:
https://newatlas.com/medical-tech/brain-waves-spoken-words-ai-paralysis/
https://www.nature.com/articles/s41593-025-01905-6
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.