允中 發自 凹非寺
量子位 | 公眾號 QbitAI
市面上很多的語音模型已經能保證足夠自然的合成表現,但在音質、韻律、情感,以及多角色演繹上還有探索空間。特別是在小說演播場景下,想要媲美一流主播細膩的演播效果,要做好旁白和角色的區分演繹、角色情感的精確表達、不同角色的區分度等。
傳統的小說TTS生成方式,需要提前給對話旁白、情感、角色打標簽,而豆包語音模型則可以做到端到端合成,無需額外標簽標注。
△傳統語音模型和豆包語音模型合成鏈路的區別
改進Seed-TTS技術,合成語音效果媲美真人
原始Seed-TTS(技術報告:https://arxiv.org/pdf/2406.02430)是一種自回歸文本到語音模型,主要分為4個主要模塊:Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder。
其中Speech Tokenizer解析了參考音頻信息,決定了合成音頻的音色和全局風格;Autoregressive Transformer接收傳入的目標文本和Speech Tokenizer的輸出,進而生成出包含語義信息的Semantic Token;Diffusion Model會基于Semantic Token建模出包含語音信息的Acoustic Token;Acoustic Vocoder負責將Acoustic Token重建還原出最終的音頻。
△原始Seed-TTS架構
為進一步提升小說演播下的語音表現力和長文本的理解,豆包技術團隊對Seed-TTS進行了改進
- 在數據上,小說音頻做章節級別處理,保證了長文下的語音一致性和連貫性。
- 在特征上,融合TTS前端提取的音素、音調、韻律信息和原始文本,提升發音和韻律的同時,保留小說語義。
- 在結構上,將speech tokenizer改為speaker embedding,解除reference audio對于語音風格的限制,因而同一個發音人能在不同角色上作出更貼合人設的演繹。
- 最后在目標合成文本之外,額外加入了上下文的信息,從而使得模型能夠感知更大范圍的語義信息,旁白和角色音表現更精準到位。
經過專業評測,優化后的豆包語音模型在小說演播場景,CMOS(Comparative Mean Opinion Score,與真人打對比分的一種主觀評分方式)已達一流主播的90%+效果。
△優化后的豆包語音模型結構
技術落地番茄小說,惠及聽書用戶
豆包語音大模型團隊以王明軍、李滿超兩位演播圈大咖的聲音為基礎,采用新技術合成的千部有聲書,已上線番茄小說,題材覆蓋了歷史、懸疑、靈異、都市、腦洞、科幻等熱門書目類型。
據了解,未來豆包語音模型會繼續探索前沿科技與業務場景的結合,追求更極致的“聽”體驗。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.