網(wǎng)易有道上線“易魔聲” 開源語音合成引擎用戶可免費(fèi)下載使用

2023-11-10 16:48:34　來源: 網(wǎng)易有道

北京舉報(bào)

分享至

11月10日，網(wǎng)易有道正式上線“易魔聲”開源語音合成（TTS）引擎，所有用戶可免費(fèi)在開源社區(qū)GitHub進(jìn)行下載使用，通過其提供的web界面及批量生成結(jié)果的腳本接口，輕松實(shí)現(xiàn)音色的情感合成與應(yīng)用。
據(jù)悉，“易魔聲”是一款有道自研TTS引擎，目前支持中英文雙語，包含2000多種不同的音色，更有特色的情感合成功能，支持合成包含快樂、興奮、悲傷、憤怒等廣泛情感的語音。

GitHub開源界面

在過往的回憶里，總會有一些特別的聲音，比如：偶像的聲音激勵(lì)人心、媽媽的聲音讓我們一秒回憶起小時(shí)候……聲音，作為語言維度的一種，總是蘊(yùn)含著人類充沛的情感表達(dá)。而富有情感的合成語音，是能夠?yàn)閼?yīng)用和內(nèi)容增色的AI功能。有道“易魔聲”則為開發(fā)者和內(nèi)容創(chuàng)作者提供了一些解決思路——只需簡單通過在文本中加入情感的描述提示，就可以自由合成符合自己需求的帶有情感的語音，比傳統(tǒng)TTS更加自然逼真。
隨著基于GAN等現(xiàn)代AI技術(shù)的語音能力越來越成熟，實(shí)現(xiàn)一個(gè)質(zhì)量較高的TTS系統(tǒng)的門檻越來越低。但即使如此，中英雙語的高質(zhì)量、現(xiàn)代TTS模塊還是不易找到，要在自己的應(yīng)用與內(nèi)容中加入高逼真度且高度可控的語音，特別是中英雙語的語音，也依然比較麻煩。
“目前該項(xiàng)目還處于初期階段，現(xiàn)在將這個(gè)項(xiàng)目開源，也是希望能幫助到有需求的開發(fā)者與內(nèi)容創(chuàng)作者，并不斷擴(kuò)大高質(zhì)量TTS的應(yīng)用范圍，讓產(chǎn)品及應(yīng)用更好地落地。也期待大家試用后給我們提供更多反饋與建議。”網(wǎng)易有道CEO周楓介紹道。
有道在 TTS 領(lǐng)域耕耘多年，始終以場景為導(dǎo)向，不斷推動技術(shù)落地，為用戶帶來諸多高效便捷的應(yīng)用和產(chǎn)品。例如，推出教育領(lǐng)域首個(gè)明星語音功能，將王源、歐陽娜娜、馬伯騫等明星的聲音內(nèi)置在網(wǎng)易有道詞典中，陪伴用戶共同學(xué)習(xí)英語；提供聲音定制和聲音復(fù)刻功能，僅需 5 分鐘即可完成個(gè)性化聲音定制；近期推出的 Hi Echo 虛擬人口語私教，借助有道「子曰」教育大模型、語音和虛擬人技術(shù)，幫助用戶隨時(shí)隨地輕松練習(xí)英語口語。
從2008年起，網(wǎng)易有道便開始布局AI，多年來一直致力于基于Transformer模型進(jìn)行創(chuàng)新和應(yīng)用，并在神經(jīng)網(wǎng)絡(luò)翻譯、計(jì)算機(jī)視覺、高性能計(jì)算、智能語音AI技術(shù)等方面都具備了核心技術(shù)，為應(yīng)用的實(shí)際落地打下了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。
此外，用戶還可通過有道智云官網(wǎng)，體驗(yàn)已經(jīng)對開發(fā)者通過API等形式開放的文本和圖像翻譯、文字和各類圖片識別、作文批改等各類AI技術(shù)。
有道智云AI開放平臺，是網(wǎng)易有道旗下一站式人工智能服務(wù)提供商，為開發(fā)者、企業(yè)和政府機(jī)構(gòu)等提供自然語言翻譯、文字識別、OCR、語音識別等服務(wù)以及行業(yè)解決方案，致力于提供安全、可靠和高效的云服務(wù)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.