網易首頁 > 網易號 > 正文申請入駐

AI生產力拉滿！言犀公布最新語音合成及數字人大模型進展

2025-02-18 15:05:16　來源: 腦極體

天津舉報

分享至

在新一波的技術浪潮中，大語言模型風頭正勁，但還有一種AI技術，正在配音、直播、客服等多個行業正發揮出越來越廣泛的應用。2月18日，京東言犀公布了兩項最新技術成果——語音合成大模型LiveTTS及通用數字人大模型2.0，支持zero-shot音色復刻和精品音色微調，并支持更精準的數字人聲唇對齊，將大幅提升人機自然交互體驗，目前已針對直播、外呼、客服、營銷等超10種特定商業化場景完成調優適配。技術降本帶來用戶體驗躍升，預計也將帶動更多AI營銷服務增量市場。

語音合成大模型全新升級支持zero-shot音色復刻和精品音色微調

LiveTTS，是京東言犀最新發布的高仿真、多語言、情感豐富的語音合成（TTS）大模型，通過AI 技術生成自然、具備韻律且富有情感的語音。現在，只需喂給LiveTTS模型最短3秒音頻素材，就能支持zero-shot音色復刻以及精品音色微調，近乎完美的對聲音進行復刻。

這得益于基于Diffusion架構完成的20萬小時數據"熔煉"。在SeedTTS test-hard測試中，其CER指標（字符錯誤率）較其他頭部廠商模型降低了0.2%-5.12%不等，相當于每萬字最多能減少512處發音失誤。在主觀評價上，通過盲評的MOS評測，該模型尤其在音色相似度、自然清晰度、情感表達一致性方面表現出色，音色相似度較其他頭部廠商模型高出1.3倍。

從語音準確性上，言犀結合中文拼音與英文音素雙輸入系統，提升了發音準確性，讓技術更可用。從仿真度上，采用高質量的HiFt聲碼器，實現超98%的聲紋還原精度。

大量的實時、多樣性語音數據加入訓練，也進一步提升了模型的泛化能力，讓模型能夠在不同音頻提示詞（prompt）的條件下合成韻律豐富、自然的音頻，更加易用。LiveTTS已經能適配從兒童俏皮聲到老年人沉穩語調的多樣化需求，還支持中/英/日等多語種及方言的語音合成。

極低門檻、極致擬真、極多場景，是言犀LiveTTS語音合成大模型的優勢。基于LiveTTS打造的言犀數字人，支持近百個不同風格音色，形成圍繞直播場景需求的聲音供應鏈。2024年京東11.11期間，言犀TTS單日調用超1000萬次，成本直降90%，大大提升直播、配音、外呼等行業的工作效率。

數字人大模型實現精準聲唇同步造就AI生產力

言犀數字人已廣泛應用在電商直播、客服接待、短視頻等場景中，光是使用數字人日常開播的商家就有超過7500家。但數字人向更大范圍的規模化應用始終存在三個難點：形象數據采集成本高、模型訓練周期長和推理效果難泛化。

為了解決這些問題，言犀團隊提出了新一代聲唇同步數字人基座模型，通過創新的多階段基模型訓練方法、多圖參考的多層注意力機制等方法。這一億級參數量的聲唇同步基座模型，進一步拓展了數字人在遮擋、大角度、多語速、跨音色和多語言等場景的應用。目前，在動態背景、多人直播等真實應用場景里，言犀數字人的唇形匹配度仍達到95%，具備較好的泛化能力，在各種場景中更可用，更易用。

在新一代數字人基座大模型支持下，僅需一張帶人像的圖片或短視頻、一份商品鏈接，言犀就可以自動生成流暢豐富的帶貨腳本，結合LiveTTS生成情緒化口播，數字人便栩栩如生“活”起來。這種模式，告別了傳統、冗長的數字人模型訓練流程，實現直接推理，既省去了訓練成本，還進一步擴展了數字人在視頻翻譯等低數據量場景的應用邊界。

除了直播外，平臺還能支持輸出數十條不同風格的數字人種草短視頻。整個過程從過往的至少72小時壓縮至分鐘級，成本僅為傳統數字人制作的十分之一，進一步實現技術降本。

言犀最新發布的兩項技術成果，并非單純的技術跑分競賽，而是旨在進一步降低AI應用的成本，新一代的語音合成LiveTTS模型及數字人大模型2.0，正在短視頻合成、數字人直播、視頻翻譯、數字人唱歌跳舞等多個商業化場景中應用，讓大模型變成商家人手必備的普惠工具。

作為品牌的AI營銷搭子，言犀將不斷開發出更多支持營銷場景的技術與產品，進一步降低中小商家應用門檻，加速AI生產力走進營銷場景。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.