在新一波的技術浪潮中,大語言模型風頭正勁,但還有一種AI技術,正在配音、直播、客服等多個行業正發揮出越來越廣泛的應用。2月18日,京東言犀公布了兩項最新技術成果——語音合成大模型LiveTTS及通用數字人大模型2.0,支持zero-shot音色復刻和精品音色微調,并支持更精準的數字人聲唇對齊,將大幅提升人機自然交互體驗,目前已針對直播、外呼、客服、營銷等超10種特定商業化場景完成調優適配。技術降本帶來用戶體驗躍升,預計也將帶動更多AI營銷服務增量市場。
語音合成大模型全新升級 支持zero-shot音色復刻和精品音色微調
LiveTTS,是京東言犀最新發布的高仿真、多語言、情感豐富的語音合成(TTS)大模型,通過AI 技術生成自然、具備韻律且富有情感的語音。現在,只需喂給LiveTTS模型最短3秒音頻素材,就能支持zero-shot音色復刻以及精品音色微調,近乎完美的對聲音進行復刻。
這得益于基于Diffusion架構完成的20萬小時數據"熔煉"。在SeedTTS test-hard測試中,其CER指標(字符錯誤率)較其他頭部廠商模型降低了0.2%-5.12%不等,相當于每萬字最多能減少512處發音失誤。在主觀評價上,通過盲評的MOS評測,該模型尤其在音色相似度、自然清晰度、情感表達一致性方面表現出色,音色相似度較其他頭部廠商模型高出1.3倍。
從語音準確性上,言犀結合中文拼音與英文音素雙輸入系統,提升了發音準確性,讓技術更可用。從仿真度上,采用高質量的HiFt聲碼器,實現超98%的聲紋還原精度。
大量的實時、多樣性語音數據加入訓練,也進一步提升了模型的泛化能力,讓模型能夠在不同音頻提示詞(prompt)的條件下合成韻律豐富、自然的音頻,更加易用。LiveTTS已經能適配從兒童俏皮聲到老年人沉穩語調的多樣化需求,還支持中/英/日等多語種及方言的語音合成。
極低門檻、極致擬真、極多場景,是言犀LiveTTS語音合成大模型的優勢。基于LiveTTS打造的言犀數字人,支持近百個不同風格音色,形成圍繞直播場景需求的聲音供應鏈。2024年京東11.11期間,言犀TTS單日調用超1000萬次,成本直降90%,大大提升直播、配音、外呼等行業的工作效率。
數字人大模型實現精準聲唇同步 造就AI生產力
言犀數字人已廣泛應用在電商直播、客服接待、短視頻等場景中,光是使用數字人日常開播的商家就有超過7500家。但數字人向更大范圍的規模化應用始終存在三個難點:形象數據采集成本高、模型訓練周期長和推理效果難泛化。
為了解決這些問題,言犀團隊提出了新一代聲唇同步數字人基座模型,通過創新的多階段基模型訓練方法、多圖參考的多層注意力機制等方法。這一億級參數量的聲唇同步基座模型,進一步拓展了數字人在遮擋、大角度、多語速、跨音色和多語言等場景的應用。目前,在動態背景、多人直播等真實應用場景里,言犀數字人的唇形匹配度仍達到95%,具備較好的泛化能力,在各種場景中更可用,更易用。
在新一代數字人基座大模型支持下,僅需一張帶人像的圖片或短視頻、一份商品鏈接,言犀就可以自動生成流暢豐富的帶貨腳本,結合LiveTTS生成情緒化口播,數字人便栩栩如生“活”起來。這種模式,告別了傳統、冗長的數字人模型訓練流程,實現直接推理,既省去了訓練成本,還進一步擴展了數字人在視頻翻譯等低數據量場景的應用邊界。
除了直播外,平臺還能支持輸出數十條不同風格的數字人種草短視頻。整個過程從過往的至少72小時壓縮至分鐘級,成本僅為傳統數字人制作的十分之一,進一步實現技術降本。
言犀最新發布的兩項技術成果,并非單純的技術跑分競賽,而是旨在進一步降低AI應用的成本,新一代的語音合成LiveTTS模型及數字人大模型2.0,正在短視頻合成、數字人直播、視頻翻譯、數字人唱歌跳舞等多個商業化場景中應用,讓大模型變成商家人手必備的普惠工具。
作為品牌的AI營銷搭子,言犀將不斷開發出更多支持營銷場景的技術與產品,進一步降低中小商家應用門檻,加速AI生產力走進營銷場景。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.