近日,有道智云接入DeepSeek后,正式推出了一款融合 “語音交互 + 視覺理解” 功能的多模態交互助手 ——AI Conversation,它是一款基于 DeepSeek 的多模態交互助手,能夠處理文本、圖像、音頻、視頻等多種輸入形式,并生成相應的多模態輸出。
此次發布,標志著有道智云在全面接入 DeepSeek 技術后·,結合網易有道自主研發的子曰教育大模型,及成功打造了國內首個基于 DeepSeek 的多模態應用,實現了語音與視覺的無縫結合,為用戶提供了更加多元、自然和個性化的交互體驗。
語音交互 + 視覺理解,多模態交互讓溝通更智能
據悉,AI Conversation結合了語音打斷、語音識別、語音合成、一句話克隆、語音降噪和視覺理解等算法,為用戶提供接近真人對話的交互體驗。此外,接入Deepseek后,AI Conversation還通過增強視覺理解能力,實現了真正的多模態交互。用戶不僅可以通過語音與平臺進行自然對話,還能通過拍照、視頻通話等方式,更好地理解和滿足需求。
AI Conversation允許用戶根據個人喜好選擇不同的模型,如深度思考和聯網搜索,以應對復雜交互場景。同時,優化后的語言選擇和音色選擇功能,讓用戶能夠挑選心儀的交流方式和音色,進一步提升交互的個性化和自然度。
值得一提的是,AI Conversation支持所有蒸餾模型,這使得客戶即便是在消費級顯卡上進行部署,也能讓產品具備多模態能力。
據了解,截至目前,在支持語種方面,AI Conversation 已支持 100 多種輸入語言;在響應速度上,其響應速度極快,一秒內即可完成接通,相較于市場同類產品的 2-3 秒響應時間,大幅節省了用戶時間。此外,在打斷能力以及降噪功能方面,AI Conversation 同樣表現出色,即便處于開放環境或存在環境噪音的情況之下,也能夠提供優質的語音交互效果。
有道多技術積累,打造智能交互新體驗
AI Conversation呈現的種種能力,不僅基于DeepSeek的推理能力,還融合了有道在大模型翻譯、自動語音識別(ASR)以及語音合成(TTS)等多方面的積累,為用戶帶來全新的智能交互體驗。
據悉,有道在自動語音識別(ASR)和文本到語音(TTS)領域耕耘多年,始終以場景為導向,不斷推動技術落地,為用戶帶來諸多高效便捷的應用和產品。經測試,有道自動語音識別(ASR)在匹配錯誤率、詞信息丟失、詞信息保留、詞錯誤率和詞正確率的表現均好于同類競品。
在 TTS 質量方面,AI Conversation 的低延時特性支持雙向流式、逐字級流式輸入及 chunk 級流式輸出,讓語音交互更流暢自然;高保真音質最高支持 48khz 音頻合成輸出,能提供清晰細膩聽覺享受;發音準確率超 98%,能確保信息準確傳達;此外,其高自然度表現同樣出色,MOS 分超 4.8,語音自然度近似真人,用戶能感受到真實舒適交流氛圍。
據悉,AI Conversation還結合了有道的子曰翻譯大模型,能夠深度理解語言細微差別和復雜語境,消除機翻的生硬感,且譯文更加貼合上下文語境。在技術層面融合自研的子曰大模型和DeepSeek-R1的通用推理能力,構建“專業領域+通用智能”的混合架構,提升在復雜場景下的精準度,能夠更好地滿足用戶的需求。
未來,有道智云將持續優化 AI Conversation 的功能和性能,致力于為用戶提供更智能、便捷、個性化的交互體驗。作為網易有道的技術出口,有道智云一直為行業提供豐富的技術接口與服務,目前已與支付寶、微信、360、掌閱、網易郵箱、華為、三星、字節跳動、百度等眾多知名機構及產品建立合作關系。憑借對 AI 在語音、圖像等方面應用的深入理解,加上 DeepSeek 強大的推理性能和大幅降低成本的優勢,有道智云將推出更多有效的 AI 大模型產品,推動 AI 技術在各行業的廣泛應用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.