網易首頁 > 網易號 > 正文申請入駐

全面擁抱 DeepSeek 技術，有道智云發布多模態交互助手

2025-02-21 16:01:00　來源: 網易有道

北京舉報

分享至

近日，有道智云接入DeepSeek后，正式推出了一款融合 “語音交互 + 視覺理解” 功能的多模態交互助手 ——AI Conversation，它是一款基于 DeepSeek 的多模態交互助手，能夠處理文本、圖像、音頻、視頻等多種輸入形式，并生成相應的多模態輸出。

此次發布，標志著有道智云在全面接入 DeepSeek 技術后·，結合網易有道自主研發的子曰教育大模型，及成功打造了國內首個基于 DeepSeek 的多模態應用，實現了語音與視覺的無縫結合，為用戶提供了更加多元、自然和個性化的交互體驗。

語音交互 + 視覺理解，多模態交互讓溝通更智能

據悉，AI Conversation結合了語音打斷、語音識別、語音合成、一句話克隆、語音降噪和視覺理解等算法，為用戶提供接近真人對話的交互體驗。此外，接入Deepseek后，AI Conversation還通過增強視覺理解能力，實現了真正的多模態交互。用戶不僅可以通過語音與平臺進行自然對話，還能通過拍照、視頻通話等方式，更好地理解和滿足需求。

AI Conversation允許用戶根據個人喜好選擇不同的模型，如深度思考和聯網搜索，以應對復雜交互場景。同時，優化后的語言選擇和音色選擇功能，讓用戶能夠挑選心儀的交流方式和音色，進一步提升交互的個性化和自然度。

值得一提的是，AI Conversation支持所有蒸餾模型，這使得客戶即便是在消費級顯卡上進行部署，也能讓產品具備多模態能力。

據了解，截至目前，在支持語種方面，AI Conversation 已支持 100 多種輸入語言；在響應速度上，其響應速度極快，一秒內即可完成接通，相較于市場同類產品的 2-3 秒響應時間，大幅節省了用戶時間。此外，在打斷能力以及降噪功能方面，AI Conversation 同樣表現出色，即便處于開放環境或存在環境噪音的情況之下，也能夠提供優質的語音交互效果。

有道多技術積累，打造智能交互新體驗

AI Conversation呈現的種種能力，不僅基于DeepSeek的推理能力，還融合了有道在大模型翻譯、自動語音識別（ASR）以及語音合成（TTS）等多方面的積累，為用戶帶來全新的智能交互體驗。

據悉，有道在自動語音識別（ASR）和文本到語音（TTS）領域耕耘多年，始終以場景為導向，不斷推動技術落地，為用戶帶來諸多高效便捷的應用和產品。經測試，有道自動語音識別（ASR）在匹配錯誤率、詞信息丟失、詞信息保留、詞錯誤率和詞正確率的表現均好于同類競品。

在 TTS 質量方面，AI Conversation 的低延時特性支持雙向流式、逐字級流式輸入及 chunk 級流式輸出，讓語音交互更流暢自然；高保真音質最高支持 48khz 音頻合成輸出，能提供清晰細膩聽覺享受；發音準確率超 98%，能確保信息準確傳達；此外，其高自然度表現同樣出色，MOS 分超 4.8，語音自然度近似真人，用戶能感受到真實舒適交流氛圍。

據悉，AI Conversation還結合了有道的子曰翻譯大模型，能夠深度理解語言細微差別和復雜語境，消除機翻的生硬感，且譯文更加貼合上下文語境。在技術層面融合自研的子曰大模型和DeepSeek-R1的通用推理能力，構建“專業領域+通用智能”的混合架構，提升在復雜場景下的精準度，能夠更好地滿足用戶的需求。

未來，有道智云將持續優化 AI Conversation 的功能和性能，致力于為用戶提供更智能、便捷、個性化的交互體驗。作為網易有道的技術出口，有道智云一直為行業提供豐富的技術接口與服務，目前已與支付寶、微信、360、掌閱、網易郵箱、華為、三星、字節跳動、百度等眾多知名機構及產品建立合作關系。憑借對 AI 在語音、圖像等方面應用的深入理解，加上 DeepSeek 強大的推理性能和大幅降低成本的優勢，有道智云將推出更多有效的 AI 大模型產品，推動 AI 技術在各行業的廣泛應用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.