來源:通義千問Qwen
今天,我們發布了Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模態旗艦模型。該模型專為全方位多模態感知設計,能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式,并通過實時流式響應同時生成文本與自然語音合成輸出。
該模型現已在 Hugging Face、ModelScope、DashScope 和 GitHub上開源開放,你可以通過我們的Demo體驗互動功能,或是通過Qwen Chat 直接發起語音或視頻聊天,沉浸式體驗全新的 Qwen2.5-Omni 模型強大性能。
主要特點
全能創新架構:我們提出了一種全新的Thinker-Talker架構,這是一種端到端的多模態模型,旨在支持文本/圖像/音頻/視頻的跨模態理解,同時以流式方式生成文本和自然語音響應。我們提出了一種新的位置編碼技術,稱為TMRoPE(Time-aligned Multimodal RoPE),通過時間軸對齊實現視頻與音頻輸入的精準同步。
實時音視頻交互:架構旨在支持完全實時交互,支持分塊輸入和即時輸出。
自然流暢的語音生成:在語音生成的自然性和穩定性方面超越了許多現有的流式和非流式替代方案。
全模態性能優勢:在同等規模的單模態模型進行基準測試時,表現出卓越的性能。Qwen2.5-Omni在音頻能力上優于類似大小的Qwen2-Audio,并與Qwen2.5-VL-7B保持同等水平。
卓越的端到端語音指令跟隨能力:Qwen2.5-Omni在端到端語音指令跟隨方面表現出與文本輸入處理相媲美的效果,在MMLU通用知識理解和GSM8K數學推理等基準測試中表現優異。
Qwen2.5-Omni-7B demo
模型架構
Qwen2.5-Omni采用Thinker-Talker雙核架構。Thinker 模塊如同大腦,負責處理文本、音頻、視頻等多模態輸入,生成高層語義表征及對應文本內容;Talker 模塊則類似發聲器官,以流式方式接收 Thinker實時輸出的語義表征與文本,流暢合成離散語音單元。Thinker 基于 Transformer 解碼器架構,融合音頻/圖像編碼器進行特征提??;Talker則采用雙軌自回歸 Transformer 解碼器設計,在訓練和推理過程中直接接收來自 Thinker 的高維表征,并共享全部歷史上下文信息,形成端到端的統一模型架構。
模型架構圖
模型性能
Qwen2.5-Omni在包括圖像,音頻,音視頻等各種模態下的表現都優于類似大小的單模態模型以及封閉源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。
在多模態任務OmniBench,Qwen2.5-Omni達到了SOTA的表現。此外,在單模態任務中,Qwen2.5-Omni在多個領域中表現優異,包括語音識別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU、MMStar)、視頻理解(MVBench)以及語音生成(Seed-tts-eval和主觀自然聽感)。
模型性能圖
下一步
我們期待聽到您的反饋,并看到您使用 Qwen2.5-Omni 開發的創新應用。在不久的將來,我們將著力增強模型對語音指令的遵循能力,并提升音視頻協同理解能力。更值得期待的是,我們將持續拓展多模態能力邊界,以發展成為一個全面的通用模型!
體驗方式
Qwen Chat:https://chat.qwenlm.ai
Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
GitHub:https://github.com/QwenLM/Qwen2.5-Omni
Demo體驗:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.