網易首頁 > 網易號 > 正文申請入駐

阿里Qwen版高級語音模式和實時視頻聊天模式來了：每天10次試用

2025-03-27 07:37:33　來源: AI寒武紀

江蘇舉報

分享至

阿里的 Qwen Chat (通義千問聊天) 現在可以直接進行實時語音和實時視頻聊聊天了，每天10次

全能選手 Qwen2.5-Omni 登場并開源

支撐這項新功能的，是剛剛發布的Qwen2.5-Omni-7B模型，它是一個Omni（全能）模型。簡單說，就是一個模型能同時理解文本、音頻、圖像、視頻多種輸入，并且能輸出文本和音頻

阿里繼續大搞開源，直接將 Qwen2.5-Omni-7B模型基于Apache 2.0 許可證開源了！同時，詳細的技術報告也已公開，干貨滿滿

這里是所有傳送門，方便大家深入研究和上手：

?體驗 Qwen Chat 新功能:
https://chat.qwenlm.ai
?技術報告 (Paper):
https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
?官方博客:
https://qwenlm.github.io/blog/qwen2.5-omni
?GitHub 代碼倉庫:
https://github.com/QwenLM/Qwen2.5-Omni
?Hugging Face 模型:
https://huggingface.co/Qwen/Qwen2.5-Omni-7B
?ModelScope 模型:
https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

核心架構：「思考者-說話者」

Qwen2.5-Omni 實現這種全能能力的關鍵，在于其設計的「Thinker-Talker」（思考者-說話者）架構。這個設計非常巧妙，讓模型能同時思考和說話：

1.Thinker (思考者):扮演大腦的角色。它負責處理來自文本、音頻、視頻等多種模態的輸入，通過專門的音視頻編碼器提取信息，再利用一個 Transformer 解碼器進行理解和處理，最終生成高層語義表示和相應的文本內容
2.Talker (說話者):擔當嘴巴的功能。它以流式（streaming）方式接收 Thinker 生成的高層表示和文本，并采用一種雙軌自回歸 Transformer 解碼器架構，流暢地合成并輸出離散的語音單元（tokens）。

關鍵點在于，Talker 并非獨立工作，它能直接獲取 Thinker 產生的高維表示，并且共享 Thinker 全部歷史上下文信息。這使得 Thinker 和 Talker 構成了一個緊密協作的單一整體模型，可以進行端到端的訓練和推理。這種設計是實現低延遲、高流暢度語音交互的核心

性能表現如何？全面且強大

研究團隊對 Qwen2.5-Omni 進行了全面評估，結果相當亮眼：

跨模態能力 SOTA:在需要整合多種模態信息的任務上（如 OmniBench 基準測試），Qwen2.5-Omni 達到了當前最佳水平（State-of-the-Art）

單模態能力不俗:與同等規模的單模態模型（如 Qwen2.5-VL-7B、Qwen2-Audio）以及一些強大的閉源模型（如 Gemini-1.5-pro）相比，Qwen2.5-Omni 在各項單模態任務上也展現出強大的競爭力。具體包括：
*語音識別:Common Voice
*語音翻譯:CoVoST2
*音頻理解:MMAU
*圖像推理:MMMU, MMStar
*視頻理解:MVBench
*語音生成:Seed-tts-eval 及主觀自然度評估

可以說，Qwen2.5-Omni 在保持全能的同時，并沒有犧牲在各個垂直領域的能力

總結：

?星標AI寒武紀，好內容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.