阿里的 Qwen Chat (通義千問聊天) 現在可以直接進行實時語音和實時視頻聊聊天了,每天10次
全能選手 Qwen2.5-Omni 登場并開源
支撐這項新功能的,是剛剛發布的Qwen2.5-Omni-7B模型,它是一個Omni(全能)模型。簡單說,就是一個模型能同時理解文本、音頻、圖像、視頻多種輸入,并且能輸出文本和音頻
阿里繼續大搞開源,直接將 Qwen2.5-Omni-7B模型基于Apache 2.0 許可證開源了!同時,詳細的技術報告也已公開,干貨滿滿
這里是所有傳送門,方便大家深入研究和上手:
?體驗 Qwen Chat 新功能:
https://chat.qwenlm.ai
?技術報告 (Paper):
https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
?官方博客:
https://qwenlm.github.io/blog/qwen2.5-omni
?GitHub 代碼倉庫:
https://github.com/QwenLM/Qwen2.5-Omni
?Hugging Face 模型:
https://huggingface.co/Qwen/Qwen2.5-Omni-7B
?ModelScope 模型:
https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
Qwen2.5-Omni 實現這種全能能力的關鍵,在于其設計的「Thinker-Talker」(思考者-說話者)架構。這個設計非常巧妙,讓模型能同時思考和說話:
1.Thinker (思考者):扮演大腦的角色。它負責處理來自文本、音頻、視頻等多種模態的輸入,通過專門的音視頻編碼器提取信息,再利用一個 Transformer 解碼器進行理解和處理,最終生成高層語義表示和相應的文本內容
2.Talker (說話者):擔當嘴巴的功能。它以流式(streaming)方式接收 Thinker 生成的高層表示和文本,并采用一種雙軌自回歸 Transformer 解碼器架構,流暢地合成并輸出離散的語音單元(tokens)。
關鍵點在于,Talker 并非獨立工作,它能直接獲取 Thinker 產生的高維表示,并且共享 Thinker 全部歷史上下文信息。這使得 Thinker 和 Talker 構成了一個緊密協作的單一整體模型,可以進行端到端的訓練和推理。這種設計是實現低延遲、高流暢度語音交互的核心
性能表現如何?全面且強大
研究團隊對 Qwen2.5-Omni 進行了全面評估,結果相當亮眼:
跨模態能力 SOTA:在需要整合多種模態信息的任務上(如 OmniBench 基準測試),Qwen2.5-Omni 達到了當前最佳水平(State-of-the-Art)
單模態能力不俗:與同等規模的單模態模型(如 Qwen2.5-VL-7B、Qwen2-Audio)以及一些強大的閉源模型(如 Gemini-1.5-pro)相比,Qwen2.5-Omni 在各項單模態任務上也展現出強大的競爭力。具體包括:
*語音識別:Common Voice
*語音翻譯:CoVoST2
*音頻理解:MMAU
*圖像推理:MMMU, MMStar
*視頻理解:MVBench
*語音生成:Seed-tts-eval 及主觀自然度評估
可以說,Qwen2.5-Omni 在保持全能的同時,并沒有犧牲在各個垂直領域的能力
總結:
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.