本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。
作者 | 陳駿達
編輯 | 心緣
智東西3月27日報道,今天,阿里巴巴通義千問發布了新一代端到端多模態旗艦模型Qwen2.5-Omni-7B。這一模型能夠實時處理文本、圖像、音頻和視頻等多種輸入形式,并通過實時流式響應同時生成文本與自然語音合成輸出。
該模型現已在Hugging Face、魔搭、DashScope和GitHub上開源,采用寬松的Apache 2.0開源協議,模型論文也全面開源,詳解了背后的技術細節。同時,用戶可以在Demo中體驗互動功能,或是在Qwen Chat中像打電話或視頻通話一樣與Qwen聊天。
千問團隊稱,Qwen2.5-Omni采用了全新的Thinker-Talker架構,支持跨模態理解和流式文本、語音響應,支持分塊輸入和即時輸出。
在與同等規模的模型進行基準測試比較時,Qwen2.5-Omni表現出一定優勢,并超過了Gemini 1.5 Pro和GPT-4o-mini等閉源模型。
Qwen2.5-Omni在音頻能力上優于類似大小的Qwen2-Audio,并與Qwen2.5-VL-7B保持同等水平。在權威多模態理解測試OmniBench上,Qwen2.5-Omni獲得了SOTA表現,超越Gemini 1.5 Pro,提升幅度達30.8%。
Qwen2.5-Omni在端到端語音指令跟隨方面表現出與文本輸入處理類似的效果,在MMLU通用知識理解和GSM8K數學推理等基準測試獲得了不錯的成績。
開源地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
論文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
Demo體驗:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo
一、全模態實時交互,看一眼食材秒出食譜
在博客文章中,千問團隊放出了多個Qwen2.5-Omni在現實世界多模態場景中的測試案例。
目前,Qwen2.5-Omni共有Cherry和Ethan兩種語音可供選擇。Cherry音色對應的是女聲,Ethan音色對應的是男聲。從聽感來看,這兩種語音真實、自然,會在說話時加入停頓、語氣詞等內容。
Qwen2.5-Omni能在場景中實時處理、分析多模態內容。
例如,在下廚時,可以拿著食材詢問通義應該如何處理,或是環視廚房里的調料,看究竟應該用哪些調料,可謂是廚房小白福音了。
Qwen2.5-Omni能聽懂音樂,判斷歌曲是什么風格,采用了何種音調,并提出對原創歌曲歌詞、節奏等方面的意見。
在繪畫時,Qwen2.5-Omni可以根據草圖判斷繪畫內容,還能給出畫面的構圖建議。
此外,Qwen2.5-Omni還可以在戶外場景判斷天氣、在學習場景中輔助解題、論文閱讀,具備較好的通用多模態能力。
二、自研端到端架構,獲得多模態理解基準測試SOTA
Qwen2.5-Omni采用Thinker-Talker雙核架構。Thinker模塊如同大腦,負責處理文本、音頻、視頻等多模態輸入,生成高層語義表征及對應文本內容。
Talker模塊則類似發聲器官,以流式方式接收Thinker實時輸出的語義表征與文本,流暢合成離散語音單元。
Thinker基于Transformer解碼器架構,融合音頻/圖像編碼器進行特征提取;Talker則采用雙軌自回歸Transformer解碼器設計,在訓練和推理過程中直接接收來自Thinker的高維表征,并共享全部歷史上下文信息,形成端到端的統一模型架構。
千問團隊還提出了一種新的位置編碼技術,稱為TMRoPE(Time-aligned Multimodal RoPE),通過時間軸對齊實現視頻與音頻輸入的同步。
在多項基準測試中,Qwen2.5-Omni在包括圖像,音頻,音視頻等各種模態下的表現都優于類似大小的單模態模型以及閉源模型。
值得一提的是,在多模態理解基準測試OmniBench上,Qwen2.5-Omni達到了SOTA表現,其得分為56.13%,超過第2名Gemini 1.5 Pro的42.91%。
在視頻到文本任務上,Qwen2.5-Omni也超過了原本的開源SOTA模型和GPT-4o-mini。
在其他基準測試中,如語音識別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU、MMStar)、視頻理解(MVBench)以及語音生成(Seed-tts-eval和主觀自然聽感),Qwen2.5-Omni的成績均超過了Qwen家族的其他單模態模型。
結語:更強大的Qwen2.5-Omni還在路上
Qwen2.5-Omni-7B一經發布便獲得海內外用戶的關注,有不少網友已經開啟了催更模式,比如增加對小語種的支持、開發千問海外App,或是與智能眼鏡等硬件結合。
據千問團隊介紹,未來,他們還會發布能力更強、速度更快的模型,并擴展其多模態輸出能力,涵蓋圖像、視頻和音樂等多種形式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.