網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

7B模型搞定AI視頻通話，阿里最新開源炸場，看聽說寫全模態(tài)打通

2025-03-27 12:51:00　來源: 量子位

北京舉報(bào)

分享至

西風(fēng) 明敏發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

深夜重磅！阿里發(fā)布并開源首個(gè)端到端全模態(tài)大模型——

通義千問Qwen2.5-Omni-7B，來了。

僅靠一個(gè)一體式模型，就能搞定文本、音頻、圖像、視頻全模態(tài)，并實(shí)時(shí)生成文本和自然語音。

堪稱7B模型的全能冠軍。

你的iPhone搭載的很可能就是它！

現(xiàn)在打開Qwen Chat，就能直接和它實(shí)時(shí)進(jìn)行視頻或語音交互：

話不多說，先來看一波能力展示。

在大街上同它視頻通話，它能正確識(shí)別周圍環(huán)境，按照你的需求為你推薦餐館：

視頻鏈接：https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

走進(jìn)廚房，它又化身“智能菜譜”，一步步指導(dǎo)你變成大廚：

視頻鏈接：https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

在多模態(tài)任務(wù)OmniBench評(píng)測中，Qwen2.5-Omni表現(xiàn)刷新記錄拿下新SOTA，遠(yuǎn)超谷歌Gemini-1.5-Pro等同類模型。

在單模態(tài)的語音識(shí)別、翻譯、音頻理解、圖像推理、視頻理解、語音生成任務(wù)中，Qwen2.5-Omni的全維度表現(xiàn)也都優(yōu)于類似大小的單模態(tài)模型以及閉源模型。

在seed-tts-eval語音生成基準(zhǔn)中，Qwen2.5-Omni展現(xiàn)出與人類水平相當(dāng)?shù)恼Z音合成能力。

這意味著Qwen2.5-Omni-7B能很好地和世界進(jìn)行實(shí)時(shí)交互，甚至能輕松識(shí)別音視頻情緒。

再來敲重點(diǎn)：

模型非常輕量，手機(jī)等終端都可輕松部署運(yùn)行，且開源用的是寬松的Apache2.0協(xié)議，開發(fā)者、企業(yè)現(xiàn)在都可免費(fèi)在魔搭社區(qū)或Hugging Face下載商用

Qwen2.5-Omni-7B一開源，網(wǎng)友直呼這才是真正的OpenAI（doge）。

網(wǎng)友紛紛表示可以直接拿來裝到智能眼鏡上了：

這可能是智能眼鏡的完美模型。

7B模型的新紀(jì)錄！

目前，在Qwen Chat上即可體驗(yàn)該模型支持的AI語音和視頻通話功能。

更多實(shí)例，一起來看~

實(shí)測效果驚艷

首先，Qwen2.5-Omni-7B能勝任免費(fèi)的數(shù)學(xué)家教。

它能像人類老師一樣，看到題目、聽懂問題，并且一步一步耐心講解。

視頻鏈接：https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

更復(fù)雜的論文它也看得懂。

只需共享屏幕，然后將論文從上至下滑動(dòng)，“給它看一遍”。

它就能通俗解釋論文內(nèi)容。

比如PPT、網(wǎng)頁資料等，也能找它做講解。

而且它還有一定藝術(shù)見解，比如可以陪著你畫畫，然后給出指導(dǎo)建議。

或者聽你演奏的音樂，給出更好的改進(jìn)建議。

我們還進(jìn)行了一手實(shí)測，在Qwen Chat上每天可使用語音和視頻聊天10次。

實(shí)測中，模型能很好地理解商品界面和優(yōu)惠政策。

響應(yīng)速度也很快，并且會(huì)引導(dǎo)人類繼續(xù)問下去、很有耐心。

需要注意的是，當(dāng)前視頻通話還只是Beta測試版，每次通話限時(shí)3分鐘。

視頻鏈接：https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

Hugging Face的產(chǎn)品負(fù)責(zé)人Jeff Boudier也第一時(shí)間上手試玩。

模型的英文能力一樣出眾，而且它不僅回答看到了杯子，還細(xì)致描述了杯子上的笑臉花紋。

視頻鏈接：https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

首創(chuàng)Thinker-Talker雙核架構(gòu)

目前官方已放出Qwen2.5-Omni技術(shù)Blog和論文。

Qwen2.5-Omni采用通義團(tuán)隊(duì)首創(chuàng)的全新架構(gòu)——Thinker-Talker雙核架構(gòu)

其中，Thinker就像“大腦”，負(fù)責(zé)處理和理解來自文本、音頻、視頻等多模態(tài)的輸入信息，生成高層語義表征以及對(duì)應(yīng)的文本內(nèi)容。

Talker則更像“嘴巴”，以流式的方式接收由Thinker實(shí)時(shí)輸出的語義表征與文本，并流暢地合成離散語音tokens。

具體來說，Thinker基于Transformer解碼器架構(gòu)，融合音頻/圖像編碼器進(jìn)行特征提取。

而Talker采用雙軌自回歸Transformer解碼器設(shè)計(jì)，在訓(xùn)練和推理過程中直接接收來自Thinker的高維表征，并共享Thinker的全部歷史上下文信息。因此，整個(gè)架構(gòu)作為一個(gè)緊密結(jié)合的單一模型運(yùn)行，支持端到端的訓(xùn)練和推理。

與此同時(shí)，團(tuán)隊(duì)還提出了一種新的位置編碼算法TMRoPE（Time-aligned Multimodal RoPE）以及Position Embedding（位置嵌入）融合音視頻技術(shù)

TMRoPE編碼多模態(tài)輸入的三維位置信息，即多模態(tài)旋轉(zhuǎn)位置嵌入（M-RoPE），并結(jié)合絕對(duì)時(shí)間位置，通過將原始旋轉(zhuǎn)嵌入分解為時(shí)間、高度和寬度三個(gè)部分實(shí)現(xiàn)。

另外值得一提的是，從技術(shù)層面來看，Qwen2.5-Omni和一般的視頻/語音理解模型以及其相應(yīng)的視頻/語音對(duì)話的AI功能，也有本質(zhì)性區(qū)別。

在傳統(tǒng)語音理解大模型的人機(jī)交互場景里，一般運(yùn)用 ASR（Automatic Speech Recognition，自動(dòng)語音識(shí)別）技術(shù)，把人類語音轉(zhuǎn)換為文字文本，隨后將其交給大語言模型處理，最終生成的內(nèi)容借助 TTS（Text-to-Speech，語音合成）技術(shù)轉(zhuǎn)化為語音反饋給用戶。

而視頻理解模型是基于圖片、視頻進(jìn)行大模型理解，并以文字形式輸出反饋。

這兩種模型均屬于相互獨(dú)立的單鏈路模型。在一些AI應(yīng)用中，甚至?xí)?lián)多個(gè)模型來實(shí)現(xiàn)類似功能，如此一來，鏈路變得更長，效率大打折扣。

Qwen2.5-Omni-7B的特點(diǎn)在于，它原生支持視頻、圖片、語音、文字等多模態(tài)輸入，并能原生生成語音及文字等多模態(tài)輸出

也就是說，一個(gè)模型就能通過“看”、“聽”、“閱讀”等多種方式來綜合思考。

所以Qwen2.5-Omni得以在一系列同等規(guī)模的單模態(tài)模型權(quán)威基準(zhǔn)測試中，拿下最強(qiáng)全模態(tài)性能，在語音理解、圖片理解、視頻理解、語音生成等領(lǐng)域的測評(píng)分?jǐn)?shù)，均領(lǐng)先于專門的音頻（Audio）或視覺語言（VL）模型。

搶先看到Apple Intelligence？

一個(gè)月前，阿里公開確認(rèn)與蘋果合作，宣布通義千問將為國行iPhone用戶提供AI功能，此消息一經(jīng)披露，便在科技圈引發(fā)熱議。

而這次Qwen2.5-Omni開源，就是奔著端側(cè)部署來的，7B尺寸使其具備直接嵌入手機(jī)的可行性，仿佛提前看到了Apple Intelligence，讓大家看到多模態(tài)大模型上手機(jī)都能有哪些效果。

不只是蘋果，據(jù)量子位了解，這種端側(cè)部署能力已吸引超90%國產(chǎn)手機(jī)品牌接入通義千問，包括OPPO、vivo、榮耀、傳音等，還有眾多汽車品牌、AI硬件產(chǎn)品選擇與之?dāng)y手。

為啥都選通義千問？

梳理通義千問的最新發(fā)展動(dòng)態(tài)，答案便不難理解。

首先，通義千問Qwen目前已穩(wěn)居全球最大AI大模型族群。

僅在最近一個(gè)月的時(shí)間里，就接連推出了一系列具有競爭力的模型：推理模型Max旗艦版QwQ-Max-Preview、視頻生成模型Wan 2.1、推理模型QwQ-32B、視覺語言模型Qwen2.5-VL-32B-Instruct……

實(shí)際上，2023年至今，阿里通義團(tuán)隊(duì)已累計(jì)開源200多款模型，涵蓋從0.5B到110B全尺寸范圍，模型類型覆蓋文本生成、視覺理解與生成、語音理解與生成、文生圖及視頻模型等全模態(tài)領(lǐng)域，應(yīng)用場景也極為豐富。

在海內(nèi)外開源社區(qū)中，通義千問Qwen衍生模型數(shù)量更是一路飆升，現(xiàn)已超過10萬，超越Llama系列。

根據(jù)Hugging Face 在2月10日發(fā)布的最新全球開源大模型榜單，排名前十的開源大模型無一例外，全部是基于通義千問Qwen開源模型二創(chuàng)的變體模型。

其次，阿里巴巴通過開源等一系列積極舉措，成功構(gòu)建起一個(gè)豐富且活躍的大模型生態(tài)。

阿里不僅將開源進(jìn)行到底，更向大模型公司提供了全方位的服務(wù)支持，其中包括算力資源以及開發(fā)工具等，阿里云已成為中國大模型領(lǐng)域的公共AI算力底座。

截至2025年2月中旬，阿里魔搭社區(qū)ModelScope的模型總量已超4萬個(gè)，服務(wù)超1000萬開發(fā)者。

那么通義千問Qwen團(tuán)隊(duì)下一步要干啥？

期待聽到您的反饋，并看到您使用Qwen2.5-Omni開發(fā)的創(chuàng)新應(yīng)用。
在不久的將來，將著力增強(qiáng)模型對(duì)語音指令的遵循能力，并提升音視頻協(xié)同理解能力。還將持續(xù)拓展多模態(tài)能力邊界，發(fā)展全面的通用模型。

感興趣的友友不如一起來上手試試吧~

Qwen Chat：https://chat.qwenlm.ai

Hugging Face：https://huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope：https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub：https://github.com/QwenLM/Qwen2.5-Omni

Demo體驗(yàn)：https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.