網易首頁 > 網易號 > 正文申請入駐

7B模型搞定AI視頻通話，阿里最新開源炸場，看聽說寫全模態打通

2025-03-27 12:51:00　來源: 量子位

北京舉報

分享至

西風明敏發自凹非寺
量子位 | 公眾號 QbitAI

深夜重磅！阿里發布并開源首個端到端全模態大模型——

通義千問Qwen2.5-Omni-7B，來了。

僅靠一個一體式模型，就能搞定文本、音頻、圖像、視頻全模態，并實時生成文本和自然語音。

堪稱7B模型的全能冠軍。

你的iPhone搭載的很可能就是它！

現在打開Qwen Chat，就能直接和它實時進行視頻或語音交互：

話不多說，先來看一波能力展示。

在大街上同它視頻通話，它能正確識別周圍環境，按照你的需求為你推薦餐館：

視頻鏈接：https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

走進廚房，它又化身“智能菜譜”，一步步指導你變成大廚：

視頻鏈接：https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

在多模態任務OmniBench評測中，Qwen2.5-Omni表現刷新記錄拿下新SOTA，遠超谷歌Gemini-1.5-Pro等同類模型。

在單模態的語音識別、翻譯、音頻理解、圖像推理、視頻理解、語音生成任務中，Qwen2.5-Omni的全維度表現也都優于類似大小的單模態模型以及閉源模型。

在seed-tts-eval語音生成基準中，Qwen2.5-Omni展現出與人類水平相當的語音合成能力。

這意味著Qwen2.5-Omni-7B能很好地和世界進行實時交互，甚至能輕松識別音視頻情緒。

再來敲重點：

模型非常輕量，手機等終端都可輕松部署運行，且開源用的是寬松的Apache2.0協議，開發者、企業現在都可免費在魔搭社區或Hugging Face下載商用

Qwen2.5-Omni-7B一開源，網友直呼這才是真正的OpenAI（doge）。

網友紛紛表示可以直接拿來裝到智能眼鏡上了：

這可能是智能眼鏡的完美模型。

7B模型的新紀錄！

目前，在Qwen Chat上即可體驗該模型支持的AI語音和視頻通話功能。

更多實例，一起來看~

實測效果驚艷

首先，Qwen2.5-Omni-7B能勝任免費的數學家教。

它能像人類老師一樣，看到題目、聽懂問題，并且一步一步耐心講解。

視頻鏈接：https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

更復雜的論文它也看得懂。

只需共享屏幕，然后將論文從上至下滑動，“給它看一遍”。

它就能通俗解釋論文內容。

比如PPT、網頁資料等，也能找它做講解。

而且它還有一定藝術見解，比如可以陪著你畫畫，然后給出指導建議。

或者聽你演奏的音樂，給出更好的改進建議。

我們還進行了一手實測，在Qwen Chat上每天可使用語音和視頻聊天10次。

實測中，模型能很好地理解商品界面和優惠政策。

響應速度也很快，并且會引導人類繼續問下去、很有耐心。

需要注意的是，當前視頻通話還只是Beta測試版，每次通話限時3分鐘。

視頻鏈接：https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

Hugging Face的產品負責人Jeff Boudier也第一時間上手試玩。

模型的英文能力一樣出眾，而且它不僅回答看到了杯子，還細致描述了杯子上的笑臉花紋。

視頻鏈接：https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

首創Thinker-Talker雙核架構

目前官方已放出Qwen2.5-Omni技術Blog和論文。

Qwen2.5-Omni采用通義團隊首創的全新架構——Thinker-Talker雙核架構

其中，Thinker就像“大腦”，負責處理和理解來自文本、音頻、視頻等多模態的輸入信息，生成高層語義表征以及對應的文本內容。

Talker則更像“嘴巴”，以流式的方式接收由Thinker實時輸出的語義表征與文本，并流暢地合成離散語音tokens。

具體來說，Thinker基于Transformer解碼器架構，融合音頻/圖像編碼器進行特征提取。

而Talker采用雙軌自回歸Transformer解碼器設計，在訓練和推理過程中直接接收來自Thinker的高維表征，并共享Thinker的全部歷史上下文信息。因此，整個架構作為一個緊密結合的單一模型運行，支持端到端的訓練和推理。

與此同時，團隊還提出了一種新的位置編碼算法TMRoPE（Time-aligned Multimodal RoPE）以及Position Embedding（位置嵌入）融合音視頻技術

TMRoPE編碼多模態輸入的三維位置信息，即多模態旋轉位置嵌入（M-RoPE），并結合絕對時間位置，通過將原始旋轉嵌入分解為時間、高度和寬度三個部分實現。

另外值得一提的是，從技術層面來看，Qwen2.5-Omni和一般的視頻/語音理解模型以及其相應的視頻/語音對話的AI功能，也有本質性區別。

在傳統語音理解大模型的人機交互場景里，一般運用 ASR（Automatic Speech Recognition，自動語音識別）技術，把人類語音轉換為文字文本，隨后將其交給大語言模型處理，最終生成的內容借助 TTS（Text-to-Speech，語音合成）技術轉化為語音反饋給用戶。

而視頻理解模型是基于圖片、視頻進行大模型理解，并以文字形式輸出反饋。

這兩種模型均屬于相互獨立的單鏈路模型。在一些AI應用中，甚至會串聯多個模型來實現類似功能，如此一來，鏈路變得更長，效率大打折扣。

Qwen2.5-Omni-7B的特點在于，它原生支持視頻、圖片、語音、文字等多模態輸入，并能原生生成語音及文字等多模態輸出

也就是說，一個模型就能通過“看”、“聽”、“閱讀”等多種方式來綜合思考。

所以Qwen2.5-Omni得以在一系列同等規模的單模態模型權威基準測試中，拿下最強全模態性能，在語音理解、圖片理解、視頻理解、語音生成等領域的測評分數，均領先于專門的音頻（Audio）或視覺語言（VL）模型。

搶先看到Apple Intelligence？

一個月前，阿里公開確認與蘋果合作，宣布通義千問將為國行iPhone用戶提供AI功能，此消息一經披露，便在科技圈引發熱議。

而這次Qwen2.5-Omni開源，就是奔著端側部署來的，7B尺寸使其具備直接嵌入手機的可行性，仿佛提前看到了Apple Intelligence，讓大家看到多模態大模型上手機都能有哪些效果。

不只是蘋果，據量子位了解，這種端側部署能力已吸引超90%國產手機品牌接入通義千問，包括OPPO、vivo、榮耀、傳音等，還有眾多汽車品牌、AI硬件產品選擇與之攜手。

為啥都選通義千問？

梳理通義千問的最新發展動態，答案便不難理解。

首先，通義千問Qwen目前已穩居全球最大AI大模型族群。

僅在最近一個月的時間里，就接連推出了一系列具有競爭力的模型：推理模型Max旗艦版QwQ-Max-Preview、視頻生成模型Wan 2.1、推理模型QwQ-32B、視覺語言模型Qwen2.5-VL-32B-Instruct……

實際上，2023年至今，阿里通義團隊已累計開源200多款模型，涵蓋從0.5B到110B全尺寸范圍，模型類型覆蓋文本生成、視覺理解與生成、語音理解與生成、文生圖及視頻模型等全模態領域，應用場景也極為豐富。

在海內外開源社區中，通義千問Qwen衍生模型數量更是一路飆升，現已超過10萬，超越Llama系列。

根據Hugging Face 在2月10日發布的最新全球開源大模型榜單，排名前十的開源大模型無一例外，全部是基于通義千問Qwen開源模型二創的變體模型。

其次，阿里巴巴通過開源等一系列積極舉措，成功構建起一個豐富且活躍的大模型生態。

阿里不僅將開源進行到底，更向大模型公司提供了全方位的服務支持，其中包括算力資源以及開發工具等，阿里云已成為中國大模型領域的公共AI算力底座。

截至2025年2月中旬，阿里魔搭社區ModelScope的模型總量已超4萬個，服務超1000萬開發者。

那么通義千問Qwen團隊下一步要干啥？

期待聽到您的反饋，并看到您使用Qwen2.5-Omni開發的創新應用。
在不久的將來，將著力增強模型對語音指令的遵循能力，并提升音視頻協同理解能力。還將持續拓展多模態能力邊界，發展全面的通用模型。

感興趣的友友不如一起來上手試試吧~

Qwen Chat：https://chat.qwenlm.ai

Hugging Face：https://huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope：https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub：https://github.com/QwenLM/Qwen2.5-Omni

Demo體驗：https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI看柯南2分鐘揪真兇，商湯600B多模態MoE推理封神！交互記憶全線升級

新智元 2025-04-11 17:46:51
1 跟貼 1
200B參數擊敗滿血DeepSeek-R1，豆包推理模型Seed-Thinking-v1.5

機器之心Pro 2025-04-11 11:54:20
14 跟貼 14

商湯發布第六代大模型：6000億參數多模態MoE，中長視頻直接推理

量子位 2025-04-10 21:52:21
3 跟貼 3

馬云，最新發聲！

每日經濟新聞 2025-04-11 10:25:08
441 跟貼 441
阿里萬相秒殺Sora，4070就能跑

量子位 2025-02-26 17:08:09
0 跟貼 0

商湯具身智能大招!最強多模態大模型登場,給機器人裝上大腦和眼睛

智東西 2025-04-11 12:04:27
0 跟貼 0

36氪研究院 | 2024年中國人工智能之自然語言處理（NLP）技術洞察

36氪 2024-12-31 07:32:08
2 跟貼 2
0元復刻！國內首款開源驗證人形機器人發布，傅利葉年初已完成8億元融資｜鈦媒體AGI

鈦媒體APP 2025-04-11 17:40:29
31 跟貼 31

聯發科猛攻AI智能體，發天璣9400+旗艦芯，小米OV榮耀、阿里微軟都來了

智東西 2025-04-11 11:26:57
11 跟貼 11
微軟AI模型MatterGen能根據需求生成新材料

量子位 2025-01-21 18:07:40
30 跟貼 30
爆火全網《貓和老鼠》背后模型竟是這家國產AI！掀二創風暴GitHub破萬星

新智元 2025-04-11 20:21:08
1 跟貼 1
簡單三步教你用混合現實“復活”童年舊物

DeepTech深科技 2025-04-11 19:25:52
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
7B小模型寫好學術論文，新框架告別AI引用幻覺

量子位 2025-04-11 14:34:12
0 跟貼 0
誰是開源界的杠把子？

虎嗅APP 2025-04-11 23:29:08
0 跟貼 0
2025 AI原生應用創新案例重磅發布

36氪 2025-04-10 19:03:21
0 跟貼 0
超越工具思維：AI時代的組織進化

經濟觀察報 2025-04-12 11:15:06
0 跟貼 0
吳恩達痛批美國關稅：拖了AI后腿

智東西 2025-04-12 11:35:19
0 跟貼 0
馬云現身阿里云谷園區，未來20年AI時代能帶來的改變

每日經濟新聞 2025-04-10 15:05:57
5 跟貼 5
中國AI力量崛起：中美AI大模型差距縮小，阿里通義千問領先全球

人生就是要簡單 2025-04-12 00:12:35
0 跟貼 0
馬斯克盛贊中國人，言語間都是羨慕，如今辭職耐人尋味

貴生搞笑 2025-04-08 16:56:30
4 跟貼 4
寶馬與阿里巴巴達成AI領域戰略合作

每日經濟新聞 2025-03-26 11:59:03
0 跟貼 0
預訓練還沒終結！港中文清華等提出「三位一體」框架，持續自我進化

新智元 2025-04-10 20:37:31
16 跟貼 16
數學課兩名，同學展示中國算法，和印度算法！

僧娃搞笑 2025-04-11 11:42:54
1 跟貼 1
為啥318會堵車幾個小時？就是這種人太多了

泥塑動物 2025-04-10 13:58:07
415 跟貼 415
馬云又一次預言成真？如果不出意外，2025年房地產將發生重大

煙臺秀姐 2025-04-11 09:04:24
1 跟貼 1
阿里深夜開源Qwen2.5-Omni，7B參數完看、聽、說、寫

機器之心Pro 2025-03-27 10:36:47
0 跟貼 0
阿爾斯蘭和阿里兩家人，到鎮上采購結婚用品 # 紀錄片

水云人 2025-04-09 23:45:12
0 跟貼 0
雷軍背后的男人帶火世界的海爾

每日經濟新聞 2025-03-13 11:45:12
0 跟貼 0
納斯達克中國金龍指數收盤漲1.73%

財聯社 2025-04-12 04:05:26
1 跟貼 1
起底招行信用卡營銷，有資格辦分期就逃不過機器人外呼

鳳凰網財經 2025-04-11 13:08:11
0 跟貼 0
紅旗到了三河也要變綠！“紅十字綠”被緊急拆除，當地這樣回應

垛垛糖 2025-04-11 13:33:59
11737 跟貼 11737
AI醫療智能體：破局醫療不可能三角，重塑健康新范式

億歐 2025-04-12 01:58:05
0 跟貼 0
表決心！阿里：我想參加2026世界杯，不覺得目標太高而無法實現

直播吧 2025-04-12 01:05:07
0 跟貼 0
7年兄弟情未完待續！孫興慜曝與阿里私下仍密切聯系

聽鼎世界 2025-04-11 13:03:46
7 跟貼 7
合論：協變之道

云上政風 2025-04-12 09:41:22
0 跟貼 0
我媽如何用DFS算法找到丟失的我

制杖實驗室v 2025-04-09 17:40:40
0 跟貼 0
京東：將推出2000億出口轉內銷扶持計劃

澎湃新聞 2025-04-11 17:43:07
8314 跟貼 8314
海口為什么叫海口？明代衛所省會椰城，三維地圖帶你游覽海口

詭談奇聞 2025-04-11 10:59:16
0 跟貼 0
簡介一下！阿里3天2夜超全游玩攻略

黃土芳香 2025-04-10 20:31:24
0 跟貼 0

量子位

追蹤人工智能動態

10303文章數 176094關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

本地

藝術

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最大沙漠中唯一的城市，周邊300公里被黃沙覆蓋
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

7B模型搞定AI視頻通話，阿里最新開源炸場，看聽說寫全模態打通

實測效果驚艷

首創Thinker-Talker雙核架構

搶先看到Apple Intelligence？

單臺年入20萬！首批人形機器人致富者來了

牛彈琴：特別的客人來到北京 美國公開威脅"后果嚴重"

牛彈琴：特別的客人來到北京 美國公開威脅"后果嚴重"

當意甲冠軍跌入意乙降級區 老男孩們坐不住了

25歲女歌手突然離世，和大S死因相似

造假累計數百億 揭秘東旭集團造假手法

審美和深層次豪華 阿維塔06都辦到了

態度原創

從廈大到武大，985高校出現大量調劑名額“空缺”，原因為何？

華北將迎“歷史罕見”大風

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

普京與美國中東問題特使結束會談

牛彈琴：特別的客人來到北京美國公開威脅"后果嚴重"

牛彈琴：特別的客人來到北京美國公開威脅"后果嚴重"

當意甲冠軍跌入意乙降級區老男孩們坐不住了

造假累計數百億揭秘東旭集團造假手法

審美和深層次豪華阿維塔06都辦到了