西風(fēng) 明敏 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
深夜重磅!阿里發(fā)布并開源首個(gè)端到端全模態(tài)大模型——
通義千問Qwen2.5-Omni-7B,來了。
僅靠一個(gè)一體式模型,就能搞定文本、音頻、圖像、視頻全模態(tài),并實(shí)時(shí)生成文本和自然語音。
堪稱7B模型的全能冠軍。
你的iPhone搭載的很可能就是它!
現(xiàn)在打開Qwen Chat,就能直接和它實(shí)時(shí)進(jìn)行視頻或語音交互:
話不多說,先來看一波能力展示。
在大街上同它視頻通話,它能正確識(shí)別周圍環(huán)境,按照你的需求為你推薦餐館:
視頻鏈接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A
走進(jìn)廚房,它又化身“智能菜譜”,一步步指導(dǎo)你變成大廚:
視頻鏈接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A
在多模態(tài)任務(wù)OmniBench評(píng)測中,Qwen2.5-Omni表現(xiàn)刷新記錄拿下新SOTA,遠(yuǎn)超谷歌Gemini-1.5-Pro等同類模型。
在單模態(tài)的語音識(shí)別、翻譯、音頻理解、圖像推理、視頻理解、語音生成任務(wù)中,Qwen2.5-Omni的全維度表現(xiàn)也都優(yōu)于類似大小的單模態(tài)模型以及閉源模型。
在seed-tts-eval語音生成基準(zhǔn)中,Qwen2.5-Omni展現(xiàn)出與人類水平相當(dāng)?shù)恼Z音合成能力。
這意味著Qwen2.5-Omni-7B能很好地和世界進(jìn)行實(shí)時(shí)交互,甚至能輕松識(shí)別音視頻情緒。
再來敲重點(diǎn):
模型非常輕量,手機(jī)等終端都可輕松部署運(yùn)行,且開源用的是寬松的Apache2.0協(xié)議,開發(fā)者、企業(yè)現(xiàn)在都可免費(fèi)在魔搭社區(qū)或Hugging Face下載商用
Qwen2.5-Omni-7B一開源,網(wǎng)友直呼這才是真正的OpenAI(doge)。
網(wǎng)友紛紛表示可以直接拿來裝到智能眼鏡上了:
這可能是智能眼鏡的完美模型。
7B模型的新紀(jì)錄!
目前,在Qwen Chat上即可體驗(yàn)該模型支持的AI語音和視頻通話功能。
更多實(shí)例,一起來看~
實(shí)測效果驚艷
首先,Qwen2.5-Omni-7B能勝任免費(fèi)的數(shù)學(xué)家教。
它能像人類老師一樣,看到題目、聽懂問題,并且一步一步耐心講解。
視頻鏈接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A
更復(fù)雜的論文它也看得懂。
只需共享屏幕,然后將論文從上至下滑動(dòng),“給它看一遍”。
它就能通俗解釋論文內(nèi)容。
比如PPT、網(wǎng)頁資料等,也能找它做講解。
而且它還有一定藝術(shù)見解,比如可以陪著你畫畫,然后給出指導(dǎo)建議。
或者聽你演奏的音樂,給出更好的改進(jìn)建議。
我們還進(jìn)行了一手實(shí)測,在Qwen Chat上每天可使用語音和視頻聊天10次。
實(shí)測中,模型能很好地理解商品界面和優(yōu)惠政策。
響應(yīng)速度也很快,并且會(huì)引導(dǎo)人類繼續(xù)問下去、很有耐心。
需要注意的是,當(dāng)前視頻通話還只是Beta測試版,每次通話限時(shí)3分鐘。
視頻鏈接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A
Hugging Face的產(chǎn)品負(fù)責(zé)人Jeff Boudier也第一時(shí)間上手試玩。
模型的英文能力一樣出眾,而且它不僅回答看到了杯子,還細(xì)致描述了杯子上的笑臉花紋。
視頻鏈接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A
首創(chuàng)Thinker-Talker雙核架構(gòu)
目前官方已放出Qwen2.5-Omni技術(shù)Blog和論文。
Qwen2.5-Omni采用通義團(tuán)隊(duì)首創(chuàng)的全新架構(gòu)——Thinker-Talker雙核架構(gòu)
其中,Thinker就像“大腦”,負(fù)責(zé)處理和理解來自文本、音頻、視頻等多模態(tài)的輸入信息,生成高層語義表征以及對(duì)應(yīng)的文本內(nèi)容。
Talker則更像“嘴巴”,以流式的方式接收由Thinker實(shí)時(shí)輸出的語義表征與文本,并流暢地合成離散語音tokens。
具體來說,Thinker基于Transformer解碼器架構(gòu),融合音頻/圖像編碼器進(jìn)行特征提取。
而Talker采用雙軌自回歸Transformer解碼器設(shè)計(jì),在訓(xùn)練和推理過程中直接接收來自Thinker的高維表征,并共享Thinker的全部歷史上下文信息。因此,整個(gè)架構(gòu)作為一個(gè)緊密結(jié)合的單一模型運(yùn)行,支持端到端的訓(xùn)練和推理。
與此同時(shí),團(tuán)隊(duì)還提出了一種新的位置編碼算法TMRoPE(Time-aligned Multimodal RoPE)以及Position Embedding(位置嵌入)融合音視頻技術(shù)
TMRoPE編碼多模態(tài)輸入的三維位置信息,即多模態(tài)旋轉(zhuǎn)位置嵌入(M-RoPE),并結(jié)合絕對(duì)時(shí)間位置,通過將原始旋轉(zhuǎn)嵌入分解為時(shí)間、高度和寬度三個(gè)部分實(shí)現(xiàn)。
另外值得一提的是,從技術(shù)層面來看,Qwen2.5-Omni和一般的視頻/語音理解模型以及其相應(yīng)的視頻/語音對(duì)話的AI功能,也有本質(zhì)性區(qū)別。
在傳統(tǒng)語音理解大模型的人機(jī)交互場景里,一般運(yùn)用 ASR(Automatic Speech Recognition,自動(dòng)語音識(shí)別)技術(shù),把人類語音轉(zhuǎn)換為文字文本,隨后將其交給大語言模型處理,最終生成的內(nèi)容借助 TTS(Text-to-Speech,語音合成)技術(shù)轉(zhuǎn)化為語音反饋給用戶。
而視頻理解模型是基于圖片、視頻進(jìn)行大模型理解,并以文字形式輸出反饋。
這兩種模型均屬于相互獨(dú)立的單鏈路模型。在一些AI應(yīng)用中,甚至?xí)?lián)多個(gè)模型來實(shí)現(xiàn)類似功能,如此一來,鏈路變得更長,效率大打折扣。
Qwen2.5-Omni-7B的特點(diǎn)在于,它原生支持視頻、圖片、語音、文字等多模態(tài)輸入,并能原生生成語音及文字等多模態(tài)輸出
也就是說,一個(gè)模型就能通過“看”、“聽”、“閱讀”等多種方式來綜合思考。
所以Qwen2.5-Omni得以在一系列同等規(guī)模的單模態(tài)模型權(quán)威基準(zhǔn)測試中,拿下最強(qiáng)全模態(tài)性能,在語音理解、圖片理解、視頻理解、語音生成等領(lǐng)域的測評(píng)分?jǐn)?shù),均領(lǐng)先于專門的音頻(Audio)或視覺語言(VL)模型。
搶先看到Apple Intelligence?
一個(gè)月前,阿里公開確認(rèn)與蘋果合作,宣布通義千問將為國行iPhone用戶提供AI功能,此消息一經(jīng)披露,便在科技圈引發(fā)熱議。
而這次Qwen2.5-Omni開源,就是奔著端側(cè)部署來的,7B尺寸使其具備直接嵌入手機(jī)的可行性,仿佛提前看到了Apple Intelligence,讓大家看到多模態(tài)大模型上手機(jī)都能有哪些效果。
不只是蘋果,據(jù)量子位了解,這種端側(cè)部署能力已吸引超90%國產(chǎn)手機(jī)品牌接入通義千問,包括OPPO、vivo、榮耀、傳音等,還有眾多汽車品牌、AI硬件產(chǎn)品選擇與之?dāng)y手。
為啥都選通義千問?
梳理通義千問的最新發(fā)展動(dòng)態(tài),答案便不難理解。
首先,通義千問Qwen目前已穩(wěn)居全球最大AI大模型族群。
僅在最近一個(gè)月的時(shí)間里,就接連推出了一系列具有競爭力的模型:推理模型Max旗艦版QwQ-Max-Preview、視頻生成模型Wan 2.1、推理模型QwQ-32B、視覺語言模型Qwen2.5-VL-32B-Instruct……
實(shí)際上,2023年至今,阿里通義團(tuán)隊(duì)已累計(jì)開源200多款模型,涵蓋從0.5B到110B全尺寸范圍,模型類型覆蓋文本生成、視覺理解與生成、語音理解與生成、文生圖及視頻模型等全模態(tài)領(lǐng)域,應(yīng)用場景也極為豐富。
在海內(nèi)外開源社區(qū)中,通義千問Qwen衍生模型數(shù)量更是一路飆升,現(xiàn)已超過10萬,超越Llama系列。
根據(jù)Hugging Face 在2月10日發(fā)布的最新全球開源大模型榜單,排名前十的開源大模型無一例外,全部是基于通義千問Qwen開源模型二創(chuàng)的變體模型。
其次,阿里巴巴通過開源等一系列積極舉措,成功構(gòu)建起一個(gè)豐富且活躍的大模型生態(tài)。
阿里不僅將開源進(jìn)行到底,更向大模型公司提供了全方位的服務(wù)支持,其中包括算力資源以及開發(fā)工具等,阿里云已成為中國大模型領(lǐng)域的公共AI算力底座。
截至2025年2月中旬,阿里魔搭社區(qū)ModelScope的模型總量已超4萬個(gè),服務(wù)超1000萬開發(fā)者。
那么通義千問Qwen團(tuán)隊(duì)下一步要干啥?
期待聽到您的反饋,并看到您使用Qwen2.5-Omni開發(fā)的創(chuàng)新應(yīng)用。
在不久的將來,將著力增強(qiáng)模型對(duì)語音指令的遵循能力,并提升音視頻協(xié)同理解能力。還將持續(xù)拓展多模態(tài)能力邊界,發(fā)展全面的通用模型。
感興趣的友友不如一起來上手試試吧~
Qwen Chat:https://chat.qwenlm.ai
Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
GitHub:https://github.com/QwenLM/Qwen2.5-Omni
Demo體驗(yàn):https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.