99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

7B模型搞定AI視頻通話,阿里最新開源炸場,看聽說寫全模態打通

0
分享至

西風 明敏 發自 凹非寺
量子位 | 公眾號 QbitAI

深夜重磅!阿里發布并開源首個端到端全模態大模型——

通義千問Qwen2.5-Omni-7B,來了。

僅靠一個一體式模型,就能搞定文本、音頻、圖像、視頻全模態,并實時生成文本和自然語音。

堪稱7B模型的全能冠軍。

你的iPhone搭載的很可能就是它!

現在打開Qwen Chat,就能直接和它實時進行視頻或語音交互:



話不多說,先來看一波能力展示。

在大街上同它視頻通話,它能正確識別周圍環境,按照你的需求為你推薦餐館:



視頻鏈接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

走進廚房,它又化身“智能菜譜”,一步步指導你變成大廚:



視頻鏈接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

在多模態任務OmniBench評測中,Qwen2.5-Omni表現刷新記錄拿下新SOTA,遠超谷歌Gemini-1.5-Pro等同類模型。

在單模態的語音識別、翻譯、音頻理解、圖像推理、視頻理解、語音生成任務中,Qwen2.5-Omni的全維度表現也都優于類似大小的單模態模型以及閉源模型。

在seed-tts-eval語音生成基準中,Qwen2.5-Omni展現出與人類水平相當的語音合成能力。



這意味著Qwen2.5-Omni-7B能很好地和世界進行實時交互,甚至能輕松識別音視頻情緒。

再來敲重點:

模型非常輕量,手機等終端都可輕松部署運行,且開源用的是寬松的Apache2.0協議,開發者、企業現在都可免費在魔搭社區或Hugging Face下載商用

Qwen2.5-Omni-7B一開源,網友直呼這才是真正的OpenAI(doge)。



網友紛紛表示可以直接拿來裝到智能眼鏡上了:

這可能是智能眼鏡的完美模型。



7B模型的新紀錄!



目前,在Qwen Chat上即可體驗該模型支持的AI語音和視頻通話功能。

更多實例,一起來看~

實測效果驚艷

首先,Qwen2.5-Omni-7B能勝任免費的數學家教。

它能像人類老師一樣,看到題目、聽懂問題,并且一步一步耐心講解。



視頻鏈接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

更復雜的論文它也看得懂。

只需共享屏幕,然后將論文從上至下滑動,“給它看一遍”。

它就能通俗解釋論文內容。

比如PPT、網頁資料等,也能找它做講解。



而且它還有一定藝術見解,比如可以陪著你畫畫,然后給出指導建議。



或者聽你演奏的音樂,給出更好的改進建議。



我們還進行了一手實測,在Qwen Chat上每天可使用語音和視頻聊天10次。



實測中,模型能很好地理解商品界面和優惠政策。

響應速度也很快,并且會引導人類繼續問下去、很有耐心。

需要注意的是,當前視頻通話還只是Beta測試版,每次通話限時3分鐘。



視頻鏈接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

Hugging Face的產品負責人Jeff Boudier也第一時間上手試玩。

模型的英文能力一樣出眾,而且它不僅回答看到了杯子,還細致描述了杯子上的笑臉花紋。



視頻鏈接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

首創Thinker-Talker雙核架構

目前官方已放出Qwen2.5-Omni技術Blog和論文。

Qwen2.5-Omni采用通義團隊首創的全新架構——Thinker-Talker雙核架構

其中,Thinker就像“大腦”,負責處理和理解來自文本、音頻、視頻等多模態的輸入信息,生成高層語義表征以及對應的文本內容。

Talker則更像“嘴巴”,以流式的方式接收由Thinker實時輸出的語義表征與文本,并流暢地合成離散語音tokens。

具體來說,Thinker基于Transformer解碼器架構,融合音頻/圖像編碼器進行特征提取。

而Talker采用雙軌自回歸Transformer解碼器設計,在訓練和推理過程中直接接收來自Thinker的高維表征,并共享Thinker的全部歷史上下文信息。因此,整個架構作為一個緊密結合的單一模型運行,支持端到端的訓練和推理。

與此同時,團隊還提出了一種新的位置編碼算法TMRoPE(Time-aligned Multimodal RoPE)以及Position Embedding(位置嵌入)融合音視頻技術

TMRoPE編碼多模態輸入的三維位置信息,即多模態旋轉位置嵌入(M-RoPE),并結合絕對時間位置,通過將原始旋轉嵌入分解為時間、高度和寬度三個部分實現。



另外值得一提的是,從技術層面來看,Qwen2.5-Omni和一般的視頻/語音理解模型以及其相應的視頻/語音對話的AI功能,也有本質性區別。

在傳統語音理解大模型的人機交互場景里,一般運用 ASR(Automatic Speech Recognition,自動語音識別)技術,把人類語音轉換為文字文本,隨后將其交給大語言模型處理,最終生成的內容借助 TTS(Text-to-Speech,語音合成)技術轉化為語音反饋給用戶。

而視頻理解模型是基于圖片、視頻進行大模型理解,并以文字形式輸出反饋。

這兩種模型均屬于相互獨立的單鏈路模型。在一些AI應用中,甚至會串聯多個模型來實現類似功能,如此一來,鏈路變得更長,效率大打折扣。

Qwen2.5-Omni-7B的特點在于,它原生支持視頻、圖片、語音、文字等多模態輸入,并能原生生成語音及文字等多模態輸出

也就是說,一個模型就能通過“看”、“聽”、“閱讀”等多種方式來綜合思考。



所以Qwen2.5-Omni得以在一系列同等規模的單模態模型權威基準測試中,拿下最強全模態性能,在語音理解、圖片理解、視頻理解、語音生成等領域的測評分數,均領先于專門的音頻(Audio)或視覺語言(VL)模型。

搶先看到Apple Intelligence?

一個月前,阿里公開確認與蘋果合作,宣布通義千問將為國行iPhone用戶提供AI功能,此消息一經披露,便在科技圈引發熱議。

而這次Qwen2.5-Omni開源,就是奔著端側部署來的,7B尺寸使其具備直接嵌入手機的可行性,仿佛提前看到了Apple Intelligence,讓大家看到多模態大模型上手機都能有哪些效果。

不只是蘋果,據量子位了解,這種端側部署能力已吸引超90%國產手機品牌接入通義千問,包括OPPO、vivo、榮耀、傳音等,還有眾多汽車品牌、AI硬件產品選擇與之攜手。

為啥都選通義千問?

梳理通義千問的最新發展動態,答案便不難理解。

首先,通義千問Qwen目前已穩居全球最大AI大模型族群。

僅在最近一個月的時間里,就接連推出了一系列具有競爭力的模型:推理模型Max旗艦版QwQ-Max-Preview、視頻生成模型Wan 2.1、推理模型QwQ-32B、視覺語言模型Qwen2.5-VL-32B-Instruct……

實際上,2023年至今,阿里通義團隊已累計開源200多款模型,涵蓋從0.5B到110B全尺寸范圍,模型類型覆蓋文本生成、視覺理解與生成、語音理解與生成、文生圖及視頻模型等全模態領域,應用場景也極為豐富。

在海內外開源社區中,通義千問Qwen衍生模型數量更是一路飆升,現已超過10萬,超越Llama系列。

根據Hugging Face 在2月10日發布的最新全球開源大模型榜單,排名前十的開源大模型無一例外,全部是基于通義千問Qwen開源模型二創的變體模型。



其次,阿里巴巴通過開源等一系列積極舉措,成功構建起一個豐富且活躍的大模型生態。

阿里不僅將開源進行到底,更向大模型公司提供了全方位的服務支持,其中包括算力資源以及開發工具等,阿里云已成為中國大模型領域的公共AI算力底座。

截至2025年2月中旬,阿里魔搭社區ModelScope的模型總量已超4萬個,服務超1000萬開發者。

那么通義千問Qwen團隊下一步要干啥?

期待聽到您的反饋,并看到您使用Qwen2.5-Omni開發的創新應用。
在不久的將來,將著力增強模型對語音指令的遵循能力,并提升音視頻協同理解能力。還將持續拓展多模態能力邊界,發展全面的通用模型。



感興趣的友友不如一起來上手試試吧~

Qwen Chat:https://chat.qwenlm.ai

Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub:https://github.com/QwenLM/Qwen2.5-Omni

Demo體驗:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
網友:湖北這次狂風暴雨加冰雹,汽修店都堵了!保險公司受傷最重

網友:湖北這次狂風暴雨加冰雹,汽修店都堵了!保險公司受傷最重

火山詩話
2025-04-12 10:51:50
驚天巨變!中美隨時進入攤牌狀態

驚天巨變!中美隨時進入攤牌狀態

戶外釣魚哥阿旱
2025-04-12 08:57:37
美教育部長將“AI”稱為“A1” 美網友:這就是教育

美教育部長將“AI”稱為“A1” 美網友:這就是教育

看看新聞Knews
2025-04-11 16:11:09
逆轉!加蘭26+13,布倫森27+2,東部前六誕生,尼克斯認清現實

逆轉!加蘭26+13,布倫森27+2,東部前六誕生,尼克斯認清現實

籃球大視野
2025-04-12 10:39:16
北京腫瘤專家關天瑜教授去世,發病到離世僅一周,專家號僅100元

北京腫瘤專家關天瑜教授去世,發病到離世僅一周,專家號僅100元

一桶漿糊要一統江湖
2025-04-12 07:47:46
華僑“鋼鐵大王”在菲被綁架撕票 知情人:懷疑熟人作案,家屬曾聯系道上的人談判|封面頭條

華僑“鋼鐵大王”在菲被綁架撕票 知情人:懷疑熟人作案,家屬曾聯系道上的人談判|封面頭條

封面新聞
2025-04-11 19:30:05
杜蘭特正式接受火箭1.2億合同,督促太陽盡快交易,還提出2個要求

杜蘭特正式接受火箭1.2億合同,督促太陽盡快交易,還提出2個要求

野渡舟山人
2025-04-11 10:56:19
最新確認!今天開始,影響青島!持續3天→

最新確認!今天開始,影響青島!持續3天→

魯中晨報
2025-04-12 07:59:08
網友:偷拍到導師電腦,人都要崩潰!可愛的小老頭還知道賄賂師母

網友:偷拍到導師電腦,人都要崩潰!可愛的小老頭還知道賄賂師母

火山詩話
2025-04-12 07:00:19
“吃定”一個女人,不是卑微討好,也不是頻繁聯系,而是:三個字

“吃定”一個女人,不是卑微討好,也不是頻繁聯系,而是:三個字

蓮子說情感
2025-04-11 10:14:08
大量美國游客因落地免簽、離境退稅涌入中國,開啟瘋狂購物

大量美國游客因落地免簽、離境退稅涌入中國,開啟瘋狂購物

億通電子游戲
2025-04-11 20:48:00
美媒爆特朗普突然改主意,因美債被大量拋售,日本:我們偷襲成功

美媒爆特朗普突然改主意,因美債被大量拋售,日本:我們偷襲成功

袁周院長
2025-04-11 11:40:08
比房價下跌更難受,3大信號出現,行家:房子正在成為負債

比房價下跌更難受,3大信號出現,行家:房子正在成為負債

巢客HOME
2025-04-12 09:10:04
中國人的語言攻擊能力簡直太強了!老外:中國人罵人像惡魔在低語

中國人的語言攻擊能力簡直太強了!老外:中國人罵人像惡魔在低語

奇特短尾矮袋鼠
2024-11-23 16:08:32
在深山徒步時,我與美艷驢友發生了關系,從此我的噩夢開始了

在深山徒步時,我與美艷驢友發生了關系,從此我的噩夢開始了

溫情郵局
2025-04-10 10:38:45
突然反轉了!蘋果開始做出改變,外媒:終究還是頂不住了!

突然反轉了!蘋果開始做出改變,外媒:終究還是頂不住了!

阿矗論古今
2025-04-07 09:35:23
黃金儲備差距:美國8133噸,俄羅斯2350噸,中國讓人“出乎意料”

黃金儲備差距:美國8133噸,俄羅斯2350噸,中國讓人“出乎意料”

魏家東
2024-12-15 09:45:11
為什么特斯拉用的是寧德時代,為啥還大老遠去用LG的電池?

為什么特斯拉用的是寧德時代,為啥還大老遠去用LG的電池?

車有梗
2025-03-11 06:30:17
美股巨震,特朗普竟炫耀朋友一天賺25億美元!購物小票已出現“關稅附加費”,美網友大對賬:“真的開始了!特朗普征稅,我買單”

美股巨震,特朗普竟炫耀朋友一天賺25億美元!購物小票已出現“關稅附加費”,美網友大對賬:“真的開始了!特朗普征稅,我買單”

每日經濟新聞
2025-04-11 14:19:08
天!57歲林憶蓮胖成這模樣了,大圓臉腰上游泳圈,都快認不出了!

天!57歲林憶蓮胖成這模樣了,大圓臉腰上游泳圈,都快認不出了!

草莓解說體育
2025-04-11 01:04:05
2025-04-12 11:44:52
量子位 incentive-icons
量子位
追蹤人工智能動態
10303文章數 176094關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

牛彈琴:特別的客人來到北京 美國公開威脅"后果嚴重"

頭條要聞

牛彈琴:特別的客人來到北京 美國公開威脅"后果嚴重"

體育要聞

當意甲冠軍跌入意乙降級區 老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態度原創

教育
本地
藝術
公開課
軍事航空

教育要聞

從廈大到武大,985高校出現大量調劑名額“空缺”,原因為何?

本地新聞

華北將迎“歷史罕見”大風

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京與美國中東問題特使結束會談

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 芮城县| 自治县| 大荔县| 锦屏县| 共和县| 容城县| 昌邑市| 塔城市| 满城县| 阿拉善左旗| 张家界市| 观塘区| 德江县| 五常市| 炉霍县| 罗甸县| 禄劝| 镶黄旗| 连江县| 郴州市| 东宁县| 江山市| 黄梅县| 潞城市| 历史| 罗源县| 杂多县| 张家港市| 阜阳市| 松滋市| 江门市| 武乡县| 临漳县| 阜康市| 奉新县| 永修县| 雷波县| 水富县| 新昌县| 梧州市| 丽江市|