西風(fēng) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
就在DeepSeek-V3更新的同一夜,阿里通義千問Qwen又雙叒叕一次夢(mèng)幻聯(lián)動(dòng)了——
發(fā)布Qwen2.5-VL-32B-Instruct
此前開源家族視覺語言模型Qwen2.5-VL包括3B、7B和72B三種尺寸。
這一次的32B版本進(jìn)一步兼顧尺寸和性能,可在本地運(yùn)行。
同時(shí)經(jīng)過強(qiáng)化學(xué)習(xí)優(yōu)化,在三個(gè)方面改進(jìn)顯著:
- 回答更符合人類偏好;
- 擁有更強(qiáng)的數(shù)學(xué)推理能力;
- 在圖像解析、內(nèi)容識(shí)別以及視覺邏輯推導(dǎo)等任務(wù)中,表現(xiàn)出更強(qiáng)的準(zhǔn)確性和細(xì)粒度分析能力。
對(duì)比近期開源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等, Qwen2.5-VL-32B在純文本能力上也達(dá)到了同規(guī)模的SOTA表現(xiàn)。在多個(gè)基準(zhǔn)上,Qwen2.5-VL-32B甚至超過了72B。
舉個(gè)栗子,比如根據(jù)一張交通指示牌照片,Qwen2.5-VL-32B就能做如下精細(xì)的圖像理解和推理:
我正在這條路上駕駛一輛大卡車,現(xiàn)在12點(diǎn)了。我能在13點(diǎn)之前到達(dá)110公里遠(yuǎn)的地方嗎?
Qwen2.5-VL-32B首先對(duì)時(shí)間、距離、卡車限速進(jìn)行分析,然后分步驟條理清晰推算出正確答案:
模型已經(jīng)開源,盡管自己前往實(shí)測(cè)~
Qwen2.5-VL-32B更多表現(xiàn)示例
官方剛剛發(fā)布的技術(shù)博客中也放出了更多展示示例。
數(shù)學(xué)推理能力上,幾何體分析也不在話下:
同樣是先有問題分析環(huán)節(jié),然后再分四個(gè)小步驟推理正確答案:
下面這種復(fù)雜難題也能解:
能夠依次類推,歸納出構(gòu)造規(guī)律:
像下面這種圖片理解就更不在話下了:
多輪深度提問也可以:
模型開源,已能實(shí)測(cè)
現(xiàn)在,阿里已將Qwen2.5-VL-32B-Instruct放在了Hugging Face上。
在Qwen Chat上就能直接體驗(yàn)Qwen2.5-VL-32B,感興趣的童鞋可以試試。
動(dòng)作快的網(wǎng)友已經(jīng)開始在MLX Community運(yùn)行了:
在Hacker News上,網(wǎng)友也就DeepSeek和Qwen的舉動(dòng)進(jìn)行了新一輪熱烈討論。網(wǎng)友紛紛表示:
開源贏了,奧特曼錯(cuò)了。
值得一提的是,春節(jié)期間,DeepSeek曾與阿里通義千問Qwen多次幾乎同時(shí)發(fā)布新模型,這一次又雙叒叕趕一塊去了。
杭州,原來真的是商量著一起發(fā)???
[1]https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/
[2]https://x.com/Alibaba_Qwen/status/1904227859616641534
[3]https://news.ycombinator.com/item?id=43464068
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.