網易首頁 > 網易號 > 正文申請入駐

Qwen 3發布，阿里又點燃了AI開源的篝火

2025-04-29 15:41:05　來源: 36氪

北京舉報

分享至

文｜鄧詠儀

編輯｜蘇建勛

4月28日，AI圈子內的從業者們都在等待一件事：Qwen 3。

從中午開始，Qwen 3即將發布的小道消息，已經滿天飛舞。Qwen團隊負責人林俊旸也在X上暗示：“看看我們今晚能否完成Qwen 3的工作”。

來源：X（Twitter）

《智能涌現》所在的多個業內討論群，充斥著不知真假的Qwen 3模型上傳截圖。AI從業者瘋狂刷新GitHub、HuggingFace中的Qwen主頁，用AI生成Qwen 3上線海報、現場的模擬圖，刷屏各種表情包，狂歡直至深夜還未停歇。

Qwen 3最終在凌晨5點上線。新一代的Qwen 3參數量僅為DeepSeek-R1的1/3，首先是成本大幅下降，性能全面超越R1、OpenAI-o1等全球頂尖模型。

更重要的是，Qwen 3搭載了Claude 3.7等頂尖模型的混合推理機制，將“快思考”與“慢思考”集成進同一個模型，大大減少了算力消耗。

Qwen 3的開源一共涉及8款不同架構和尺寸的模型，從0.6B開始，大到235B，適用于更多類型的移動端設備。除了模型之外，Qwen還順帶推出了Agents的原生框架，支持MCP協議，有著一股“讓所有人都要用上Agents”的勁頭。

DeepSeek爆火后的1月份，大年初一前夜，阿里急速上線了新模型Qwen2.5-VL和Qwen2.5-Max，迅速秀了一把肌肉的同時，也賦予了阿里集團更濃郁的“AI味兒”。受此情緒的烘托，阿里股價在春節前后階段大漲超30%。

但比起這次的旗艦級模型Qwen 3，上述模型都只是前奏。

對Qwen 3的萬眾期待，來自阿里在AI開源社區的盛譽——如今Qwen已經是全球領先的開源模型系列，根據最新數據，阿里通義已開源200余個模型，全球下載量超3億次，千問衍生模型數超10萬個，已超越此前的開源霸主Llama。

如果說DeepSeek是一支精銳的小分隊，快速在技術上沖鋒；那么Qwen就是一個軍團，對大模型布局更早，也更積極做生態，展現了更廣的覆蓋度和社區活力。

某種程度上，Qwen也是大模型落地的產業風向標。

一個典型的例子是，在DeepSeek R1發布后，很多企業和個人想私有化部署“滿血版”DeepSeek（671B），單單硬件成本就要上百萬元，落地成本很高。

阿里Qwen家族提供了更多的模型尺寸和類別，能幫助產業界更快驗證落地價值。用大白話來講，開發者不用自己裁剪模型，而是拿來即用，繼而快速落地。Qwen 13B及以下的模型，可控性強，的確是如今AI應用領域最受歡迎的模型之一。

DeepSeek R1成為開源歷史上的錨點，也深深影響了大模型競爭的走向。不同于此前模型廠商沉迷于刷Benchmark、刷題，中國大廠們迎來必須要證明自己真正技術實力的周期。

Qwen 3的發布，就是這樣一個時點。

滿血版成本為1/3個DeepSeek R1，性能更強大

2024年9月，阿里云在云棲大會上發布了上一代模型Qwen 2.5。Qwen2.5 一次性開源了從0.5B至72B共6個尺寸的全系列模型，覆蓋從端側到云端的全場景需求，在代碼等多個類別中，都能達到SOTA。

所有模型均允許商業使用與二次開發，這也被開發者稱為 “真正開放的AI”。

市場風傳新一代的Qwen 3會推出基于MoE架構，開源更多尺寸，成本能做到比DeepSeek更低——這些猜測都被一一證實。

Qwen 3 一共開源了8個尺寸的模型，分別為：

兩款MoE（混合專家）模型的權重（指模型的決策偏好）：30B（300億）、235B（2350億）參數
六款Dense（密集）模型：包括包括0.6B（6億）、1.7B（17億）、4B（40億）、8B（80億）、14B（140億）、32B（320億）

每款模型均達到了同尺寸開源模型中的SOTA（最佳性能）。

Qwen 3延續了阿里開源的慷慨風格，依舊采用寬松的Apache2.0協議開源，首次支持119多種語言，全球開發者、研究機構和企業，都免費下載模型并商用。

Qwen 3的最大看點，一是成本大幅下降，同時性能還有大幅提高。

在Qwen 3的訓練中，阿里投入了令人驚訝的成本。Qwen 3基于36萬億token進行預訓練，這是上一代模型Qwen 2.5的兩倍，在全球同等體量的頂尖模型中也能排到前列。

據Qwen團隊公開的數據，僅需4張H20即可部署Qwen 3滿血版，顯存占用僅為性能相近模型的三分之一。

成本降低，但性能反而更高了。

Qwen的推理能力有非常顯著的提升。在數學、代碼生成和常識邏輯推理方面，Qwen 3均超越先前的推理模型 QwQ（思考模式）和 Qwen2.5 模型（非思考模式）。

而在代碼、數學、通用能力等基準測試中，Qwen 3也能與目前的頂尖模型o3-mini、Grok-3 和 Gemini-2.5-Pro等頂尖模型。

△Qwen 3性能圖來源：Qwen 3

另外一個核心亮點，是Qwen模型對智能體（Agents）的全面適配。

如果說，OpenAI的o1模型一腳踢開了推理模型的大門，DeepSeek R1的發布，讓所有用戶見識到了推理模型的魔力：模型有像人類一樣的“思考鏈”，有思考順序，不斷驗證是否正確，推演出認為合適的答案。

但只有深度思考模式的話，弊端也很明顯。哪怕詢問簡單的天氣、今天穿什么，DeepSeek會來回地糾結，自我設問，不斷驗證，經歷少則數十秒的過度思考——如果DeepSeek沒有將模型的思考鏈展示給用戶，幾乎沒有用戶能夠忍受延遲成這樣的對話體驗。

阿里CEO吳泳銘曾在2024年9月的云棲大會表示：“AI最大想象力不在手機屏幕，而是接管數字世界，改變物理世界”。

智能體是通往這種愿景的重要路徑。所以，Qwen3做成混合推理模型是相當關鍵的：在單一模型內，能無縫切換思考模式（用于復雜邏輯推理、數學和編碼）和非思考模式（用于高效的通用對話，比如詢問天氣、歷史知識等簡單信息搜索）。

推理與非推理任務的融合能力，實際上是讓模型：

能夠理解數字世界，更多強調的是非推理能力，如識別、檢索、分類，
能夠操作數字世界，更多強調的是推理能力，模型能自主規劃、決策、編程，典型應用如Manus。

Qwen 3的API可按需設置“思考預算”（即預期最大深度思考的tokens數量），進行不同程度的思考，確保在各種場景下都能達到最佳性能。

在以前的機制中，用戶需要手動開關“深度思考”模式，一次對話中可能只能專注一種模式；但Qwen 3的新機制將這個選擇交給模型——模型能自動識別任務場景、選擇思考模式，減少了用戶對模型模式的干預成本，也會帶來更絲滑的產品體驗。

混合推理是目前比較難的技術方向，需要極其精細、創新的設計及訓練，難度遠超訓練純推理模型。模型要學習兩種不同的輸出分布，要做到兩個模式融合，且基本不影響任何一種模式下的效果。

熱門模型中，現在只有Qwen 3、Claude3.7以及Gemini 2.5 Flash可以做到較好的混合推理。

混合推理會整體提高模型使用的性價比，既提升了智能水平，又整體降低了算力資源消耗。比如，Gemini-2.5-Flash，推理和非推理模式下的價格相差約6倍。

而為了讓所有人都能馬上開發Agents，Qwen團隊幾乎是提供了保姆式的工具箱：

Qwen 3最近火爆的MCP協議，具備工具調用（Function Calling）能力，兩者都是Agents的主要框架
原生的Qwen-Agent 框架，封裝了工具調用模板和工具調用解析器
API服務也同步上線，企業可以直接通過通過阿里云百煉調用。

如果用裝修來舉例，這就像Qwen團隊把房子建好、完成硬裝，還給你提供了部分軟裝，開發者可以直接用上很多服務。這將大大降低編碼復雜性，開發門檻進一步下降，比如很多手機及電腦Agent操作等任務，就可以高效實現。

開源模型進入新一輪競爭周期

在DeepSeek R1獲得爆炸性聲量，成為全球開源模型的標桿之后，模型發布不再是單純的產品更新，而是代表公司戰略的關鍵走向。

Qwen 3的發布正值DeepSeek R1后，開源社區的新一輪競爭已經開始：2025年4月，Meta旗下的Llama 4在4月初正式發布，但因為效果不佳而遭諸多批評；而此前屢屢受挫的AI巨頭Google，也借著Gemini 2.5 pro，在開源領域扳回一城。

通用大模型層的能力仍在快速變遷中，很難有廠商能夠一直保持領先。在這個時點上，大模型團隊如何確定自己的發展主線，不只是個技術問題，更是對不同產品路線和商業判斷的策略問題。

在Qwen 3的發布上，可以看出一種更務實的開源策略。

比如，Qwen3本次提出的模型尺寸，就比Qwen 2.5時的尺寸劃分就更細致。在資源受限的設備（如移動端、邊緣計算設備）上實現高效運行，Qwen 3能同時保證一定的性能，滿足輕量級推理、對話等需求。

阿里仔細解釋了各個模型的適用場景：

最小參數模型（如0.6B及1.7B）：支持開發者用于 speculative decoding（推測性解碼）作實驗模型用，對科研很友好；
4B模型：推薦在手機端側應用
8B模型：推薦在電腦或者汽車端側應用
14B模型：適合作落地應用，普通開發者有幾張卡也都能玩轉起來
32B模型：開發者和企業最喜歡的模型尺寸，支持企業大規模部署商用

而在旗艦模型上，Qwen 3的模型規模和架構，也是一個更精煉，更容易落地應用的設計。

以Qwen旗艦版模型235B（235億參數）和DeepSeek R1滿血版做直接對比：

Qwen 3 235B采用中等規模(235B)與高效激活設計(22B激活，約9.4%)，只需4張H20 GPU即可部署；
DeepSeek-R1追求超大規模(671B)與稀疏激活(37B激活，約5.5%)，推薦16卡H20配置，約200萬元。

從部署成本看，Qwen 3是滿血版R1的25%-35%，模型部署成本大降六到七成。

DeepSeek R1之后，如果說大模型領域達成了什么共識，那便是——重新將資源、人力投入到模型層的技術突破，讓模型能力突破應用能力的上限。

如今大模型領域，重新將目光轉向模型能力的突破。

從Qwen發布主題的變化，也能看出如今技術主線的變遷：Qwen 2.5發布時，主題還是《擴展大型語言模型的邊界》，而到了Qwen 3，則是《思深，行速》，專注提高模型能力的應用性能，拉低落地門檻，而非單純擴大參數規模。

現在，通義千問Qwen在全球下載量超過3億，在HuggingFace社區2024年全球模型下載量中，Qwen占比已經超30%。阿里云的模型開源策略，已經走出另一條更清晰的道路：真正成為應用的土壤。

歡迎交流

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

猛擊OpenAI o1、DeepSeek-R1!剛剛,阿里Qwen3登頂全球開源模型

機器之心Pro 2025-04-29 10:35:32
9 跟貼 9
阿里萬相秒殺Sora，4070就能跑

量子位 2025-02-26 17:08:09
0 跟貼 0

納米AI為4億打工人定制「AI牛馬」！可0代碼手搓超級智能體

新智元 2025-04-29 12:46:30
2 跟貼 2

普通人也能用上超級智能體！實測100+MCP工具隨便

量子位 2025-04-29 23:20:58
4 跟貼 4
全棧AI基礎設施支撐，跑出全球首個開放使用視頻生成DiT模型

量子位 2025-04-28 11:13:01
3 跟貼 3

AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0

AI包辦79%代碼，程序員飯碗不保！前端開發要涼，人類只配改Bug？

新智元 2025-04-29 14:58:58
83 跟貼 83
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0

Meta宣戰OpenAI！發ChatGPT超強平替App

智東西 2025-04-30 06:20:44
0 跟貼 0
奇安信董事長齊向東：大模型應用密集落地，數據安全市場在多重挑戰中靜待“引爆”

每日經濟新聞 2025-04-29 23:48:19
0 跟貼 0
碾壓DeepSeek！阿里Qwen3到底成色幾何？

雷科技 2025-04-29 21:20:39
2 跟貼 2
寶馬與阿里巴巴達成AI領域戰略合作

每日經濟新聞 2025-03-26 11:59:03
0 跟貼 0
中國電商App霸榜前三，阿里國際站席卷海外百國榜單

每日經濟新聞 2025-04-20 22:08:02
0 跟貼 0
當炸金花傳到了印度

動物有傳奇 2025-04-28 11:04:59
762 跟貼 762
阿里一家蓋房子洗狗騎自行車玩的紀錄片

新船長投研 2025-04-28 09:44:39
0 跟貼 0
阿里深夜開源Qwen2.5-Omni，7B參數完看、聽、說、寫

機器之心Pro 2025-03-27 10:36:47
0 跟貼 0
雷軍背后的男人帶火世界的海爾

每日經濟新聞 2025-03-13 11:45:12
0 跟貼 0
阿里攜康特親見父母墓碑，身世迷霧消散，康特內心震撼難平

紙風箏探索日記 2025-04-29 01:34:18
3 跟貼 3
巴特勒帶傷27+5+6 勇士再勝火箭3-1奪賽點

網易體育 2025-04-29 12:56:53
15288 跟貼 15288
寶寶的硬件條件隨爸爸和媽媽誰更多一點？

民生大參考 2025-04-28 12:26:21
1 跟貼 1
國外留學，花費30萬。投遞了阿里、字節、美團......已讀不回

螞蟻大喇叭 2025-04-29 16:02:10
0 跟貼 0
小伙運用挖掘、園林設計及石塊堆疊技術蓋出超強庇護所

汪汪妹流浪記 2025-04-29 10:24:11
0 跟貼 0
肖飛事件，麻醉醫生連續發文：壓這么久還是沒壓住，醫院不該隱身

明月聊史 2025-04-29 12:38:11
3250 跟貼 3250
橘子比賽：誰能先拿完碗？兩種策略的較量

奇遇葉辰 2025-04-29 08:22:14
1 跟貼 1
朝鮮首艘神盾艦下水，將軍親自參加慶典！它的技術從哪來的？

心開動漫鑫鑫 2025-04-29 08:22:34
0 跟貼 0
特朗普坦承中美貿易停滯源于自身決策失誤，期待轉機

數碼八叔 2025-04-29 21:09:21
0 跟貼 0
協和4+4揭秘：錄取名單和過程曝光、操作空間大，招生簡章被打臉

溫柔看世界 2025-04-29 16:51:52
2748 跟貼 2748
1954年老蔣親信被捕，毛主席親自下令不殺，事后證明其決策高明

男人吻女人是一種口福 2025-04-29 02:59:57
0 跟貼 0
山西省海歸商會發布關于董明珠涉海歸言論嚴正聲明：留學人員是黨和人民的寶貴財富，封閉思維危及企業競爭力

和訊網 2025-04-29 12:35:00
8449 跟貼 8449
校運會上的“人情世故” 網友：跑出了組織架構圖

米粒兒看看 2025-04-29 16:06:43
0 跟貼 0
跟咱們有多大關系？西班牙宣布進入國家緊急狀態，有網友開始囤錢

大風文字 2025-04-29 10:28:17
4110 跟貼 4110
外交部發布重磅視頻《不跪！》

北京日報 2025-04-29 08:49:41
5370 跟貼 5370
黨中央決定，派出8個中央指導組

長安街知事 2025-04-29 19:08:13
746 跟貼 746
男子沒找到工作兩天沒吃飯心絞痛倒地不停抽搐

動態新聞 2025-04-29 19:59:01
4967 跟貼 4967
特朗普經濟策略受挫，中方強硬回應：先認錯再談判

歲暮的歸南山 2025-04-29 04:17:59
0 跟貼 0
豐田全球一年銷量破1100萬輛，穩居第一

MOTO 2025-04-29 11:42:25
5325 跟貼 5325
甘肅一回族新娘因長相絕美引發熱議，網友：這是我理想中的兒媳婦

阿鳧愛吐槽 2025-04-29 08:58:14
2733 跟貼 2733
菲律賓中期選舉暗戰升級中方強勢回擊馬科斯'碰瓷'策略

深層奧秘 2025-04-29 05:04:25
0 跟貼 0
印巴沖突中中國的策略：間接支持而非直接介入

陌上吟歸雪a 2025-04-29 00:59:35
0 跟貼 0
加拿大自由黨在聯邦眾議院選舉中獲勝

新華社 2025-04-29 10:15:50
3704 跟貼 3704

36氪

讓一部分人先看到未來

148009文章數 2844996關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

教育

本地

旅游

公開課

與重慶超合拍｜取景框對準來福士，開機你的電影感之旅
亮劍緝車—蕉城法院首場法拍車聯合直播
云游湖北 | 漢川文旅新體驗：千年陶藝邂逅湖光

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
全球十大恐怖禁區有哪些？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

Qwen 3發布，阿里又點燃了AI開源的篝火

特朗普讓我的中美反向代購夢，死灰復燃？

媒體：美軍航母的神話被胡塞戳穿 最終"紙包不住火"了

媒體：美軍航母的神話被胡塞戳穿 最終"紙包不住火"了

勇士火箭雷霆太陽，你們是怎么失去他的？

帶著兒子嫁給張譯 如今才知到底有多值

沃爾瑪恢復中國供應商出貨 客戶承擔關稅

為全球造最好小車 firefly的故事才剛剛開始

態度原創

三星顯示更新品牌標識 為其QD-OLED顯示產品添加藍色“Q”

求不規則圖形的周長，解題的關鍵是什么呢？說說你的看法

春色滿城關不住 | 北洋門扉開：名校與花潮撞個滿懷

熱聞|清明假期將至，熱門目的地有哪些?

媒體：美軍航母的神話被胡塞戳穿最終"紙包不住火"了

媒體：美軍航母的神話被胡塞戳穿最終"紙包不住火"了

帶著兒子嫁給張譯如今才知到底有多值

沃爾瑪恢復中國供應商出貨客戶承擔關稅

三星顯示更新品牌標識為其QD-OLED顯示產品添加藍色“Q”