文|鄧詠儀
編輯|蘇建勛
4月28日,AI圈子內的從業者們都在等待一件事:Qwen 3。
從中午開始,Qwen 3即將發布的小道消息,已經滿天飛舞。Qwen團隊負責人林俊旸也在X上暗示:“看看我們今晚能否完成Qwen 3的工作”。
來源:X(Twitter)
《智能涌現》所在的多個業內討論群,充斥著不知真假的Qwen 3模型上傳截圖。AI從業者瘋狂刷新GitHub、HuggingFace中的Qwen主頁,用AI生成Qwen 3上線海報、現場的模擬圖,刷屏各種表情包,狂歡直至深夜還未停歇。
Qwen 3最終在凌晨5點上線。新一代的Qwen 3參數量僅為DeepSeek-R1的1/3,首先是成本大幅下降,性能全面超越R1、OpenAI-o1等全球頂尖模型。
更重要的是,Qwen 3搭載了Claude 3.7等頂尖模型的混合推理機制,將“快思考”與“慢思考”集成進同一個模型,大大減少了算力消耗。
Qwen 3的開源一共涉及8款不同架構和尺寸的模型,從0.6B開始,大到235B,適用于更多類型的移動端設備。除了模型之外,Qwen還順帶推出了Agents的原生框架,支持MCP協議,有著一股“讓所有人都要用上Agents”的勁頭。
DeepSeek爆火后的1月份,大年初一前夜,阿里急速上線了新模型Qwen2.5-VL和Qwen2.5-Max,迅速秀了一把肌肉的同時,也賦予了阿里集團更濃郁的“AI味兒”。受此情緒的烘托,阿里股價在春節前后階段大漲超30%。
但比起這次的旗艦級模型Qwen 3,上述模型都只是前奏。
對Qwen 3的萬眾期待,來自阿里在AI開源社區的盛譽——如今Qwen已經是全球領先的開源模型系列,根據最新數據,阿里通義已開源200余個模型,全球下載量超3億次,千問衍生模型數超10萬個,已超越此前的開源霸主Llama。
如果說DeepSeek是一支精銳的小分隊,快速在技術上沖鋒;那么Qwen就是一個軍團,對大模型布局更早,也更積極做生態,展現了更廣的覆蓋度和社區活力。
某種程度上,Qwen也是大模型落地的產業風向標。
一個典型的例子是,在DeepSeek R1發布后,很多企業和個人想私有化部署“滿血版”DeepSeek(671B),單單硬件成本就要上百萬元,落地成本很高。
阿里Qwen家族提供了更多的模型尺寸和類別,能幫助產業界更快驗證落地價值。用大白話來講,開發者不用自己裁剪模型,而是拿來即用,繼而快速落地。Qwen 13B及以下的模型,可控性強,的確是如今AI應用領域最受歡迎的模型之一。
DeepSeek R1成為開源歷史上的錨點,也深深影響了大模型競爭的走向。不同于此前模型廠商沉迷于刷Benchmark、刷題,中國大廠們迎來必須要證明自己真正技術實力的周期。
Qwen 3的發布,就是這樣一個時點。
滿血版成本為1/3個DeepSeek R1,性能更強大
2024年9月,阿里云在云棲大會上發布了上一代模型Qwen 2.5。Qwen2.5 一次性開源了從0.5B至72B共6個尺寸的全系列模型,覆蓋從端側到云端的全場景需求,在代碼等多個類別中,都能達到SOTA。
所有模型均允許商業使用與二次開發,這也被開發者稱為 “真正開放的AI”。
市場風傳新一代的Qwen 3會推出基于MoE架構,開源更多尺寸,成本能做到比DeepSeek更低——這些猜測都被一一證實。
Qwen 3 一共開源了8個尺寸的模型,分別為:
- 兩款MoE(混合專家)模型的權重(指模型的決策偏好):30B(300億)、235B(2350億)參數
- 六款Dense(密集)模型:包括包括0.6B(6億)、1.7B(17億)、4B(40億)、8B(80億)、14B(140億)、32B(320億)
每款模型均達到了同尺寸開源模型中的SOTA(最佳性能)。
Qwen 3延續了阿里開源的慷慨風格,依舊采用寬松的Apache2.0協議開源,首次支持119多種語言,全球開發者、研究機構和企業,都免費下載模型并商用。
Qwen 3的最大看點,一是成本大幅下降,同時性能還有大幅提高。
在Qwen 3的訓練中,阿里投入了令人驚訝的成本。Qwen 3基于36萬億token進行預訓練,這是上一代模型Qwen 2.5的兩倍,在全球同等體量的頂尖模型中也能排到前列。
據Qwen團隊公開的數據,僅需4張H20即可部署Qwen 3滿血版,顯存占用僅為性能相近模型的三分之一。
成本降低,但性能反而更高了。
Qwen的推理能力有非常顯著的提升。在數學、代碼生成和常識邏輯推理方面,Qwen 3均超越先前的推理模型 QwQ(思考模式)和 Qwen2.5 模型(非思考模式)。
而在代碼、數學、通用能力等基準測試中,Qwen 3也能與目前的頂尖模型o3-mini、Grok-3 和 Gemini-2.5-Pro等頂尖模型。
△Qwen 3性能圖 來源:Qwen 3
另外一個核心亮點,是Qwen模型對智能體(Agents)的全面適配。
如果說,OpenAI的o1模型一腳踢開了推理模型的大門,DeepSeek R1的發布,讓所有用戶見識到了推理模型的魔力:模型有像人類一樣的“思考鏈”,有思考順序,不斷驗證是否正確,推演出認為合適的答案。
但只有深度思考模式的話,弊端也很明顯。哪怕詢問簡單的天氣、今天穿什么,DeepSeek會來回地糾結,自我設問,不斷驗證,經歷少則數十秒的過度思考——如果DeepSeek沒有將模型的思考鏈展示給用戶,幾乎沒有用戶能夠忍受延遲成這樣的對話體驗。
阿里CEO吳泳銘曾在2024年9月的云棲大會表示:“AI最大想象力不在手機屏幕,而是接管數字世界,改變物理世界”。
智能體是通往這種愿景的重要路徑。所以,Qwen3做成混合推理模型是相當關鍵的:在單一模型內,能無縫切換思考模式(用于復雜邏輯推理、數學和編碼)和非思考模式(用于高效的通用對話,比如詢問天氣、歷史知識等簡單信息搜索)。
推理與非推理任務的融合能力,實際上是讓模型:
- 能夠理解數字世界,更多強調的是非推理能力,如識別、檢索、分類,
- 能夠操作數字世界,更多強調的是推理能力,模型能自主規劃、決策、編程,典型應用如Manus。
Qwen 3的API可按需設置“思考預算”(即預期最大深度思考的tokens數量),進行不同程度的思考,確保在各種場景下都能達到最佳性能。
在以前的機制中,用戶需要手動開關“深度思考”模式,一次對話中可能只能專注一種模式;但Qwen 3的新機制將這個選擇交給模型——模型能自動識別任務場景、選擇思考模式,減少了用戶對模型模式的干預成本,也會帶來更絲滑的產品體驗。
混合推理是目前比較難的技術方向,需要極其精細、創新的設計及訓練,難度遠超訓練純推理模型。模型要學習兩種不同的輸出分布,要做到兩個模式融合,且基本不影響任何一種模式下的效果。
熱門模型中,現在只有Qwen 3、Claude3.7以及Gemini 2.5 Flash可以做到較好的混合推理。
混合推理會整體提高模型使用的性價比,既提升了智能水平,又整體降低了算力資源消耗。比如,Gemini-2.5-Flash,推理和非推理模式下的價格相差約6倍。
而為了讓所有人都能馬上開發Agents,Qwen團隊幾乎是提供了保姆式的工具箱:
- Qwen 3最近火爆的MCP協議,具備工具調用(Function Calling)能力,兩者都是Agents的主要框架
- 原生的Qwen-Agent 框架,封裝了工具調用模板和工具調用解析器
- API服務也同步上線,企業可以直接通過通過阿里云百煉調用。
如果用裝修來舉例,這就像Qwen團隊把房子建好、完成硬裝,還給你提供了部分軟裝,開發者可以直接用上很多服務。這將大大降低編碼復雜性,開發門檻進一步下降,比如很多手機及電腦Agent操作等任務,就可以高效實現。
開源模型進入新一輪競爭周期
在DeepSeek R1獲得爆炸性聲量,成為全球開源模型的標桿之后,模型發布不再是單純的產品更新,而是代表公司戰略的關鍵走向。
Qwen 3的發布正值DeepSeek R1后,開源社區的新一輪競爭已經開始:2025年4月,Meta旗下的Llama 4在4月初正式發布,但因為效果不佳而遭諸多批評;而此前屢屢受挫的AI巨頭Google,也借著Gemini 2.5 pro,在開源領域扳回一城。
通用大模型層的能力仍在快速變遷中,很難有廠商能夠一直保持領先。在這個時點上,大模型團隊如何確定自己的發展主線,不只是個技術問題,更是對不同產品路線和商業判斷的策略問題。
在Qwen 3的發布上,可以看出一種更務實的開源策略。
比如,Qwen3本次提出的模型尺寸,就比Qwen 2.5時的尺寸劃分就更細致。在資源受限的設備(如移動端、邊緣計算設備)上實現高效運行,Qwen 3能同時保證一定的性能,滿足輕量級推理、對話等需求。
阿里仔細解釋了各個模型的適用場景:
- 最小參數模型(如0.6B及1.7B):支持開發者用于 speculative decoding(推測性解碼) 作實驗模型用,對科研很友好;
- 4B模型:推薦在手機端側應用
- 8B模型:推薦在電腦或者汽車端側應用
- 14B模型:適合作落地應用,普通開發者有幾張卡也都能玩轉起來
- 32B模型:開發者和企業最喜歡的模型尺寸,支持企業大規模部署商用
而在旗艦模型上,Qwen 3的模型規模和架構,也是一個更精煉,更容易落地應用的設計。
以Qwen旗艦版模型235B(235億參數)和DeepSeek R1滿血版做直接對比:
- Qwen 3 235B采用中等規模(235B)與高效激活設計(22B激活,約9.4%),只需4張H20 GPU即可部署;
- DeepSeek-R1追求超大規模(671B)與稀疏激活(37B激活,約5.5%),推薦16卡H20配置,約200萬元。
從部署成本看,Qwen 3是滿血版R1的25%-35%,模型部署成本大降六到七成。
DeepSeek R1之后,如果說大模型領域達成了什么共識,那便是——重新將資源、人力投入到模型層的技術突破,讓模型能力突破應用能力的上限。
如今大模型領域,重新將目光轉向模型能力的突破。
從Qwen發布主題的變化,也能看出如今技術主線的變遷:Qwen 2.5發布時,主題還是《擴展大型語言模型的邊界》,而到了Qwen 3,則是《思深,行速》,專注提高模型能力的應用性能,拉低落地門檻,而非單純擴大參數規模。
現在,通義千問Qwen在全球下載量超過3億,在HuggingFace社區2024年全球模型下載量中,Qwen占比已經超30%。阿里云的模型開源策略,已經走出另一條更清晰的道路:真正成為應用的土壤。
歡迎交流
歡迎交流
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.