網易首頁 > 網易號 > 正文申請入駐

阿里開源 Qwen3 系列“混合”推理模型，據稱全面超越 Llama 4

2025-04-29 09:52:14　來源: DeepTech深科技

北京舉報

分享至

備受關注的Qwen3 終于來了。

此前就陸續有消息宣稱阿里將于4 月更新其 Qwen 系列模型，終于，在四月的最后兩天，阿里巴巴 Qwen Team 對外發布了其 Qwen 系列大型語言模型的新成員——Qwen3。

此次發布的Qwen3 系列涵蓋了從小型到超大型的多個模型，旨在滿足不同應用場景下的需求。其中，最吸引人眼球的當屬旗艦模型Qwen3-235B-A22B。這是一款采用 MoE（Mixture of Experts, 混合專家）架構的大模型，擁有 2350 億總參數量，在推理時激活其中的 220 億參數。

除了旗艦模型，Qwen Team 還同時開源了另一款 MoE 模型Qwen3-30B-A3B。該模型總參數量約為 300 億，激活參數量為 30 億。官方資料顯示，這款模型的激活參數量僅為 Qwen 團隊另一款模型 QwQ-32B 的 10%，但在性能上卻表現更優。這使得 Qwen3-30B-A3B 在需要高效推理和本地部署的場景下非常具有優勢，例如本地編程。

此外，Qwen3 系列還包含六款傳統的 Dense（密集）架構模型，參數規模從 0.6B 到 32B 不等，具體包括：Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B 和 Qwen3-32B。這些 Dense 模型采用了更傳統的架構，所有參數在推理時都會參與計算。Qwen Team 對這些模型的權重也進行了全面開源。

圖丨模型參數（來源：Qwen）

基準測試結果顯示，Qwen3 系列的表現相當亮眼。

盡管參數量相對較小，但旗艦模型Qwen3-235B-A22B 在代碼生成與理解、數學推理、通用能力等關鍵領域，與 DeepSeek-R1、o1、o3-mini、Grok-3 以及 Google 的 Gemini-2.5-Pro 等頂級模型不相上下甚至有所超越。最重要的是，在各項評估中，它都用不到一半的參數量實現了對直接競爭對手 LLaMA-4-Maverick 的全面超越。

圖丨基準測試結果（來源：Qwen）

小型MoE 模型Qwen3-30B-A3B的表現同樣出色。盡管其激活參數量僅為 30 億，但在 ArenaHard、LiveCodeBench 等多項測試中，其性能不僅超越了參數量更大的 Qwen2.5-72B-Instruct 模型，還在某些項目上接近或超過了 GPT-4o。甚至參數量相當小的Qwen3-4B，也能在部分基準測試中匹敵或超越參數量遠大于它的 Qwen2.5-72B-Instruct。

此外，和Gemini 2.5 Flash 一樣，Qwen 3 系列最大的亮點是引入了思考/非思考這兩種可切換的思考模式，這種設計允許用戶根據任務需求，在推理深度（可能帶來更高質量的答案）和響應速度（效率更高）之間進行權衡。官方稱之為“思考預算”（Thinking Budget）控制。

Qwen 團隊的數據顯示，模型的性能提升與分配的計算推理預算（以 K tokens 為單位衡量）直接相關，并且展現出可擴展且平滑的性能曲線。這意味著用戶可以通過調整預算，在成本效益和推理質量之間找到最佳平衡點。

（來源：Qwen）

在實際使用中，用戶可以通過API 調用時的參數（如 enable_thinking=True/False）來控制默認模式。而且，Qwen3 還支持在多輪對話中通過在用戶輸入中添加特定指令（如 /think 或 /no_think）來動態切換當前輪次的思考模式，模型會遵循最近的指令。

Qwen3 的另一個亮點是，在多語言方面做出了重大改善，官方宣布其支持多達119 種語言和方言。這覆蓋了全球主要的語系，包括：

圖丨Qwen 3 支持的語言（來源：Qwen）

除了基礎的語言理解和生成能力，現代大型語言模型在執行復雜任務、與外部工具交互（即Agent 能力）以及編寫和理解代碼方面的能力也日益受到重視。Qwen3 在這些方面也進行了重點優化。

官方表示，Qwen3 模型的 Agent 能力和代碼能力得到了顯著提升，并且加強了對 MCP（Model Context Protocol）的支持，使得 Qwen 3 能更有效地參與到多智能體協作的場景中。

另外值得一提的是，據 Qwen 團隊研究員鄭楚杰透露，Qwen3 還有一些未在模型卡中透露出的有趣特性，或許能為研究和產品開辟出一些新的空間，值得我們期待一下。

圖丨相關推文（來源：X）

在訓練方面，Qwen 3 使用了約 36 萬億個 token 進行預訓練，幾乎是 Qwen2.5（18 萬億 token）的兩倍。團隊不僅從網絡收集數據，還從 PDF 文檔中提取信息，并利用 Qwen2.5-VL（Vision Language，視覺語言）和 Qwen2.5 改善提取內容質量。為增加數學和代碼數據，團隊還利用 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個領域專家模型合成數據。

預訓練過程分為三個階段：首先在超過30 萬億個 token 上進行基礎預訓練；其次增加知識密集型數據比例并額外訓練 5 萬億個 token；最后使用高質量長上下文數據將上下文長度擴展到 32K token。

模型架構的改進也是Qwen3 性能提升的關鍵因素之一。官方提到，由于模型架構的改進、訓練數據的增加以及更有效的訓練方法，Qwen3 的 Dense 基礎模型在整體性能上已經能與參數量更多的 Qwen2.5 基礎模型相媲美。例如，Qwen3 的 1.7B 到 32B 的 Dense 模型分別能達到 Qwen2.5 的 3B 到 72B Base 模型的水平。對于 MoE 模型，在僅使用約 10% 激活參數的情況下，就能達到與 Qwen2.5 Dense 基礎模型相似的性能，顯著節省了訓練和推理成本。

圖丨基準測試結果（來源：Qwen）

后訓練部分，對于Qwen3-235B-A22B 等旗艦模型，訓練從基礎模型出發，經歷了與 DeepSeek- R1 比較類似的四個步驟：

1.長思維鏈冷啟動 (Long-CoT Cold Start):使用多樣化的長思維鏈數據對模型進行微調，覆蓋數學、代碼、邏輯推理和 STEM（科學、技術、工程、數學）等領域，旨在為模型注入基礎的推理能力。

2.長思維鏈強化學習 (Long-CoT Reasoning RL):進行大規模強化學習（Reinforcement Learning, RL），利用基于規則的獎勵來增強模型的探索和鉆研能力。

3.思維模式融合 (Thinking Mode Fusion):將包含長思維鏈數據和常用指令微調數據的混合數據集用于模型微調，目的是將非思考模式無縫整合到思考模式中，確保推理能力和快速響應能力的結合。

4.通用強化學習 (General RL):在包括指令遵循、格式遵循和 Agent 能力等在內的 20 多個通用任務領域應用強化學習，進一步增強模型的通用能力并糾正不良行為。

對于更小的輕量級模型，則是由強模型進行蒸餾。流程圖顯示，這種蒸餾過程利用了經過復雜四階段訓練的前沿模型作為“教師模型”，將其能力遷移到參數量較小的“學生模型”上（這也解釋了輕量級模型能在相對較小規模下繼承強大性能的原因）。

圖丨后訓練流程（來源：Qwen）

目前，模型權重已上架Hugging Face、ModelScope、Kaggle 等平臺。對于生產環境部署，推薦使用 SGLang、vLLM 等框架。同時，Ollama、LMStudio、llama.cpp 等本地工具也提供了支持。官方還提供了詳細的 Python 代碼示例。

參考資料：

1. https://qwenlm.github.io/zh/blog/qwen3/

排版：溪樹

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.