99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

阿里開源 Qwen3 系列“混合”推理模型,據稱全面超越 Llama 4

0
分享至

備受關注的Qwen3 終于來了。

此前就陸續有消息宣稱阿里將于4 月更新其 Qwen 系列模型,終于,在四月的最后兩天,阿里巴巴 Qwen Team 對外發布了其 Qwen 系列大型語言模型的新成員——Qwen3。

此次發布的Qwen3 系列涵蓋了從小型到超大型的多個模型,旨在滿足不同應用場景下的需求。其中,最吸引人眼球的當屬旗艦模型Qwen3-235B-A22B。這是一款采用 MoE(Mixture of Experts, 混合專家)架構的大模型,擁有 2350 億總參數量,在推理時激活其中的 220 億參數。

除了旗艦模型,Qwen Team 還同時開源了另一款 MoE 模型Qwen3-30B-A3B。該模型總參數量約為 300 億,激活參數量為 30 億。官方資料顯示,這款模型的激活參數量僅為 Qwen 團隊另一款模型 QwQ-32B 的 10%,但在性能上卻表現更優。這使得 Qwen3-30B-A3B 在需要高效推理和本地部署的場景下非常具有優勢,例如本地編程。

此外,Qwen3 系列還包含六款傳統的 Dense(密集)架構模型,參數規模從 0.6B 到 32B 不等,具體包括:Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B 和 Qwen3-32B。這些 Dense 模型采用了更傳統的架構,所有參數在推理時都會參與計算。Qwen Team 對這些模型的權重也進行了全面開源。


圖丨模型參數(來源:Qwen)

基準測試結果顯示,Qwen3 系列的表現相當亮眼。

盡管參數量相對較小,但旗艦模型Qwen3-235B-A22B 在代碼生成與理解、數學推理、通用能力等關鍵領域,與 DeepSeek-R1、o1、o3-mini、Grok-3 以及 Google 的 Gemini-2.5-Pro 等頂級模型不相上下甚至有所超越。最重要的是,在各項評估中,它都用不到一半的參數量實現了對直接競爭對手 LLaMA-4-Maverick 的全面超越。


圖丨基準測試結果(來源:Qwen)

小型MoE 模型Qwen3-30B-A3B的表現同樣出色。盡管其激活參數量僅為 30 億,但在 ArenaHard、LiveCodeBench 等多項測試中,其性能不僅超越了參數量更大的 Qwen2.5-72B-Instruct 模型,還在某些項目上接近或超過了 GPT-4o。甚至參數量相當小的Qwen3-4B,也能在部分基準測試中匹敵或超越參數量遠大于它的 Qwen2.5-72B-Instruct。

此外,和Gemini 2.5 Flash 一樣,Qwen 3 系列最大的亮點是引入了思考/非思考這兩種可切換的思考模式,這種設計允許用戶根據任務需求,在推理深度(可能帶來更高質量的答案)和響應速度(效率更高)之間進行權衡。官方稱之為“思考預算”(Thinking Budget)控制。

Qwen 團隊的數據顯示,模型的性能提升與分配的計算推理預算(以 K tokens 為單位衡量)直接相關,并且展現出可擴展且平滑的性能曲線。這意味著用戶可以通過調整預算,在成本效益和推理質量之間找到最佳平衡點。


(來源:Qwen)

在實際使用中,用戶可以通過API 調用時的參數(如 enable_thinking=True/False)來控制默認模式。而且,Qwen3 還支持在多輪對話中通過在用戶輸入中添加特定指令(如 /think 或 /no_think)來動態切換當前輪次的思考模式,模型會遵循最近的指令。

Qwen3 的另一個亮點是,在多語言方面做出了重大改善,官方宣布其支持多達119 種語言和方言。這覆蓋了全球主要的語系,包括:


圖丨Qwen 3 支持的語言(來源:Qwen)

除了基礎的語言理解和生成能力,現代大型語言模型在執行復雜任務、與外部工具交互(即Agent 能力)以及編寫和理解代碼方面的能力也日益受到重視。Qwen3 在這些方面也進行了重點優化。

官方表示,Qwen3 模型的 Agent 能力和代碼能力得到了顯著提升,并且加強了對 MCP(Model Context Protocol)的支持,使得 Qwen 3 能更有效地參與到多智能體協作的場景中。

另外值得一提的是,據 Qwen 團隊研究員鄭楚杰透露,Qwen3 還有一些未在模型卡中透露出的有趣特性,或許能為研究和產品開辟出一些新的空間,值得我們期待一下。


圖丨相關推文(來源:X)

在訓練方面,Qwen 3 使用了約 36 萬億個 token 進行預訓練,幾乎是 Qwen2.5(18 萬億 token)的兩倍。團隊不僅從網絡收集數據,還從 PDF 文檔中提取信息,并利用 Qwen2.5-VL(Vision Language,視覺語言)和 Qwen2.5 改善提取內容質量。為增加數學和代碼數據,團隊還利用 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個領域專家模型合成數據。

預訓練過程分為三個階段:首先在超過30 萬億個 token 上進行基礎預訓練;其次增加知識密集型數據比例并額外訓練 5 萬億個 token;最后使用高質量長上下文數據將上下文長度擴展到 32K token。

模型架構的改進也是Qwen3 性能提升的關鍵因素之一。官方提到,由于模型架構的改進、訓練數據的增加以及更有效的訓練方法,Qwen3 的 Dense 基礎模型在整體性能上已經能與參數量更多的 Qwen2.5 基礎模型相媲美。例如,Qwen3 的 1.7B 到 32B 的 Dense 模型分別能達到 Qwen2.5 的 3B 到 72B Base 模型的水平。對于 MoE 模型,在僅使用約 10% 激活參數的情況下,就能達到與 Qwen2.5 Dense 基礎模型相似的性能,顯著節省了訓練和推理成本。


圖丨基準測試結果(來源:Qwen)

后訓練部分,對于Qwen3-235B-A22B 等旗艦模型,訓練從基礎模型出發,經歷了與 DeepSeek- R1 比較類似的四個步驟:

1.長思維鏈冷啟動 (Long-CoT Cold Start):使用多樣化的長思維鏈數據對模型進行微調,覆蓋數學、代碼、邏輯推理和 STEM(科學、技術、工程、數學)等領域,旨在為模型注入基礎的推理能力。

2.長思維鏈強化學習 (Long-CoT Reasoning RL):進行大規模強化學習(Reinforcement Learning, RL),利用基于規則的獎勵來增強模型的探索和鉆研能力。

3.思維模式融合 (Thinking Mode Fusion):將包含長思維鏈數據和常用指令微調數據的混合數據集用于模型微調,目的是將非思考模式無縫整合到思考模式中,確保推理能力和快速響應能力的結合。

4.通用強化學習 (General RL):在包括指令遵循、格式遵循和 Agent 能力等在內的 20 多個通用任務領域應用強化學習,進一步增強模型的通用能力并糾正不良行為。

對于更小的輕量級模型,則是由強模型進行蒸餾。流程圖顯示,這種蒸餾過程利用了經過復雜四階段訓練的前沿模型作為“教師模型”,將其能力遷移到參數量較小的“學生模型”上(這也解釋了輕量級模型能在相對較小規模下繼承強大性能的原因)。


圖丨后訓練流程(來源:Qwen)

目前,模型權重已上架Hugging Face、ModelScope、Kaggle 等平臺。對于生產環境部署,推薦使用 SGLang、vLLM 等框架。同時,Ollama、LMStudio、llama.cpp 等本地工具也提供了支持。官方還提供了詳細的 Python 代碼示例。

參考資料:

1. https://qwenlm.github.io/zh/blog/qwen3/

排版:溪樹

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不準關閉大壩,巴鐵通電王毅外長,中方遞出18個字,印度直接泄洪

不準關閉大壩,巴鐵通電王毅外長,中方遞出18個字,印度直接泄洪

簡讀視覺
2025-04-28 22:27:31
就在今天!4月29日,央視五套直播表出爐:CCTV5、CCTV5+節目單

就在今天!4月29日,央視五套直播表出爐:CCTV5、CCTV5+節目單

越嶺體育
2025-04-29 05:15:01
羅永浩力挺四川芬達:惡心你又不違法,別欺負年輕人,差不多得了

羅永浩力挺四川芬達:惡心你又不違法,別欺負年輕人,差不多得了

阿鳧愛吐槽
2025-04-28 15:16:07
中國拒收波音飛機,雙方損失各有多少?

中國拒收波音飛機,雙方損失各有多少?

和訊網
2025-04-28 16:25:04
勇士109-106火箭!無解不是贏球,是巴特勒評價庫里,他憋了一年

勇士109-106火箭!無解不是贏球,是巴特勒評價庫里,他憋了一年

巴叔GO聊體育
2025-04-29 15:56:29
天助羅馬!2-2大冷門,意甲第8遭意甲第15阻擊,佩德羅2球難換3分

天助羅馬!2-2大冷門,意甲第8遭意甲第15阻擊,佩德羅2球難換3分

側身凌空斬
2025-04-29 07:33:29
德國將成為烏克蘭在歐洲最強支持者,默茨稱將永遠站在烏克蘭一邊

德國將成為烏克蘭在歐洲最強支持者,默茨稱將永遠站在烏克蘭一邊

山河路口
2025-04-28 23:42:55
越扒越有!作賊心虛,知網已搜不到董襲瑩論文,父母托舉成了笑話

越扒越有!作賊心虛,知網已搜不到董襲瑩論文,父母托舉成了笑話

鋭娛之樂
2025-04-29 13:11:28
機器人半馬冠軍拍出101萬元,客服:不帶獎牌、非全新品

機器人半馬冠軍拍出101萬元,客服:不帶獎牌、非全新品

大象新聞
2025-04-29 14:46:13
畢夏遭遇車禍,半年開顱2次,瞳孔散掉險喪命,張恒遠去世快2年

畢夏遭遇車禍,半年開顱2次,瞳孔散掉險喪命,張恒遠去世快2年

180°視角
2025-04-29 13:54:59
要過緊日子了,這是給普通人的13個忠告

要過緊日子了,這是給普通人的13個忠告

尚曦讀史
2025-04-24 23:45:04
別買也別喝,嚴重可致死,已有多家店鋪被查封,家里有的趕緊扔

別買也別喝,嚴重可致死,已有多家店鋪被查封,家里有的趕緊扔

博學老K雜談
2025-03-31 13:30:03
出門身上放現金的要留意,我也是剛知道,看完盡快告訴家人還不遲

出門身上放現金的要留意,我也是剛知道,看完盡快告訴家人還不遲

阿坤庫
2025-04-29 05:10:05
G4火箭106-109勇士,賽后4壞消息!格林阿門全懵,烏度卡無戰術!

G4火箭106-109勇士,賽后4壞消息!格林阿門全懵,烏度卡無戰術!

籃球資訊達人
2025-04-29 13:55:55
痛心!4人不幸遇難……

痛心!4人不幸遇難……

阜陽發布
2025-04-29 11:46:49
13-4丁俊暉!布雷切爾:特羅薩德幫我訂私人飛機,賽前幾小時才到

13-4丁俊暉!布雷切爾:特羅薩德幫我訂私人飛機,賽前幾小時才到

直播吧
2025-04-29 11:39:03
中考后回頭看,才發現那些考不上高中的孩子,大多都有這些特征

中考后回頭看,才發現那些考不上高中的孩子,大多都有這些特征

好爸育兒
2025-04-29 10:04:43
圍堵女孩不讓擺攤后續:官方通報,攤位鄰居發聲,爆出更多細節!

圍堵女孩不讓擺攤后續:官方通報,攤位鄰居發聲,爆出更多細節!

鋭娛之樂
2025-04-29 13:58:55
央企副總被舉報長期出軌多名人妻,還遭失陪酒女男友抓奸敲詐!

央企副總被舉報長期出軌多名人妻,還遭失陪酒女男友抓奸敲詐!

兵叔評說
2025-04-28 16:40:22
上海五一消費券來了!最高減500

上海五一消費券來了!最高減500

上海約飯局
2025-04-29 11:06:11
2025-04-29 17:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15115文章數 513596關注度
往期回顧 全部

科技要聞

Qwen3登頂開源榜 阿里稱大模型是十年長跑

頭條要聞

印巴再度交火 外交部回應是否計劃"介入調解"

頭條要聞

印巴再度交火 外交部回應是否計劃"介入調解"

體育要聞

勇士火箭雷霆太陽,你們是怎么失去他的?

娛樂要聞

甜馨簽樂華出道惹爭議 維護爸媽被質疑

財經要聞

特朗普執政百日下的美元危機

汽車要聞

年輕or傳統?上汽奧迪A5L與一汽奧迪A5L有什么不同?

態度原創

游戲
旅游
時尚
藝術
本地

《百日戰紀》好玩嗎?小高直接在小紅書評論區自夸

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

年齡從來不是美的枷鎖,掌握這3大穿搭技巧,40+美出圈

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

春色滿城關不住 | 北洋門扉開:名校與花潮撞個滿懷

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 马关县| 宿州市| 宁武县| 邛崃市| 泸溪县| 惠州市| 斗六市| 新津县| 文成县| 桃园县| 蒙阴县| 八宿县| 河南省| 徐汇区| 津市市| 什邡市| 青海省| 板桥市| 天镇县| 海盐县| 鱼台县| 临高县| 申扎县| 安宁市| 嘉峪关市| 新闻| 高淳县| 潢川县| 沁水县| 河东区| 沧州市| 宁夏| 德令哈市| 清流县| 常熟市| 淳化县| 个旧市| 上高县| 长治县| 宝兴县| 鹿邑县|