清晨重磅！阿里發(fā)布并開源Qwen3，無縫集成思考模式、多語言、便于Agent調(diào)用

2025-04-29 06:39:47　來源: 華爾街見聞官方

上海舉報(bào)

分享至

阿里巴巴周一發(fā)布并開源通義千問3.0（Qwen3）系列模型，并稱其在數(shù)學(xué)和編程等多個(gè)方面均可與DeepSeek的性能相媲美。與其他主流模型相比，Qwen3還顯著降低了部署成本。阿里表示，Qwen3無縫集成兩種思考模式，支持119種語言，便于Agent調(diào)用。

性能媲美DeepSeek R1、OpenAI o1，全部開源

Qwen3系列包括兩個(gè)專家混合 (MoE) 模型和另外六個(gè)模型。阿里巴巴表示，最新發(fā)型的旗艦?zāi)Ｐ蚎wen3-235B-A22B在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中，與DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等頂級(jí)模型相比，表現(xiàn)出極具競爭力。

此外，被稱為“專家混合”（MoE，Mixture-of-Experts）模型的Qwen3-30B-A3B的激活參數(shù)數(shù)量是QwQ-32B的10%，表現(xiàn)更勝一籌，甚至像Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。這類系統(tǒng)模擬人類解決問題的思維方式，將任務(wù)劃分為更小的數(shù)據(jù)集，類似于讓一組各有所長的專家分別負(fù)責(zé)不同部分，從而提升整體效率。

同時(shí)，阿里巴巴還開源了兩個(gè)MoE模型的權(quán)重：擁有2350多億總參數(shù)和220多億激活參數(shù)的Qwen3-235B-A22B，以及擁有約300億總參數(shù)和30億激活參數(shù)的小型MoE 模型Qwen3-30B-A3B。此外，六個(gè)Dense模型也已開源，包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B，均在Apache 2.0許可下開源。

“混合型”模型，兩種思考模式

阿里巴巴表示，Qwen 3系列是“混合型”模型，既可以花時(shí)間“推理”以解決復(fù)雜問題，也可以快速回答簡單請求，分別叫做“思考模式”和“非思考模式”。“思考模式”中的推理能力使得模型能夠有效地進(jìn)行自我事實(shí)核查，類似于OpenAI的o3模型，但代價(jià)是推理過程中的延遲時(shí)間較高。

Qwen團(tuán)隊(duì)在博客文章中寫道：

這種靈活性使用戶能夠根據(jù)具體任務(wù)控制模型進(jìn)行“思考”的程度。例如，復(fù)雜的問題可以通過擴(kuò)展推理步驟來解決，而簡單的問題則可以直接快速作答，無需延遲。
至關(guān)重要的是，這兩種模式的結(jié)合大大增強(qiáng)了模型實(shí)現(xiàn)穩(wěn)定且高效的“思考預(yù)算”控制能力。如上文所述，Qwen3展現(xiàn)出可擴(kuò)展且平滑的性能提升，這與分配的計(jì)算推理預(yù)算直接相關(guān)。
這樣的設(shè)計(jì)讓用戶能夠更輕松地為不同任務(wù)配置特定的預(yù)算，在成本效益和推理質(zhì)量之間實(shí)現(xiàn)更優(yōu)的平衡。

訓(xùn)練數(shù)據(jù)量是Qwen2.5的兩倍，便于Agent調(diào)用

阿里巴巴表示，Qwen3系列支持119種語言，并基于近36萬億個(gè)token（標(biāo)記）進(jìn)行訓(xùn)練，使用的數(shù)據(jù)量是Qwen2.5的兩倍。Token是模型處理的基本數(shù)據(jù)單元，約100萬個(gè)token相當(dāng)于75萬英文單詞。阿里巴巴稱，Qwen3的訓(xùn)練數(shù)據(jù)包括教材、問答對、代碼片段等多種內(nèi)容。

據(jù)介紹，Qwen3預(yù)訓(xùn)練過程分為三個(gè)階段。在第一階段（S1），模型在超過30萬億個(gè)token上進(jìn)行了預(yù)訓(xùn)練，上下文長度為4K token。這一階段為模型提供了基本的語言技能和通用知識(shí)。

在第二階段（S2），訓(xùn)練則通過增加知識(shí)密集型數(shù)據(jù)（如 STEM、編程和推理任務(wù)）的比例來改進(jìn)數(shù)據(jù)集，隨后模型又在額外的5萬億個(gè)token上進(jìn)行了預(yù)訓(xùn)練。在最后階段則使用高質(zhì)量的長上下文數(shù)據(jù)將上下文長度擴(kuò)展到32K token，確保模型能夠有效地處理更長的輸入。

阿里巴巴表示，由于模型架構(gòu)的改進(jìn)、訓(xùn)練數(shù)據(jù)的增加以及更有效的訓(xùn)練方法，Qwen3 Dense基礎(chǔ)模型的整體性能與參數(shù)更多的Qwen2.5基礎(chǔ)模型相當(dāng)。例如，Qwen3-1.7B/4B/8B/14B/32B-Base分別與Qwen2.5-3B/7B/14B/32B/72B-Base 表現(xiàn)相當(dāng)。特別是在 STEM、編碼和推理等領(lǐng)域，Qwen3 Dense基礎(chǔ)模型的表現(xiàn)甚至超過了更大規(guī)模的Qwen2.5 模型。對于Qwen3 MoE基礎(chǔ)模型，它們在僅使用10%激活參數(shù)的情況下達(dá)到了與Qwen2.5 Dense基礎(chǔ)模型相似的性能，顯著節(jié)省了訓(xùn)練和推理成本。

而在后訓(xùn)練階段，阿里使用多樣的的長思維鏈數(shù)據(jù)對模型進(jìn)行了微調(diào)，涵蓋了數(shù)學(xué)、代碼、邏輯推理和 STEM 問題等多種任務(wù)和領(lǐng)域，為模型配備基本的推理能力。然后通過大規(guī)模強(qiáng)化學(xué)習(xí)，利用基于規(guī)則的獎(jiǎng)勵(lì)來增強(qiáng)模型的探索和鉆研能力。

阿里巴巴表示，Qwen3在調(diào)用工具（tool-calling）、執(zhí)行指令以及復(fù)制特定數(shù)據(jù)格式等能力方面表現(xiàn)出色，推薦用戶使用Qwen-Agent來充分發(fā)揮Qwen3的Agent能力。Qwen-Agent內(nèi)部封裝了工具調(diào)用模板和工具調(diào)用解析器，大大降低了代碼復(fù)雜性。

除了提供下載版本外，Qwen3還可以通過Fireworks AI、Hyperbolic等云服務(wù)提供商使用。

目標(biāo)仍對準(zhǔn)AGI

OpenAI、谷歌和Anthropic近期也陸續(xù)推出了多款新模型。OpenAI近日表示，也計(jì)劃在未來幾個(gè)月發(fā)布一款更加“開放”的模型，模仿人類推理方式，這標(biāo)志著其策略出現(xiàn)轉(zhuǎn)變，此前DeepSeek和阿里巴巴已經(jīng)率先推出了開源AI系統(tǒng)。

目前，阿里巴巴正以Qwen為核心，構(gòu)建其AI版圖。今年2月，首席執(zhí)行官吳泳銘表示，公司目前的“首要目標(biāo)”是實(shí)現(xiàn)通用人工智能（AGI）——即打造具備人類智力水平的AI系統(tǒng)。

阿里表示，Qwen3代表了該公司在通往通用人工智能（AGI）和超級(jí)人工智能（ASI）旅程中的一個(gè)重要里程碑。展望未來，阿里計(jì)劃從多個(gè)維度提升模型，包括優(yōu)化模型架構(gòu)和訓(xùn)練方法，以實(shí)現(xiàn)幾個(gè)關(guān)鍵目標(biāo)：擴(kuò)展數(shù)據(jù)規(guī)模、增加模型大小、延長上下文長度、拓寬模態(tài)范圍，并利用環(huán)境反饋推進(jìn)強(qiáng)化學(xué)習(xí)以進(jìn)行長周期推理。

開源社區(qū)振奮

阿里Qwen3的發(fā)布讓AI社區(qū)感到激動(dòng)，有網(wǎng)友獻(xiàn)上經(jīng)典Meme：

有網(wǎng)友說，

在我的測試中，235B在高維張量運(yùn)算方面的表現(xiàn)相當(dāng)于Sonnet。
這是一個(gè)非常出色的模型，
感謝你們。

有網(wǎng)友對Qwen3贊不絕口：

如果不是親眼看到屏幕上實(shí)時(shí)生成的tokens，我根本不會(huì)相信那些基準(zhǔn)測試結(jié)果。???? 簡直像魔法一樣????

而開源AI的支持者則更加興奮。有網(wǎng)友說：

“有了一個(gè)開源32B大模型，性能跟Gemini 2.5 Pro不相上下。”
“我們徹底殺回來了！”

網(wǎng)友感謝阿里積極推動(dòng)開源：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.