99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

清晨重磅!阿里發布并開源Qwen3,無縫集成思考模式、多語言、便于Agent調用

0
分享至

阿里巴巴周一發布并開源通義千問3.0(Qwen3)系列模型,并稱其在數學和編程等多個方面均可與DeepSeek的性能相媲美。與其他主流模型相比,Qwen3還顯著降低了部署成本。阿里表示,Qwen3無縫集成兩種思考模式,支持119種語言,便于Agent調用。


性能媲美DeepSeek R1、OpenAI o1,全部開源

Qwen3系列包括兩個專家混合 (MoE) 模型和另外六個模型。阿里巴巴表示,最新發型的旗艦模型Qwen3-235B-A22B在代碼、數學、通用能力等基準測試中,與DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等頂級模型相比,表現出極具競爭力。

此外,被稱為“專家混合”(MoE,Mixture-of-Experts)模型的Qwen3-30B-A3B的激活參數數量是QwQ-32B的10%,表現更勝一籌,甚至像Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。這類系統模擬人類解決問題的思維方式,將任務劃分為更小的數據集,類似于讓一組各有所長的專家分別負責不同部分,從而提升整體效率。



同時,阿里巴巴還開源了兩個MoE模型的權重:擁有2350多億總參數和220多億激活參數的Qwen3-235B-A22B,以及擁有約300億總參數和30億激活參數的小型MoE 模型Qwen3-30B-A3B。此外,六個Dense模型也已開源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0許可下開源。



“混合型”模型,兩種思考模式

阿里巴巴表示,Qwen 3系列是“混合型”模型,既可以花時間“推理”以解決復雜問題,也可以快速回答簡單請求,分別叫做“思考模式”和“非思考模式”。“思考模式”中的推理能力使得模型能夠有效地進行自我事實核查,類似于OpenAI的o3模型,但代價是推理過程中的延遲時間較高。

Qwen團隊在博客文章中寫道:

這種靈活性使用戶能夠根據具體任務控制模型進行“思考”的程度。例如,復雜的問題可以通過擴展推理步驟來解決,而簡單的問題則可以直接快速作答,無需延遲。
至關重要的是,這兩種模式的結合大大增強了模型實現穩定且高效的“思考預算”控制能力。如上文所述,Qwen3展現出可擴展且平滑的性能提升,這與分配的計算推理預算直接相關。
這樣的設計讓用戶能夠更輕松地為不同任務配置特定的預算,在成本效益和推理質量之間實現更優的平衡。


訓練數據量是Qwen2.5的兩倍,便于Agent調用

阿里巴巴表示,Qwen3系列支持119種語言,并基于近36萬億個token(標記)進行訓練,使用的數據量是Qwen2.5的兩倍。Token是模型處理的基本數據單元,約100萬個token相當于75萬英文單詞。阿里巴巴稱,Qwen3的訓練數據包括教材、問答對、代碼片段等多種內容。

據介紹,Qwen3預訓練過程分為三個階段。在第一階段(S1),模型在超過30萬億個token上進行了預訓練,上下文長度為4K token。這一階段為模型提供了基本的語言技能和通用知識。

在第二階段(S2),訓練則通過增加知識密集型數據(如 STEM、編程和推理任務)的比例來改進數據集,隨后模型又在額外的5萬億個token上進行了預訓練。在最后階段則使用高質量的長上下文數據將上下文長度擴展到32K token,確保模型能夠有效地處理更長的輸入。


阿里巴巴表示,由于模型架構的改進、訓練數據的增加以及更有效的訓練方法,Qwen3 Dense基礎模型的整體性能與參數更多的Qwen2.5基礎模型相當。例如,Qwen3-1.7B/4B/8B/14B/32B-Base分別與Qwen2.5-3B/7B/14B/32B/72B-Base 表現相當。特別是在 STEM、編碼和推理等領域,Qwen3 Dense基礎模型的表現甚至超過了更大規模的Qwen2.5 模型。對于Qwen3 MoE基礎模型,它們在僅使用10%激活參數的情況下達到了與Qwen2.5 Dense基礎模型相似的性能,顯著節省了訓練和推理成本。

而在后訓練階段,阿里使用多樣的的長思維鏈數據對模型進行了微調,涵蓋了數學、代碼、邏輯推理和 STEM 問題等多種任務和領域,為模型配備基本的推理能力。然后通過大規模強化學習,利用基于規則的獎勵來增強模型的探索和鉆研能力。

阿里巴巴表示,Qwen3在調用工具(tool-calling)、執行指令以及復制特定數據格式等能力方面表現出色,推薦用戶使用Qwen-Agent來充分發揮Qwen3的Agent能力。Qwen-Agent內部封裝了工具調用模板和工具調用解析器,大大降低了代碼復雜性。

除了提供下載版本外,Qwen3還可以通過Fireworks AI、Hyperbolic等云服務提供商使用。

目標仍對準AGI

OpenAI、谷歌和Anthropic近期也陸續推出了多款新模型。OpenAI近日表示,也計劃在未來幾個月發布一款更加“開放”的模型,模仿人類推理方式,這標志著其策略出現轉變,此前DeepSeek和阿里巴巴已經率先推出了開源AI系統。

目前,阿里巴巴正以Qwen為核心,構建其AI版圖。今年2月,首席執行官吳泳銘表示,公司目前的“首要目標”是實現通用人工智能(AGI)——即打造具備人類智力水平的AI系統。

阿里表示,Qwen3代表了該公司在通往通用人工智能(AGI)和超級人工智能(ASI)旅程中的一個重要里程碑。展望未來,阿里計劃從多個維度提升模型,包括優化模型架構和訓練方法,以實現幾個關鍵目標:擴展數據規模、增加模型大小、延長上下文長度、拓寬模態范圍,并利用環境反饋推進強化學習以進行長周期推理。

開源社區振奮

阿里Qwen3的發布讓AI社區感到激動,有網友獻上經典Meme:


有網友說,

在我的測試中,235B在高維張量運算方面的表現相當于Sonnet。
這是一個非常出色的模型,
感謝你們。


有網友對Qwen3贊不絕口:

如果不是親眼看到屏幕上實時生成的tokens,我根本不會相信那些基準測試結果。???? 簡直像魔法一樣????


而開源AI的支持者則更加興奮。有網友說:

“有了一個開源32B大模型,性能跟Gemini 2.5 Pro不相上下。”
“我們徹底殺回來了!”


網友感謝阿里積極推動開源:


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不準關閉大壩,巴鐵通電王毅外長,中方遞出18個字,印度直接泄洪

不準關閉大壩,巴鐵通電王毅外長,中方遞出18個字,印度直接泄洪

簡讀視覺
2025-04-28 22:27:31
就在今天!4月29日,央視五套直播表出爐:CCTV5、CCTV5+節目單

就在今天!4月29日,央視五套直播表出爐:CCTV5、CCTV5+節目單

越嶺體育
2025-04-29 05:15:01
羅永浩力挺四川芬達:惡心你又不違法,別欺負年輕人,差不多得了

羅永浩力挺四川芬達:惡心你又不違法,別欺負年輕人,差不多得了

阿鳧愛吐槽
2025-04-28 15:16:07
中國拒收波音飛機,雙方損失各有多少?

中國拒收波音飛機,雙方損失各有多少?

和訊網
2025-04-28 16:25:04
勇士109-106火箭!無解不是贏球,是巴特勒評價庫里,他憋了一年

勇士109-106火箭!無解不是贏球,是巴特勒評價庫里,他憋了一年

巴叔GO聊體育
2025-04-29 15:56:29
天助羅馬!2-2大冷門,意甲第8遭意甲第15阻擊,佩德羅2球難換3分

天助羅馬!2-2大冷門,意甲第8遭意甲第15阻擊,佩德羅2球難換3分

側身凌空斬
2025-04-29 07:33:29
德國將成為烏克蘭在歐洲最強支持者,默茨稱將永遠站在烏克蘭一邊

德國將成為烏克蘭在歐洲最強支持者,默茨稱將永遠站在烏克蘭一邊

山河路口
2025-04-28 23:42:55
越扒越有!作賊心虛,知網已搜不到董襲瑩論文,父母托舉成了笑話

越扒越有!作賊心虛,知網已搜不到董襲瑩論文,父母托舉成了笑話

鋭娛之樂
2025-04-29 13:11:28
機器人半馬冠軍拍出101萬元,客服:不帶獎牌、非全新品

機器人半馬冠軍拍出101萬元,客服:不帶獎牌、非全新品

大象新聞
2025-04-29 14:46:13
畢夏遭遇車禍,半年開顱2次,瞳孔散掉險喪命,張恒遠去世快2年

畢夏遭遇車禍,半年開顱2次,瞳孔散掉險喪命,張恒遠去世快2年

180°視角
2025-04-29 13:54:59
要過緊日子了,這是給普通人的13個忠告

要過緊日子了,這是給普通人的13個忠告

尚曦讀史
2025-04-24 23:45:04
別買也別喝,嚴重可致死,已有多家店鋪被查封,家里有的趕緊扔

別買也別喝,嚴重可致死,已有多家店鋪被查封,家里有的趕緊扔

博學老K雜談
2025-03-31 13:30:03
出門身上放現金的要留意,我也是剛知道,看完盡快告訴家人還不遲

出門身上放現金的要留意,我也是剛知道,看完盡快告訴家人還不遲

阿坤庫
2025-04-29 05:10:05
G4火箭106-109勇士,賽后4壞消息!格林阿門全懵,烏度卡無戰術!

G4火箭106-109勇士,賽后4壞消息!格林阿門全懵,烏度卡無戰術!

籃球資訊達人
2025-04-29 13:55:55
痛心!4人不幸遇難……

痛心!4人不幸遇難……

阜陽發布
2025-04-29 11:46:49
13-4丁俊暉!布雷切爾:特羅薩德幫我訂私人飛機,賽前幾小時才到

13-4丁俊暉!布雷切爾:特羅薩德幫我訂私人飛機,賽前幾小時才到

直播吧
2025-04-29 11:39:03
中考后回頭看,才發現那些考不上高中的孩子,大多都有這些特征

中考后回頭看,才發現那些考不上高中的孩子,大多都有這些特征

好爸育兒
2025-04-29 10:04:43
圍堵女孩不讓擺攤后續:官方通報,攤位鄰居發聲,爆出更多細節!

圍堵女孩不讓擺攤后續:官方通報,攤位鄰居發聲,爆出更多細節!

鋭娛之樂
2025-04-29 13:58:55
央企副總被舉報長期出軌多名人妻,還遭失陪酒女男友抓奸敲詐!

央企副總被舉報長期出軌多名人妻,還遭失陪酒女男友抓奸敲詐!

兵叔評說
2025-04-28 16:40:22
上海五一消費券來了!最高減500

上海五一消費券來了!最高減500

上海約飯局
2025-04-29 11:06:11
2025-04-29 17:03:00
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領先的金融商業信息提供商
129158文章數 2649063關注度
往期回顧 全部

科技要聞

Qwen3登頂開源榜 阿里稱大模型是十年長跑

頭條要聞

印巴再度交火 外交部回應是否計劃"介入調解"

頭條要聞

印巴再度交火 外交部回應是否計劃"介入調解"

體育要聞

勇士火箭雷霆太陽,你們是怎么失去他的?

娛樂要聞

甜馨簽樂華出道惹爭議 維護爸媽被質疑

財經要聞

特朗普執政百日下的美元危機

汽車要聞

年輕or傳統?上汽奧迪A5L與一汽奧迪A5L有什么不同?

態度原創

房產
數碼
手機
教育
游戲

房產要聞

1.6w+起!國興核心驚現改善神盤,海口房價徹底殺瘋!

數碼要聞

最新泄露信息顯示索尼WH-1000XM6降噪耳機距離發布又近了一步

手機要聞

小屏黨春天 OPPO Find X8s學生購機優惠多多

教育要聞

全面解析英語高頻詞all的八大核心用法

《百日戰紀》好玩嗎?小高直接在小紅書評論區自夸

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 嘉荫县| 合肥市| 桑日县| 梧州市| 且末县| 日喀则市| 辽中县| 迁安市| 和顺县| 富宁县| 南充市| 青阳县| 武强县| 墨脱县| 延寿县| 博乐市| 额济纳旗| 黔西| 广东省| 富川| 桂东县| 文水县| 河池市| 金坛市| 虎林市| 房产| 翼城县| 五莲县| 富顺县| 旅游| 凌源市| 集安市| 闽清县| 寿光市| 渭南市| 磴口县| 阳江市| 云龙县| 内丘县| 集安市| 肇州县|