99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Qwen 3發布,阿里又點燃了AI開源的篝火

0
分享至

文|鄧詠儀

編輯|蘇建勛

4月28日,AI圈子內的從業者們都在等待一件事:Qwen 3。

從中午開始,Qwen 3即將發布的小道消息,已經滿天飛舞。Qwen團隊負責人林俊旸也在X上暗示:“看看我們今晚能否完成Qwen 3的工作”。


來源:X(Twitter)

《智能涌現》所在的多個業內討論群,充斥著不知真假的Qwen 3模型上傳截圖。AI從業者瘋狂刷新GitHub、HuggingFace中的Qwen主頁,用AI生成Qwen 3上線海報、現場的模擬圖,刷屏各種表情包,狂歡直至深夜還未停歇。

Qwen 3最終在凌晨5點上線。新一代的Qwen 3參數量僅為DeepSeek-R1的1/3,首先是成本大幅下降,性能全面超越R1、OpenAI-o1等全球頂尖模型。

更重要的是,Qwen 3搭載了Claude 3.7等頂尖模型的混合推理機制,將“快思考”與“慢思考”集成進同一個模型,大大減少了算力消耗。

Qwen 3的開源一共涉及8款不同架構和尺寸的模型,從0.6B開始,大到235B,適用于更多類型的移動端設備。除了模型之外,Qwen還順帶推出了Agents的原生框架,支持MCP協議,有著一股“讓所有人都要用上Agents”的勁頭。

DeepSeek爆火后的1月份,大年初一前夜,阿里急速上線了新模型Qwen2.5-VL和Qwen2.5-Max,迅速秀了一把肌肉的同時,也賦予了阿里集團更濃郁的“AI味兒”。受此情緒的烘托,阿里股價在春節前后階段大漲超30%。

但比起這次的旗艦級模型Qwen 3,上述模型都只是前奏。

對Qwen 3的萬眾期待,來自阿里在AI開源社區的盛譽——如今Qwen已經是全球領先的開源模型系列,根據最新數據,阿里通義已開源200余個模型,全球下載量超3億次,千問衍生模型數超10萬個,已超越此前的開源霸主Llama。

如果說DeepSeek是一支精銳的小分隊,快速在技術上沖鋒;那么Qwen就是一個軍團,對大模型布局更早,也更積極做生態,展現了更廣的覆蓋度和社區活力。

某種程度上,Qwen也是大模型落地的產業風向標。

一個典型的例子是,在DeepSeek R1發布后,很多企業和個人想私有化部署“滿血版”DeepSeek(671B),單單硬件成本就要上百萬元,落地成本很高。

阿里Qwen家族提供了更多的模型尺寸和類別,能幫助產業界更快驗證落地價值。用大白話來講,開發者不用自己裁剪模型,而是拿來即用,繼而快速落地。Qwen 13B及以下的模型,可控性強,的確是如今AI應用領域最受歡迎的模型之一。

DeepSeek R1成為開源歷史上的錨點,也深深影響了大模型競爭的走向。不同于此前模型廠商沉迷于刷Benchmark、刷題,中國大廠們迎來必須要證明自己真正技術實力的周期。

Qwen 3的發布,就是這樣一個時點。

滿血版成本為1/3個DeepSeek R1,性能更強大

2024年9月,阿里云在云棲大會上發布了上一代模型Qwen 2.5。Qwen2.5 一次性開源了從0.5B至72B共6個尺寸的全系列模型,覆蓋從端側到云端的全場景需求,在代碼等多個類別中,都能達到SOTA。

所有模型均允許商業使用與二次開發,這也被開發者稱為 “真正開放的AI”。

市場風傳新一代的Qwen 3會推出基于MoE架構,開源更多尺寸,成本能做到比DeepSeek更低——這些猜測都被一一證實。

Qwen 3 一共開源了8個尺寸的模型,分別為:

  • 兩款MoE(混合專家)模型的權重(指模型的決策偏好):30B(300億)、235B(2350億)參數
  • 六款Dense(密集)模型:包括包括0.6B(6億)、1.7B(17億)、4B(40億)、8B(80億)、14B(140億)、32B(320億)

每款模型均達到了同尺寸開源模型中的SOTA(最佳性能)。

Qwen 3延續了阿里開源的慷慨風格,依舊采用寬松的Apache2.0協議開源,首次支持119多種語言,全球開發者、研究機構和企業,都免費下載模型并商用。

Qwen 3的最大看點,一是成本大幅下降,同時性能還有大幅提高。

在Qwen 3的訓練中,阿里投入了令人驚訝的成本。Qwen 3基于36萬億token進行預訓練,這是上一代模型Qwen 2.5的兩倍,在全球同等體量的頂尖模型中也能排到前列。

據Qwen團隊公開的數據,僅需4張H20即可部署Qwen 3滿血版,顯存占用僅為性能相近模型的三分之一。

成本降低,但性能反而更高了。

Qwen的推理能力有非常顯著的提升。在數學、代碼生成和常識邏輯推理方面,Qwen 3均超越先前的推理模型 QwQ(思考模式)和 Qwen2.5 模型(非思考模式)。

而在代碼、數學、通用能力等基準測試中,Qwen 3也能與目前的頂尖模型o3-mini、Grok-3 和 Gemini-2.5-Pro等頂尖模型。


△Qwen 3性能圖 來源:Qwen 3

另外一個核心亮點,是Qwen模型對智能體(Agents)的全面適配。

如果說,OpenAI的o1模型一腳踢開了推理模型的大門,DeepSeek R1的發布,讓所有用戶見識到了推理模型的魔力:模型有像人類一樣的“思考鏈”,有思考順序,不斷驗證是否正確,推演出認為合適的答案。

但只有深度思考模式的話,弊端也很明顯。哪怕詢問簡單的天氣、今天穿什么,DeepSeek會來回地糾結,自我設問,不斷驗證,經歷少則數十秒的過度思考——如果DeepSeek沒有將模型的思考鏈展示給用戶,幾乎沒有用戶能夠忍受延遲成這樣的對話體驗。

阿里CEO吳泳銘曾在2024年9月的云棲大會表示:“AI最大想象力不在手機屏幕,而是接管數字世界,改變物理世界”。

智能體是通往這種愿景的重要路徑。所以,Qwen3做成混合推理模型是相當關鍵的:在單一模型內,能無縫切換思考模式(用于復雜邏輯推理、數學和編碼)和非思考模式(用于高效的通用對話,比如詢問天氣、歷史知識等簡單信息搜索)。

推理與非推理任務的融合能力,實際上是讓模型:

  • 能夠理解數字世界,更多強調的是非推理能力,如識別、檢索、分類,
  • 能夠操作數字世界,更多強調的是推理能力,模型能自主規劃、決策、編程,典型應用如Manus。

Qwen 3的API可按需設置“思考預算”(即預期最大深度思考的tokens數量),進行不同程度的思考,確保在各種場景下都能達到最佳性能。

在以前的機制中,用戶需要手動開關“深度思考”模式,一次對話中可能只能專注一種模式;但Qwen 3的新機制將這個選擇交給模型——模型能自動識別任務場景、選擇思考模式,減少了用戶對模型模式的干預成本,也會帶來更絲滑的產品體驗。

混合推理是目前比較難的技術方向,需要極其精細、創新的設計及訓練,難度遠超訓練純推理模型。模型要學習兩種不同的輸出分布,要做到兩個模式融合,且基本不影響任何一種模式下的效果。

熱門模型中,現在只有Qwen 3、Claude3.7以及Gemini 2.5 Flash可以做到較好的混合推理。

混合推理會整體提高模型使用的性價比,既提升了智能水平,又整體降低了算力資源消耗。比如,Gemini-2.5-Flash,推理和非推理模式下的價格相差約6倍。

而為了讓所有人都能馬上開發Agents,Qwen團隊幾乎是提供了保姆式的工具箱:

  • Qwen 3最近火爆的MCP協議,具備工具調用(Function Calling)能力,兩者都是Agents的主要框架
  • 原生的Qwen-Agent 框架,封裝了工具調用模板和工具調用解析器
  • API服務也同步上線,企業可以直接通過通過阿里云百煉調用。

如果用裝修來舉例,這就像Qwen團隊把房子建好、完成硬裝,還給你提供了部分軟裝,開發者可以直接用上很多服務。這將大大降低編碼復雜性,開發門檻進一步下降,比如很多手機及電腦Agent操作等任務,就可以高效實現。

開源模型進入新一輪競爭周期

在DeepSeek R1獲得爆炸性聲量,成為全球開源模型的標桿之后,模型發布不再是單純的產品更新,而是代表公司戰略的關鍵走向。

Qwen 3的發布正值DeepSeek R1后,開源社區的新一輪競爭已經開始:2025年4月,Meta旗下的Llama 4在4月初正式發布,但因為效果不佳而遭諸多批評;而此前屢屢受挫的AI巨頭Google,也借著Gemini 2.5 pro,在開源領域扳回一城。

通用大模型層的能力仍在快速變遷中,很難有廠商能夠一直保持領先。在這個時點上,大模型團隊如何確定自己的發展主線,不只是個技術問題,更是對不同產品路線和商業判斷的策略問題。

在Qwen 3的發布上,可以看出一種更務實的開源策略。

比如,Qwen3本次提出的模型尺寸,就比Qwen 2.5時的尺寸劃分就更細致。在資源受限的設備(如移動端、邊緣計算設備)上實現高效運行,Qwen 3能同時保證一定的性能,滿足輕量級推理、對話等需求。

阿里仔細解釋了各個模型的適用場景:

  • 最小參數模型(如0.6B及1.7B):支持開發者用于 speculative decoding(推測性解碼) 作實驗模型用,對科研很友好;
  • 4B模型:推薦在手機端側應用
  • 8B模型:推薦在電腦或者汽車端側應用
  • 14B模型:適合作落地應用,普通開發者有幾張卡也都能玩轉起來
  • 32B模型:開發者和企業最喜歡的模型尺寸,支持企業大規模部署商用

而在旗艦模型上,Qwen 3的模型規模和架構,也是一個更精煉,更容易落地應用的設計。

以Qwen旗艦版模型235B(235億參數)和DeepSeek R1滿血版做直接對比:

  • Qwen 3 235B采用中等規模(235B)與高效激活設計(22B激活,約9.4%),只需4張H20 GPU即可部署;
  • DeepSeek-R1追求超大規模(671B)與稀疏激活(37B激活,約5.5%),推薦16卡H20配置,約200萬元。

從部署成本看,Qwen 3是滿血版R1的25%-35%,模型部署成本大降六到七成。

DeepSeek R1之后,如果說大模型領域達成了什么共識,那便是——重新將資源、人力投入到模型層的技術突破,讓模型能力突破應用能力的上限。

如今大模型領域,重新將目光轉向模型能力的突破。

從Qwen發布主題的變化,也能看出如今技術主線的變遷:Qwen 2.5發布時,主題還是《擴展大型語言模型的邊界》,而到了Qwen 3,則是《思深,行速》,專注提高模型能力的應用性能,拉低落地門檻,而非單純擴大參數規模。

現在,通義千問Qwen在全球下載量超過3億,在HuggingFace社區2024年全球模型下載量中,Qwen占比已經超30%。阿里云的模型開源策略,已經走出另一條更清晰的道路:真正成為應用的土壤。

歡迎交流

歡迎交流

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巴克利:杰倫-格林又一次消失了 我真的搞不懂他是什么情況

巴克利:杰倫-格林又一次消失了 我真的搞不懂他是什么情況

直播吧
2025-04-29 17:32:12
會笑死!電視劇導演大會劉亦菲被鄭曉龍無視,粉絲還在這里挽尊呢

會笑死!電視劇導演大會劉亦菲被鄭曉龍無視,粉絲還在這里挽尊呢

阿褲趣聞君
2025-04-29 11:31:14
華表獎紅毯眾生相:成龍老了,高葉嫩了,關曉彤又壯了,章子怡贏麻了

華表獎紅毯眾生相:成龍老了,高葉嫩了,關曉彤又壯了,章子怡贏麻了

陳意小可愛
2025-04-30 01:35:19
驚爆!遠古一哥被總榜大姐約至賓館,30w現金未拿下對方

驚爆!遠古一哥被總榜大姐約至賓館,30w現金未拿下對方

動物奇奇怪怪
2025-04-29 12:04:13
沉默48小時,特朗普再次改口:如果中方不妥協,關稅戰繼續開打

沉默48小時,特朗普再次改口:如果中方不妥協,關稅戰繼續開打

小陸搞笑日常
2025-04-29 18:50:32
肖飛家庭:子不教父之過,父母無恥的無下限,多次縱容,寵妾滅妻

肖飛家庭:子不教父之過,父母無恥的無下限,多次縱容,寵妾滅妻

小宇宙雙色球
2025-04-29 12:50:47
趙心童大獲全勝,劍指世錦賽四強,希金斯險勝威廉姆斯!

趙心童大獲全勝,劍指世錦賽四強,希金斯險勝威廉姆斯!

小毅說事
2025-04-29 21:57:34
華麗數據背后的殘酷現實:湖人三巨頭為何淪為“偽強隊”?

華麗數據背后的殘酷現實:湖人三巨頭為何淪為“偽強隊”?

毒舌NBA
2025-04-30 07:48:10
12-4贏8個賽點,趙心童劍指世錦賽冠軍,第二階段再轟6連鞭

12-4贏8個賽點,趙心童劍指世錦賽冠軍,第二階段再轟6連鞭

全能體育柳號
2025-04-30 06:16:47
4戰3場得分個位數!揭秘火箭格林低迷狀態:勇士車輪戰針對軟肋

4戰3場得分個位數!揭秘火箭格林低迷狀態:勇士車輪戰針對軟肋

羅說NBA
2025-04-30 07:56:02
魯尼:巴黎本可進2-3球,阿森納以為自己擊敗了皇馬就能輕松進決賽

魯尼:巴黎本可進2-3球,阿森納以為自己擊敗了皇馬就能輕松進決賽

雷速體育
2025-04-30 05:54:12
董小姐要赴美待產?懷孕7月,男主淪為無業游民,引產還是下嫁?

董小姐要赴美待產?懷孕7月,男主淪為無業游民,引產還是下嫁?

美美談情感
2025-04-30 01:38:53
首次世界五百強斷崖差距:日本149家,美151家,中國3家,現在呢

首次世界五百強斷崖差距:日本149家,美151家,中國3家,現在呢

追風小狗
2025-04-22 20:35:09
57歲鄭伊健在香港,和蒙嘉慧去吃火鍋,打扮紳士,發型三十年不變

57歲鄭伊健在香港,和蒙嘉慧去吃火鍋,打扮紳士,發型三十年不變

說說史事
2025-04-27 12:50:34
準備開搶!美媒曬15筆交易方案:火箭隊5換1杜蘭特+湖人4換1趙四

準備開搶!美媒曬15筆交易方案:火箭隊5換1杜蘭特+湖人4換1趙四

鍋子籃球
2025-04-29 21:22:50
天津小伙迎娶朝鮮女人,岳父直言:我要一噸大米、一百萬彩禮

天津小伙迎娶朝鮮女人,岳父直言:我要一噸大米、一百萬彩禮

蘭姐說故事
2025-04-29 15:00:15
豐田全球一年銷量破1100萬輛,穩居第一

豐田全球一年銷量破1100萬輛,穩居第一

MOTO
2025-04-29 11:42:25
天天打掃,為什么家里還有那么多毛絮?學會這么做,家會很干凈的

天天打掃,為什么家里還有那么多毛絮?學會這么做,家會很干凈的

室內設計師有料兒
2025-04-29 10:46:20
泰王夫婦開飛機回國機艙畫面來了!蘇提達嫻熟技巧太硬核,太霸氣

泰王夫婦開飛機回國機艙畫面來了!蘇提達嫻熟技巧太硬核,太霸氣

溫讀史
2025-04-29 13:43:42
亞馬爾:只要我贏了別人就不能說什么,梅西是最佳但我不會和他比較

亞馬爾:只要我贏了別人就不能說什么,梅西是最佳但我不會和他比較

雷速體育
2025-04-29 20:21:14
2025-04-30 08:27:00
36氪 incentive-icons
36氪
讓一部分人先看到未來
148009文章數 2844996關注度
往期回顧 全部

科技要聞

特朗普讓我的中美反向代購夢,死灰復燃?

頭條要聞

媒體:美軍航母的神話被胡塞戳穿 最終"紙包不住火"了

頭條要聞

媒體:美軍航母的神話被胡塞戳穿 最終"紙包不住火"了

體育要聞

勇士火箭雷霆太陽,你們是怎么失去他的?

娛樂要聞

帶著兒子嫁給張譯 如今才知到底有多值

財經要聞

沃爾瑪恢復中國供應商出貨 客戶承擔關稅

汽車要聞

為全球造最好小車 firefly的故事才剛剛開始

態度原創

數碼
教育
本地
旅游
公開課

數碼要聞

三星顯示更新品牌標識 為其QD-OLED顯示產品添加藍色“Q”

教育要聞

求不規則圖形的周長,解題的關鍵是什么呢?說說你的看法

本地新聞

春色滿城關不住 | 北洋門扉開:名校與花潮撞個滿懷

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 马鞍山市| 都兰县| 咸丰县| 烟台市| 即墨市| 中牟县| 崇州市| 阜新市| 海伦市| 清徐县| 定兴县| 中宁县| 从江县| 南宁市| 平原县| 安徽省| 社会| 福贡县| 揭西县| 六盘水市| 霍林郭勒市| 忻州市| 安康市| 安阳市| 永吉县| 呼图壁县| 开阳县| 平湖市| 阿克陶县| 资兴市| 罗山县| 榕江县| 成安县| 望城县| 沁水县| 大悟县| 长治县| 明溪县| 理塘县| 聂荣县| 广宗县|