99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

碾壓DeepSeek!阿里Qwen3到底成色幾何?

0
分享至

今天(4 月 29 日)凌晨,阿里巴巴推出了 4 月壓軸的一款大語言模型——Qwen3 系列。

而在這個月,Meta、字節跳動、OpenAI、Google、百度都在稍早前推出了新的大模型,OpenAI 甚至一次性拿出三款大模型,百度也在這周舉行的 Create 2025 百度 AI 開發者大會上發布了兩款大模型。

但在這一眾新模型中,阿里還能搞出什么新意?事實上還真有,除了繼續保持開源路線,Qwen3 系列作為阿里定位中的旗艦大模型,在模型性能上也有了不小的進步,再次縮小與頂尖大模型之間的能力差。

此外,Qwen3 系列還是一款混合推理模型,甚至官方博文的標題就是《Qwen3:思深,行速》。簡單來說,Qwen3 支持思考模式和非思考模式,而不像 DeepSeek 深度思考下是 R1,關閉深度思考其實是 V3。



圖/雷科技

關于混合推理模型,雷科技在今年 2 月就報道并介紹了首款混合推理模型,以及混合推理的優勢所在,并指出:「混合推理模式」可能會成為大模型發展的下一個標準配置。

而回到阿里剛剛發布的 Qwen3 系列,作為國內首個混合推理模型,也是首個混合推理開源模型,再加上模型性能方面的進步,也難怪 Qwen3 推出僅僅四個小時后,就在全球最大開發者社區 Github 拿到了 1.7 萬個 Star。

問題在于,在模型跑分越來越受爭議的今天,Qwen3 系列實際上真能兌現跑分體現出的能力,以及混合推理模型的優勢嗎?

跑分追上頂級閉源模型,阿里 Qwen3 成色幾何?

毫無疑問,Qwen3 系列最大的亮點之一就是通過引入混合推理設計,實現了同一模型的「思考模式」與「非思考模式」,阿里這次是把這兩種「腦回路」都塞進了同一個模型里,還開放給用戶和開發者自由選擇。

非思考模式下,Qwen3 系列會充分發揮快速響應的優勢,更像傳統語言模型的輸出方式——快速直接地生成結果。而在思考模式下,模型則會進行深入地思考和推理,比如先分解問題、做一步步的邏輯推導,再得出結論。



圖/雷科技

這種架構并不是第一次被提出,但 Qwen3 系列是國內首個真正落地混合推理并完全開源的模型。

在全球范圍內,除了首先采用這種設計 Claude-3.7-Sonnet,也只有 Google 在 4 月中旬才推出的 Gemini 2.5 Flash 上做出了類似嘗試,包括 OpenAI 盡管早早表明了「混合推理」的目標,但仍在開發中。

不僅如此,Qwen3 系列還是一個多尺寸的系列模型,覆蓋包括 0.6B、1.7B、4B、8B、14B、32B,一共 6 個尺寸的稠密模型,以及 Qwen3-30B-A3B 和 Qwen3-235B-A22B 共 2 個適用于復雜任務的 MoE 混合專家模型,并且全部支持 119 種語言和方言。

Qwen3 不只是架構上「動了腦子」,性能表現也確實有料。阿里宣稱,小模型如 Qwen3-4B 的性能已可媲美上一代的 Qwen2.5-72B-Instruct,同時 MoE 模型更是在基準測試上表現出了媲美頂尖閉源模型的能力。



圖/阿里

尤其是參數規模達到 2350 萬億的 Qwen3-235B-A22B,在數學推理基準 AIME25 上,得分達到 81.5,刷新開源模型紀錄;在代碼能力測試 LiveCodeBench 中得分超過 70,超過 Grok-3;在人類偏好評估 ArenaHard 中,得分 95.6,超過 OpenAI o1 和 DeepSeek-R1。

這些進步,在一定程度上也解釋了為何 Qwen3 系列一經發布就受到社區熱烈歡迎。

另一方面,Qwen3 團隊還強調了 Agent 能力的增強以及對 MCP 的支持,算是順理成章,但目前還沒有看出亮眼的地方。主要可能還是,AI 開發者打造 Agent 的好選擇又多了一個。

不過 Qwen3 系列當然還談不上十全十美。在實際推理表現上,Qwen3-235B-A22B 距離今天的頂級模型還有明顯的差異,實測即便在滿血狀態下,遇到困難問題還是容易陷入「冗長而無用」的推理中,最后的結果也不理想。

比如雷科技在OpenAI-o3 上手測試中提出的問題,o3 可以條理清晰地回答「父親崩潰的原因」,但 Qwen3-235B-A22B 則遇到了和 DeepSeek-R1 類似的問題——思考太久且不斷重復方向,甚至沒有抓住「女兒是色盲」這一關鍵的可能性。



圖/雷科技

包括在 Hacker News 上,也有網友指出 Qwen3-235B-A22B 面對復雜問題時的表現。



圖/ Hacker News

不過降低一點難度,在經典過河問題上稍作改造來提問 Qwen3-235B-A22B,詢問怎么把卷心菜、山羊、狼和獅子完整拉過河。盡管采用了窮舉的方式,但還是找到了安全的路徑,關鍵是對規則的理解非常到位。

當然,時間有限我們暫時只是簡單地上手,但也大體能看出 Qwen3 最強版本的「成色」,如果從基準測試的分數來看,最好還是放低一下期待。但放到今天的大模型戰場來看,Qwen3 系列依然稱得上最強開源模型,并且混合推理的設計也給用戶和開發者帶來了更靈活的選擇。

放大鏡下的 Qwen3,阿里的一次關鍵補強

放在更大的時間尺度上來看,Qwen3 系列的發布,并不僅僅是一次模型升級這么簡單,而是可以看作阿里在 AI 戰略上的一次重要補強。

過去兩年里,阿里在大模型領域的布局其實并不算慢,通義千問體系逐步完善,開源也走得比較早。但無論是在模型的全球聲量,還是在開源社區的話語權上,始終未能真正站到最前排。

在 4 月爆料 Qwen3 即將發布(雖然發布時間推遲了)的報道中,虎嗅還指出,基礎模型團隊在阿里內部最重要的考核維度是「模型影響力」,高層希望可以在業內成功塑造「最強模型」的心智。



想復制 DeepSeek 的影響力,很難。圖/ X

不過 OpenAI、DeepSeek、Google 以及 Anthropic 等公司接連發布的強力模型,阿里此前更多是追隨者角色,很難形成技術引領的姿態。Qwen3 系列的推出,無疑是一場重要的補強,也在某種程度上緩解了這種局面。

尤其是在開源模型領域,Qwen3 覆蓋了從小參數到大參數、稠密模型到混合專家模型的一整套體系,支持 119 種語言和方言,同時在 Hugging Face、GitHub 等開發者社區迅速獲得了不錯的反響。這不僅擴展了阿里在開源生態中的存在感,也為更多模型應用、工具鏈建設打下了基礎。

而從商業化的角度來看,Qwen3 系列也直接回應了當前模型商業應用的兩大痛點:推理成本高,以及靈活適配性不足。通過引入 MoE 架構大幅降低推理成本,同時又在推理機制上支持思考與非思考的靈活切換,Qwen3 在推理效率、推理成本之間嘗試找到相對平衡的位置。

對于阿里云現有的 AI 服務體系,尤其是政企、制造、金融等行業客戶來說,更低的部署門檻和更高的適配靈活性,無疑可以增強阿里在大模型商業化競爭中的籌碼。更重要的是,大模型能力注定是未來 AI 云競爭的「勝負手」。



圖/阿里

但如果回到更理性的位置來看,Qwen3 系列仍然存在著一些明顯的不足。正如前文所述,它目前仍然是一個純文本語言模型,多模態乃至 QvQ-Max 上的視覺推理能力都尚未同步整合進來。簡言之,真比最強的模型能力,Qwen3 還有不少需要改進和補足的空間。

另一方面,盡管 Qwen3 系列在推理機制上實現了創新,但在真正復雜推理問題中的穩定性和魯棒性,相比 OpenAI、Anthropic 等頂級閉源模型,依然有不小差距。

尤其在需要長鏈條邏輯推理、多輪嚴密推導的任務上,Qwen3 的「思考」模式表現出一定的不穩定性,偶爾出現的推理偏移、冗長不聚焦的問題,也說明了目前的混合推理設計還有打磨的余地。

總而言之,在這個大模型競爭白熱化的 4 月,Qwen3 的推出確實為阿里帶來了一次必要且及時的升級。它不僅在性能上與頂尖模型縮小了差距,也在推理機制上探索了新的可能性,同時還有潛力幫助阿里在 AI 的商業化方向補上短板。

可見的是,大模型的競爭還會繼續加劇,性能和成本依舊會是兩條重要「主線」,阿里能否繼續保持節奏,甚至在可以預見的「智能體爆發」中占據主動,仍然需要更多技術演進和產品落地來檢驗。

不過至少在今天,Qwen3 確實讓阿里不容忽視。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
神州十九出事了?央視緊急報道推遲返回,宇航員還能平安到家嗎?

神州十九出事了?央視緊急報道推遲返回,宇航員還能平安到家嗎?

葡萄說娛
2025-04-29 17:42:47
22歲朝鮮美女遠嫁北京,8年期間寄50萬給家里,回家探親結果傻眼了

22歲朝鮮美女遠嫁北京,8年期間寄50萬給家里,回家探親結果傻眼了

濤哥講堂
2025-04-27 10:24:36
不見棺材不掉淚?李嘉誠集團公然對抗國家審查,市監局撂16字狠話

不見棺材不掉淚?李嘉誠集團公然對抗國家審查,市監局撂16字狠話

近史閣
2025-04-29 16:42:59
大反轉!回族姑娘太美遭網暴,家人露面,網友:個個美若天仙

大反轉!回族姑娘太美遭網暴,家人露面,網友:個個美若天仙

娛樂看阿敞
2025-04-29 09:24:45
比董襲瑩還厲害的“4+4”醫學博士出現了!韓佳澍23歲博士畢業!

比董襲瑩還厲害的“4+4”醫學博士出現了!韓佳澍23歲博士畢業!

青青子衿
2025-04-30 02:12:04
據稱亞馬遜擬在商品頁面展示關稅影響,白宮暴怒指責其搞“政治操弄”

據稱亞馬遜擬在商品頁面展示關稅影響,白宮暴怒指責其搞“政治操弄”

財聯社
2025-04-29 22:46:13
工行、農行、中行、建行、交行、招行,集體官宣!

工行、農行、中行、建行、交行、招行,集體官宣!

中國基金報
2025-04-29 23:00:13
夠仗義,曾凡博重傷2小時后,北京隊長深夜表態,劉傳興聽懂了

夠仗義,曾凡博重傷2小時后,北京隊長深夜表態,劉傳興聽懂了

二哥聊球
2025-04-30 00:21:53
董襲瑩背后的能量,比想象得還要恐怖

董襲瑩背后的能量,比想象得還要恐怖

末名先生
2025-04-29 15:49:16
從復活節30小時到勝利日72小時,普京為何再拋停火“橄欖枝”?

從復活節30小時到勝利日72小時,普京為何再拋停火“橄欖枝”?

上觀新聞
2025-04-29 19:15:08
遼寧省委書記郝鵬、省長王新偉趕到遼陽火災事故現場指導善后處置工作

遼寧省委書記郝鵬、省長王新偉趕到遼陽火災事故現場指導善后處置工作

財聯社
2025-04-29 22:32:05
最后競選中大呼“美利堅合眾國名存實亡”!加拿大總理1個月逆風翻盤贏大選

最后競選中大呼“美利堅合眾國名存實亡”!加拿大總理1個月逆風翻盤贏大選

紅星新聞
2025-04-29 18:05:11
王勵勤現身成都親自督戰,秘書長陪同,海報王楚欽替換樊振東!

王勵勤現身成都親自督戰,秘書長陪同,海報王楚欽替換樊振東!

明月聊史
2025-04-29 22:46:09
他帶著副官回老家接母親和妻兒,母親覺得兒媳配不上他,建議休了

他帶著副官回老家接母親和妻兒,母親覺得兒媳配不上他,建議休了

紅色鑒史官
2025-04-29 00:30:03
又翻車了,美國“杜魯門”號航母急轉躲避胡塞打擊,致F-18墜海

又翻車了,美國“杜魯門”號航母急轉躲避胡塞打擊,致F-18墜海

文雅筆墨
2025-04-29 18:29:36
網傳女大學生違抗父母嫁低學歷丈夫,歸隱深山五年容貌巨變驚眾人

網傳女大學生違抗父母嫁低學歷丈夫,歸隱深山五年容貌巨變驚眾人

筆尖下的人生
2025-04-29 18:31:51
慘烈!22死3傷!遼陽一飯店突發火災,現場照片流出,有銀行波及

慘烈!22死3傷!遼陽一飯店突發火災,現場照片流出,有銀行波及

火山詩話
2025-04-29 17:21:00
69歲朱自強被查,曾任南京地鐵總經理

69歲朱自強被查,曾任南京地鐵總經理

澎湃新聞
2025-04-29 21:04:26
肖飛事件,麻醉醫生連續發文:壓這么久還是沒壓住,醫院不該隱身

肖飛事件,麻醉醫生連續發文:壓這么久還是沒壓住,醫院不該隱身

新語愛八卦
2025-04-29 18:04:41
悲歌壯懷,淞滬會戰國軍齊赴上海,以下省參戰部隊幾乎全部戰死

悲歌壯懷,淞滬會戰國軍齊赴上海,以下省參戰部隊幾乎全部戰死

史政先鋒
2024-11-01 15:34:13
2025-04-30 04:12:49
雷科技 incentive-icons
雷科技
專注AI硬科技
33046文章數 810807關注度
往期回顧 全部

科技要聞

賽力斯港股二次上市 市值僅次于比亞迪小米

頭條要聞

美國參議院投票通過戴維·珀杜出任美國駐華大使

頭條要聞

美國參議院投票通過戴維·珀杜出任美國駐華大使

體育要聞

勇士火箭雷霆太陽,你們是怎么失去他的?

娛樂要聞

帶著兒子嫁給張譯 如今才知到底有多值

財經要聞

沃爾瑪恢復中國供應商出貨 客戶承擔關稅

汽車要聞

為全球造最好小車 firefly的故事才剛剛開始

態度原創

旅游
時尚
藝術
健康
數碼

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

當熱帶天堂邂逅全球時尚

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎?

數碼要聞

Anker 子品牌 eufyMake 開啟 E1 UV 打印機眾籌,可打印立體紋理

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 石景山区| 宣恩县| 云南省| 西安市| 休宁县| 琼结县| 文化| 辽中县| 霞浦县| 杂多县| 榆树市| 公主岭市| 富蕴县| 平潭县| 崇义县| 墨脱县| 油尖旺区| 前郭尔| SHOW| 论坛| 沙湾县| 县级市| 锦屏县| 绵阳市| 涟源市| 乌苏市| 邵东县| 龙山县| 双辽市| 宣威市| 怀仁县| 南投县| 临高县| 江源县| 浏阳市| 定日县| 龙南县| 高要市| 武乡县| 射阳县| 瑞丽市|