今夜,Manus發布之后,隨之而來趕到戰場的,是阿里。
凌晨3點,阿里開源了他們全新的推理模型。
QwQ-32B。
本來還有點意識模糊,當看到他們發出來的性能比對圖,我人傻了。
不是,我沒看懂,這特么是個什么怪物。
在幾乎所有數據集里,QwQ-32B 都已經能跟滿血版DeepSeek R1(671B)表現相當了。尤其是作為QwQ-32B 的主攻方向的數學和代碼。
而且,QwQ-32B在基準測試上的性能跑分,幾乎拉開o1-mini一個身位。
我人已傻。
今天這夜,對我的沖擊有一點大。
GPT4.5剛剛證明傳統的那套快撞墻了,轉頭阿里就來給你掏個大的,說,你看,強化學習還是能卷的,這條路,遠遠還沒到頭。
這么令人詫異的性能表現,其實也跟這兩天在arxiv出來的一篇爆火論文互相印證了。
一堆斯坦福教授集中討論,為什么Qwen-2.5-3B一開始就能自己檢查自己的答案,Llama-3.2-3B卻不行。
最后的原因還是落在了Qwen團隊的強化學習上。因為,這能讓模型自己學會一些關鍵的“思考習慣”。
沒啥可說的,阿里NB。QwenNB。
QwQ-32B開源鏈接在此:
魔搭開源鏈接:https://modelscope.cn/models/Qwen/QwQ-32B
huggingface開源鏈接:https://huggingface.co/Qwen/QwQ-32B
當然如果想直接上手體驗,官方也給出了在線體驗的地址:
https://chat.qwen.ai/?models=Qwen2.5-Plus
左上角模型選擇Qwen2.5-Plus,然后開啟Thinking(QwQ),就能用QwQ-32B了。
我這邊也第一時間在AutoDL租了一臺A800-80G的顯卡,然后把模型下載了下來,并部署測試了一下這個怪物。綜合體驗下來,本地部署版和網頁版其實是一樣的。
性能曲線是這樣的。
我也做了一些測試。
首先就是,我覺得賽博半仙易主了。這回的QwQ-32B真的能當八字算命大師了。
懂得都懂,AI自媒體人的命也是命,它掐指一算,就知道我經常熬大夜,狂肝文章。下半年家里那些雞毛蒜皮的事就別提了,為了搭我的攝影棚,把景深弄得更到位,我是真得搬家啊。。。
當然,AI算命只能算是個開胃菜,接下來還是得認真測下QwQ-32B的數學能力。
然后就是拿我的著名的國慶調休題來難為下這類推理模型了:
這是中國2024年9月9日(星期一)開始到10月13日的放假調休安排:上6休3上3休2上5休1上2休7再上5休1。請你告訴我除了我本來該休的周末,我因為放假多休息了幾天?
比如Grok3這種,開了推理還是直接炸了。
答案明明是4天,你咋獨自加了3天。。。
而看看QwQ-32B,在一頓小推理之后。
最后答案,完全正確。
要知道,這可只是一個32B的小模型啊。。
然后我還試了一下代碼能力。我就直接去Leetcode找了一道困難級別的算法題,解數獨。
可能有人不知道Leetcode是啥,LeetCode 是一個全球知名的在線編程練習平臺,這個平臺有大量不同難度的算法題庫,從簡單到困難的各種編程題都有。
我直接把解數獨的題目還有代碼模板丟給QwQ-32B,讓它給出最優解的代碼:
編寫一個程序,通過填充空格來解決數獨問題。
數獨的解法需遵循如下規則:
數字 1-9 在每一行只能出現一次。
數字 1-9 在每一列只能出現一次。
數字 1-9 在每一個以粗實線分隔的 3x3 宮內只能出現一次。(請參考示例圖)
數獨部分空格內已填入了數字,空白格用 '.' 表示。
然后給定你一個類,給我一個比較好的方案:
class Solution(object):
def solveSudoku(self, board):
:type board: List[List[str]]
:rtype: None Do not return anything, modify board in-place instead.
經過幾分鐘的思考,這道題的完整最優解代碼也是被QwQ-32B成功給出。
我把這段代碼粘貼到了Leetcode平臺上,直接提交,沒想到這段代碼竟然完美的通過了全部測試用例嗎,而且執行用時才127ms,擊敗了93%的在這個算法題庫做嘗試的人。
說實話,這個結果讓我挺驚訝的,畢竟127ms的用時,看平均的用時基本都在1691ms左右。
很強,但是我覺得最強的,還是它未來的生態。
32B和671B,對于本地算力的要求,或者是云服務的成本來說,差別實在是太大太大了。
671B,在FP16精度下需要1400G的顯存,這個門檻有多高大家懂得都懂。
而現在,32B的QwQ,4張4090就能跑,這是將近15倍的差距。
而且,智能水平差不多。
這也意味著很多普通企業還有普通開發者,可以直接拿到一個足以對標DeepSeek R1的邏輯推理、數學推理、代碼思考能力的大模型,而且還開源,能在自家環境中任意調試、微調、二次開發。
更何況,阿里云上的資源、ModelScope、Hugging Face鏡像都能對接,瞬間就把部署壁壘降到幾乎為零。
對于那些創新型創業者、小型團隊,或者想要做專業AI應用的公司而言,我說實話,這就是天降神兵。
對于大多數的企業垂直場景,一個優秀的32B的模型真的已經足以應付很很多,沒必要非得上600多億參數、又燒又貴的巨無霸。
這波QwQ-32B開源的意義,還是非常強的。
它用實力證明RLHF路線還能玩出花,打破了一些人對GPT4.5撞墻后的過度悲觀。
用中等規模卻拿到高級性能,給開源界注入了強大信心,你也不必搞那種天價設備和超大規模,也有機會跟國際巨頭同場競技。
真的,昨夜爆火的Manus,在技術架構上,也是Claude+很多微調的Qwen小模型。
那這次QwQ-32B,又是一次智能的提升。
每個大廠、每個團隊都在全力沖刺,新的風暴還會一個接一個出現。
睡前一抬頭,日歷翻到新的數字。
又是個不眠之夜。
阿里NB,QwenNB。
我們中國的團隊。
就是NB。
愿我們都能見證更多奇跡。
晚安,或者早安吧。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、芝蘭山、wei
>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.