就在剛剛,阿里Qwen 團(tuán)隊(duì)正式發(fā)布了他們最新的研究成果 ——QwQ-32B大語(yǔ)言模型! 這款模型不僅名字萌萌噠 (QwQ),實(shí)力更是不容小覷!
相信關(guān)注大模型領(lǐng)域的朋友們都知道,模型參數(shù)量的大小往往與性能成正比。但這次,Qwen 團(tuán)隊(duì)卻用320億參數(shù)的 QwQ-32B,硬剛擁有6710億參數(shù)的 DeepSeek-R1,并且在多項(xiàng)評(píng)測(cè)中取得了媲美甚至超越后者的驚人成績(jī)!背后究竟是什么黑科技? 答案就是 ——強(qiáng)化學(xué)習(xí) (Reinforcement Learning, RL)!
劃重點(diǎn):強(qiáng)化學(xué)習(xí),大模型的新引擎!
Qwen 團(tuán)隊(duì)在博文中提到,他們深入探索了強(qiáng)化學(xué)習(xí) (RL)在提升大語(yǔ)言模型智能方面的巨大潛力。QwQ-32B 的成功發(fā)布,有力地證明了RL 是提升模型性能的強(qiáng)大引擎!
多項(xiàng)基準(zhǔn)評(píng)測(cè)硬剛 DeepSeek-R1
QwQ-32B 的實(shí)力究竟有多強(qiáng)? 官方給出基準(zhǔn)評(píng)測(cè)結(jié)果,涵蓋了數(shù)學(xué)推理、代碼能力和通用問(wèn)題解決等多個(gè)方面
從數(shù)據(jù)中我們可以清晰地看到,在AIME24和IFEval等關(guān)鍵基準(zhǔn)測(cè)試中,QwQ-32B 的表現(xiàn)甚至略微超過(guò)了參數(shù)量巨大的 DeepSeek-R1! 而在其他基準(zhǔn)測(cè)試中,也基本與 DeepSeek-R1 持平,遠(yuǎn)超其他對(duì)比模型。
這意味著 QwQ-32B 在僅有 DeepSeek-R1 約 1/20 參數(shù)量的情況下, 用強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)了性能上的驚人跨越!
技術(shù)揭秘:冷啟動(dòng) + 結(jié)果導(dǎo)向的強(qiáng)化學(xué)習(xí)策略
Qwen 團(tuán)隊(duì)在博文中也簡(jiǎn)單介紹了 QwQ-32B 背后的強(qiáng)化學(xué)習(xí)方法。他們采用了冷啟動(dòng) (cold-start checkpoint)的方式,并實(shí)施了結(jié)果導(dǎo)向 (outcome-based rewards)的強(qiáng)化學(xué)習(xí)策略。
?冷啟動(dòng): 從一個(gè)預(yù)訓(xùn)練模型的檢查點(diǎn)開(kāi)始訓(xùn)練。
?結(jié)果導(dǎo)向: 在初始階段,主要針對(duì)數(shù)學(xué)和代碼任務(wù)進(jìn)行 RL 訓(xùn)練。
?數(shù)學(xué)問(wèn)題: 使用準(zhǔn)確率驗(yàn)證器 (accuracy verifier)來(lái)確保答案的正確性。
?代碼生成: 使用代碼執(zhí)行服務(wù)器 (code execution server)來(lái)評(píng)估生成的代碼是否能夠成功運(yùn)行。
?通用獎(jiǎng)勵(lì)模型和規(guī)則驗(yàn)證器: 后續(xù)階段,會(huì)逐步引入更通用的獎(jiǎng)勵(lì)模型和規(guī)則驗(yàn)證器,提升模型在其他通用能力方面的表現(xiàn)。
這種策略的核心在于不依賴傳統(tǒng)的獎(jiǎng)勵(lì)模型,而是直接根據(jù)任務(wù)結(jié)果(答案是否正確,代碼是否運(yùn)行成功)來(lái)指導(dǎo)模型的學(xué)習(xí),更加高效和直接。
開(kāi)源開(kāi)放
QwQ-32B 模型是開(kāi)源開(kāi)放 (open-weight)的! 你可以在Hugging Face和ModelScope上找到它,并基于Apache 2.0 協(xié)議自由使用和研究! 同時(shí),你也可以通過(guò)Qwen Chat平臺(tái)直接體驗(yàn) QwQ-32B 的對(duì)話能力
HF:
https://huggingface.co/Qwen/QwQ-32B
ModelScope:
https://modelscope.cn/models/Qwen/QwQ-32B
Demo:
https://huggingface.co/spaces/Qwen/QwQ-32B-Demo
Qwen Chat:
https://chat.qwen.ai
Qwen 團(tuán)隊(duì)表示,QwQ-32B 的發(fā)布只是他們?cè)趶?qiáng)化學(xué)習(xí)方向上的初步嘗試。未來(lái),他們將繼續(xù)深入探索 RL 的潛力,并將其與更強(qiáng)大的基礎(chǔ)模型相結(jié)合,利用更大的計(jì)算資源,致力于打造下一代 Qwen 模型,并最終邁向通用人工智能 (AGI)目標(biāo)!
同時(shí),他們還將積極探索Agent 與 RL 的結(jié)合,實(shí)現(xiàn)更長(zhǎng)程的推理能力,解鎖更高級(jí)別的智能
參考:https://qwenlm.github.io/blog/qwq-32b/
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過(guò)?
用你的贊和在看告訴我~
求贊
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.