3月31日,螞蟻集團(tuán)與清華大學(xué)聯(lián)合推出開源強(qiáng)化學(xué)習(xí)訓(xùn)練框架AReaL-boba,研發(fā)團(tuán)隊采用該框架訓(xùn)練出數(shù)學(xué)推理能力達(dá)到業(yè)內(nèi)領(lǐng)先水平(State-of-the-Art,SOTA)的7B推理模型,并以極低成本實現(xiàn)了32B推理大模型的高效復(fù)現(xiàn)。AReaL-boba的框架代碼、訓(xùn)練數(shù)據(jù)、模型權(quán)重及技術(shù)文檔已在inclusionAI社區(qū)全部開源,開發(fā)者可直接復(fù)現(xiàn)SOTA推理模型。
AReaL(全稱Ant Reasoning RL)是國內(nèi)首個完整開源的強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)項目。今年2月,AReaL發(fā)布了第一個開源版本AReaLv0.1,首次發(fā)布包含了基于AReaL系統(tǒng)的可復(fù)現(xiàn)實驗,涵蓋1.5B和7B參數(shù)的大推理模型,并在多種計算預(yù)算下進(jìn)行了驗證。一個月后,AReaLv0.2版(即AReaL-boba)便在上個版本上完成了重要更新,再次證明了RL Scaling的價值,加速了推理模型的能力發(fā)展。
AReaL-boba通過優(yōu)化訓(xùn)練流程,顯著提升了推理模型訓(xùn)練速度。相比上一代框架,其在1.5B、7B、32B模型上的訓(xùn)練速度分別提升35%、60%、73%。該框架支持大規(guī)模分布式訓(xùn)練,例如使用128張H800 GPU可在1天內(nèi)完成1.5B模型訓(xùn)練,256張H800 GPU可在2天內(nèi)完成7B模型訓(xùn)練。此外,AReaL-boba集成了被頂尖大模型Grok2采用的高性能推理框架SGLang,進(jìn)一步提升了推理效率。
AReaL-boba的7B模型基于Qwen-R1-Distill-7B進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,在AIME 2024和2025測試中分別取得61.9分和48.3分,刷新了開源社區(qū)記錄。通過數(shù)據(jù)蒸餾技術(shù),AReaL-boba低成本高效復(fù)現(xiàn)了接近QwQ-32B模型的效果(AIME 2024得分78.8分,接近QwQ-32B的78.9分)。
AReaL-boba的推出標(biāo)志著強(qiáng)化學(xué)習(xí)訓(xùn)練框架在效率、性能和可擴(kuò)展性上的突破,也為開發(fā)者提供了高效、低成本的解決方案,加速了推理模型的發(fā)展。
據(jù)了解,螞蟻和清華組成的AReal研發(fā)團(tuán)隊計劃持續(xù)開源訓(xùn)練代碼、數(shù)據(jù)集及流程,并將優(yōu)化異步訓(xùn)練、吞吐性能,升級數(shù)據(jù)集和算法,進(jìn)一步提升框架能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.