99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

超低成本復現QwQ!數學推理模型訓練迎來RL暴擊,數據代碼全開源

0
分享至

白交 發自 凹非寺
量子位 | 公眾號 QbitAI

用上這個開源框架,2天時間就能刷新7B數學推理紀錄

螞蟻清華聯手開源的強化學習框架AReaL-boba,直接把推理模型訓練帶到了Next Level——

訓練成本下降的同時,訓練速率、推理能力還大幅提升的那種。



除了前面提到的7B模型,在32B模型上,只需兩百美元、200條數據,就可以輕松復現QwQ-32B,就是數學推理能力媲美DeepSeek-R1,一戰封神的那個。

而且開源的內容非常全面,不僅只是模型,所有訓練代碼,數據,模型參數以及訓練細節都通通開源了,還有超級詳細的技術筆記可以看,感覺像是被技術團隊手把手教導。

一個技術小白也能手搓一個頂尖大模型了。

AReaL-boba,人人可復現QwQ

AReaL,Ant Reasoning RL,是Ant Research RL Lab等開源的高效強化學習系統。在此基礎之上,該版本取名為boba,是因為團隊希望AReaL像珍珠奶茶一樣讓強化學習普惠整個社區,讓開發者無論資源規模均可觸達SOTA效果。

通過開源全部代碼、數據與模型參數,AReaL-boba在訓練效率、推理能力與成本控制上實現三重突破。

首先是訓練效率上的提升,全面集成SGLang推理框架

AReaL-boba是首個擁抱SGLang的開源訓練系統,大幅優化訓練吞吐性能。

(SGLang是一個xAI公司采用的面向復雜語言模型的高性能推理框架,它通過共同設計后端運行時和前端語言,讓模型交互更快、更可控。市面上主流模型和企業都已大規模部署,每天產生數萬億個token

對比原始版本,在1.5B模型尺寸上吞吐提升35%,7B模型提升60%,32B模型提升73%。



而且無縫適配各種計算資源,既支持單機,也支持大規模分布式訓練,突破傳統RL訓練資源瓶頸。

大規模分布式訓練效率上有顯著的提升,一個直觀的例子:

  • 128卡集群1天完成1.5B模型訓練,256卡2天完成7B模型訓練。



這樣一來,中小團隊也能在有限算力下快速迭代模型,真正實現”人人可駕馭強化學習”。

其次,推理能力大幅提升,尤其7B模型性能斷層領先。

當前最考驗推理模型能力的,無疑是它在數學推理領域的表現。

在這一領域中,AReaL-boba基于Qwen-R1-Distill-7B模型,通過大規模強化學習訓練,僅用2天即實現SOTA水平——

AIME 2024 61.9分,AIME 2025 48.3分,相比于o1-preview也是大幅領先。



相較于基礎模型Qwen-R1-Distill-7B,使用AReaL-boba后模型推理能力也有不少提升——

分別在AIME2024、AIME2025提升6.9、8.6分。

而想要擁有這樣一個SOTA級別的推理模型并不難,團隊不僅把能開源的都開源了,還有超級詳細的技術筆記送上。



團隊不僅開源了推理模型,也開源了所有所有訓練數據AReaL-boba-106k,以及全部的訓練腳本和評估腳本,保證人人可以復現。

而過程中遇到問題也不用擔心,在項目官方倉庫上,AReaL 團隊也放出了極其詳細的技術筆記,總結了大量訓練中的關鍵點,包括 PPO 超參數、獎勵函數設置、正則化設置、長度上限設置等等。

刷新小模型推理上限的同時,也通過技術透明化推動創新生態。

像我這樣一個技術小白,研究一下也能手搓個小模型出來。



最后,使用創新性蒸餾技術,極簡數據復現頂尖模型

前段時間,QwQ-32B橫空出世,其強大的推理性能引發諸多關注。

它在數學推理、編碼能力和一般問題解決能力上,超過了一眾領先模型,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini和原始DeepSeek-R1。



現在AReaL-boba推出超精簡訓練方案,直接把32B大模型訓練的所需成本給打下來。

數據上面,僅需200條數據的AReaL-boba-200數據集。

使用Qwen-32B-Distill基礎模型,通過輕量級SFT技術即可復現QwQ-32B的AIME2024效果。

整個計算成本,僅需200美元

這一創新讓頂級推理能力的訓練門檻從“實驗室專享”降為”人人可及”,開創了小數據驅動大模型的新范式。

首個完整開源的團隊

AReaL團隊的核心成員均來自于螞蟻研究院強化學習實驗室以及清華交叉信息研究院吳翼老師團隊。

上個月,他們初始版本針對1.5B和7B推理模型優化,比如借助AReaL使用RL訓練1.5B蒸餾模型,在40小時內超越o1-Preview的數學推理能力。



同樣也給出了詳細的訓練細節。



作為國內第一個完整開源(數據、代碼、模型、腳本全開源)的項目團隊,他們表示致力于真正實現AI訓練的普惠。

其實從此次boba版本的發布也能看出,通過開源開放,讓AI訓練成為社區共享的基礎設施。其三大技術突破(極速訓練、推理登頂、低成本復現)形成的技術飛輪,推動強化學習大規模訓練的發展。

在項目列表中,他們也揭示了后續的開源計劃和目標——

包括異步訓練,更快的訓練吞吐,更好的數據集和算法,以及代碼和Agent智能體能力的支持

也是十分期待了。



實際上,螞蟻的AI研發也非常值得關注,成果SOTA,場景天然,產品還是國民級的。

項目鏈接:

https://github.com/inclusionAI/AReaL

HuggingFace數據模型地址:

https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
卡拉格:如果阿森納能奪得歐冠冠軍,沒人會在乎他們在聯賽的表現

卡拉格:如果阿森納能奪得歐冠冠軍,沒人會在乎他們在聯賽的表現

雷速體育
2025-04-11 22:59:08
約基奇26+16+12,比肩兩大傳奇!威少納投名狀,掘金逆轉灰熊!

約基奇26+16+12,比肩兩大傳奇!威少納投名狀,掘金逆轉灰熊!

釘釘陌上花開
2025-04-12 11:23:30
你能頂得住張元英穿黑絲嗎?

你能頂得住張元英穿黑絲嗎?

喜歡歷史的阿繁
2025-04-10 06:57:33
7中2+5犯,但他一戰打回輪換!球迷:哈維晚上睡覺都要夢見你

7中2+5犯,但他一戰打回輪換!球迷:哈維晚上睡覺都要夢見你

弄月公子
2025-04-12 10:30:29
我退休工資3000,一年能存40000,如何做到的?

我退休工資3000,一年能存40000,如何做到的?

蟬吟槐蕊
2025-04-12 10:51:21
該儲量美國最多,中國95%都依賴進口,如果美國斷供,中國咋辦?

該儲量美國最多,中國95%都依賴進口,如果美國斷供,中國咋辦?

琉璃聊科學
2025-04-11 22:39:57
中國向全世界宣布,退出五千億美元大項目

中國向全世界宣布,退出五千億美元大項目

鐵拳大衛君
2025-04-11 20:00:18
0-1,0-2!感謝國足!印尼主場或打破68年恥辱紀錄,送國足出局

0-1,0-2!感謝國足!印尼主場或打破68年恥辱紀錄,送國足出局

大秦壁虎白話體育
2025-04-12 09:39:20
海關戲精附體,加稅至今未收!美海關大爺想出合適又體面的理由

海關戲精附體,加稅至今未收!美海關大爺想出合適又體面的理由

大風文字
2025-04-12 09:29:09
關稅重壓下,諾華230億美元在美國建廠

關稅重壓下,諾華230億美元在美國建廠

動脈新醫藥
2025-04-11 19:53:06
放棄核心地位,首選加盟火箭!賽季僅出戰8場,28歲射手要后悔了

放棄核心地位,首選加盟火箭!賽季僅出戰8場,28歲射手要后悔了

熊哥愛籃球
2025-04-11 20:58:35
突發建交!朝鮮遭背刺,全球政治版圖改寫

突發建交!朝鮮遭背刺,全球政治版圖改寫

華語智庫
2025-04-12 08:05:40
這兩天,一位特別的客人來到北京

這兩天,一位特別的客人來到北京

牛彈琴
2025-04-12 10:59:14
“風暴”中的在美中國留學生

“風暴”中的在美中國留學生

界面新聞
2025-04-11 09:08:50
中法免簽,大量法國游客涌入我國,看似旅游卻不去任何景區,為啥

中法免簽,大量法國游客涌入我國,看似旅游卻不去任何景區,為啥

歷史看阿敞
2024-12-28 17:34:59
4月9日上午,仁愛礁傳來消息!賴在這的菲律賓軍艦,不可能拖走了

4月9日上午,仁愛礁傳來消息!賴在這的菲律賓軍艦,不可能拖走了

Ck的蜜糖
2025-04-09 13:52:28
“新型啃老”正在全國蔓延:孩子不上班也不伸手要錢,3000塊能活

“新型啃老”正在全國蔓延:孩子不上班也不伸手要錢,3000塊能活

巢客HOME
2025-04-05 23:19:55
賈一凡:石宇奇是一個非常好的男孩子,但是我們沒有在一起

賈一凡:石宇奇是一個非常好的男孩子,但是我們沒有在一起

懂球帝
2025-04-11 23:10:11
“放棄國籍、替日洗白”,被全網封殺的趙立新,徹底活成了笑話!

“放棄國籍、替日洗白”,被全網封殺的趙立新,徹底活成了笑話!

華人星光
2025-04-09 13:46:02
基辛格預言成真?美國四度擊垮“老二”,中國或成第五個反殺者

基辛格預言成真?美國四度擊垮“老二”,中國或成第五個反殺者

娛樂洞察點點
2025-04-11 12:05:05
2025-04-12 11:40:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10303文章數 176094關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

牛彈琴:特別的客人來到北京 美國公開威脅"后果嚴重"

頭條要聞

牛彈琴:特別的客人來到北京 美國公開威脅"后果嚴重"

體育要聞

當意甲冠軍跌入意乙降級區 老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態度原創

時尚
親子
旅游
游戲
公開課

繼德訓鞋、老爹鞋之后,今年輪到這雙運動鞋刷屏!

親子要聞

挑戰拼三種交通工具,小星星大膽創新玩積木,成果驚艷爸媽!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

研究顯示每個人心中的最佳懷舊主機是10歲玩的那一款

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 镇宁| 邓州市| 普兰店市| 屏东县| 洛川县| 安溪县| 唐海县| 宜阳县| 顺平县| 禹州市| 聊城市| 长治市| 宿州市| 余干县| 扶风县| 江孜县| 房山区| 石河子市| 姚安县| 菏泽市| 宜兴市| 海城市| 资溪县| 秦皇岛市| 包头市| 巴楚县| 蓝田县| 安阳县| 星座| 岐山县| 平湖市| 康平县| 河池市| 文成县| 泸州市| 沾化县| 萨嘎县| 江源县| 福建省| 新疆| 额尔古纳市|