99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

超低成本復現QwQ！數學推理模型訓練迎來RL暴擊，數據代碼全開源

2025-04-01 11:07:54　來源: 量子位

北京舉報

0

分享至

白交發自凹非寺
量子位 | 公眾號 QbitAI

用上這個開源框架，2天時間就能刷新7B數學推理紀錄！

螞蟻清華聯手開源的強化學習框架AReaL-boba，直接把推理模型訓練帶到了Next Level——

訓練成本下降的同時，訓練速率、推理能力還大幅提升的那種。

除了前面提到的7B模型，在32B模型上，只需兩百美元、200條數據，就可以輕松復現QwQ-32B，就是數學推理能力媲美DeepSeek-R1，一戰封神的那個。

而且開源的內容非常全面，不僅只是模型，所有訓練代碼，數據，模型參數以及訓練細節都通通開源了，還有超級詳細的技術筆記可以看，感覺像是被技術團隊手把手教導。

一個技術小白也能手搓一個頂尖大模型了。

AReaL-boba，人人可復現QwQ

AReaL，Ant Reasoning RL，是Ant Research RL Lab等開源的高效強化學習系統。在此基礎之上，該版本取名為boba，是因為團隊希望AReaL像珍珠奶茶一樣讓強化學習普惠整個社區，讓開發者無論資源規模均可觸達SOTA效果。

通過開源全部代碼、數據與模型參數，AReaL-boba在訓練效率、推理能力與成本控制上實現三重突破。

首先是訓練效率上的提升，全面集成SGLang推理框架。

AReaL-boba是首個擁抱SGLang的開源訓練系統，大幅優化訓練吞吐性能。

（SGLang是一個xAI公司采用的面向復雜語言模型的高性能推理框架，它通過共同設計后端運行時和前端語言，讓模型交互更快、更可控。市面上主流模型和企業都已大規模部署，每天產生數萬億個token）

對比原始版本，在1.5B模型尺寸上吞吐提升35%，7B模型提升60%，32B模型提升73%。

而且無縫適配各種計算資源，既支持單機，也支持大規模分布式訓練，突破傳統RL訓練資源瓶頸。

在大規模分布式訓練效率上有顯著的提升，一個直觀的例子：

128卡集群1天完成1.5B模型訓練，256卡2天完成7B模型訓練。

這樣一來，中小團隊也能在有限算力下快速迭代模型，真正實現”人人可駕馭強化學習”。

其次，推理能力大幅提升，尤其7B模型性能斷層領先。

當前最考驗推理模型能力的，無疑是它在數學推理領域的表現。

在這一領域中，AReaL-boba基于Qwen-R1-Distill-7B模型，通過大規模強化學習訓練，僅用2天即實現SOTA水平——

AIME 2024 61.9分，AIME 2025 48.3分，相比于o1-preview也是大幅領先。

相較于基礎模型Qwen-R1-Distill-7B，使用AReaL-boba后模型推理能力也有不少提升——

分別在AIME2024、AIME2025提升6.9、8.6分。

而想要擁有這樣一個SOTA級別的推理模型并不難，團隊不僅把能開源的都開源了，還有超級詳細的技術筆記送上。

團隊不僅開源了推理模型，也開源了所有所有訓練數據AReaL-boba-106k，以及全部的訓練腳本和評估腳本，保證人人可以復現。

而過程中遇到問題也不用擔心，在項目官方倉庫上，AReaL 團隊也放出了極其詳細的技術筆記，總結了大量訓練中的關鍵點，包括 PPO 超參數、獎勵函數設置、正則化設置、長度上限設置等等。

刷新小模型推理上限的同時，也通過技術透明化推動創新生態。

像我這樣一個技術小白，研究一下也能手搓個小模型出來。

最后，使用創新性蒸餾技術，極簡數據復現頂尖模型。

前段時間，QwQ-32B橫空出世，其強大的推理性能引發諸多關注。

它在數學推理、編碼能力和一般問題解決能力上，超過了一眾領先模型，包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini和原始DeepSeek-R1。

現在AReaL-boba推出超精簡訓練方案，直接把32B大模型訓練的所需成本給打下來。

數據上面，僅需200條數據的AReaL-boba-200數據集。

使用Qwen-32B-Distill基礎模型，通過輕量級SFT技術即可復現QwQ-32B的AIME2024效果。

整個計算成本，僅需200美元。

這一創新讓頂級推理能力的訓練門檻從“實驗室專享”降為”人人可及”，開創了小數據驅動大模型的新范式。

首個完整開源的團隊

AReaL團隊的核心成員均來自于螞蟻研究院強化學習實驗室以及清華交叉信息研究院吳翼老師團隊。

上個月，他們初始版本針對1.5B和7B推理模型優化，比如借助AReaL使用RL訓練1.5B蒸餾模型，在40小時內超越o1-Preview的數學推理能力。

同樣也給出了詳細的訓練細節。

作為國內第一個完整開源（數據、代碼、模型、腳本全開源）的項目團隊，他們表示致力于真正實現AI訓練的普惠。

其實從此次boba版本的發布也能看出，通過開源開放，讓AI訓練成為社區共享的基礎設施。其三大技術突破（極速訓練、推理登頂、低成本復現）形成的技術飛輪，推動強化學習大規模訓練的發展。

在項目列表中，他們也揭示了后續的開源計劃和目標——

包括異步訓練，更快的訓練吞吐，更好的數據集和算法，以及代碼和Agent智能體能力的支持。

也是十分期待了。

實際上，螞蟻的AI研發也非常值得關注，成果SOTA，場景天然，產品還是國民級的。

項目鏈接：

https://github.com/inclusionAI/AReaL

HuggingFace數據模型地址：

https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

200B參數擊敗滿血DeepSeek-R1，豆包推理模型Seed-Thinking-v1.5

機器之心Pro 2025-04-11 11:54:20
14 跟貼 14
AI看柯南2分鐘揪真兇，商湯600B多模態MoE推理封神！交互記憶全線升級

新智元 2025-04-11 17:46:51
1 跟貼 1

奧特曼首揭GPT-4.5內幕，一個bug搞崩10萬GPU！5人即可重訓GPT-4

新智元 2025-04-11 15:34:25
2 跟貼 2

又一上海人形機器人加入開源！全套圖紙+代碼，來自傅利葉

量子位 2025-04-11 17:15:23
2 跟貼 2
商湯發布第六代大模型：6000億參數多模態MoE，中長視頻直接推理

量子位 2025-04-10 21:52:21
3 跟貼 3

微軟AI模型MatterGen能根據需求生成新材料

量子位 2025-01-21 18:07:40
30 跟貼 30

誰是開源界的杠把子？

虎嗅APP 2025-04-11 23:29:08
0 跟貼 0
在強制用AI工作的公司，是什么體驗？

新智元 2025-04-12 09:06:23
8 跟貼 8

DeepSeek開口說話了反應超神無限打斷只要兩行代碼15分鐘

量子位 2025-03-07 14:20:34
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
英偉達華人AI版《貓和老鼠》爆火全網，60秒經典淚目！僅靠Transformer新增一層

新智元 2025-04-10 09:21:07
17 跟貼 17
不止天璣9400+！MDDC2025還展示了天璣AI的未來

雷科技 2025-04-11 22:41:36
3 跟貼 3
超越工具思維：AI時代的組織進化

經濟觀察報 2025-04-12 11:15:06
0 跟貼 0
數學課兩名，同學展示中國算法，和印度算法！

僧娃搞笑 2025-04-11 11:42:54
1 跟貼 1
為啥318會堵車幾個小時？就是這種人太多了

泥塑動物 2025-04-10 13:58:07
704 跟貼 704
紅旗到了三河也要變綠！“紅十字綠”被緊急拆除，當地這樣回應

垛垛糖 2025-04-11 13:33:59
11960 跟貼 11960
預訓練還沒終結！港中文清華等提出「三位一體」框架，持續自我進化

新智元 2025-04-10 20:37:31
16 跟貼 16
智駕戰爭 | 吉利是如何布局智駕戰場的？

汽車通訊社 2025-04-10 23:23:45
0 跟貼 0
數學就是要多做題目，多找規律多總結

三樂大掌柜 2025-04-11 20:37:07
1 跟貼 1
AI醫療智能體：破局醫療不可能三角，重塑健康新范式

億歐 2025-04-12 01:58:05
0 跟貼 0
合論：協變之道

云上政風 2025-04-12 09:41:22
0 跟貼 0
我媽如何用DFS算法找到丟失的我

制杖實驗室v 2025-04-09 17:40:40
0 跟貼 0
費高云主政合肥，曾長期在江蘇工作

上觀新聞 2025-04-11 20:43:18
1846 跟貼 1846
京東：將推出2000億出口轉內銷扶持計劃

澎湃新聞 2025-04-11 17:43:07
8348 跟貼 8348
女孩寫下了一串數字代碼，卻預知了世界末日

十里追劇社 2025-04-09 11:17:08
1 跟貼 1
上個月，我去了趟烏魯木齊回來后，我只想說：能不去就盡量不去！

訪史 2025-04-11 10:34:33
66 跟貼 66
10秒49名列第二，35歲蘇炳添賽后發聲：這可能是我最后一場比賽了

環球網資訊 2025-04-11 17:41:24
2762 跟貼 2762
Kimi 16B勝GPT4o！開源視覺推理模型：MoE架構，推理時僅激活2.8B

量子位 2025-04-10 13:30:11
9 跟貼 9
一條街商戶的招牌都被貼上綠膜男子強烈反對無效施工隊不聽他的

火煉樹 2025-04-11 13:14:34
4670 跟貼 4670
重慶女子花6000多萬貴州買地“中招”，何以十多年來退不了款？鎮遠縣被要求“撤證追責”

大風新聞 2025-04-11 17:44:04
1474 跟貼 1474
同事替我檢查方案，我給文件加了限期程序，結果他上交了個空文檔

職場管理學 2025-04-08 18:20:39
25 跟貼 25
國內金飾價格突破1000元升至歷史高位

財聯社 2025-04-11 14:01:12
4511 跟貼 4511
926福建高考數學模擬題，求函數的最小值，學霸權方和秒殺

我服子佩 2025-04-10 20:41:34
1 跟貼 1
想學零跑造車嗎？我教你啊！

汽車十三行 2025-04-12 06:05:03
0 跟貼 0
美國海關報告關稅系統出現故障暫未征收關稅

央視新聞客戶端 2025-04-12 05:55:53
2123 跟貼 2123
小伙清理道具模型，這些居然都是硬菜

籃球知幾 2025-04-10 11:20:22
1 跟貼 1
男子“入職”心儀國企2年多，沒簽合同沒發工資？單位：他是義務幫工；仲裁委：無法證明事實勞動關系

大風新聞 2025-04-11 18:26:12
675 跟貼 675
網友吐槽：一根水管6個人抬著干，旁邊還有人拍照 ?

動態新聞 2025-04-11 15:27:35
2567 跟貼 2567
河邊長很多黃花苗，小伙一會挖一筐子，遍地都是真喜人

大慶在農村 2025-04-12 08:57:38
183 跟貼 183
936高中數學應會題，求函數的解析式。學霸的做法很簡單

我服子佩 2025-04-11 20:49:13
1 跟貼 1

卡拉格：如果阿森納能奪得歐冠冠軍，沒人會在乎他們在聯賽的表現

卡拉格：如果阿森納能奪得歐冠冠軍，沒人會在乎他們在聯賽的表現

雷速體育

2025-04-11 22:59:08

約基奇26+16+12，比肩兩大傳奇！威少納投名狀，掘金逆轉灰熊！

約基奇26+16+12，比肩兩大傳奇！威少納投名狀，掘金逆轉灰熊！

釘釘陌上花開

2025-04-12 11:23:30

你能頂得住張元英穿黑絲嗎？

喜歡歷史的阿繁

2025-04-10 06:57:33

7中2+5犯，但他一戰打回輪換！球迷：哈維晚上睡覺都要夢見你

7中2+5犯，但他一戰打回輪換！球迷：哈維晚上睡覺都要夢見你

弄月公子

2025-04-12 10:30:29

我退休工資3000，一年能存40000，如何做到的？

我退休工資3000，一年能存40000，如何做到的？

蟬吟槐蕊

2025-04-12 10:51:21

該儲量美國最多，中國95%都依賴進口，如果美國斷供，中國咋辦？

該儲量美國最多，中國95%都依賴進口，如果美國斷供，中國咋辦？

琉璃聊科學

2025-04-11 22:39:57

中國向全世界宣布，退出五千億美元大項目

中國向全世界宣布，退出五千億美元大項目

鐵拳大衛君

2025-04-11 20:00:18

0-1，0-2！感謝國足！印尼主場或打破68年恥辱紀錄，送國足出局

0-1，0-2！感謝國足！印尼主場或打破68年恥辱紀錄，送國足出局

大秦壁虎白話體育

2025-04-12 09:39:20

海關戲精附體，加稅至今未收！美海關大爺想出合適又體面的理由

海關戲精附體，加稅至今未收！美海關大爺想出合適又體面的理由

大風文字

2025-04-12 09:29:09

關稅重壓下，諾華230億美元在美國建廠

關稅重壓下，諾華230億美元在美國建廠

動脈新醫藥

2025-04-11 19:53:06

放棄核心地位，首選加盟火箭！賽季僅出戰8場，28歲射手要后悔了

放棄核心地位，首選加盟火箭！賽季僅出戰8場，28歲射手要后悔了

熊哥愛籃球

2025-04-11 20:58:35

突發建交！朝鮮遭背刺，全球政治版圖改寫

突發建交！朝鮮遭背刺，全球政治版圖改寫

華語智庫

2025-04-12 08:05:40

這兩天，一位特別的客人來到北京

這兩天，一位特別的客人來到北京

牛彈琴

2025-04-12 10:59:14

“風暴”中的在美中國留學生

界面新聞

2025-04-11 09:08:50

中法免簽，大量法國游客涌入我國，看似旅游卻不去任何景區，為啥

中法免簽，大量法國游客涌入我國，看似旅游卻不去任何景區，為啥

歷史看阿敞

2024-12-28 17:34:59

4月9日上午，仁愛礁傳來消息！賴在這的菲律賓軍艦，不可能拖走了

4月9日上午，仁愛礁傳來消息！賴在這的菲律賓軍艦，不可能拖走了

Ck的蜜糖

2025-04-09 13:52:28

“新型啃老”正在全國蔓延：孩子不上班也不伸手要錢，3000塊能活

“新型啃老”正在全國蔓延：孩子不上班也不伸手要錢，3000塊能活

巢客HOME

2025-04-05 23:19:55

賈一凡：石宇奇是一個非常好的男孩子，但是我們沒有在一起

賈一凡：石宇奇是一個非常好的男孩子，但是我們沒有在一起

懂球帝

2025-04-11 23:10:11

“放棄國籍、替日洗白”，被全網封殺的趙立新，徹底活成了笑話！

“放棄國籍、替日洗白”，被全網封殺的趙立新，徹底活成了笑話！

華人星光

2025-04-09 13:46:02

基辛格預言成真？美國四度擊垮“老二”，中國或成第五個反殺者

基辛格預言成真？美國四度擊垮“老二”，中國或成第五個反殺者

娛樂洞察點點

2025-04-11 12:05:05

追蹤人工智能動態

10303文章數 176094關注度

往期回顧全部

科技要聞

單臺年入20萬！首批人形機器人致富者來了

頭條要聞

牛彈琴：特別的客人來到北京美國公開威脅"后果嚴重"

頭條要聞

牛彈琴：特別的客人來到北京美國公開威脅"后果嚴重"

體育要聞

當意甲冠軍跌入意乙降級區老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世，和大S死因相似

財經要聞

造假累計數百億揭秘東旭集團造假手法

汽車要聞

審美和深層次豪華阿維塔06都辦到了

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

親子

旅游

游戲

公開課

繼德訓鞋、老爹鞋之后，今年輪到這雙運動鞋刷屏！

親子要聞

挑戰拼三種交通工具，小星星大膽創新玩積木，成果驚艷爸媽！

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

研究顯示每個人心中的最佳懷舊主機是10歲玩的那一款

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最大沙漠中唯一的城市，周邊300公里被黃沙覆蓋
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：镇宁| 邓州市| 普兰店市| 屏东县| 洛川县| 安溪县| 唐海县| 宜阳县| 顺平县| 禹州市| 聊城市| 长治市| 宿州市| 余干县| 扶风县| 江孜县| 房山区| 石河子市| 姚安县| 菏泽市| 宜兴市| 海城市| 资溪县| 秦皇岛市| 包头市| 巴楚县| 蓝田县| 安阳县| 星座| 岐山县| 平湖市| 康平县| 河池市| 文成县| 泸州市| 沾化县| 萨嘎县| 江源县| 福建省| 新疆| 额尔古纳市|

<cite id="wga3c"><track id="wga3c"></track></cite>