99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

3710億數(shù)學(xué)tokens,全面開放!開源數(shù)學(xué)預(yù)訓(xùn)練數(shù)據(jù)集MegaMath發(fā)布

0
分享至



在大模型邁向推理時代的當(dāng)下,數(shù)學(xué)推理能力已成為衡量語言模型智能上限的關(guān)鍵指標(biāo)。

近日,LLM360 推出了MegaMath:全球目前最大的開源數(shù)學(xué)推理預(yù)訓(xùn)練數(shù)據(jù)集,共計3710 億(371B)tokens,覆蓋網(wǎng)頁、代碼和高質(zhì)量合成數(shù)據(jù)三大領(lǐng)域。



報告標(biāo)題:MegaMath: Pushing the Limits of Open Math Corpora

技術(shù)報告:https://arxiv.org/abs/2504.02807

數(shù)據(jù)集地址:https://hf.co/datasets/LLM360/MegaMath

GitHub 代碼:https://github.com/LLM360/MegaMath

這不僅是首次在規(guī)模上超越 DeepSeek-Math Corpus(120B)的開源數(shù)據(jù)集,更代表從「只靠網(wǎng)頁」到「面向推理」的重大跨越。短短數(shù)日時間,數(shù)據(jù)集下載量已經(jīng)來到 3 萬余次,并且持續(xù)在Hugging Face趨勢榜上名列前茅。



MegaMath數(shù)據(jù)集總覽

為什么我們需要 MegaMath?

在現(xiàn)有主流閉源數(shù)學(xué)語料如 Qwen-2.5-Math(1T)和 DeepSeekMath(120B)持續(xù)展現(xiàn)卓越數(shù)學(xué)能力的同時,開源研究社區(qū)長期缺乏等量級、等質(zhì)量的數(shù)學(xué)數(shù)據(jù)。當(dāng)前可用的開源數(shù)據(jù)集(如 OpenWebMath、FineMath)規(guī)模過小,無法支撐更大規(guī)模的模型訓(xùn)練;過濾過度,導(dǎo)致數(shù)學(xué)樣本量缺失多樣性不足。



MegaMath和其他數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)對比

為解決這一痛點,MegaMath 團(tuán)隊本著「做困難而正確的事情」為目標(biāo),以規(guī)模 × 質(zhì)量 × 多樣性為核心設(shè)計,歷時 9 個月時間,構(gòu)建了全面開放的數(shù)學(xué)推理數(shù)據(jù)底座。

MegaMath 數(shù)據(jù)集共計3710 億 tokens,是之前經(jīng)典開源數(shù)學(xué)數(shù)據(jù),如 OpenWebMath 的約 20 倍。數(shù)據(jù)集共分為三大部分:

2790 億 tokens:數(shù)學(xué)密集網(wǎng)頁數(shù)據(jù)(Math-rich Web)

281 億 tokens:數(shù)學(xué)相關(guān)代碼(Math Code)

640 億 tokens:高質(zhì)量合成數(shù)據(jù)(Synthetic Data)

每部分?jǐn)?shù)據(jù)均經(jīng)過多輪篩選、清洗并通過下游預(yù)訓(xùn)練實驗充分驗證,以確保實用性與泛化能力并存。

構(gòu)建 MegaMath 的秘方

如何構(gòu)建這樣一個龐大的推理數(shù)據(jù)集呢?作者將他們主要分為 3 塊內(nèi)容,并精心設(shè)計了不同的數(shù)據(jù)「流水線」,確保高效、高質(zhì)量的數(shù)據(jù)開發(fā)。

高質(zhì)量的網(wǎng)頁數(shù)據(jù)構(gòu)建



MegaMath的網(wǎng)頁數(shù)據(jù)處理流程

為了徹底優(yōu)化數(shù)學(xué)文本的處理流程,作者重新下載處理了2014–2024 年間所有的 99 個Common Crawl文件包,并對互聯(lián)網(wǎng)的數(shù)學(xué)文本提取進(jìn)行一系列大量的工程優(yōu)化來確保數(shù)據(jù)質(zhì)量:

當(dāng)前常用的開源文本抽取工具對 HTML 中數(shù)學(xué)的元素并沒有很好地處理,團(tuán)隊因此開發(fā)了一套HTML 結(jié)構(gòu)優(yōu)化的腳本,在抽取前就提取和優(yōu)化LaTeX、KaTeX、mathml 等元素中的公式信息進(jìn)行重構(gòu),以確保在抽取時充分保留文本中的數(shù)學(xué)符號、公式和定理。

由于不同抽取器的處理速度有區(qū)別,團(tuán)隊創(chuàng)新地采用了兩段式提取方法,第一階段注重效率,用快速的抽取器進(jìn)行抽取 + 篩除非數(shù)學(xué)樣本;第二階段注重精度,用包含更多規(guī)則的處理器進(jìn)一步移除文本噪音和精細(xì)篩選出和數(shù)學(xué)強(qiáng)相關(guān)的數(shù)據(jù)。這使得 MegaMath 最終保留出數(shù)學(xué)強(qiáng)相關(guān)、且更干凈的大規(guī)模數(shù)學(xué)文本數(shù)據(jù)。

對于如何訓(xùn)練穩(wěn)健而準(zhǔn)確的文本分類器,團(tuán)隊也發(fā)現(xiàn)了因為種子數(shù)據(jù)收集帶來的分布偏移問題,因此在第一階段的粗篩之后通過重新收集種子數(shù)據(jù)訓(xùn)練分類器來進(jìn)行二階段篩選。

考慮到目前研究社區(qū)對于續(xù)訓(xùn)練(Continual Pre-training)、中期訓(xùn)練(Mid-Training)的廣泛需求,作者還利用語言模型對文本的教育價值進(jìn)行動態(tài)打分,再次過濾得到包含極高教育價值的數(shù)學(xué)子集,并進(jìn)一步用 LLM 進(jìn)行精煉,得到了遠(yuǎn)超開源任何數(shù)據(jù)集質(zhì)量的子集;在和現(xiàn)存最高質(zhì)量的數(shù)據(jù) FineMath 進(jìn)行一對一公平對比時,也能顯著超過 4% 的下游性能。

這一系列的工程優(yōu)化和技術(shù)迭代最終形成了:

MegaMath-Web:包含263B tokens 的最大規(guī)模互聯(lián)網(wǎng)數(shù)學(xué)語料

MegaMath-Web-Pro:包含15B tokens 的 LLM 優(yōu)化后的超高質(zhì)量數(shù)學(xué)語料

精確的數(shù)學(xué)代碼數(shù)據(jù)召回



MegaMath-Code的多步召回流程

代碼數(shù)據(jù)被廣泛驗證,有利于提升模型的數(shù)學(xué)表現(xiàn)、提升模型利用「生成代碼 + 執(zhí)行求解」范式進(jìn)行解題的能力。

因此,這是一份寶貴的數(shù)據(jù)領(lǐng)域。MegaMath 在現(xiàn)存最大的代碼預(yù)訓(xùn)練數(shù)據(jù)集 Stack v2 中挖掘了數(shù)學(xué)相關(guān)代碼塊,同時結(jié)合團(tuán)隊之前提出的Programming Every Example(ProX)方法,利用(1)大模型評分(LLM scoring);(2)微調(diào)小模型快速篩選(SLM filtering)的方式,高效清洗出了包括科學(xué)計算、符號推理、邏輯程序等領(lǐng)域的代碼數(shù)據(jù),形成 MegaMath-Code,一個包含28.1B tokens的數(shù)學(xué)相關(guān)語料,包含了共 11 種編程語言,進(jìn)一步加強(qiáng)了數(shù)據(jù)集的豐富程度。

大規(guī)模數(shù)學(xué)數(shù)據(jù)合成



MegaMath-Synth的三種大規(guī)模合成方法

近年來,合成數(shù)據(jù)已經(jīng)成為大模型訓(xùn)練不可缺失的一部分?jǐn)?shù)據(jù);尤其是當(dāng)傳統(tǒng)的數(shù)據(jù)已經(jīng)被大量發(fā)掘和利用的情況下,合成數(shù)據(jù)代表了一類可持續(xù)被開發(fā)的高質(zhì)量數(shù)據(jù)源。這在之前的開源預(yù)訓(xùn)練數(shù)據(jù)集中,通常是沒有被探索的。

MegaMath 團(tuán)隊積極擁抱合成數(shù)據(jù),并開源了預(yù)訓(xùn)練規(guī)模的高質(zhì)量文本,包含(1)Q&A 問答形式(解決數(shù)學(xué)題);(2)合成代碼(跨語言轉(zhuǎn)為 Python);(3)文本 + 代碼交錯數(shù)據(jù)(更貼近真實解題場景);所有樣本都經(jīng)過質(zhì)量檢測(包括代碼塊的可執(zhí)行性校驗)。團(tuán)隊通過不斷優(yōu)化 Prompt、簡化工程設(shè)計,達(dá)到在消融實驗中表現(xiàn)全面優(yōu)于現(xiàn)有合成的基線。

效果如何,表現(xiàn)說話



MegaMath-Llama-3.2 1B / 3B的表現(xiàn)在CoT和PAL測試上均提升顯著。

MegaMath 不是單純地「堆數(shù)據(jù)」拼大小,而是對每一步都進(jìn)行了嚴(yán)謹(jǐn)驗證以確保數(shù)據(jù)質(zhì)量。

這包括:(1)文本抽取流程驗證;(2)去重策略對比(在機(jī)器承受范圍內(nèi)尋求最優(yōu)的MinHash去重策略);(3)fastText 過濾閾值、訓(xùn)練策略調(diào)優(yōu);(4)代碼數(shù)據(jù)比重 & SLM召回率消融;(5)合成策略的迭代。

為了檢驗這些策略,所有的實驗都在足夠大的尺度下進(jìn)行了預(yù)訓(xùn)練 + 下游評測的驗證實驗,用來為最終的方案和策略提供足夠顯著的實驗信號。

最終,MegaMath 共進(jìn)行了超過 50 次的預(yù)訓(xùn)練驗證,并最終在Llama-3.2(1B & 3B)上進(jìn)行了 100B 的預(yù)訓(xùn)練。

實驗表明,MegaMath 能夠在 GSM8K、MATH 等數(shù) 10 個標(biāo)準(zhǔn)數(shù)學(xué)任務(wù)上取得15–20% 的絕對提升。這些數(shù)字實打?qū)嵉卣f明了 MegaMath 數(shù)據(jù)集在數(shù)學(xué)推理上的顯著效果。

作者的愿景

作者希望,MegaMath 的發(fā)布,能在一定程度上推動開源數(shù)學(xué)預(yù)訓(xùn)練數(shù)據(jù)集在規(guī)模、質(zhì)量與多樣性上的進(jìn)一步發(fā)展,也希望 MegaMath 能成為構(gòu)建更強(qiáng)數(shù)學(xué)語言模型的一個堅實起點,激發(fā)更多來自學(xué)術(shù)界與工業(yè)界的合作與創(chuàng)新。

在邁向更強(qiáng)推理能力與更高智能上限的過程中,MegaMath 只是初步階段的嘗試。作為一個致力于開放科學(xué)與開源研究的團(tuán)隊,團(tuán)隊深知這項工作的挑戰(zhàn)與局限,也非常感激開源社區(qū)給予的諸多啟發(fā)與幫助。

特別感謝 Hugging Face、DeepSeek、Qwen 等優(yōu)秀開源團(tuán)隊長期以來提供的模型、工具和數(shù)據(jù)方案,讓團(tuán)隊有機(jī)會站在巨人的肩膀上持續(xù)打磨和完善這個工作。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
尹錫悅涉嫌內(nèi)亂案開庭!關(guān)鍵證人出庭!尹生死時刻帶小紅帽"求救"

尹錫悅涉嫌內(nèi)亂案開庭!關(guān)鍵證人出庭!尹生死時刻帶小紅帽"求救"

派大星紀(jì)錄片
2025-04-14 14:29:54
胡塞越打越兇,美軍被迫做出一個決定,讓中國成了最大受益者?

胡塞越打越兇,美軍被迫做出一個決定,讓中國成了最大受益者?

空天力量
2025-04-14 11:41:38
貝索斯的全女性太空組圖遭群嘲:百萬修圖師比物理學(xué)家更忙?

貝索斯的全女性太空組圖遭群嘲:百萬修圖師比物理學(xué)家更忙?

譯言
2025-04-14 23:49:14
49歲趙薇出鏡為瓊瑤音樂會宣傳,剪短發(fā)撞臉高曉松,退圈后變化大

49歲趙薇出鏡為瓊瑤音樂會宣傳,剪短發(fā)撞臉高曉松,退圈后變化大

鄭丁嘉話
2025-04-12 16:06:20
自己是父母養(yǎng)大,不是國家養(yǎng)大,這是渾蛋邏輯嗎?網(wǎng)友:混賬不如

自己是父母養(yǎng)大,不是國家養(yǎng)大,這是渾蛋邏輯嗎?網(wǎng)友:混賬不如

詩意世界
2025-01-12 10:47:23
被拐兒子拉黑親生父親微信:我們尋找你22年,你把我們當(dāng)猴兒耍?

被拐兒子拉黑親生父親微信:我們尋找你22年,你把我們當(dāng)猴兒耍?

老鵜愛說事
2025-04-13 08:18:34
千位名醫(yī)總結(jié):最簡單的養(yǎng)生法,竟是從1數(shù)到10

千位名醫(yī)總結(jié):最簡單的養(yǎng)生法,竟是從1數(shù)到10

中國藝術(shù)家
2025-04-14 05:26:20
美軍6航母壓境,解放軍硬核劃禁區(qū)!中美真要開戰(zhàn)?

美軍6航母壓境,解放軍硬核劃禁區(qū)!中美真要開戰(zhàn)?

起喜電影
2025-04-12 09:52:51
官宣:東契奇成為首位登頂球衣銷量榜的國際球員

官宣:東契奇成為首位登頂球衣銷量榜的國際球員

北青網(wǎng)-北京青年報
2025-04-15 08:03:05
警惕!間諜盯上了“中國飯碗”

警惕!間諜盯上了“中國飯碗”

環(huán)球網(wǎng)資訊
2025-04-14 14:10:41
蕭敬騰夫婦在上海豪宅,請大廚上門做飯,吃著飯還牽林有慧的手

蕭敬騰夫婦在上海豪宅,請大廚上門做飯,吃著飯還牽林有慧的手

娛圈小愚
2025-04-14 10:37:15
從檢察官到5千萬粉絲的失眠搭子,專訪“聽風(fēng)的蠶”丨面孔

從檢察官到5千萬粉絲的失眠搭子,專訪“聽風(fēng)的蠶”丨面孔

大象新聞
2025-04-14 10:48:05
快船如今有多強(qiáng)?近15戰(zhàn)進(jìn)攻效率聯(lián)盟第一 哈登4月場均26分10助

快船如今有多強(qiáng)?近15戰(zhàn)進(jìn)攻效率聯(lián)盟第一 哈登4月場均26分10助

Emily說個球
2025-04-15 03:41:41
GitHub Actions 現(xiàn)已支持所有公共倉庫的 Windows on Arm 運行器

GitHub Actions 現(xiàn)已支持所有公共倉庫的 Windows on Arm 運行器

IT之家
2025-04-15 08:44:11
中美日壽命差距斷崖:日本84歲、美國79歲,中國的年齡讓人意外!

中美日壽命差距斷崖:日本84歲、美國79歲,中國的年齡讓人意外!

深析古今
2025-03-13 14:24:39
97歲李嘉誠或被踢出局!美軍已進(jìn)入巴拿馬,中國駐巴使館嚴(yán)正聲明

97歲李嘉誠或被踢出局!美軍已進(jìn)入巴拿馬,中國駐巴使館嚴(yán)正聲明

boss外傳
2025-04-14 15:15:02
五一將至,提醒中老年:別太心疼錢,多吃4種魚,再不吃就封海了

五一將至,提醒中老年:別太心疼錢,多吃4種魚,再不吃就封海了

神牛
2025-04-14 20:51:56
世體:巴薩隊多特將穿白色球褲,本賽季穿過1次結(jié)果1-2輸給拉帕

世體:巴薩隊多特將穿白色球褲,本賽季穿過1次結(jié)果1-2輸給拉帕

直播吧
2025-04-15 08:33:11
給2025開年后“演技最好10位女演員”排個名,孫儷第8,第1無爭議

給2025開年后“演技最好10位女演員”排個名,孫儷第8,第1無爭議

頭號劇委會
2025-04-13 06:20:03
歷史總是驚人相似:清朝試圖和平統(tǒng)一臺灣,鄭經(jīng)卻得寸進(jìn)尺要獨立

歷史總是驚人相似:清朝試圖和平統(tǒng)一臺灣,鄭經(jīng)卻得寸進(jìn)尺要獨立

國學(xué)長亭
2025-04-12 13:20:09
2025-04-15 09:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10359文章數(shù) 142295關(guān)注度
往期回顧 全部

科技要聞

OpenAI放大招!GPT-4.1上線,編程戰(zhàn)力全開

頭條要聞

澤連斯基喊話特朗普訪烏:他才會明白俄羅斯做了什么

頭條要聞

澤連斯基喊話特朗普訪烏:他才會明白俄羅斯做了什么

體育要聞

他演過周星馳電影,62歲還要拿世界冠軍

娛樂要聞

專訪 | 王安宇:角色是為觀眾服務(wù)的

財經(jīng)要聞

特朗普攪亂貿(mào)易意欲何為?謎題即將解開

汽車要聞

B級車要集體失眠? 吉利銀河星耀8"全都要"

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
家居
本地
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

聯(lián)想ThinkPad P14s Gen6曝光 搭載12核AMD Strix Point APU

家居要聞

時間靜止 老房子的新生活

本地新聞

云游中國|這個春天,來沂山吸氧吧!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 田东县| 柳江县| 固原市| 汉阴县| 平阳县| 宁都县| 冀州市| 大足县| 阳春市| 江都市| 凤山市| 准格尔旗| 蓬溪县| 香港| 南昌县| 故城县| 油尖旺区| 贡山| 定西市| 伊通| 高邑县| 藁城市| 萨嘎县| 日土县| 汤阴县| 武平县| 永丰县| 洛宁县| 磐安县| 闵行区| 沁源县| 台北县| 会泽县| 平果县| 冷水江市| 贵溪市| 本溪市| 临西县| 花莲县| 崇仁县| 嘉峪关市|