99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

英偉達開源AIMO奧賽冠軍模型,僅用1.4B參數(shù)量超越14B DeeSeek-R1

0
分享至

英偉達正式開源了其不久前在 AI 數(shù)學奧林匹克競賽(AIMO,AI Mathematical Olympiad)中斬獲冠軍的核心模型系列。

在本屆 AIMO-2 Kaggle 競賽中,超過 2,200 支參賽隊伍提交了 AI 模型,挑戰(zhàn)在 5 小時內解決 50 道國家奧林匹克級別的復雜數(shù)學問題。英偉達的 7 人團隊“NemoSkills”最終正確解答了 34 道題目(相比 2024 年的冠軍提高了 5 道),奪得了冠軍。


圖丨此次比賽的排行榜(來源:Kaggle)

現(xiàn)在,英偉達向全球開放了幫助他們獲勝的核心技術,包括小參數(shù)的 OpenMath-Nemotron-1.5B、OpenMath-Nemotron-7B 和直接用于競賽并優(yōu)化的 OpenMath-Nemotron-14B-Kaggle 模型、性能更為強大的旗艦模型 OpenMath-Nemotron-32B,以及訓練它們所依賴的 OpenMathReasoning 數(shù)據(jù)集。

基準測試的結果顯示,這幾款模型表現(xiàn)出色,在 AIME 和 HMMT 競賽中數(shù)學問題上的準確率全面超越了 14B 的 DeepSeek-R1。


(來源:arXiv)



英偉達是如何構建 OpenMath-Nemotron 的?

那么,英偉達是如何構建 OpenMath-Nemotron 模型的?

這首先在于一個大規(guī)模且高質量的訓練數(shù)據(jù)集。認識到現(xiàn)有資源的不足,英偉達團隊首先投入了大量的工作來創(chuàng)建 OpenMathReasoning 數(shù)據(jù)集。

他們先從“Art of Problem Solving(AoPS)”等在線數(shù)學社區(qū)收集了大量的原始數(shù)學問題和討論。

隨后,團隊利用 Qwen2.5-32B-Instruct 開發(fā)了一套自動化流程,對這些原始數(shù)據(jù)進行細致處理。這包括從帖子中提取完整的數(shù)學問題,對問題進行分類(例如,剔除選擇題和是非題),并將一些需要證明過程的問題巧妙地轉化為需要具體答案的形式,以便于模型訓練和自動評估。同時,為了保證模型的泛化能力,他們還進行了基準去污染處理,移除了與現(xiàn)有常見數(shù)學測試集(如 MATH、GSM8K)中題目過于相似的問題。

最終完成的 OpenMathReasoning 數(shù)據(jù)集,包含了 54 萬個高質量數(shù)學問題,其中涵蓋了從中學到奧林匹克競賽等不同難度級別。為了讓模型學會“思考過程”,團隊更進一步地利用 DeepSeek-R1 和 QwQ-32B 等強大的現(xiàn)有模型,為這些問題生成了 320 萬條包含詳細解題步驟的“思維鏈”(CoT,Chain-of-Thought)解決方案。


圖丨數(shù)據(jù)集組成(來源:arXiv)

第二個核心部分是工具集成推理。

現(xiàn)代 AI 研究的一個重要趨勢是讓語言模型學會使用外部工具,例如調用計算器或執(zhí)行代碼片段,來輔助解決問題,尤其是在需要精確計算或模擬的場景下。然而,團隊在實踐中發(fā)現(xiàn),即便是當時最強的開源數(shù)學模型,也難以通過簡單的提示工程來引導它們生成高質量的、將代碼執(zhí)行與自然語言推理深度融合的解決方案(即 TIR)。這些模型似乎對其自身固有的純文本推理模式產生了某種“路徑依賴”。

為了克服這一障礙,NemoSkills 團隊設計并實施了一套迭代式開發(fā)流程。他們首先選擇了一個指令遵循能力較好的基礎模型(LIMO-Qwen-32B),用少量推理數(shù)據(jù)對其進行初步微調。然后,引導這個模型生成第一批包含 Python 代碼的 TIR 解決方案。關鍵的下一步是進行嚴格的質量過濾:利用另一個強大的大模型( Qwen2.5-32B-Instruct),來判斷每個代碼塊的“新穎性”(是產生了新結果還是僅僅驗證已知步驟)和“重要性”(是解決問題的關鍵環(huán)節(jié)還是可以被幾步簡單 CoT 取代)。只有那些代碼執(zhí)行提供了顯著推理價值(而非冗余計算)的樣本才被保留下來,形成了約 1.5 萬個樣本的初始 TIR 訓練集。

接下來,他們用這個高質量的初始集去微調更強大的模型(如 QwQ-32B),使其初步具備生成 TIR 的能力。隨后,利用這個微調后的模型生成更多、更高質量的 TIR 數(shù)據(jù),并再次運用上述過濾標準進行篩選。這個“生成-過濾-訓練”的閉環(huán)被重復執(zhí)行,每一輪都提升了 TIR 數(shù)據(jù)的規(guī)模和質量。最終,團隊構建起了一個包含 170 萬條高質量 TIR 解決方案的數(shù)據(jù)集。基于此訓練出的 OpenMath-Nemotron 模型,能夠熟練地在自然語言推理中嵌入 Python 代碼執(zhí)行,從而攻克那些純文本推理難以解決的復雜計算問題。此外,他們還設計了一種機制,使得模型在生成答案時能夠遵循對代碼塊使用次數(shù)的限制,這對于資源受限的推理場景至關重要。

第三個核心部分則是團隊提出的生成式解決方案選擇。

在解決困難問題時,讓模型生成多個候選答案并從中擇優(yōu),是提升最終準確率的常用技巧。傳統(tǒng)的“多數(shù)投票”方法雖然直觀,但往往無法充分發(fā)掘模型生成的所有答案中的潛在正確信息,其性能通常遠低于理論上的“pass@k”(即 k 個答案中至少有一個正確的概率)上限。

為了彌補這一差距,英偉達團隊開發(fā)了 GenSelect 技術。其核心思想不再是簡單地對最終答案進行投票,而是訓練一個模型,讓它扮演“評審員”的角色,能夠“閱讀”并“理解”多個候選解決方案的完整摘要,然后基于對解題邏輯、步驟合理性等的判斷,選出最可信、最有可能正確的那一個。


圖丨 GenSelect 的數(shù)據(jù)構建流程(來源:arXiv)

具體來說,團隊首先利用 Qwen2.5-32B-Instruct 模型為 OpenMathReasoning 數(shù)據(jù)集中所有已生成的 CoT 和 TIR 解決方案重新生成了結構化的、信息更豐富的摘要。然后,他們構建了 GenSelect 的訓練數(shù)據(jù):為每個原始問題,隨機抽取 2 到 16 個候選方案的摘要(特別設計以確保樣本組中至少包含一個正確和一個錯誤的解),將這些摘要連同原問題一起輸入給 QwQ-32B 模型,并要求它生成一段詳細的比較分析文本,最終明確指出哪個索引號的解決方案是最佳的。通過篩選掉那些模型判斷錯誤(即選擇了錯誤答案)的案例,他們構建了一個包含 56.6 萬個樣本的 GenSelect 訓練數(shù)據(jù)集。

實驗結果表明,經過 GenSelect 加持的模型,其最終準確率相比簡單的多數(shù)投票有了顯著提升,尤其是在候選方案數(shù)量不多時效果更為明顯。雖然由于 AIMO 競賽嚴格的時間和計算限制,GenSelect 未能被納入最終的獲勝提交方案中,但這項技術已被完全整合到此次發(fā)布的 OpenMath-Nemotron-32B 模型中,構成了其支持的三大推理模式之一。

基于上述三大支柱和海量數(shù)據(jù),英偉達團隊訓練了一系列名為OpenMath-Nemotron的模型,參數(shù)規(guī)模涵蓋 1.5B、7B、14B 和 32B。這些模型均基于強大的 Qwen2.5 基座模型進行微調。對于 1.5B 和 7B 版本,他們甚至使用了專門為數(shù)學任務優(yōu)化的 Qwen2.5-Math 版本作為起點。

訓練過程采用了監(jiān)督微調,混合使用了 CoT、TIR 和 GenSelect 三種任務的數(shù)據(jù),總計達 550 萬個樣本。這意味著同一個模型可以通過不同的提示(prompt)在 CoT(純文本推理)、TIR(工具集成推理)和 GenSelect(多方案選擇)模式下工作。


圖丨訓練過程中準確率的提升(來源:arXiv)

為了處理長達數(shù)千甚至上萬個 token 的長序列推理,團隊應用了旋轉位置編碼(RoPE,Rotary Position Embedding)擴展技術,并將訓練過程中的上下文窗口擴展到支持長序列。訓練使用了英偉達自家的 NeMo-Aligner 工具包,并結合了序列打包、上下文并行等技術來加速長序列訓練。此外,他們還采用了檢查點平均(checkpoint averaging)和在更難問題子集上進行第二輪微調等策略,進一步提升模型性能。



多項優(yōu)化推理措施

贏得 AIMO-2 競賽不僅需要模型本身強大,還需要在極其苛刻的 5 小時、4x L4 GPU 限制下高效完成推理。這要求團隊在模型選擇和推理優(yōu)化上做出極致權衡。

他們的最終提交方案基于 OpenMath-Nemotron-14B 模型的一個早期版本,該版本在一個稍小的 CoT 數(shù)據(jù)集(僅 DeepSeek-R1 生成)上訓練,并進行了輕量級的 TIR 微調。值得注意的是,他們采用了模型合并技術,將純 CoT 訓練的檢查點和經過 TIR 微調的檢查點進行線性組合。這種簡單而有效的方法,讓他們能夠在保持 TIR 能力的同時,部分恢復 CoT 模型的生成流暢性和速度優(yōu)勢,并減少代碼調用次數(shù),從而更好地適應競賽環(huán)境。

為了在有限的時間內最大化解題數(shù)量和準確率,團隊實施了多項推理優(yōu)化措施:

首先,他們使用 TensorRT-LLM 將預訓練模型轉換為 TensorRT 引擎。這一工具的動態(tài)批處理功能通過動態(tài)分組推理請求提高了吞吐量,在樣本完成后即刻釋放,減少延遲并優(yōu)化 GPU 利用率。由于樣本是獨立處理的,批處理可以無縫混合不同的提示或推理參數(shù)。TensorRT-LLM 還包括自定義注意力內核和分頁 KV 緩存等多種優(yōu)化。

在量化方面,團隊優(yōu)先采用 int8 權重量化(W8A16)和 FP8 量化,相比 BF16 格式速度提升了 1.5 倍,同時對準確率的影響最小。減小的權重大小還為更大的鍵值緩存釋放了內存,允許處理更長的序列。團隊還使用了蘋果開發(fā)的 ReDrafter 技術,這是一種循環(huán)推測解碼方法,使用基于 RNN 的起草器在每個解碼步驟提出并驗證多個 token。他們訓練了一個能夠在每一步提出最多三個 token 的起草器,在大約 65% 的步驟中成功接受所有三個 token,顯著加速了生成過程。


(來源:arXiv)

此外,團隊通過將 CoT 和 TIR 檢查點線性組合創(chuàng)建了最終模型,這種策略允許他們控制每個微調階段對最終模型行為的影響程度。最佳模型是使用 CoT0.3+TIR0.7 的組合創(chuàng)建的,這不僅提高了準確率,還通過減少解決方案長度和代碼執(zhí)行次數(shù)加速了生成。團隊實現(xiàn)了一種緩沖策略,為每個問題分配 350 秒的基本時間限制,如果一個問題提前完成,未使用的時間會被添加到共享緩沖區(qū),供后續(xù)問題使用。

團隊還利用了 NeMo-Skills 的異步生成功能實現(xiàn)批量處理和早停。例如,在 16 個樣本的批處理中,如果前 4-5 個完成的樣本就已經對最終答案達成一致,則取消剩余的生成并繼續(xù)下一個問題。這種機制極大地節(jié)約了在簡單或中等難度問題上可能浪費的時間,為攻克難題爭取了寶貴的時間窗口。早停策略增加了響應相關性,因為較短的答案往往質量更高。


圖丨異步批處理流程(來源:Kaggle)

實驗結果顯示,在 Comp-Math-24-25 測試集(包含來自 AIME 和 HMMT 競賽的問題)上,團隊的模型表現(xiàn)出色。1.5B 模型在 CoT 模式下單次通過準確率為 58.2%,多數(shù)投票準確率達 80.0%;在 TIR 模式下,這些數(shù)字分別提高到 64.5% 和 83.3%;使用 GenSelect 技術后,準確率進一步提升至 83.3%。14B 模型的表現(xiàn)更為出色,在 TIR 模式結合 GenSelect 使用時,準確率高達 90.0%。最大的 32B 模型在相同條件下甚至達到了 93.3% 的準確率。這些結果也表明,無論模型大小如何,TIR 模式始終優(yōu)于純 CoT 模式,而 GenSelect 技術能進一步提高準確率。


圖|數(shù)學基準測試的評估結果(來源:arXiv)

目前,英偉達團隊已將完整的 OpenMathReasoning 數(shù)據(jù)集、訓練好的 OpenMath-Nemotron 模型系列以及所有相關代碼以商業(yè)許可方式發(fā)布到 Hugging Face 和 GitHub 上(項目地址:https://huggingface.co/collections/nvidia/openmathreasoning-68072c0154a5099573d2e730)。

參考資料:

1.https://arxiv.org/abs/2504.16891

2.https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/discussion/574765

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
最新!上海兩區(qū)發(fā)布區(qū)管干部任前公示

最新!上海兩區(qū)發(fā)布區(qū)管干部任前公示

魯中晨報
2025-04-28 17:20:04
“插座倒裝”是“拿命跟風”?快提醒身邊朋友,別拿安全開玩笑!

“插座倒裝”是“拿命跟風”?快提醒身邊朋友,別拿安全開玩笑!

裝修秀
2025-04-28 11:45:03
突發(fā):中國游客在澳遭暴打!全網炸鍋!澳洲市中心出事!數(shù)百人當街亂斗...

突發(fā):中國游客在澳遭暴打!全網炸鍋!澳洲市中心出事!數(shù)百人當街亂斗...

澳洲紅領巾
2025-04-28 13:13:04
張譯拿完影帝后!僅過了3分鐘,就做了重大決定,息影,原因在這

張譯拿完影帝后!僅過了3分鐘,就做了重大決定,息影,原因在這

說說史事
2025-04-28 08:08:17
中日友好醫(yī)院肖飛首次發(fā)聲:醫(yī)院處罰太重,不接受!無醫(yī)療事故

中日友好醫(yī)院肖飛首次發(fā)聲:醫(yī)院處罰太重,不接受!無醫(yī)療事故

小人物看盡人間百態(tài)
2025-04-28 16:16:07
美軍火商給F-35戰(zhàn)斗機“升級”有什么考慮

美軍火商給F-35戰(zhàn)斗機“升級”有什么考慮

國際在線
2025-04-28 17:17:11
縷一縷中日友好醫(yī)院的瓜

縷一縷中日友好醫(yī)院的瓜

量子派
2025-04-27 23:51:56
新加坡聯(lián)合早報:中國寧可兩敗俱傷,也不肯給美國一個臺階下

新加坡聯(lián)合早報:中國寧可兩敗俱傷,也不肯給美國一個臺階下

慢看世界
2025-04-28 09:17:59
被曝取消“五一”前所有航班!航空公司財務人員透露“沒錢飛了”

被曝取消“五一”前所有航班!航空公司財務人員透露“沒錢飛了”

新晚報
2025-04-28 13:53:14
45歲浙江男子娶18歲朝鮮女孩,岳父直言彩禮要一噸大米、兩百萬元

45歲浙江男子娶18歲朝鮮女孩,岳父直言彩禮要一噸大米、兩百萬元

如煙若夢
2025-04-27 16:55:47
終于露出了狐貍尾巴!國民黨高層集體拒絕統(tǒng)一,大陸態(tài)度已變

終于露出了狐貍尾巴!國民黨高層集體拒絕統(tǒng)一,大陸態(tài)度已變

天行艦
2025-04-28 00:00:08
國家發(fā)改委副主任趙辰昕:“有朋友打電話,問了我一個問題”

國家發(fā)改委副主任趙辰昕:“有朋友打電話,問了我一個問題”

政知新媒體
2025-04-28 12:18:35
75個國家沒有想到,第一個獲特朗普降稅待遇的,竟然是中國

75個國家沒有想到,第一個獲特朗普降稅待遇的,竟然是中國

大佬日志
2025-04-28 08:25:06
任賢齊重金買下青島一條街房產!曾在長沙投資

任賢齊重金買下青島一條街房產!曾在長沙投資

三湘都市報
2025-04-28 14:11:31
特朗普聲稱中方領導人打了電話,外交部:近期中美元首沒有通話

特朗普聲稱中方領導人打了電話,外交部:近期中美元首沒有通話

澎湃新聞
2025-04-28 19:08:34
外交部回應涉長江和記出售巴拿馬運河港口交易:望有關各方審慎行事,充分溝通

外交部回應涉長江和記出售巴拿馬運河港口交易:望有關各方審慎行事,充分溝通

澎湃新聞
2025-04-28 15:44:33
中美聯(lián)合國激烈互懟!美國華裔官員中文罵街,中國代表一招反殺。

中美聯(lián)合國激烈互懟!美國華裔官員中文罵街,中國代表一招反殺。

振華觀史
2025-04-28 10:51:55
中日醫(yī)院內部群曝光!肖副主任手術時為哄女人離開,醫(yī)生群里喊人

中日醫(yī)院內部群曝光!肖副主任手術時為哄女人離開,醫(yī)生群里喊人

社會醬
2025-04-28 17:04:40
劉強東是不是該收手了!看商家都被逼成啥樣?飯里的紙條太扎眼…

劉強東是不是該收手了!看商家都被逼成啥樣?飯里的紙條太扎眼…

火山詩話
2025-04-28 10:37:01
女子赤腳踏入4.8億年“地下水晶宮晶花池” 拍照,專家:水池遭不可逆污染

女子赤腳踏入4.8億年“地下水晶宮晶花池” 拍照,專家:水池遭不可逆污染

魯中晨報
2025-04-28 09:16:04
2025-04-28 19:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15114文章數(shù) 513593關注度
往期回顧 全部

科技要聞

大廠圍獵AI人才:部分實習生日薪可達2000

頭條要聞

老漢入院十多分鐘無醫(yī)救后去世 衛(wèi)健局:有責任 沒能力

頭條要聞

老漢入院十多分鐘無醫(yī)救后去世 衛(wèi)健局:有責任 沒能力

體育要聞

“我們欠球迷一個冠軍慶典,現(xiàn)在可以狂歡了”

娛樂要聞

黃渤青島做東請客 桌上全人情世故

財經要聞

事關穩(wěn)就業(yè)、穩(wěn)經濟!四部門聯(lián)合發(fā)聲

汽車要聞

日產中國,重新起跑

態(tài)度原創(chuàng)

健康
親子
房產
教育
數(shù)碼

唇皰疹和口腔潰瘍是"同伙"嗎?

親子要聞

小學老師用AI技術幫孩子們看見未來的自己

房產要聞

灣區(qū)最美戶外教育社區(qū)!這座世界莊園自然能量場,為孩子解鎖人生新高度

教育要聞

高考地理中的“地球心臟”——烏蘭湖

數(shù)碼要聞

華為擎云 W515x 臺式機亮相2025 數(shù)字中國建設峰會

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 陈巴尔虎旗| 香河县| 明水县| 泾源县| 蒙阴县| 大安市| 和政县| 全椒县| 沂南县| 松原市| 祁门县| 三门峡市| 察隅县| 呼玛县| 洞头县| 定陶县| 莱芜市| 林甸县| 调兵山市| 扶余县| 油尖旺区| 通山县| 舞钢市| 新营市| 大荔县| 浦县| 荆门市| 云霄县| 福鼎市| 中卫市| 通许县| 灵武市| 平南县| 吕梁市| 同德县| 佛山市| 如东县| 平利县| 县级市| 远安县| 郸城县|