99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI奧數(shù)大獎(jiǎng)出爐,英偉達(dá)摘桂冠!14B破解34題暴擊DeepSeek R1

0
分享至


新智元報(bào)道

編輯:編輯部 NJY

【新智元導(dǎo)讀】AIMO2最終結(jié)果出爐了!英偉達(dá)團(tuán)隊(duì)NemoSkills拔得頭籌,憑借14B小模型破解了34道奧數(shù)題,完勝DeepSeek R1。

第二屆人工智能數(shù)學(xué)奧林匹克競(jìng)賽(AIMO2)開獎(jiǎng)了!

作為大賽顧問委員會(huì)的一員,陶哲軒激動(dòng)地宣布了最新的結(jié)果——英偉達(dá)團(tuán)隊(duì)AI成功破解了34道題(共50題)。


這一次,50道測(cè)試題保持了與AIMO1相同「數(shù)值答案」形式基礎(chǔ)上,進(jìn)一步提升了「抗暴力破解」的難度。

這場(chǎng)由Kaggle主辦的AI競(jìng)賽,參賽者必須使用開源LLM,在規(guī)定的有限算力條件下,用AI完成解題。

不過,目前最終成績(jī)?nèi)蕴幱趯徍穗A段,但現(xiàn)有數(shù)據(jù)已能確定大概率的勝者。

英偉達(dá)深度學(xué)習(xí)研究員分享,團(tuán)隊(duì)僅用了14B小模型,就拿下了比賽第一。


讓人驚喜的是,微調(diào)后的14B竟然超越了405B的DeepSeek R1。


那么,他們是如何做到的呢?

英偉達(dá)團(tuán)隊(duì)摘桂冠,14B攻克34題

AIMO2每年都會(huì)評(píng)選5名獲勝者,第一名便是英偉達(dá)團(tuán)隊(duì)——NemoSkills。


為了讓大家更直觀地對(duì)這個(gè)分?jǐn)?shù)有一個(gè)認(rèn)識(shí):主辦方使用了DeepSeek R1 405B在同一個(gè)測(cè)試數(shù)據(jù)上,進(jìn)行了無限計(jì)算/時(shí)間的測(cè)試。

結(jié)果發(fā)現(xiàn),R1-405B得分僅僅20分左右。

而英偉達(dá)微調(diào)出的14B模型,以更小參數(shù)規(guī)模,以及時(shí)間和硬件限制下拿下了驚人的34分。

這款模型便是Qwen-14B,在數(shù)百萬合成數(shù)學(xué)測(cè)試集上進(jìn)行了微調(diào),能夠支持CoT推理。

最大的亮點(diǎn)是高度優(yōu)化的推理,僅使用了4個(gè)L4 GPU,在短短5小時(shí)內(nèi)解決了50個(gè)問題中的34個(gè)。

目前,他們尚未提交解決方案,所以一些技術(shù)細(xì)節(jié)還無法窺探。


這個(gè)團(tuán)隊(duì)一共由7個(gè)人組成,他們分別是Christof Henkel、Darragh Hanley、Ivan Sorokin、Benedikt Schifferer、Igor Gitman、Shubham Toshniwal和Ivan Moshkov。


除了英偉達(dá),還有哪些團(tuán)隊(duì)取得了精彩的表現(xiàn)?

清華拿下第二

第二名是來自清華和微軟的三人團(tuán)隊(duì),分別是清華大學(xué)研究助理教授Foxfi Ning、微軟的高級(jí)研究員Zinan Lin以及清華學(xué)子yiyouyc。




左右滑動(dòng)查看

在公開排行榜上, 他們得分34/50(排名第一),在私有排行榜上得分31/50(排名第二)。

最為關(guān)鍵的是,他們是目前Top-5中唯一公開解決方法的參賽團(tuán)隊(duì)。

本次比賽要求同時(shí)優(yōu)化效率和推理性能。

目前,排名前5中,只有排名第二的參賽團(tuán)隊(duì)公布了解決方法。

他們的最終解決方案由三個(gè)主要部分組成:

第一部分:推理導(dǎo)向訓(xùn)練—— 提升模型的推理能力 階段1 - SFT(監(jiān)督微調(diào))和階段2 - DPO(數(shù)據(jù)增強(qiáng)優(yōu)化)使用精選數(shù)據(jù)。

第二部分:效率優(yōu)化—— 提升推理效率 選擇合適的推理引擎、權(quán)重量化、KV緩存量化。

第三部分:推理時(shí)策略—— 改善效率與推理性能的權(quán)衡 設(shè)計(jì)有效的提示語、進(jìn)行自一致性聚合、在樣本/問題級(jí)別進(jìn)行早停以及調(diào)整一些啟發(fā)式超參數(shù)。

訓(xùn)練腳本基于Light-R1項(xiàng)目。


在本地驗(yàn)證方面,用了AIME 2025測(cè)試集(30個(gè)問題)以及參考集(10個(gè)問題),評(píng)估了平均樣本準(zhǔn)確率和通過自一致性聚合的準(zhǔn)確率,以獲得參賽團(tuán)隊(duì)試驗(yàn)解決方案的初步判斷。

第三名,Nokron,AI得分30,4年前加入Kggle。


第四名,S?ren Ravn Andersen,AI得分29,10年前加入Kaggle。


第五名,來自浙江杭州的匿名選手,AI得分29,6年前加入了Kaggle。


AIMO2比賽介紹

AIMO是什么來頭?


這是第二屆AIMO進(jìn)步獎(jiǎng)競(jìng)賽,第一屆的AIMO進(jìn)步獎(jiǎng)于2024年7月由Project Numina團(tuán)隊(duì)贏得。

這次競(jìng)賽增加了獎(jiǎng)金池,提供了全新的題目數(shù)據(jù)集,為參賽者提供更多算力支持,并更新了關(guān)于使用開源大語言模型(LLM)的規(guī)則。

數(shù)學(xué)推理能力是人工智能發(fā)展的一個(gè)關(guān)鍵里程碑,是解決許多復(fù)雜問題的基石,比如工程奇跡或復(fù)雜的金融模型。

然而,目前的人工智能在這方面的能力還比較有限。

人工智能數(shù)學(xué)奧林匹克(AIMO)是一個(gè)總金額高達(dá)1000萬美元的基金,旨在激勵(lì)開發(fā)能夠與國(guó)際數(shù)學(xué)奧林匹克(IMO)頂尖人類選手表現(xiàn)相當(dāng)?shù)拈_源AI模型。

本屆競(jìng)賽包含110道數(shù)學(xué)題目,涵蓋代數(shù)、組合數(shù)學(xué)、幾何和數(shù)論。

相比第一屆,題目難度有所提升,大約達(dá)到國(guó)家奧林匹克競(jìng)賽的水平。

這些題目還被設(shè)計(jì)為「對(duì)AI來說特別難」,需要較強(qiáng)的數(shù)學(xué)推理能力,并且已經(jīng)針對(duì)當(dāng)前開源大語言模型的能力進(jìn)行了測(cè)試。

為了避免訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)混淆的問題,競(jìng)賽采用了由國(guó)際解題團(tuán)隊(duì)創(chuàng)作的全新數(shù)學(xué)題目。



評(píng)估方式

參賽者的提交將根據(jù)預(yù)測(cè)結(jié)果與真實(shí)答案(ground-truth labels)的準(zhǔn)確率進(jìn)行評(píng)估。

簡(jiǎn)單來說,排名依據(jù)是預(yù)測(cè)答案與真實(shí)答案之間完全匹配的比例。

在這場(chǎng)比賽中,每個(gè)真實(shí)答案是一個(gè)0到999之間的整數(shù)。

獎(jiǎng)項(xiàng)設(shè)置

本次競(jìng)賽總獎(jiǎng)金達(dá)到了211.7152萬美元

排名前五團(tuán)隊(duì)的獎(jiǎng)金:

  • 第一名:26.2144萬美元

  • 第二名:13.1072萬美元

  • 第三名:6.5536萬美元

  • 第四名:3.2768萬美元

  • 第五名:1.6384萬美元

總體進(jìn)步獎(jiǎng):

  • 總體進(jìn)步獎(jiǎng)將頒發(fā)給在公開和私有測(cè)試集上均獲得至少47/50分的最高排名團(tuán)隊(duì)。

  • 在前五名獎(jiǎng)金分配后,剩余的獎(jiǎng)金將全部頒發(fā)給總體進(jìn)步獎(jiǎng)得主。

  • 如果某團(tuán)隊(duì)獲得總體進(jìn)步獎(jiǎng),獎(jiǎng)金將至少為158.9248萬美元。

  • 如果本屆競(jìng)賽沒有團(tuán)隊(duì)獲得總體進(jìn)步獎(jiǎng),剩余獎(jiǎng)金將滾入下一屆競(jìng)賽,獎(jiǎng)金額度和分配規(guī)則保持不變。


代碼要求

提交必須通過Notebook完成。提交按鈕在提交后激活需滿足以下條件:

  • CPU Notebook運(yùn)行時(shí)間 ≤ 9小時(shí)

  • GPU Notebook運(yùn)行時(shí)間 ≤ 5小時(shí)

  • 禁用互聯(lián)網(wǎng)訪問

  • 允許使用免費(fèi)且公開的外部數(shù)據(jù),包括預(yù)訓(xùn)練模型

  • 提交文件必須通過API生成


參考資料:

https://x.com/kagglingdieter/status/1910591141138886923

https://mathstodon.xyz/@tao/114319952836204640

https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/leaderboard

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
突然大跳水!暴跌80%

突然大跳水!暴跌80%

魯中晨報(bào)
2025-04-13 22:03:03
蘇群:中國(guó)籃球太需要三寧這樣的后衛(wèi) 山西能打球的人太多了

蘇群:中國(guó)籃球太需要三寧這樣的后衛(wèi) 山西能打球的人太多了

直播吧
2025-04-14 22:07:14
曹德旺胞妹港交所敲鐘,鋰電“后發(fā)者”能否挑戰(zhàn)龍頭格局?

曹德旺胞妹港交所敲鐘,鋰電“后發(fā)者”能否挑戰(zhàn)龍頭格局?

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-04-14 20:55:16
蕭敬騰夫婦在上海豪宅,請(qǐng)大廚上門做飯,吃著飯還牽林有慧的手

蕭敬騰夫婦在上海豪宅,請(qǐng)大廚上門做飯,吃著飯還牽林有慧的手

界史
2025-04-14 10:16:58
事態(tài)越來越可怕!三河公安警徽顏色大變,官方繼續(xù)沉默,全網(wǎng)怒了

事態(tài)越來越可怕!三河公安警徽顏色大變,官方繼續(xù)沉默,全網(wǎng)怒了

奇思妙想草葉君
2025-04-13 23:15:09
78歲特朗普去體檢了!最新報(bào)告出爐!看完結(jié)論兩眼一黑…

78歲特朗普去體檢了!最新報(bào)告出爐!看完結(jié)論兩眼一黑…

17譚
2025-04-14 18:47:40
德國(guó)準(zhǔn)總理:76億人憑什么圍著3.4億人轉(zhuǎn)?美國(guó)大使氣到提前離席

德國(guó)準(zhǔn)總理:76億人憑什么圍著3.4億人轉(zhuǎn)?美國(guó)大使氣到提前離席

大道無形我有型
2025-04-14 16:27:28
三河禁用“紅藍(lán)黑”,原來是“按書記的要求”?

三河禁用“紅藍(lán)黑”,原來是“按書記的要求”?

方清云
2025-04-14 18:12:28
廣東42分慘敗山西!賽后數(shù)據(jù)一目了然,不是胡明軒,全隊(duì)最差是他

廣東42分慘敗山西!賽后數(shù)據(jù)一目了然,不是胡明軒,全隊(duì)最差是他

侃球熊弟
2025-04-14 21:20:01
美國(guó)大豆協(xié)會(huì)主席:關(guān)稅戰(zhàn)將導(dǎo)致美國(guó)農(nóng)民破產(chǎn)

美國(guó)大豆協(xié)會(huì)主席:關(guān)稅戰(zhàn)將導(dǎo)致美國(guó)農(nóng)民破產(chǎn)

澎湃新聞
2025-04-14 16:35:02
充電10分鐘續(xù)航3000里,豐田宣布固態(tài)電池量產(chǎn),日媒:超中國(guó)20年

充電10分鐘續(xù)航3000里,豐田宣布固態(tài)電池量產(chǎn),日媒:超中國(guó)20年

科學(xué)認(rèn)識(shí)論
2025-04-14 19:37:52
搏命對(duì)決!烏克蘭F16飛行員遭雷達(dá)鎖定后,仍冒死沖向俄軍陣地!

搏命對(duì)決!烏克蘭F16飛行員遭雷達(dá)鎖定后,仍冒死沖向俄軍陣地!

凱撒談兵
2025-04-14 20:58:43
“世界不是只有美國(guó)”,德國(guó)候任總理發(fā)聲 馮德萊恩:歐盟將進(jìn)一步轉(zhuǎn)向亞洲

“世界不是只有美國(guó)”,德國(guó)候任總理發(fā)聲 馮德萊恩:歐盟將進(jìn)一步轉(zhuǎn)向亞洲

紅星新聞
2025-04-14 20:33:18
中國(guó)工程院院士鄔賀銓:5G下載速率比4G快7至8倍,但用戶感受不明顯,預(yù)計(jì)2030年6G將投入商用【附6G行業(yè)發(fā)展趨勢(shì)分析】

中國(guó)工程院院士鄔賀銓:5G下載速率比4G快7至8倍,但用戶感受不明顯,預(yù)計(jì)2030年6G將投入商用【附6G行業(yè)發(fā)展趨勢(shì)分析】

前瞻網(wǎng)
2025-04-14 17:12:11
馬斯克終于倒下了

馬斯克終于倒下了

李東陽朋友圈
2025-04-14 12:06:54
克星!廣東本季戰(zhàn)山西5戰(zhàn)4敗 狂輸42分提前認(rèn)輸杜鋒滿臉無奈

克星!廣東本季戰(zhàn)山西5戰(zhàn)4敗 狂輸42分提前認(rèn)輸杜鋒滿臉無奈

醉臥浮生
2025-04-14 21:42:24
宇樹:美國(guó)加關(guān)稅并未有太大影響,沒有哪家企業(yè)不做美國(guó)市場(chǎng)就不行了

宇樹:美國(guó)加關(guān)稅并未有太大影響,沒有哪家企業(yè)不做美國(guó)市場(chǎng)就不行了

澎湃新聞
2025-04-14 19:54:03
山西警方破獲“網(wǎng)友見面強(qiáng)奸案”:嫌疑人已被刑拘

山西警方破獲“網(wǎng)友見面強(qiáng)奸案”:嫌疑人已被刑拘

環(huán)球網(wǎng)資訊
2025-04-14 15:36:03
突發(fā)!美軍戰(zhàn)機(jī)被擊落

突發(fā)!美軍戰(zhàn)機(jī)被擊落

魯中晨報(bào)
2025-04-14 08:43:05
特朗普做重大讓步,中美關(guān)稅戰(zhàn)迎大結(jié)局,王毅送上16字:一錘定音

特朗普做重大讓步,中美關(guān)稅戰(zhàn)迎大結(jié)局,王毅送上16字:一錘定音

涼羽亭
2025-04-13 14:59:48
2025-04-14 23:43:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12527文章數(shù) 66013關(guān)注度
往期回顧 全部

科技要聞

多款熱門芯片暫停報(bào)價(jià) 華強(qiáng)北多檔口歇業(yè)

頭條要聞

任教31年被解聘教師:同情況只剩我一個(gè)仍是"編制外"

頭條要聞

任教31年被解聘教師:同情況只剩我一個(gè)仍是"編制外"

體育要聞

他演過周星馳電影,62歲還要拿世界冠軍

娛樂要聞

專訪 | 王安宇:角色是為觀眾服務(wù)的

財(cái)經(jīng)要聞

通過人民幣貶值應(yīng)對(duì)關(guān)稅?

汽車要聞

B級(jí)車要集體失眠? 吉利銀河星耀8"全都要"

態(tài)度原創(chuàng)

親子
藝術(shù)
旅游
手機(jī)
公開課

親子要聞

夫妻二人在家打羽毛球,既好玩又鍛煉。

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機(jī)要聞

蘋果折疊屏iPhone細(xì)節(jié)曝光,屏下攝像頭技術(shù)加持

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 镇原县| 南投县| 绥阳县| 昌江| 同江市| 仲巴县| 永福县| 北辰区| 高安市| 汉寿县| 陆丰市| 罗甸县| 客服| 沁水县| 徐州市| 正蓝旗| 大丰市| 沛县| 太谷县| 得荣县| 辰溪县| 开封县| 平江县| 怀化市| 绥中县| 棋牌| 青海省| 江津市| 昌乐县| 故城县| 和田市| 老河口市| 顺昌县| 磴口县| 安多县| 章丘市| 墨江| 毕节市| 木兰县| 沙雅县| 三门县|