99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<cite id="mjaba"><track id="mjaba"></track></cite>

<blockquote id="mjaba"><i id="mjaba"><video id="mjaba"></video></i></blockquote>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

無需數據標注!測試時強化學習,模型數學能力暴增|清華&上海AI Lab

2025-04-24 14:24:58　來源: 量子位

北京舉報

0

分享至

克雷西發自凹非寺
量子位 | 公眾號 QbitAI

無需數據標注，在測試時做強化學習，模型數學能力暴增159%！

清華和上海AI Lab周伯文團隊用這樣的方法，對模型進行了強化——

結果模型在多個數據集上的成績均大幅提升，尤其是Qwen-2.5-Math-7B，它做AIME 2024競賽題的成績直接提高了159%。

實驗過程中，強化學習的數據均由被訓練的模型自身生成。

作者還發現，訓練后的模型性能，準確性已經超過了用于訓練它的偽標簽（測試時強化學習過程中產生）。

DeepMind工程師評價，這種測試時強化學習的方式將改變LLM的格局：

它利用預訓練模型和特定任務的提示進行實時自適應，而無需大量帶標簽的數據集，這是向前邁出的重要一步。

模型自己生成強化學習數據

作者提出的測試時強化學習（TTRL）過程是測試時擴展和測試時訓練的結合，具體可以分為“生成、投票、強化”三個大步驟。

第一步生成的目的，是讓模型針對每個輸入的prompt，生成盡可能多樣化的候選答案，該過程通過測試時推理來實現。

其思路是在推理階段增加計算資源以獲得更好的性能，具體到TTRL采用的是增加采樣數量的方式，即對每個prompt，讓模型采樣生成N個不同的答案，而不是只生成一個確定性最高的輸出。

作者的實驗中，當在AIME 2024數據集上應用TTRL訓練Qwen2.5-Math-7B模型時，每個prompt采樣64次(N=64)，溫度系數設為1.0，以鼓勵模型生成多樣化的答案。

投票過程從上一步生成的N個候選答案出發，通過多數投票的方式來估計正確答案，并將其作為偽標簽。

TTRL在實際應用投票機制時還引入了一個參數 Maj@N，表示多數投票的估計準確率。

它衡量的是偽標簽與真實標簽的一致性。通過控制Maj@N，可以權衡偽標簽的質量和數量。

最后一步利用強化學習，基于上一步估計出的偽標簽，來優化語言模型的策略，使其傾向于給出正確答案。

TTRL采用GRPO算法，還加入了重要性采樣和蒙特卡洛估計等技術，以提高訓練效率和穩定性。

模型數學能力大幅提升

為了評估TTRL的效果，作者在AIME 2024、AMC和MATH-500三個數據集上對調整前后的三款模型進行了測試。

在AIME 2024數據集上，對于Qwen2.5-Math-7B基礎模型，TTRL將其準確率從16.7%提高到43.3%，提升幅度高達159.3%，超越了所有在大規模標注數據上訓練的模型。
在AMC數據集上，Qwen2.5-Math-7B、Qwen2.5-Math-1.5B和LLaMA模型的準確率分別獲得了74.9%、63.1%和68.4%的大幅提高。
MATH-500數據集上的表現更為突出，Qwen2.5-Math-7B和Qwen2.5-Math-1.5B分別實現了66.4%和142.4%的驚人提升，LLaMA模型的準確率也提高了29.3%。

平均而言，TTRL使Qwen2.5-Math-7B模型在三個數據集上的性能提高了84.1%。

進一步的泛化性實驗表明，在一個數據集上應用TTRL后，性能的提高可以自然遷移到其他數據集，甚至是從未參與訓練的任務。

為了分析TTRL方法有效的原因，作者比較了TTRL訓練前后模型的多數投票性能。

結果，應用TTRL后，模型的多數投票準確率（Maj@64）顯著高于原始的Qwen模型，說明通過多數投票得到的偽標簽質量優于單個模型輸出。

并且強化學習具備糾錯能力。即使偽標簽并非完全準確，強化學習也可以通過獎懲機制引導模型朝著正確方向優化。

從AIME 2024上標簽準確率和獎勵準確率的變化曲線中可以看到，即使在標簽準確率較低的階段，獎勵準確率也能維持在90%以上。

作者簡介

這項研究的領導者是清華大學C3I課題組博士生張開顏和上海AI實驗室青年研究員崔淦渠。

張開顏的導師是上海人工智能實驗室主任、首席科學家周伯文教授；崔淦渠則畢業于清華NLP實驗室，讀博期間導師是劉知遠副教授。

本文共同一作是張開顏和同樣來自清華的Yuxin Zuo，周伯文和C3I課題組博士后丁寧是本文的通訊作者。

論文地址：
https://arxiv.org/abs/2504.16084

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

DeepMind果蠅登Nature，強化學習再立功！AI模擬飛行，逼真到腿毛顫抖

新智元 2025-04-24 17:25:28
1 跟貼 1
實現人類靈巧雙手技能向機器人遷移，通研院開源MANIPTRANS框架

DeepTech深科技 2025-04-24 23:07:22
5 跟貼 5

上交基于AI開發多感官反饋系統及硬件，建立人機協同空間認知范式

DeepTech深科技 2025-04-24 23:02:43
0 跟貼 0

AI也要007？Letta、伯克利提出「睡眠時間計算」效率翻倍不加錢

機器之心Pro 2025-04-22 18:45:23
3 跟貼 3
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0

OpenAI發最強圖像生成模型API！可高級定制功能，價格低至0.15元/圖

智東西 2025-04-24 23:20:11
0 跟貼 0

機器人會擠牙膏？ManipTrans：高效遷移人類雙手操作技能至靈巧手

機器之心Pro 2025-04-24 18:48:37
2 跟貼 2
ICLR2025｜從探索到掌握：使大模型通過自我驅動的交互掌握工具

DeepTech深科技 2025-02-10 17:06:25
0 跟貼 0

企業落地AI，只靠DeepSeek還不夠

虎嗅APP 2025-03-11 20:52:07
3 跟貼 3
亞馬遜與英偉達高管齊聲：AI數據中心建設熱度未見放緩

財聯社 2025-04-25 02:40:13
0 跟貼 0
136張截圖,vivo開源DeepSeek R1式強化學習,提升GUI智能體預測

機器之心Pro 2025-04-08 18:40:57
0 跟貼 0
以前的和現在的數學解題思路，大家喜歡以前的還是現在的呢，網友：現在的邏輯更加完整

童話鶴壁 2025-04-24 10:49:18
11 跟貼 11
上海市數學競賽題，根式、分式的結合

三樂大掌柜 2025-04-20 22:25:21
1 跟貼 1
美國能打贏胡塞武裝嗎、胡塞背后的戰役策略是什么？

三叔胡侃 2025-04-22 17:28:55
16 跟貼 16
數學解方程競賽題，說難也不難，就看思路對不對

三樂大掌柜 2025-04-22 10:33:14
1 跟貼 1
果然，特朗普對中俄策略變了，普京沒讓咱失望，烏官員：再打4年

戰武科普 2025-04-24 10:09:35
0 跟貼 0
清華北大我公司都開除過，沒有能力我留你干嘛，張雪峰又說大實話

風吟輕夢 2025-04-23 06:20:59
4 跟貼 4
中文數學還沒完全搞懂，外國的還安排上了？

小谷數學 2025-04-23 14:10:00
0 跟貼 0
浙江數學競賽題，80%的學生，都沒有做出這道復雜方程

三樂大掌柜 2025-04-23 22:27:05
1 跟貼 1
數學競賽題，根號疊加的化簡題，難度很大

三樂大掌柜 2025-04-22 10:32:59
1 跟貼 1
龐眾望：我曾害怕有負眾望但清華的同學老師治愈了我

智能相對論 2025-04-22 16:19:10
3 跟貼 3
小學數學，初中生卻不會做

老奇科普 2025-04-24 14:00:26
1 跟貼 1
大哥用一個實驗，瞬間看到了男女差異，男生就不會這樣做

素說笑 2025-04-20 13:22:46
1 跟貼 1
九年級數學競賽題，三次方程怎么解

三樂大掌柜 2025-04-20 22:28:59
1 跟貼 1
這就是傳說中的學霸凡爾賽嗎？哭哭啼啼上清華

客棧影視官 2025-04-20 17:01:57
1 跟貼 1
AI進課堂，教育如何接招

中國青年報 2025-04-24 18:10:20
0 跟貼 0
清華材料的研究生工資5000，張雪峰繃不住了，全程太精彩了！

海海愛吃菜 2025-04-24 13:01:37
0 跟貼 0
2歲多寶寶學數學會算也會寫網友：想知道給他打亂還會嗎？

天希視頻 2025-04-24 10:25:06
0 跟貼 0
小學數學，周期問題！

秒懂奧數李菁老師 2025-04-23 16:21:00
6 跟貼 6
4名中國女生在歐洲女子數學奧林匹克競賽奪金

中國財富網 2025-04-24 17:32:00
0 跟貼 0
全網最接地氣的洋女婿，講一口流利的四川話，清華畢業卻回村挑糞

用耳朵聆聽 2025-04-23 14:09:44
1 跟貼 1
曾經的清華高材生落難成了搬運工，一句老歐徹底破防

小丸子大片場V 2025-04-20 16:25:08
1 跟貼 1
媒體:董明珠稱"海歸派里有間諜絕不會用" 很違背常識

新民周刊 2025-04-24 18:45:08
31862 跟貼 31862
覺得難的孩子，冥思苦想最后大多還是交白卷，不應該啊

公考客棧店小二 2025-04-20 22:10:01
0 跟貼 0
智能車速度刷新：僅10個月，首個純端側大模型上車量產！

量子位 2025-04-24 18:42:58
4 跟貼 4
清華北大畢業的12位明星，他們每個稱得上才子佳人，看看都有誰

田甜愛搞笑 2025-04-22 03:36:50
0 跟貼 0
【PPT、代碼下載】西湖大學：強化學習的數學原理，從零開始到透徹理解

機器學習與Python社區 2025-04-21 10:01:42
0 跟貼 0
清華北大畢業的10大明星，個個都是高材生，你更喜歡哪一位？

燕子愛搞笑 2025-04-22 03:36:16
0 跟貼 0
通向AGI的四層階梯

學術頭條 2025-04-24 20:37:45
0 跟貼 0
86年熊大縝獲平反，有清華學生寫信反映：應給他老師葉企孫也平反

漫步史書 2025-04-24 17:19:03
0 跟貼 0

被拒收2架客機后，波音CEO喊話：我們不為中國造飛機了

被拒收2架客機后，波音CEO喊話：我們不為中國造飛機了

武事匯

2025-04-24 15:14:07

印巴沖突再升級！印度航母出海，巴基斯坦戰機緊急備戰！

印巴沖突再升級！印度航母出海，巴基斯坦戰機緊急備戰！

說天說地說實事

2025-04-24 16:26:59

5月起，中國或將迎來“四大降價潮”！有人松口氣，卻有人更焦慮

5月起，中國或將迎來“四大降價潮”！有人松口氣，卻有人更焦慮

搬磚營Z

2025-04-22 01:33:32

正式退出！巴特勒宣布意外決定，勇士批準，科爾計劃被打亂

正式退出！巴特勒宣布意外決定，勇士批準，科爾計劃被打亂

保持熱愛0263

2025-04-24 12:26:19

前“Google Brain”團隊HR負責人Hwang：為什么中日韓員工很難在谷歌等硅谷大公司當高管？但印度裔就可以

前“Google Brain”團隊HR負責人Hwang：為什么中日韓員工很難在谷歌等硅谷大公司當高管？但印度裔就可以

人工智能學家

2025-04-22 19:08:47

我國非核氫彈剛爆炸，俄羅斯發聲亮了，美印太司令說了句實話

我國非核氫彈剛爆炸，俄羅斯發聲亮了，美印太司令說了句實話

阿芒娛樂說

2025-04-24 02:30:00

中紀委：禁止機關事業單位職工干這6種副業

中紀委：禁止機關事業單位職工干這6種副業

鄉知鄉見

2025-03-24 17:28:08

比劉國梁主動辭職更讓人驚訝，不到48小時，體育界有四大變動

比劉國梁主動辭職更讓人驚訝，不到48小時，體育界有四大變動

清游說娛

2025-04-24 15:09:37

澤連斯基給人類的一封信：有人問我烏克蘭還能撐多久？

澤連斯基給人類的一封信：有人問我烏克蘭還能撐多久？

肖走教授

2025-03-13 00:20:55

貴州女孩突然昏倒，醒后擁有前世記憶，直言是福建富二代轉世

貴州女孩突然昏倒，醒后擁有前世記憶，直言是福建富二代轉世

起喜電影

2025-04-24 13:44:46

CBA是很熱鬧很精彩，但是我們不得不承認，外援鳩占鵲巢博了彩頭

CBA是很熱鬧很精彩，但是我們不得不承認，外援鳩占鵲巢博了彩頭

英雄稚氣

2025-04-23 22:30:47

公安部出手：5月起，駕照年齡限制放寬10年，70歲老人增加5種車型

公安部出手：5月起，駕照年齡限制放寬10年，70歲老人增加5種車型

電動車的那些事兒

2025-04-23 07:46:54

醫保局定調！60歲和70歲退休人員，醫保返款標準相同嗎？挺重要的

醫保局定調！60歲和70歲退休人員，醫保返款標準相同嗎？挺重要的

社保小達人

2025-03-28 10:30:09

一覺醒來，中國斯諾克1勝2負！00后德比創紀錄，周躍龍被轟5破百

一覺醒來，中國斯諾克1勝2負！00后德比創紀錄，周躍龍被轟5破百

劉姚堯的文字城堡

2025-04-24 06:32:29

若不出意外，2025年下半年開始，大部分家庭可能面臨“四大難題”

若不出意外，2025年下半年開始，大部分家庭可能面臨“四大難題”

凡知

2025-02-28 15:05:46

6年前，昔日廠花被丈夫喂到330斤，睡塌兩張床，如今下場令人唏噓

6年前，昔日廠花被丈夫喂到330斤，睡塌兩張床，如今下場令人唏噓

阿芒娛樂說

2025-04-24 07:19:48

你和孩子說話的語氣，決定了孩子的智商和情商（父母必讀）

你和孩子說話的語氣，決定了孩子的智商和情商（父母必讀）

婷媽alan

2025-04-12 17:43:56

特朗普和平計劃正式公布，美國提出5項提議，烏克蘭看完當場拒絕

特朗普和平計劃正式公布，美國提出5項提議，烏克蘭看完當場拒絕

碳基生物關懷組織

2025-04-23 17:06:13

0-1到2-1！斯瓦泰克大逆轉，喜提44萬獎金，還送19歲亞洲少女出局

0-1到2-1！斯瓦泰克大逆轉，喜提44萬獎金，還送19歲亞洲少女出局

侃球熊弟

2025-04-24 23:55:51

德云社鄭好，怒懟閆宗海：在曹云金眼里，鄭好是個屁，你屁都不是

德云社鄭好，怒懟閆宗海：在曹云金眼里，鄭好是個屁，你屁都不是

春序娛樂

2025-04-24 14:28:41

追蹤人工智能動態

10367文章數 176116關注度

往期回顧全部

科技要聞

3.99萬"白菜價"，人形機器人半馬亞軍爆單

頭條要聞

"繼父生母虐死10歲男孩"案今日再開庭男孩生父將到場

頭條要聞

"繼父生母虐死10歲男孩"案今日再開庭男孩生父將到場

體育要聞

拒當黑八倒霉蛋！廣廈又站到了遼寧面前

娛樂要聞

黃曉明生二胎！葉柯產女住上海高級醫院

財經要聞

特朗普考慮對華關稅分級方案

汽車要聞

純電CLA L及Vision V概念車奔馳這次玩大了

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

藝術

本地

公開課

軍事航空

房產要聞

灣區最美徒步掀起打卡潮！這座世界莊園，解鎖當代美好生活新密碼！

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

本地新聞

云游湖北 | 漢川文旅新體驗：千年陶藝邂逅湖光

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
全球十大恐怖禁區有哪些？
李彥宏：百度離破產30天

軍事要聞

紹伊古：不排除俄羅斯恢復核試驗的可能

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：新建县| 皋兰县| 南澳县| 云浮市| 三穗县| 固镇县| 北辰区| 霍林郭勒市| 大化| 牙克石市| 上犹县| 夏津县| 红安县| 新野县| 茂名市| 武陟县| 瑞金市| 临泉县| 绍兴市| 句容市| 葫芦岛市| 阿荣旗| 和田县| 巧家县| 什邡市| 连平县| 安溪县| 宁海县| 牙克石市| 陇川县| 会昌县| 香港 | 叙永县| 重庆市| 纳雍县| 定州市| 于田县| 汤原县| 墨江| 桃源县| 黑龙江省|

<nobr id="k9lua"><optgroup id="k9lua"></optgroup></nobr>