99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

無需數據標注!測試時強化學習,模型數學能力暴增|清華&上海AI Lab

0
分享至

  • 克雷西 發自 凹非寺
    量子位 | 公眾號 QbitAI

無需數據標注,在測試時做強化學習,模型數學能力暴增159%!

清華和上海AI Lab周伯文團隊用這樣的方法,對模型進行了強化——

結果模型在多個數據集上的成績均大幅提升,尤其是Qwen-2.5-Math-7B,它做AIME 2024競賽題的成績直接提高了159%。



實驗過程中,強化學習的數據均由被訓練的模型自身生成。

作者還發現,訓練后的模型性能,準確性已經超過了用于訓練它的偽標簽(測試時強化學習過程中產生)。

DeepMind工程師評價,這種測試時強化學習的方式將改變LLM的格局:

  • 它利用預訓練模型和特定任務的提示進行實時自適應,而無需大量帶標簽的數據集,這是向前邁出的重要一步。



模型自己生成強化學習數據

作者提出的測試時強化學習(TTRL)過程是測試時擴展和測試時訓練的結合,具體可以分為“生成、投票、強化”三個大步驟。



第一步生成的目的,是讓模型針對每個輸入的prompt,生成盡可能多樣化的候選答案,該過程通過測試時推理來實現。

其思路是在推理階段增加計算資源以獲得更好的性能,具體到TTRL采用的是增加采樣數量的方式,即對每個prompt,讓模型采樣生成N個不同的答案,而不是只生成一個確定性最高的輸出。

作者的實驗中,當在AIME 2024數據集上應用TTRL訓練Qwen2.5-Math-7B模型時,每個prompt采樣64次(N=64),溫度系數設為1.0,以鼓勵模型生成多樣化的答案。

投票過程從上一步生成的N個候選答案出發,通過多數投票的方式來估計正確答案,并將其作為偽標簽。



TTRL在實際應用投票機制時還引入了一個參數 Maj@N,表示多數投票的估計準確率。

它衡量的是偽標簽與真實標簽的一致性。通過控制Maj@N,可以權衡偽標簽的質量和數量。

最后一步利用強化學習,基于上一步估計出的偽標簽,來優化語言模型的策略,使其傾向于給出正確答案。

TTRL采用GRPO算法,還加入了重要性采樣和蒙特卡洛估計等技術,以提高訓練效率和穩定性。

模型數學能力大幅提升

為了評估TTRL的效果,作者在AIME 2024、AMC和MATH-500三個數據集上對調整前后的三款模型進行了測試。

  • 在AIME 2024數據集上,對于Qwen2.5-Math-7B基礎模型,TTRL將其準確率從16.7%提高到43.3%,提升幅度高達159.3%,超越了所有在大規模標注數據上訓練的模型。
  • 在AMC數據集上,Qwen2.5-Math-7B、Qwen2.5-Math-1.5B和LLaMA模型的準確率分別獲得了74.9%、63.1%和68.4%的大幅提高。
  • MATH-500數據集上的表現更為突出,Qwen2.5-Math-7B和Qwen2.5-Math-1.5B分別實現了66.4%和142.4%的驚人提升,LLaMA模型的準確率也提高了29.3%。

平均而言,TTRL使Qwen2.5-Math-7B模型在三個數據集上的性能提高了84.1%。



進一步的泛化性實驗表明,在一個數據集上應用TTRL后,性能的提高可以自然遷移到其他數據集,甚至是從未參與訓練的任務。



為了分析TTRL方法有效的原因,作者比較了TTRL訓練前后模型的多數投票性能。

結果,應用TTRL后,模型的多數投票準確率(Maj@64)顯著高于原始的Qwen模型,說明通過多數投票得到的偽標簽質量優于單個模型輸出。



并且強化學習具備糾錯能力。即使偽標簽并非完全準確,強化學習也可以通過獎懲機制引導模型朝著正確方向優化。

從AIME 2024上標簽準確率和獎勵準確率的變化曲線中可以看到,即使在標簽準確率較低的階段,獎勵準確率也能維持在90%以上。



作者簡介

這項研究的領導者是清華大學C3I課題組博士生張開顏和上海AI實驗室青年研究員崔淦渠。

張開顏的導師是上海人工智能實驗室主任、首席科學家周伯文教授;崔淦渠則畢業于清華NLP實驗室,讀博期間導師是劉知遠副教授。

本文共同一作是張開顏和同樣來自清華的Yuxin Zuo,周伯文和C3I課題組博士后丁寧是本文的通訊作者。



論文地址:
https://arxiv.org/abs/2504.16084

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
被拒收2架客機后,波音CEO喊話:我們不為中國造飛機了

被拒收2架客機后,波音CEO喊話:我們不為中國造飛機了

武事匯
2025-04-24 15:14:07
印巴沖突再升級!印度航母出海,巴基斯坦戰機緊急備戰!

印巴沖突再升級!印度航母出海,巴基斯坦戰機緊急備戰!

說天說地說實事
2025-04-24 16:26:59
5月起,中國或將迎來“四大降價潮”!有人松口氣,卻有人更焦慮

5月起,中國或將迎來“四大降價潮”!有人松口氣,卻有人更焦慮

搬磚營Z
2025-04-22 01:33:32
正式退出!巴特勒宣布意外決定,勇士批準,科爾計劃被打亂

正式退出!巴特勒宣布意外決定,勇士批準,科爾計劃被打亂

保持熱愛0263
2025-04-24 12:26:19
前“Google Brain”團隊HR負責人Hwang:為什么中日韓員工很難在谷歌等硅谷大公司當高管?但印度裔就可以

前“Google Brain”團隊HR負責人Hwang:為什么中日韓員工很難在谷歌等硅谷大公司當高管?但印度裔就可以

人工智能學家
2025-04-22 19:08:47
我國非核氫彈剛爆炸,俄羅斯發聲亮了,美印太司令說了句實話

我國非核氫彈剛爆炸,俄羅斯發聲亮了,美印太司令說了句實話

阿芒娛樂說
2025-04-24 02:30:00
中紀委:禁止機關事業單位職工干這6種副業

中紀委:禁止機關事業單位職工干這6種副業

鄉知鄉見
2025-03-24 17:28:08
比劉國梁主動辭職更讓人驚訝,不到48小時,體育界有四大變動

比劉國梁主動辭職更讓人驚訝,不到48小時,體育界有四大變動

清游說娛
2025-04-24 15:09:37
澤連斯基給人類的一封信:有人問我烏克蘭還能撐多久?

澤連斯基給人類的一封信:有人問我烏克蘭還能撐多久?

肖走教授
2025-03-13 00:20:55
貴州女孩突然昏倒,醒后擁有前世記憶,直言是福建富二代轉世

貴州女孩突然昏倒,醒后擁有前世記憶,直言是福建富二代轉世

起喜電影
2025-04-24 13:44:46
CBA是很熱鬧很精彩,但是我們不得不承認,外援鳩占鵲巢博了彩頭

CBA是很熱鬧很精彩,但是我們不得不承認,外援鳩占鵲巢博了彩頭

英雄稚氣
2025-04-23 22:30:47
公安部出手:5月起,駕照年齡限制放寬10年,70歲老人增加5種車型

公安部出手:5月起,駕照年齡限制放寬10年,70歲老人增加5種車型

電動車的那些事兒
2025-04-23 07:46:54
醫保局定調!60歲和70歲退休人員,醫保返款標準相同嗎?挺重要的

醫保局定調!60歲和70歲退休人員,醫保返款標準相同嗎?挺重要的

社保小達人
2025-03-28 10:30:09
一覺醒來,中國斯諾克1勝2負!00后德比創紀錄,周躍龍被轟5破百

一覺醒來,中國斯諾克1勝2負!00后德比創紀錄,周躍龍被轟5破百

劉姚堯的文字城堡
2025-04-24 06:32:29
若不出意外,2025年下半年開始,大部分家庭可能面臨“四大難題”

若不出意外,2025年下半年開始,大部分家庭可能面臨“四大難題”

凡知
2025-02-28 15:05:46
6年前,昔日廠花被丈夫喂到330斤,睡塌兩張床,如今下場令人唏噓

6年前,昔日廠花被丈夫喂到330斤,睡塌兩張床,如今下場令人唏噓

阿芒娛樂說
2025-04-24 07:19:48
你和孩子說話的語氣,決定了孩子的智商和情商(父母必讀)

你和孩子說話的語氣,決定了孩子的智商和情商(父母必讀)

婷媽alan
2025-04-12 17:43:56
特朗普和平計劃正式公布,美國提出5項提議,烏克蘭看完當場拒絕

特朗普和平計劃正式公布,美國提出5項提議,烏克蘭看完當場拒絕

碳基生物關懷組織
2025-04-23 17:06:13
0-1到2-1!斯瓦泰克大逆轉,喜提44萬獎金,還送19歲亞洲少女出局

0-1到2-1!斯瓦泰克大逆轉,喜提44萬獎金,還送19歲亞洲少女出局

侃球熊弟
2025-04-24 23:55:51
德云社鄭好,怒懟閆宗海:在曹云金眼里,鄭好是個屁,你屁都不是

德云社鄭好,怒懟閆宗海:在曹云金眼里,鄭好是個屁,你屁都不是

春序娛樂
2025-04-24 14:28:41
2025-04-25 03:07:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10367文章數 176116關注度
往期回顧 全部

科技要聞

3.99萬"白菜價",人形機器人半馬亞軍爆單

頭條要聞

"繼父生母虐死10歲男孩"案今日再開庭 男孩生父將到場

頭條要聞

"繼父生母虐死10歲男孩"案今日再開庭 男孩生父將到場

體育要聞

拒當黑八倒霉蛋!廣廈又站到了遼寧面前

娛樂要聞

黃曉明生二胎!葉柯產女住上海高級醫院

財經要聞

特朗普考慮對華關稅分級方案

汽車要聞

純電CLA L及Vision V概念車 奔馳這次玩大了

態度原創

房產
藝術
本地
公開課
軍事航空

房產要聞

灣區最美徒步掀起打卡潮!這座世界莊園,解鎖當代美好生活新密碼!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

紹伊古:不排除俄羅斯恢復核試驗的可能

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新建县| 皋兰县| 南澳县| 云浮市| 三穗县| 固镇县| 北辰区| 霍林郭勒市| 大化| 牙克石市| 上犹县| 夏津县| 红安县| 新野县| 茂名市| 武陟县| 瑞金市| 临泉县| 绍兴市| 句容市| 葫芦岛市| 阿荣旗| 和田县| 巧家县| 什邡市| 连平县| 安溪县| 宁海县| 牙克石市| 陇川县| 会昌县| 香港 | 叙永县| 重庆市| 纳雍县| 定州市| 于田县| 汤原县| 墨江| 桃源县| 黑龙江省|