99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中科大、中興提出新后訓(xùn)練范式:小尺寸多模態(tài)模型成功復(fù)現(xiàn)R1推理

0
分享至



本文第一作者為鄧慧琳,中國科學(xué)技術(shù)大學(xué)碩博連讀四年級,研究方向為多模態(tài)模型視覺理解、推理增強(R1強化學(xué)習(xí))、異常檢測。在TAI、TASE、ICCV等期刊和頂會發(fā)表論文。

近年來,隨著大型語言模型(LLMs)的快速發(fā)展,多模態(tài)理解領(lǐng)域取得了前所未有的進步。像 OpenAI、InternVL 和 Qwen-VL 系列這樣的最先進的視覺-語言模型(VLMs),在處理復(fù)雜的視覺-文本任務(wù)時展現(xiàn)了卓越的能力。

然而,這些成就主要依賴于大規(guī)模模型擴展(>32B 參數(shù)),這在資源受限的環(huán)境中造成了顯著的部署障礙。因此,如何通過有效的后訓(xùn)練(post-training)范式來縮小小規(guī)模多模態(tài)模型與大規(guī)模模型之間的性能差距,是亟待解決的問題。

目前,VLM 的主流訓(xùn)練方法是監(jiān)督微調(diào)(SFT),即使用人工標注或 AI 生成的高質(zhì)量數(shù)據(jù)對模型進行有監(jiān)督訓(xùn)練。但這種方法在小模型上存在兩個關(guān)鍵問題:

域外泛化能力不足(Out-of-Domain generalization collapse):容易過擬合訓(xùn)練數(shù)據(jù),在未見過的場景時性能顯著下降。

推理能力有限(shallow reasoning abilities):傾向于淺層模式匹配,而非真正的理解和推理。這導(dǎo)致模型雖能應(yīng)對相似問題,但難以處理需要深度思考的復(fù)雜問題。



圖 1. 實驗結(jié)果分析。 (a) SFT 與 RL 方法性能對比:通過對比域內(nèi)和域外性能,實驗證實了強化學(xué)習(xí)方法在各類視覺任務(wù)中具有更強的 OOD 泛化能力。 (b) "磚墻"現(xiàn)象分析:在小規(guī)模 VLMs 中觀察到:面對復(fù)雜樣本時出現(xiàn)訓(xùn)練不穩(wěn)定性,模型最終收斂到次優(yōu)解。我們提出的課程強化學(xué)習(xí)方法采用難度感知的獎勵設(shè)計,確保模型能力從基礎(chǔ)任務(wù)到復(fù)雜推理任務(wù)的穩(wěn)步提升。

通過系統(tǒng)實驗,我們發(fā)現(xiàn)基于強化學(xué)習(xí)的訓(xùn)練方法在提升模型域外泛化性方面具有獨特優(yōu)勢。

然而,在實踐中我們觀察到一個顯著的「磚墻」(Brick Wall)現(xiàn)象:小規(guī)模模型在簡單任務(wù)上快速進步,但在復(fù)雜任務(wù)上遇到瓶頸,甚至導(dǎo)致已掌握能力的退化。這種現(xiàn)象表現(xiàn)為訓(xùn)練過程的劇烈震蕩,最終導(dǎo)致模型收斂到次優(yōu)解。

為突破這一瓶頸,我們從課程學(xué)習(xí)(Curriculum Learning, CL)中汲取靈感。課程學(xué)習(xí)是一種將模型逐步暴露于遞增復(fù)雜任務(wù)的訓(xùn)練策略。我們提出了課程式強化學(xué)習(xí)后訓(xùn)練范式(Curr-ReFT),確保模型能力從基礎(chǔ)任務(wù)到復(fù)雜推理任務(wù)的穩(wěn)步提升。

這一創(chuàng)新方法能夠幫助小型 VLMs 突破性能瓶頸,在保持部署友好性的同時,實現(xiàn)與大規(guī)模模型相媲美的推理能力。



論文標題: Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning

論文鏈接:https://arxiv.org/pdf/2503.07065

開源鏈接:

https://github.com/ding523/Curr_REFT(代碼)https://huggingface.co/datasets/ZTE-AIM/Curr-ReFT-data(數(shù)據(jù))https://huggingface.co/ZTE-AIM/3B-Curr-ReFT(模型權(quán)重)https://huggingface.co/ZTE-AIM/7B-Curr-ReFT(模型權(quán)重)

工作概述

在中小尺寸多模態(tài)大模型上,我們成功復(fù)現(xiàn)了 R1,并提出了一種創(chuàng)新的后訓(xùn)練范式 Curr-ReFT。通過結(jié)合課程強化學(xué)習(xí)和基于拒絕采樣的自我改進方法,我們顯著提升了視覺語言模型(VLM)的推理能力和泛化能力。

理論與實驗分析

強化學(xué)習(xí)的重塑能力:我們證明了基于規(guī)則的強化學(xué)習(xí)能夠有效重塑多模態(tài)/CV 任務(wù)的訓(xùn)練方案,從傳統(tǒng)的精調(diào)轉(zhuǎn)向強化精調(diào)。

提升推理與泛化能力:實驗結(jié)果顯示,強化學(xué)習(xí)方法顯著提升了 VLM 在分布外數(shù)據(jù)上的表現(xiàn)。

創(chuàng)新框架

Curr-ReFT:我們提出了一種新型后訓(xùn)練范式,結(jié)合課程強化學(xué)習(xí)和自我改進策略。在 Qwen2.5-VL-3B 和 Qwen2.5-VL-7B 模型中驗證了其有效性。

全面評估

在多個自建數(shù)據(jù)集和權(quán)威基準測試上進行對比實驗,驗證了模型的通用表現(xiàn),結(jié)果表明 7B 模型甚至超越了最新的 InternVL2.5-26B 和 38B 模型。

具體方法



圖 2. 所提出的 Curr-ReFT 后訓(xùn)練范式整體框架。Curr-ReFT 包含兩個連續(xù)的訓(xùn)練階段:1.課程強化學(xué)習(xí):通過與任務(wù)復(fù)雜度匹配的獎勵機制,逐步提升任務(wù)難度。2.基于拒絕采樣的自我改進:維持 LLM 模型的基礎(chǔ)能力。

Curr-ReFT 包含兩個連續(xù)的訓(xùn)練階段:

課程強化學(xué)習(xí):通過難度感知的獎勵設(shè)計確保模型能力的穩(wěn)步提升,從基礎(chǔ)的視覺感知逐步過渡到復(fù)雜的推理任務(wù)。

基于拒絕采樣的自我改進:通過從高質(zhì)量的多模態(tài)和語言樣本中進行選擇性學(xué)習(xí),維持 VLMs 的基礎(chǔ)能力。



圖 3. 訓(xùn)練數(shù)據(jù)組織架構(gòu)圖。 (a) 課程強化學(xué)習(xí)的三階段漸進式響應(yīng)格式示例。展示了任務(wù)從簡單到困難的遞進過程,呈現(xiàn)不同階段的響應(yīng)格式變化。 (b) 拒絕采樣 SFT 階段使用的數(shù)據(jù)來源分布。

Stage1:課程強化學(xué)習(xí)(Curriculum Reinforcement Learning)

課程學(xué)習(xí)(Curriculum Learning,CL)作為一種教學(xué)式訓(xùn)練策略,其核心思想是讓模型循序漸進地接觸復(fù)雜度遞增的任務(wù)。

針對強化學(xué)習(xí)中普遍存在的訓(xùn)練不穩(wěn)定性和收斂性問題,我們創(chuàng)新性地將課程學(xué)習(xí)與 GRPO 相結(jié)合,突破了傳統(tǒng)基于樣本難度評估的局限,轉(zhuǎn)而關(guān)注任務(wù)層面的漸進式學(xué)習(xí)。

本研究的關(guān)鍵創(chuàng)新點在于設(shè)計了難度感知的獎勵機制,該機制與任務(wù)的自然進階路徑相匹配,具體包括三個遞進階段:

二元決策階段(Binary Decision)

多項選擇階段(Multiple Choice)

開放式回答階段(Open-ended Response)

這一課程強化學(xué)習(xí)(Curr-RL)框架通過精確校準任務(wù)復(fù)雜度對應(yīng)的獎勵機制,成功實現(xiàn)了視覺感知和數(shù)學(xué)推理任務(wù)的穩(wěn)定優(yōu)化過程。

Stage2:拒絕采樣自我增強(Rejected Sample based Self-improvement)

數(shù)據(jù)準備過程涉及對綜合數(shù)據(jù)集的系統(tǒng)采樣。我們使用 GPT-4-O 作為獎勵模型,從多個維度評估生成的響應(yīng),評估標準包括:準確性、邏輯一致性、格式規(guī)范性、語言流暢度。

所有響應(yīng)在 0-100 分范圍內(nèi)進行量化評估。得分超過 85 分的響應(yīng)及其對應(yīng)的問題會被納入增強數(shù)據(jù)集。最終整理的數(shù)據(jù)集包含 1,520 個高質(zhì)量樣本,涵蓋多個領(lǐng)域:數(shù)學(xué)、科學(xué)、通用場景的通用知識。數(shù)據(jù)分布如下:

1、數(shù)學(xué)領(lǐng)域(共 700 條數(shù)據(jù)):

多模態(tài)數(shù)據(jù)(300 條):

Geometry3K_MathV360K(100 條)

Geo170k_qa(100 條)

Geomverse(100 條)

純文本數(shù)據(jù):

SK1.1 數(shù)學(xué)題(400 條)

2、科學(xué)領(lǐng)域(共 320 條數(shù)據(jù)):

多模態(tài)數(shù)據(jù)(220 條):

Scienceqa_cauldron(100 條)

Scienceqa_nona_context(120 條)

純文本數(shù)據(jù):

SK1.1 科學(xué)題(100 條)

3、通識領(lǐng)域(共 500 條多模態(tài)數(shù)據(jù)):

Illava_cot_100k(300 條)

Visual7w(100 條)

VSR(100 條)

實驗結(jié)果

為了驗證我們的模型在多模態(tài)數(shù)學(xué)推理任務(wù)中的表現(xiàn),我們進行了廣泛的實驗,并在多個基準數(shù)據(jù)集上進行了測試。以下是實驗部分的詳細介紹:

實驗設(shè)置

1、 Visual Datasets

我們構(gòu)建了一個全面的評估框架,涵蓋視覺檢測、視覺分類和多模態(tài)數(shù)學(xué)推理三個主要任務(wù),以評估強化學(xué)習(xí)對視覺語言模型的有效性和泛化能力。

視覺檢測:使用 RefCOCO 和 RefGta 數(shù)據(jù)集。

視覺分類:采用 RefCOCO、RefCOCOg和 Pascal-VOC 數(shù)據(jù)集。

多模態(tài)數(shù)學(xué)推理:結(jié)合 Math360K、Geo170K 和 CLEVER-70k-Counting 數(shù)據(jù)集。

2、Benchmarks

我們在多個權(quán)威基準數(shù)據(jù)集上評估了模型的表現(xiàn),包括:

MathVisa:綜合數(shù)學(xué)基準。

MATH:高中競賽級別數(shù)學(xué)問題。

AI2D:小學(xué)科學(xué)圖表及相關(guān)問題。

MMVet 和 MMBench:復(fù)雜推理和多模態(tài)能力評估。

實驗結(jié)果

我們展示了使用課程強化微調(diào)(Curr-ReFT)訓(xùn)練的模型在多模態(tài)任務(wù)上的顯著性能提升,特別是在跨領(lǐng)域泛化能力和復(fù)雜推理任務(wù)方面。

與傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法相比,我們的方法不僅提高了準確率,還增強了模型處理未見過的數(shù)據(jù)的能力。以下表格展示了不同訓(xùn)練方法在域內(nèi)和域外數(shù)據(jù)集上的性能對比。具體包括傳統(tǒng)監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL)兩種方法:



通過這些實驗結(jié)果可以看出,強化學(xué)習(xí)訓(xùn)練(RL)方法在提高模型的域內(nèi)和域外表現(xiàn)方面具有顯著優(yōu)勢,尤其是在處理未見過的數(shù)據(jù)時,能夠保持較高的準確率。

Visual Datasets 上不同方法模型的測試結(jié)果如下:



為了驗證 Curr-ReFT 的泛化性以及使用后不會削弱模型在其他領(lǐng)域的推理能力,我們在多模態(tài)領(lǐng)域多個 Benchmark 數(shù)據(jù)集上進行驗證。Benchmarks 上不同方法模型的測試結(jié)果如下(評測集裁判模型使用 GPT-3.5):



總結(jié)

本研究聚焦于提升小規(guī)模視覺-語言模型(VLMs)在推理能力和域外(OOD)泛化性能兩個關(guān)鍵方面的表現(xiàn)。通過實證研究,我們發(fā)現(xiàn)強化學(xué)習(xí)不僅能有效提升模型的推理能力,更在視覺任務(wù)中展現(xiàn)出超出預(yù)期的泛化性能提升。

基于這一重要發(fā)現(xiàn),我們提出了創(chuàng)新性的課程式強化學(xué)習(xí)微調(diào)(Curr-ReFT)后訓(xùn)練范式。該方法巧妙地融合了漸進式課程學(xué)習(xí)與拒絕采樣策略。Curr-ReFT 通過兩個關(guān)鍵機制:

任務(wù)復(fù)雜度的漸進式提升

高質(zhì)量樣本的選擇性學(xué)習(xí) 成功實現(xiàn)了模型性能的顯著提升。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
勞東燕:山西大同訂婚強奸案成為輿論熱點,令人悲哀!

勞東燕:山西大同訂婚強奸案成為輿論熱點,令人悲哀!

勞東燕
2025-04-17 16:08:29
56 歲大佬畢光鈞墜亡:凌晨在陽臺靜坐 3 小時,背后故事令人唏噓

56 歲大佬畢光鈞墜亡:凌晨在陽臺靜坐 3 小時,背后故事令人唏噓

老貓觀點
2025-04-17 19:53:51
霍啟山與一漂亮女生浙江被偶遇!眼神不簡單,戀情傳聞非空穴來風(fēng)

霍啟山與一漂亮女生浙江被偶遇!眼神不簡單,戀情傳聞非空穴來風(fēng)

情感大頭說說
2025-04-18 03:58:13
蒙太古杯U16國少1-0喀麥隆U16,蕭晨熙任意球制勝

蒙太古杯U16國少1-0喀麥隆U16,蕭晨熙任意球制勝

懂球帝
2025-04-18 02:20:28
收到美財長會晤邀約,中方深知談判時機已到,立馬換上王牌代表

收到美財長會晤邀約,中方深知談判時機已到,立馬換上王牌代表

聞識
2025-04-17 16:18:51
勁爆!重慶這條高速將擴成八車道 告別堵車

勁爆!重慶這條高速將擴成八車道 告別堵車

奇思妙想生活家
2025-04-18 03:19:51
大黑牛跟九億姐離婚的真相

大黑牛跟九億姐離婚的真相

八卦瘋叔
2025-04-17 11:24:21
“又拿個案當全體了”,西工大人均40w年薪遭家長嘲諷:別忽悠了

“又拿個案當全體了”,西工大人均40w年薪遭家長嘲諷:別忽悠了

熙熙說教
2025-04-17 20:40:45
16位中央巡視組組長,已全部亮相

16位中央巡視組組長,已全部亮相

政知新媒體
2025-04-17 21:20:16
今年北電表演專業(yè)全國前十名出爐,全都長相周正,沒有網(wǎng)紅臉

今年北電表演專業(yè)全國前十名出爐,全都長相周正,沒有網(wǎng)紅臉

觀察鑒娛
2025-04-17 09:55:12
突然發(fā)現(xiàn)全國人民都不敢接電話了!

突然發(fā)現(xiàn)全國人民都不敢接電話了!

振華觀史
2025-04-15 13:29:07
世界第1拒爆冷!王皓暫停力挽狂瀾,林詩棟4-3卡爾伯格,晉級8強

世界第1拒爆冷!王皓暫停力挽狂瀾,林詩棟4-3卡爾伯格,晉級8強

釘釘陌上花開
2025-04-17 15:07:12
王興這步棋下得絕!圍魏救趙,你搞我的外賣,我就搞你的電商!

王興這步棋下得絕!圍魏救趙,你搞我的外賣,我就搞你的電商!

青青子衿
2025-04-17 01:57:04
所有人都在鼓吹黃金價格要破萬的時候,往往就是散戶被收割的開始

所有人都在鼓吹黃金價格要破萬的時候,往往就是散戶被收割的開始

流蘇晚晴
2025-04-17 19:05:55
尼日爾吞中國海外資產(chǎn),中石油22年心血被搶,中國可能采取對策?

尼日爾吞中國海外資產(chǎn),中石油22年心血被搶,中國可能采取對策?

華人星光
2025-04-12 12:18:59
關(guān)曉彤看上的是這個?感覺像華晨宇的風(fēng)格了,還以為是位阿姨呢

關(guān)曉彤看上的是這個?感覺像華晨宇的風(fēng)格了,還以為是位阿姨呢

喜歡歷史的阿繁
2025-04-18 00:31:21
韓國財閥一手策劃的狂歡演唱會,綠了臺下幾萬個粉絲?

韓國財閥一手策劃的狂歡演唱會,綠了臺下幾萬個粉絲?

每日娛樂鮮報
2025-04-09 08:34:34
恒安集團創(chuàng)始人許連捷逝世,享年73歲

恒安集團創(chuàng)始人許連捷逝世,享年73歲

澎湃新聞
2025-04-18 00:34:27
女子雙肺全白,搶救12天!醫(yī)生提醒:早期癥狀似感冒

女子雙肺全白,搶救12天!醫(yī)生提醒:早期癥狀似感冒

環(huán)球網(wǎng)資訊
2025-04-17 16:43:15
逼平法國隊之后,57歲日本籍主帥再發(fā)威:率中國U16掀翻非洲勁旅

逼平法國隊之后,57歲日本籍主帥再發(fā)威:率中國U16掀翻非洲勁旅

側(cè)身凌空斬
2025-04-18 02:19:59
2025-04-18 07:11:01
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10373文章數(shù) 142294關(guān)注度
往期回顧 全部

科技要聞

余承東大講安全,絕口不提智駕"替你開車"

頭條要聞

美知名經(jīng)濟學(xué)家:特朗普低估了中國 也沒有留下逃生門

頭條要聞

美知名經(jīng)濟學(xué)家:特朗普低估了中國 也沒有留下逃生門

體育要聞

結(jié)束16年等待,一支強硬的阿森納向我們走來

娛樂要聞

張檬順利產(chǎn)子,韓國婆婆趕赴香港陪產(chǎn)

財經(jīng)要聞

李強:要把握政策力度 必要時敢于打破常規(guī)

汽車要聞

一躍跳過障礙/秒切防御姿態(tài) 看懂嵐圖"開掛"絕技

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
旅游
教育
時尚

數(shù)碼要聞

蘋果發(fā)布《環(huán)境進展報告》:庫克表示2030年實現(xiàn)全業(yè)務(wù)碳中和目標

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

如何培養(yǎng)孩子讀書學(xué)習(xí)的習(xí)慣?讓孩子找到讀書的樂趣?

劣跡藝人不 “安分”,集體 “搞事情”,想復(fù)出?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 阿瓦提县| 涡阳县| 双牌县| 绥阳县| 朝阳区| 樟树市| 抚远县| 旌德县| 丹棱县| 巴楚县| 措勤县| 屯门区| 衢州市| 泉州市| 盐城市| 公主岭市| 铜陵市| 安徽省| 紫云| 平安县| 白朗县| 太仓市| 肇源县| 雷波县| 巫山县| 唐河县| 沛县| 美姑县| 寿光市| 苏尼特左旗| 大理市| 雅江县| 万安县| 涞水县| 理塘县| 宁蒗| 繁昌县| 合川市| 宜春市| 年辖:市辖区| 五家渠市|