99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

突破多模態泛化推理能力,OPPO研究院&港科廣提出OThink-MR1技術

0
分享至

  • OThink-MR1團隊 投稿
    量子位 | 公眾號 QbitAI

用上動態強化學習,多模態大模型也能實現泛化推理了?!

來自OPPO研究院和港科廣的科研人員提出了一項新技術——OThink-MR1,將強化學習擴展到多模態語言模型,幫助其更好地應對各種復雜任務和新場景。

研究人員表示,這一技術使業界突破多模態泛化推理能力



眾所周知,多模態大模型可以處理多種類型輸入數據并生成相關輸出,但一遇到復雜推理任務,其能力往往表現不佳。

目前大多數多模態模型在訓練時,主要采用監督微調(SFT)的方法。

SFT就像是老師給學生劃重點,讓學生按照固定的模式學習。雖然這種方法在特定任務上確實能讓模型表現得不錯,但難以培養關鍵的通用推理能力。

與此同時,強化學習(RL)作為另一種訓練方法,開始進入人們的視野。

RL就像是讓學生在不斷嘗試中學習,做得好就給獎勵,做得不好就“挨批評”。這種方法理論上可以讓模型更靈活地應對各種任務,提升其推理能力,但卻存在多模態任務通用能力未充分探索、訓練約束易導致次優瓶頸等問題。



于是乎,OThink-MR1技術應運而生。

那么,它是如何讓多模態模型突破泛化推理能力的呢?

基于動態強化學習

OThink-MR1是一個基于動態強化學習的框架和模型,支持微調多模態語言模型。

其核心“招式”有兩個:一個是動態KL散度策略(GRPO-D),另一個是精心設計的獎勵模型。二者相互配合,讓模型的學習效率和推理能力大幅提升。



先說動態KL散度策略

在強化學習里,探索新的策略和利用已有經驗是兩個很重要的方面,但以前的方法很難平衡這二者的關系,不是在探索階段浪費太多時間,就是過早地依賴已有經驗。

而動態KL散度策略就像是給模型裝了一個“智能導航儀”,能根據訓練進度動態調整探索和利用的平衡

打個比方,在訓練初期,它讓模型像個充滿好奇心的孩子,大膽地去探索各種可能的策略。而隨著訓練的進行,它又會引導模型逐漸利用之前積累的經驗,沿著更靠譜的路線前進。

這樣一來,模型就能更有效地學習,避免陷入局部最優解。

再說獎勵模型。在OThink-MR1里,獎勵模型就像是老師給學生打分的標準。

對于多模態任務,科研人員設計了兩種獎勵:一種是驗證準確性獎勵,另一種是格式獎勵

比如在視覺計數任務中,模型要數出圖片里物體的數量,如果數對了,就能得到驗證準確性獎勵;同時,如果模型的回答格式符合要求,像按照規定的格式寫下答案,還能獲得格式獎勵。

這兩種獎勵加起來,就像老師從多個方面給學生打分,讓模型知道自己在哪些地方做得好,哪些地方還需要改進,從而更有針對性地學習。

實驗環節

為了驗證OThink-MR1的實力,科研人員進行了一系列實驗。

第一個實驗是探究獎勵項和KL散度項對原始GRPO(一種基于強化學習的方法)在同任務驗證中的影響。

在幾何推理任務中,科研人員調整格式獎勵的權重,發現當格式獎勵的權重不為零時,模型的表現明顯更好。這就好比學生寫作文,不僅內容要正確,格式規范也能加分,這樣能讓學生更全面地提升自己的能力。

同時,調整KL散度的權重時,他們發現權重適中時模型表現最佳,太大或太小都會讓模型成績下降。



第二個實驗是跨任務評估,這可是一場真正的“大考”。

以往的研究大多只在同一個任務的不同數據分布上評估模型的泛化能力,而這次實驗直接讓模型挑戰完全不同類型的任務。

科研人員選擇了視覺計數任務和幾何推理任務,這兩個任務難度不同,對模型的能力要求也不一樣。



在跨任務驗證中,用監督微調訓練的模型表現得很差。就像一個只會做一種題型的學生,換了另一種題型就完全不會了。

而經過GRPO-D訓練的模型則表現出色,在從推理任務到理解任務的泛化實驗中,它的成績相比沒有經過訓練的模型提高了很多;在從理解任務到推理任務的泛化實驗中,雖然難度更大,但它也取得了不錯的進步。

這就好比一個學生不僅擅長數學,還能快速掌握語文知識,展現出了很強的學習能力。



第三個實驗是同任務評估。

實驗結果顯示,在同任務驗證中,采用固定KL散度的GRPO方法不如監督微調,但OThink-MR1中的GRPO-D卻能逆襲。

它在視覺計數和幾何推理任務上,成績都超過了監督微調,這就像一個原本成績一般的學生,找到了適合自己的學習方法后,成績突飛猛進,直接超過了那些只會死記硬背的同學。



總體而言,OThink-MR1的出現,為多模態語言模型的發展開辟了新的道路。

它讓我們看到了動態強化學習在提升模型推理能力和泛化能力方面的巨大潛力。在未來,基于OThink-MR1這樣的技術,多模態語言模型有望在更多領域發揮重要作用。

論文地址:https://arxiv.org/abs/2503.16081

?標題:OThink-MR1: Stimulating multimodal generalized reasoning capabilities through dynamic reinforcement learning

?作者:劉志遠1,章玉婷2,劉豐1,張長旺1,孫瑩2,王俊1

?單位:1.OPPO研究院, 2.香港科技大學(廣州)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
網友:湖北這次狂風暴雨加冰雹,汽修店都堵了!保險公司受傷最重

網友:湖北這次狂風暴雨加冰雹,汽修店都堵了!保險公司受傷最重

火山詩話
2025-04-12 10:51:50
驚天巨變!中美隨時進入攤牌狀態

驚天巨變!中美隨時進入攤牌狀態

戶外釣魚哥阿旱
2025-04-12 08:57:37
美教育部長將“AI”稱為“A1” 美網友:這就是教育

美教育部長將“AI”稱為“A1” 美網友:這就是教育

看看新聞Knews
2025-04-11 16:11:09
逆轉!加蘭26+13,布倫森27+2,東部前六誕生,尼克斯認清現實

逆轉!加蘭26+13,布倫森27+2,東部前六誕生,尼克斯認清現實

籃球大視野
2025-04-12 10:39:16
北京腫瘤專家關天瑜教授去世,發病到離世僅一周,專家號僅100元

北京腫瘤專家關天瑜教授去世,發病到離世僅一周,專家號僅100元

一桶漿糊要一統江湖
2025-04-12 07:47:46
華僑“鋼鐵大王”在菲被綁架撕票 知情人:懷疑熟人作案,家屬曾聯系道上的人談判|封面頭條

華僑“鋼鐵大王”在菲被綁架撕票 知情人:懷疑熟人作案,家屬曾聯系道上的人談判|封面頭條

封面新聞
2025-04-11 19:30:05
杜蘭特正式接受火箭1.2億合同,督促太陽盡快交易,還提出2個要求

杜蘭特正式接受火箭1.2億合同,督促太陽盡快交易,還提出2個要求

野渡舟山人
2025-04-11 10:56:19
最新確認!今天開始,影響青島!持續3天→

最新確認!今天開始,影響青島!持續3天→

魯中晨報
2025-04-12 07:59:08
網友:偷拍到導師電腦,人都要崩潰!可愛的小老頭還知道賄賂師母

網友:偷拍到導師電腦,人都要崩潰!可愛的小老頭還知道賄賂師母

火山詩話
2025-04-12 07:00:19
“吃定”一個女人,不是卑微討好,也不是頻繁聯系,而是:三個字

“吃定”一個女人,不是卑微討好,也不是頻繁聯系,而是:三個字

蓮子說情感
2025-04-11 10:14:08
大量美國游客因落地免簽、離境退稅涌入中國,開啟瘋狂購物

大量美國游客因落地免簽、離境退稅涌入中國,開啟瘋狂購物

億通電子游戲
2025-04-11 20:48:00
美媒爆特朗普突然改主意,因美債被大量拋售,日本:我們偷襲成功

美媒爆特朗普突然改主意,因美債被大量拋售,日本:我們偷襲成功

袁周院長
2025-04-11 11:40:08
比房價下跌更難受,3大信號出現,行家:房子正在成為負債

比房價下跌更難受,3大信號出現,行家:房子正在成為負債

巢客HOME
2025-04-12 09:10:04
中國人的語言攻擊能力簡直太強了!老外:中國人罵人像惡魔在低語

中國人的語言攻擊能力簡直太強了!老外:中國人罵人像惡魔在低語

奇特短尾矮袋鼠
2024-11-23 16:08:32
在深山徒步時,我與美艷驢友發生了關系,從此我的噩夢開始了

在深山徒步時,我與美艷驢友發生了關系,從此我的噩夢開始了

溫情郵局
2025-04-10 10:38:45
突然反轉了!蘋果開始做出改變,外媒:終究還是頂不住了!

突然反轉了!蘋果開始做出改變,外媒:終究還是頂不住了!

阿矗論古今
2025-04-07 09:35:23
黃金儲備差距:美國8133噸,俄羅斯2350噸,中國讓人“出乎意料”

黃金儲備差距:美國8133噸,俄羅斯2350噸,中國讓人“出乎意料”

魏家東
2024-12-15 09:45:11
為什么特斯拉用的是寧德時代,為啥還大老遠去用LG的電池?

為什么特斯拉用的是寧德時代,為啥還大老遠去用LG的電池?

車有梗
2025-03-11 06:30:17
美股巨震,特朗普竟炫耀朋友一天賺25億美元!購物小票已出現“關稅附加費”,美網友大對賬:“真的開始了!特朗普征稅,我買單”

美股巨震,特朗普竟炫耀朋友一天賺25億美元!購物小票已出現“關稅附加費”,美網友大對賬:“真的開始了!特朗普征稅,我買單”

每日經濟新聞
2025-04-11 14:19:08
天!57歲林憶蓮胖成這模樣了,大圓臉腰上游泳圈,都快認不出了!

天!57歲林憶蓮胖成這模樣了,大圓臉腰上游泳圈,都快認不出了!

草莓解說體育
2025-04-11 01:04:05
2025-04-12 11:44:52
量子位 incentive-icons
量子位
追蹤人工智能動態
10303文章數 176094關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

牛彈琴:特別的客人來到北京 美國公開威脅"后果嚴重"

頭條要聞

牛彈琴:特別的客人來到北京 美國公開威脅"后果嚴重"

體育要聞

當意甲冠軍跌入意乙降級區 老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態度原創

家居
健康
藝術
公開課
軍事航空

家居要聞

浪漫與優雅 不被定義的現代法式

在中國,到底哪些人在吃“偉哥”?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京與美國中東問題特使結束會談

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 江源县| 凤阳县| 余庆县| 鱼台县| 长汀县| 庐江县| 伽师县| 五大连池市| 江城| 姜堰市| 光泽县| 会宁县| 西安市| 德保县| 灌阳县| 洱源县| 政和县| 连云港市| 信丰县| 林州市| 页游| 南乐县| 哈巴河县| 蕲春县| 奈曼旗| 桐庐县| 乐业县| 桃园县| 临汾市| 邯郸县| 尚义县| 五峰| 汉源县| 江北区| 南部县| 聊城市| 灯塔市| 泽库县| 宾川县| 新巴尔虎左旗| 施甸县|