99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<cite id="iitih"><track id="iitih"></track></cite>

<sup id="iitih"></sup><cite id="iitih"><track id="iitih"></track></cite>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

突破多模態泛化推理能力，OPPO研究院&港科廣提出OThink-MR1技術

2025-03-30 10:44:59　來源: 量子位

北京舉報

0

分享至

OThink-MR1團隊投稿
量子位 | 公眾號 QbitAI

用上動態強化學習，多模態大模型也能實現泛化推理了？！

來自OPPO研究院和港科廣的科研人員提出了一項新技術——OThink-MR1，將強化學習擴展到多模態語言模型，幫助其更好地應對各種復雜任務和新場景。

研究人員表示，這一技術使業界突破多模態泛化推理能力

眾所周知，多模態大模型可以處理多種類型輸入數據并生成相關輸出，但一遇到復雜推理任務，其能力往往表現不佳。

目前大多數多模態模型在訓練時，主要采用監督微調（SFT）的方法。

SFT就像是老師給學生劃重點，讓學生按照固定的模式學習。雖然這種方法在特定任務上確實能讓模型表現得不錯，但難以培養關鍵的通用推理能力。

與此同時，強化學習（RL）作為另一種訓練方法，開始進入人們的視野。

RL就像是讓學生在不斷嘗試中學習，做得好就給獎勵，做得不好就“挨批評”。這種方法理論上可以讓模型更靈活地應對各種任務，提升其推理能力，但卻存在多模態任務通用能力未充分探索、訓練約束易導致次優瓶頸等問題。

于是乎，OThink-MR1技術應運而生。

那么，它是如何讓多模態模型突破泛化推理能力的呢？

基于動態強化學習

OThink-MR1是一個基于動態強化學習的框架和模型，支持微調多模態語言模型。

其核心“招式”有兩個：一個是動態KL散度策略（GRPO-D），另一個是精心設計的獎勵模型。二者相互配合，讓模型的學習效率和推理能力大幅提升。

先說動態KL散度策略

在強化學習里，探索新的策略和利用已有經驗是兩個很重要的方面，但以前的方法很難平衡這二者的關系，不是在探索階段浪費太多時間，就是過早地依賴已有經驗。

而動態KL散度策略就像是給模型裝了一個“智能導航儀”，能根據訓練進度動態調整探索和利用的平衡

打個比方，在訓練初期，它讓模型像個充滿好奇心的孩子，大膽地去探索各種可能的策略。而隨著訓練的進行，它又會引導模型逐漸利用之前積累的經驗，沿著更靠譜的路線前進。

這樣一來，模型就能更有效地學習，避免陷入局部最優解。

再說獎勵模型。在OThink-MR1里，獎勵模型就像是老師給學生打分的標準。

對于多模態任務，科研人員設計了兩種獎勵：一種是驗證準確性獎勵，另一種是格式獎勵

比如在視覺計數任務中，模型要數出圖片里物體的數量，如果數對了，就能得到驗證準確性獎勵；同時，如果模型的回答格式符合要求，像按照規定的格式寫下答案，還能獲得格式獎勵。

這兩種獎勵加起來，就像老師從多個方面給學生打分，讓模型知道自己在哪些地方做得好，哪些地方還需要改進，從而更有針對性地學習。

實驗環節

為了驗證OThink-MR1的實力，科研人員進行了一系列實驗。

第一個實驗是探究獎勵項和KL散度項對原始GRPO（一種基于強化學習的方法）在同任務驗證中的影響。

在幾何推理任務中，科研人員調整格式獎勵的權重，發現當格式獎勵的權重不為零時，模型的表現明顯更好。這就好比學生寫作文，不僅內容要正確，格式規范也能加分，這樣能讓學生更全面地提升自己的能力。

同時，調整KL散度的權重時，他們發現權重適中時模型表現最佳，太大或太小都會讓模型成績下降。

第二個實驗是跨任務評估，這可是一場真正的“大考”。

以往的研究大多只在同一個任務的不同數據分布上評估模型的泛化能力，而這次實驗直接讓模型挑戰完全不同類型的任務。

科研人員選擇了視覺計數任務和幾何推理任務，這兩個任務難度不同，對模型的能力要求也不一樣。

在跨任務驗證中，用監督微調訓練的模型表現得很差。就像一個只會做一種題型的學生，換了另一種題型就完全不會了。

而經過GRPO-D訓練的模型則表現出色，在從推理任務到理解任務的泛化實驗中，它的成績相比沒有經過訓練的模型提高了很多；在從理解任務到推理任務的泛化實驗中，雖然難度更大，但它也取得了不錯的進步。

這就好比一個學生不僅擅長數學，還能快速掌握語文知識，展現出了很強的學習能力。

第三個實驗是同任務評估。

實驗結果顯示，在同任務驗證中，采用固定KL散度的GRPO方法不如監督微調，但OThink-MR1中的GRPO-D卻能逆襲。

它在視覺計數和幾何推理任務上，成績都超過了監督微調，這就像一個原本成績一般的學生，找到了適合自己的學習方法后，成績突飛猛進，直接超過了那些只會死記硬背的同學。

總體而言，OThink-MR1的出現，為多模態語言模型的發展開辟了新的道路。

它讓我們看到了動態強化學習在提升模型推理能力和泛化能力方面的巨大潛力。在未來，基于OThink-MR1這樣的技術，多模態語言模型有望在更多領域發揮重要作用。

論文地址：https://arxiv.org/abs/2503.16081

?標題：OThink-MR1: Stimulating multimodal generalized reasoning capabilities through dynamic reinforcement learning

?作者：劉志遠1,章玉婷2,劉豐1,張長旺1,孫瑩2,王俊1

?單位：1.OPPO研究院, 2.香港科技大學（廣州）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI看柯南2分鐘揪真兇，商湯600B多模態MoE推理封神！交互記憶全線升級

新智元 2025-04-11 17:46:51
1 跟貼 1
簡單三步教你用混合現實“復活”童年舊物

DeepTech深科技 2025-04-11 19:25:52
0 跟貼 0

微軟AI模型MatterGen能根據需求生成新材料

量子位 2025-01-21 18:07:40
30 跟貼 30

奧特曼首揭GPT-4.5內幕，一個bug搞崩10萬GPU！5人即可重訓GPT-4

新智元 2025-04-11 15:34:25
2 跟貼 2
200B參數擊敗滿血DeepSeek-R1，豆包推理模型Seed-Thinking-v1.5

機器之心Pro 2025-04-11 11:54:20
14 跟貼 14

誰是開源界的杠把子？

虎嗅APP 2025-04-11 23:29:08
0 跟貼 0

超越工具思維：AI時代的組織進化

經濟觀察報 2025-04-12 11:15:06
0 跟貼 0
吳恩達痛批美國關稅：拖了AI后腿

智東西 2025-04-12 11:35:19
0 跟貼 0

打開了影像新賽道的大門？OPPO Find X8 Ultra影像體驗

PConline太平洋科技 2025-04-10 20:50:25
0 跟貼 0
首發凝光影像和夜神五攝系統，OPPO發布Find X8 Ultra旗艦新品 | 科技前線

鈦媒體APP 2025-04-11 10:03:23
22 跟貼 22
用OPPO Find X8 Ultra拍港風夜景人像大片

愛范兒 2025-04-10 20:51:59
0 跟貼 0
OPPO中國區總裁劉波回應美國關稅挑戰：中國手機行業經歷過大風大浪將做好自己應做的事

每日經濟新聞 2025-04-11 21:11:09
0 跟貼 0
專訪劉作虎：讓計算攝影實現真實自然的拍攝效果

TechWeb 2025-04-11 14:34:06
6 跟貼 6
OPPO Find X8 Ultra變身電子阿膠，一鍵幫你補血補氣色

短的發布會 2025-04-12 11:17:01
0 跟貼 0
專家建議：三方合力應對2025惠州中考

南方都市報 2025-04-11 12:47:11
0 跟貼 0
Kimi 16B勝GPT4o！開源視覺推理模型：MoE架構，推理時僅激活2.8B

量子位 2025-04-10 13:30:11
12 跟貼 12
復蘇的實驗品

艾瑪影視匯 2025-04-09 17:28:51
1 跟貼 1
老師帶同學們做實驗，同學們玩的很開心，網友：這是什么原理

河海觀潮 2025-04-10 15:40:30
0 跟貼 0
上汽預熱上海車展：與 OPPO 合作首款車型將落地 MG 品牌

IT之家 2025-04-11 16:04:07
40 跟貼 40
老師帶學生們做實驗，孩子們的眼睛里，躍動著求知的小火苗

青島資訊 2025-04-11 13:28:25
0 跟貼 0
南京市建鄴高級中學順利開展第五屆青年教師匯報課

新魅力校園 2025-04-12 09:38:23
0 跟貼 0
組圖：“小托育”托起“大幸福”

人民資訊 2025-04-11 09:27:56
1 跟貼 1
網友利用物理知識打印，打印出來的紙掉落地上直接整齊排在墻角，網友：誰能把這個物理公式寫出來

逛吃青島 2025-04-10 19:54:57
31 跟貼 31
為啥318會堵車幾個小時？就是這種人太多了

泥塑動物 2025-04-10 13:58:07
571 跟貼 571
OPPO Find N5 上手：薄得像片口香糖？

愛范兒 2025-02-13 16:00:37
49 跟貼 49
7字頭大電池+百瓦快充，真我GT7要做新卷王？

雷科技 2025-04-11 17:10:03
2 跟貼 2
你怎么知道我剛換的Find X8 Ultra ？

小喵說科技 2025-04-11 17:11:02
1 跟貼 1
這樣也能偶遇莎莎拍廣告？OPPO才是寵莎狂魔啊！

數科先驅 2025-04-09 15:49:43
0 跟貼 0
玄學的玄與妙：探索認知世界多元維度基于人體工程學的深度解析

人體工程學生態博覽院 2025-04-12 07:47:57
0 跟貼 0
OPPO是真的很愛莎莎了，每一個元素都是滿滿的細節

星探長娛樂 2025-04-11 15:30:56
0 跟貼 0
紅旗到了三河也要變綠！“紅十字綠”被緊急拆除，當地這樣回應

垛垛糖 2025-04-11 13:33:59
10113 跟貼 10113
拒絕「美麗廢物」！OPPO Watch X2 Mini 功能 or 審美告別二選一

泡泡網 2025-04-08 17:07:12
0 跟貼 0
用四臺OPPO Find N5蕩秋千是一種什么樣的體驗？

愛范兒 2025-02-13 18:53:17
0 跟貼 0
藍星那些事~鷹醬遠程養殖技術！

包子同學呀 2025-04-11 11:03:39
2 跟貼 2
費高云主政合肥，曾長期在江蘇工作

上觀新聞 2025-04-11 20:43:18
1201 跟貼 1201
上個月，我去了趟烏魯木齊回來后，我只想說：能不去就盡量不去！

訪史 2025-04-11 10:34:33
39 跟貼 39
特朗普冒險策略：經濟衰退或許是被炮制出來的

世界背后的秘密 2025-04-12 01:42:58
0 跟貼 0
重慶女子花6000多萬貴州買地“中招”，何以十多年來退不了款？鎮遠縣被要求“撤證追責”

大風新聞 2025-04-11 17:44:04
2379 跟貼 2379
中國“反向關稅戰”策略：免簽、退稅推動數字人民幣國際化

秋之潔 2025-04-11 02:06:31
0 跟貼 0
龐涓兵臨齊國都城，齊威王命令孫臏三天內想出退敵策略

小凱哥哥觀影 2025-04-11 16:34:34
1 跟貼 1

網友：湖北這次狂風暴雨加冰雹，汽修店都堵了！保險公司受傷最重

網友：湖北這次狂風暴雨加冰雹，汽修店都堵了！保險公司受傷最重

火山詩話

2025-04-12 10:51:50

驚天巨變！中美隨時進入攤牌狀態

驚天巨變！中美隨時進入攤牌狀態

戶外釣魚哥阿旱

2025-04-12 08:57:37

美教育部長將“AI”稱為“A1” 美網友：這就是教育

美教育部長將“AI”稱為“A1” 美網友：這就是教育

看看新聞Knews

2025-04-11 16:11:09

逆轉！加蘭26+13，布倫森27+2，東部前六誕生，尼克斯認清現實

逆轉！加蘭26+13，布倫森27+2，東部前六誕生，尼克斯認清現實

籃球大視野

2025-04-12 10:39:16

北京腫瘤專家關天瑜教授去世，發病到離世僅一周，專家號僅100元

北京腫瘤專家關天瑜教授去世，發病到離世僅一周，專家號僅100元

一桶漿糊要一統江湖

2025-04-12 07:47:46

華僑“鋼鐵大王”在菲被綁架撕票知情人：懷疑熟人作案，家屬曾聯系道上的人談判｜封面頭條

華僑“鋼鐵大王”在菲被綁架撕票知情人：懷疑熟人作案，家屬曾聯系道上的人談判｜封面頭條

封面新聞

2025-04-11 19:30:05

杜蘭特正式接受火箭1.2億合同，督促太陽盡快交易，還提出2個要求

杜蘭特正式接受火箭1.2億合同，督促太陽盡快交易，還提出2個要求

野渡舟山人

2025-04-11 10:56:19

最新確認！今天開始，影響青島！持續3天→

最新確認！今天開始，影響青島！持續3天→

魯中晨報

2025-04-12 07:59:08

網友：偷拍到導師電腦，人都要崩潰！可愛的小老頭還知道賄賂師母

網友：偷拍到導師電腦，人都要崩潰！可愛的小老頭還知道賄賂師母

火山詩話

2025-04-12 07:00:19

“吃定”一個女人，不是卑微討好，也不是頻繁聯系，而是：三個字

“吃定”一個女人，不是卑微討好，也不是頻繁聯系，而是：三個字

蓮子說情感

2025-04-11 10:14:08

大量美國游客因落地免簽、離境退稅涌入中國，開啟瘋狂購物

大量美國游客因落地免簽、離境退稅涌入中國，開啟瘋狂購物

億通電子游戲

2025-04-11 20:48:00

美媒爆特朗普突然改主意，因美債被大量拋售，日本：我們偷襲成功

美媒爆特朗普突然改主意，因美債被大量拋售，日本：我們偷襲成功

袁周院長

2025-04-11 11:40:08

比房價下跌更難受，3大信號出現，行家：房子正在成為負債

比房價下跌更難受，3大信號出現，行家：房子正在成為負債

巢客HOME

2025-04-12 09:10:04

中國人的語言攻擊能力簡直太強了！老外：中國人罵人像惡魔在低語

中國人的語言攻擊能力簡直太強了！老外：中國人罵人像惡魔在低語

奇特短尾矮袋鼠

2024-11-23 16:08:32

在深山徒步時，我與美艷驢友發生了關系，從此我的噩夢開始了

在深山徒步時，我與美艷驢友發生了關系，從此我的噩夢開始了

溫情郵局

2025-04-10 10:38:45

突然反轉了！蘋果開始做出改變，外媒：終究還是頂不住了！

突然反轉了！蘋果開始做出改變，外媒：終究還是頂不住了！

阿矗論古今

2025-04-07 09:35:23

黃金儲備差距：美國8133噸，俄羅斯2350噸，中國讓人“出乎意料”

黃金儲備差距：美國8133噸，俄羅斯2350噸，中國讓人“出乎意料”

魏家東

2024-12-15 09:45:11

為什么特斯拉用的是寧德時代，為啥還大老遠去用LG的電池？

為什么特斯拉用的是寧德時代，為啥還大老遠去用LG的電池？

車有梗

2025-03-11 06:30:17

美股巨震，特朗普竟炫耀朋友一天賺25億美元！購物小票已出現“關稅附加費”，美網友大對賬：“真的開始了！特朗普征稅，我買單”

美股巨震，特朗普竟炫耀朋友一天賺25億美元！購物小票已出現“關稅附加費”，美網友大對賬：“真的開始了！特朗普征稅，我買單”

每日經濟新聞

2025-04-11 14:19:08

天！57歲林憶蓮胖成這模樣了，大圓臉腰上游泳圈，都快認不出了！

天！57歲林憶蓮胖成這模樣了，大圓臉腰上游泳圈，都快認不出了！

草莓解說體育

2025-04-11 01:04:05

追蹤人工智能動態

10303文章數 176094關注度

往期回顧全部

科技要聞

單臺年入20萬！首批人形機器人致富者來了

頭條要聞

牛彈琴：特別的客人來到北京美國公開威脅"后果嚴重"

頭條要聞

牛彈琴：特別的客人來到北京美國公開威脅"后果嚴重"

體育要聞

當意甲冠軍跌入意乙降級區老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世，和大S死因相似

財經要聞

造假累計數百億揭秘東旭集團造假手法

汽車要聞

審美和深層次豪華阿維塔06都辦到了

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

健康

藝術

公開課

軍事航空

家居要聞

浪漫與優雅不被定義的現代法式

追夢駐境一步一景
半然鎏光時尚簡約且多功能
現代風格年輕簡約

在中國，到底哪些人在吃“偉哥”？

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最大沙漠中唯一的城市，周邊300公里被黃沙覆蓋
李彥宏：百度離破產30天

軍事要聞

普京與美國中東問題特使結束會談

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：江源县| 凤阳县| 余庆县| 鱼台县| 长汀县| 庐江县| 伽师县| 五大连池市| 江城| 姜堰市| 光泽县| 会宁县| 西安市| 德保县| 灌阳县| 洱源县| 政和县| 连云港市| 信丰县| 林州市| 页游| 南乐县| 哈巴河县| 蕲春县| 奈曼旗| 桐庐县| 乐业县| 桃园县| 临汾市| 邯郸县| 尚义县| 五峰| 汉源县| 江北区| 南部县| 聊城市| 灯塔市| 泽库县| 宾川县| 新巴尔虎左旗| 施甸县|

<blockquote id="4k4jn"></blockquote>

<sub id="4k4jn"></sub>