99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

MM-Eureka:極少數據實現多模態推理的R1-Zero時刻

0
分享至




盡管 DeepSeek-R1 在單模態推理中取得了顯著成功,但已有的多模態嘗試(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全復現其核心特征。

例如,R1-V 僅在簡單計數任務上表現出進步,未能實現回答長度的增長和頓悟時刻;R1-Multimodal-Journey 則在訓練過程中回答長度反而降低;LMM-R1 雖然有所進步,但尚未在大規模圖文數據訓練中得到驗證。而 Kimi 1.5 盡管表現突出,但并未開源其模型或數據。



  • 論文標題:MM-EUREKA:EXPLORING VISUAL AHA MOMENT WITH RULE-BASED LARGE-SCALE REINFORCEMENT LEARNING
  • 代碼地址:https://github.com/ModalMinds/MM-EUREKA
  • 技術報告:https://arxiv.org/pdf/2503.07365
  • 模型地址:https://huggingface.co/FanqingM/MM-Eureka-Zero-38B
  • https://huggingface.co/FanqingM/MM-Eureka-8B
  • 數據集地址:https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset

我們這篇工作聚焦于一個核心問題:如何在多模態環境中復現 DeepSeek-R1 的關鍵特性,包括穩定的回答長度增長、準確率獎勵以及 Visual aha-moment?

為了解答這一問題,來自上海人工智能實驗室、上海創智學院、上海交通大學和香港大學的研究人員提出了多模態學科推理模型 MM-Eureka。



我們的探索

開源框架:我們基于 OpenRLHF 開發了一個高效可擴展的多模態大規模強化學習框架,支持 InternVL 等多種模型和 RL 算法。相比 R1-V 等已有框架,我們的方案成功訓練了 InternVL 2.5-38B 等大型模型。

穩定訓練:我們開發了兩個模型——MM-Eureka-8B(基于 InternVL 2.5-Instruct-8B)和 MM-Eureka-Zero-38B(基于 InternVL 2.5-Pretrained-38B),均成功復現了穩定的 accuracy reward、response length 增長以及 Visual aha-moment。

極大的數據效率:僅使用 54K 圖文數據進行規則型 RL 訓練,平均性能超過使用 1M 數據的 MPO 模型;整體基準準確率與使用 12M 數據進行 CoT SFT 訓練的模型相當!MM-Eureka-Zero 僅使用 8K 圖文數學推理數據(指令模型的 0.05%),在我們自建的 K12 基準測試上超越指令模型 8.2%,在 MathVerse 上表現相當。

重要發現

  • 極簡的 RL 設計足以獲得出色效果。在 instruct 模型上實驗時,添加 KL 散度會限制模型探索,導致無法觀測到 response length 的提高。



  • 數據選擇對于穩定 RL 訓練很重要!基于難度的數據過濾策略對 RL 訓練穩定性至關重要。在 8B-instruct 模型上進行 RL 訓練時,若不進行數據過濾,訓練過程極其不穩定。



  • 模型在 RL 訓練中展現類似 DeepSeek-R1 的 aha-moment,特別是模型不僅學會反思和回溯,還學會重新審視圖像中的關鍵信息,我們認為這是 Visual aha-moment 的關鍵特征。



我們的成果

  • 無論在 Instruct 還是 Pretrained Model 上,我們均在極簡 RL 設計以及數據篩選策略下實現了穩定的 Accuracy Reward 提升和 Response Length 提升。



  • 在 Instruct 模型上,幾乎全部使用開源數據(50K),便在所有多模態數學推理基準上取得穩定提升。相比其他后訓練策略,比如 MPO(1M 數據)和 CoT SFT(12M 數據),我們發現簡單的 rule-based RL 具備極強的數據高效性,使用幾十分之一的數據,平均性能超過 MPO,與 CoT SFT 相當。



  • 在 Pretrained 模型上進一步挖掘 RL 潛力,僅需 8K 多模態數學推理數據,即可在奧林匹克數學測試集(部分)和 K12 數學推理測試集上,超過使用 16.3M 數據進行 SFT 的指令模型。在 MathVerse 上,兩種模型表現也相似。我們僅使用了指令模型數據量的 0.05%,凸顯了強化學習的巨大潛力!



其他嘗試與反思

我們在復現過程中進行了許多其他的嘗試,在此分享一些我們認為有幫助,但并未成功驗證的操作。我們認為這并不代表這些方法有問題,而是需要進一步探索。

Curriculum Learning:盡管我們基于難度劃分數據并嘗試從易到難訓練,但未觀察到明顯性能提升。我們認為簡單問題的學習難以直接泛化到難題,如何更有效地組織課程學習數據仍需探索。



Online Data Filter:我們將預先基于難度的數據篩選策略記為 Offline Data Filter。這種方案雖然可以幫助 RL 進行穩定訓練,但其數據利用率降低了,因此我們希望在模型訓練過程中動態進行基于難度的數據篩選(類似 PRIME)。然而,我們發現訓練結果不如 offline data filter 穩定,我們認為這是因為每次更新時的數據量不同,導致梯度不穩定。



Model Size:盡管目前一些工作,比如 ORZ、SimpleRL 在 7B level 的 LLM 上也復現了 R1 的表現,但我們在多模態推理場景下,難以通過 8B 的 InternVL Pretrained 進行成功復現。我們認為這受制于多模態推理數據質量以及多模態預訓練數據中很少存在 long CoT 數據。



我們的期望

我們開源了全套數據(包括自助收集的高質量多模態 K12 數據集)、代碼和模型,并發布了詳細的技術報告,涵蓋所有復現過程及未成功的嘗試。希望我們的工作能幫助社區共同推進多模態推理的發展!我們同樣在持續推進模型訓練,請繼續關注!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
名記:馬龍不愿用布斯選的人&不惜犧牲其表現 約基奇對此感到不滿

名記:馬龍不愿用布斯選的人&不惜犧牲其表現 約基奇對此感到不滿

直播吧
2025-04-12 10:00:12
中央決定:李良生履新

中央決定:李良生履新

新京報政事兒
2025-04-11 10:40:33
中國九大高顏值城市,去過3個算合格,去過5個不簡單!

中國九大高顏值城市,去過3個算合格,去過5個不簡單!

布拉旅游說
2025-03-31 20:15:20
外媒炮轟《漫威爭鋒》白皇后:性感女角色全一個樣

外媒炮轟《漫威爭鋒》白皇后:性感女角色全一個樣

游民星空
2025-04-12 10:05:12
僅差一個助攻!約基奇預計今天達成賽季場均三雙壯舉 沖擊歷史第三人

僅差一個助攻!約基奇預計今天達成賽季場均三雙壯舉 沖擊歷史第三人

去山野間追風
2025-04-12 04:53:52
蘇炳添:我真的跑不動了,如果無法幫助廣東接力就不會再堅持

蘇炳添:我真的跑不動了,如果無法幫助廣東接力就不會再堅持

懂球帝
2025-04-11 15:01:11
80萬的極氪009也爆燃?三人燒傷,醫藥費達500萬元,家屬追責

80萬的極氪009也爆燃?三人燒傷,醫藥費達500萬元,家屬追責

黑馬公社
2025-04-10 09:37:27
臺主播透露,大S豪宅新進展!連公示都還沒有!沒有什么神秘人

臺主播透露,大S豪宅新進展!連公示都還沒有!沒有什么神秘人

侃侃娛季
2025-04-11 18:11:41
如果中美真的斷絕經濟往來,將會發生什么?

如果中美真的斷絕經濟往來,將會發生什么?

墜入二次元的海洋
2025-04-11 16:59:42
鉀是香蕉的17倍,建議中老年,隔天吃一次,腿腳有勁,對肝臟也好

鉀是香蕉的17倍,建議中老年,隔天吃一次,腿腳有勁,對肝臟也好

美食格物
2025-04-11 21:39:06
直接驅逐!廣東任駿飛惡意肘擊王哲林后腦,這不是打球,是在打架

直接驅逐!廣東任駿飛惡意肘擊王哲林后腦,這不是打球,是在打架

嘴炮體壇
2025-04-11 21:20:11
曇花還在現!8年前紅軍4200萬引進薩拉赫,32歲他身價仍比進價高

曇花還在現!8年前紅軍4200萬引進薩拉赫,32歲他身價仍比進價高

直播吧
2025-04-11 16:16:30
泡沫散去后,網絡造神的“殘酷現實”,在肥娟身上展現得淋漓盡致

泡沫散去后,網絡造神的“殘酷現實”,在肥娟身上展現得淋漓盡致

涵豆說娛
2025-04-11 09:50:29
機會很大!湖人剩余2場僅需1勝即可鎖定西部第三!

機會很大!湖人剩余2場僅需1勝即可鎖定西部第三!

直播吧
2025-04-12 02:09:07
熊磊直播,曝杜媽與前兒媳斷聯,田靜未回應,稱兒結婚會離開父母

熊磊直播,曝杜媽與前兒媳斷聯,田靜未回應,稱兒結婚會離開父母

游古史
2025-04-11 23:56:55
抓劉維偉現行?辛莎莎老公曝光,商人,兩人異地戀,頭療館已關門

抓劉維偉現行?辛莎莎老公曝光,商人,兩人異地戀,頭療館已關門

樂聊球
2025-04-11 16:24:51
大陸為何總是演習,遲遲不進攻臺灣?看看金門島戰役就知道了!

大陸為何總是演習,遲遲不進攻臺灣?看看金門島戰役就知道了!

飛楊電影
2025-03-11 00:32:06
浙江女子因穿特色衣服坐地鐵引發熱議,網友感嘆形象受損。

浙江女子因穿特色衣服坐地鐵引發熱議,網友感嘆形象受損。

星辰生肖館
2025-01-25 00:32:27
當"陰莖""陰道"成為課堂高頻詞:這堂性教育課為何讓人熱淚盈眶

當"陰莖""陰道"成為課堂高頻詞:這堂性教育課為何讓人熱淚盈眶

教師吧
2025-04-11 22:24:38
對等關稅正式生效!世界各國開始站隊,“中美陣營”都有哪些國家

對等關稅正式生效!世界各國開始站隊,“中美陣營”都有哪些國家

嘆知
2025-04-07 16:34:37
2025-04-12 10:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10345文章數 142293關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

特朗普年度體檢完成 自稱感覺“狀態非常好”

頭條要聞

特朗普年度體檢完成 自稱感覺“狀態非常好”

體育要聞

球迷天天罵,但我們要進歐冠了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

25款風云A8/T9/T10齊上市 多款車型發布一口價

態度原創

本地
藝術
教育
游戲
軍事航空

本地新聞

華北將迎“歷史罕見”大風

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

高考賦分科目的最終分數是怎樣計算出來的?

PS5 Pro獨家享受:熱門大作表現領先其他平臺!

軍事要聞

普京與美國中東問題特使結束會談

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 娱乐| 望奎县| 巫山县| 达拉特旗| 丹寨县| 白山市| 柏乡县| 社会| 班戈县| 彭泽县| 电白县| 元江| 沁源县| 昭平县| 稻城县| 边坝县| 方城县| 东安县| 梨树县| 兴宁市| 新丰县| 竹山县| 日照市| 柳河县| 商洛市| 大姚县| 连平县| 潢川县| 渭南市| 安平县| 都兰县| 温宿县| 湛江市| 阳新县| 云浮市| 牟定县| 金沙县| 大悟县| 南郑县| 鄱阳县| 上饶县|