盡管 DeepSeek-R1 在單模態推理中取得了顯著成功,但已有的多模態嘗試(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全復現其核心特征。
例如,R1-V 僅在簡單計數任務上表現出進步,未能實現回答長度的增長和頓悟時刻;R1-Multimodal-Journey 則在訓練過程中回答長度反而降低;LMM-R1 雖然有所進步,但尚未在大規模圖文數據訓練中得到驗證。而 Kimi 1.5 盡管表現突出,但并未開源其模型或數據。
- 論文標題:MM-EUREKA:EXPLORING VISUAL AHA MOMENT WITH RULE-BASED LARGE-SCALE REINFORCEMENT LEARNING
- 代碼地址:https://github.com/ModalMinds/MM-EUREKA
- 技術報告:https://arxiv.org/pdf/2503.07365
- 模型地址:https://huggingface.co/FanqingM/MM-Eureka-Zero-38B
- https://huggingface.co/FanqingM/MM-Eureka-8B
- 數據集地址:https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset
我們這篇工作聚焦于一個核心問題:如何在多模態環境中復現 DeepSeek-R1 的關鍵特性,包括穩定的回答長度增長、準確率獎勵以及 Visual aha-moment?
為了解答這一問題,來自上海人工智能實驗室、上海創智學院、上海交通大學和香港大學的研究人員提出了多模態學科推理模型 MM-Eureka。
我們的探索
開源框架:我們基于 OpenRLHF 開發了一個高效可擴展的多模態大規模強化學習框架,支持 InternVL 等多種模型和 RL 算法。相比 R1-V 等已有框架,我們的方案成功訓練了 InternVL 2.5-38B 等大型模型。
穩定訓練:我們開發了兩個模型——MM-Eureka-8B(基于 InternVL 2.5-Instruct-8B)和 MM-Eureka-Zero-38B(基于 InternVL 2.5-Pretrained-38B),均成功復現了穩定的 accuracy reward、response length 增長以及 Visual aha-moment。
極大的數據效率:僅使用 54K 圖文數據進行規則型 RL 訓練,平均性能超過使用 1M 數據的 MPO 模型;整體基準準確率與使用 12M 數據進行 CoT SFT 訓練的模型相當!MM-Eureka-Zero 僅使用 8K 圖文數學推理數據(指令模型的 0.05%),在我們自建的 K12 基準測試上超越指令模型 8.2%,在 MathVerse 上表現相當。
重要發現
- 極簡的 RL 設計足以獲得出色效果。在 instruct 模型上實驗時,添加 KL 散度會限制模型探索,導致無法觀測到 response length 的提高。
- 數據選擇對于穩定 RL 訓練很重要!基于難度的數據過濾策略對 RL 訓練穩定性至關重要。在 8B-instruct 模型上進行 RL 訓練時,若不進行數據過濾,訓練過程極其不穩定。
- 模型在 RL 訓練中展現類似 DeepSeek-R1 的 aha-moment,特別是模型不僅學會反思和回溯,還學會重新審視圖像中的關鍵信息,我們認為這是 Visual aha-moment 的關鍵特征。
我們的成果
- 無論在 Instruct 還是 Pretrained Model 上,我們均在極簡 RL 設計以及數據篩選策略下實現了穩定的 Accuracy Reward 提升和 Response Length 提升。
- 在 Instruct 模型上,幾乎全部使用開源數據(50K),便在所有多模態數學推理基準上取得穩定提升。相比其他后訓練策略,比如 MPO(1M 數據)和 CoT SFT(12M 數據),我們發現簡單的 rule-based RL 具備極強的數據高效性,使用幾十分之一的數據,平均性能超過 MPO,與 CoT SFT 相當。
- 在 Pretrained 模型上進一步挖掘 RL 潛力,僅需 8K 多模態數學推理數據,即可在奧林匹克數學測試集(部分)和 K12 數學推理測試集上,超過使用 16.3M 數據進行 SFT 的指令模型。在 MathVerse 上,兩種模型表現也相似。我們僅使用了指令模型數據量的 0.05%,凸顯了強化學習的巨大潛力!
其他嘗試與反思
我們在復現過程中進行了許多其他的嘗試,在此分享一些我們認為有幫助,但并未成功驗證的操作。我們認為這并不代表這些方法有問題,而是需要進一步探索。
Curriculum Learning:盡管我們基于難度劃分數據并嘗試從易到難訓練,但未觀察到明顯性能提升。我們認為簡單問題的學習難以直接泛化到難題,如何更有效地組織課程學習數據仍需探索。
Online Data Filter:我們將預先基于難度的數據篩選策略記為 Offline Data Filter。這種方案雖然可以幫助 RL 進行穩定訓練,但其數據利用率降低了,因此我們希望在模型訓練過程中動態進行基于難度的數據篩選(類似 PRIME)。然而,我們發現訓練結果不如 offline data filter 穩定,我們認為這是因為每次更新時的數據量不同,導致梯度不穩定。
Model Size:盡管目前一些工作,比如 ORZ、SimpleRL 在 7B level 的 LLM 上也復現了 R1 的表現,但我們在多模態推理場景下,難以通過 8B 的 InternVL Pretrained 進行成功復現。我們認為這受制于多模態推理數據質量以及多模態預訓練數據中很少存在 long CoT 數據。
我們的期望
我們開源了全套數據(包括自助收集的高質量多模態 K12 數據集)、代碼和模型,并發布了詳細的技術報告,涵蓋所有復現過程及未成功的嘗試。希望我們的工作能幫助社區共同推進多模態推理的發展!我們同樣在持續推進模型訓練,請繼續關注!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.