99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

7B超越GPT!1/20數據,無需知識蒸餾,馬里蘭等推出全新視覺推理方法

0
分享至


新智元報道

編輯:LRST 好困

【新智元導讀】通過蒙特卡洛樹搜索篩選高難度樣本,ThinkLite-VL僅用少量數據就能顯著提升視覺語言模型的推理能力,無需知識蒸餾,為高效訓練提供了新思路。

在大模型時代,視覺語言模型(Vision-Language Models, VLMs)正在從感知走向推理。在諸如圖像問答、圖表理解、科學推理等任務中,VLM不再只需要「看見」和「描述」,而是要能「看懂」和「想清楚」。

然而,當前主流的推理能力提升方法普遍存在兩個問題:

1.訓練樣本質量參差不齊:常見的數據集雖然體量龐大,但真正「有挑戰性」的樣本比例較低。

2.過度依賴知識蒸餾:許多模型在訓練時依賴大型模型(如GPT-4o)的推理過程作為教師信號,使得訓練流程復雜且難以推廣。

這使得訓練一個高性能的VLM成本極高,也限制了模型的自主學習能力。

能否通過自我提升,訓練出高性能的推理模型?

近日,來自馬里蘭大學,密歇根大學,和微軟的團隊聯合提出了ThinkLite-VL模型試圖打破這種依賴,探索「數據更少、能力更強」的可能性。


論文鏈接:https://arxiv.org/pdf/2504.07934

GitHub項目主頁:https://github.com/si0wang/ThinkLite-VL

Hugging Face主頁:https://huggingface.co/russwang/ThinkLite-VL-7B

論文主要關注一個核心問題:如果不給VLM額外的「教師指導」(如知識蒸餾),能否僅通過自身的反饋機制和強化學習訓練,獲得強大的推理能力?

直覺上,答案是肯定的:人類也可以通過不斷嘗試、失敗和總結來提升自己的推理能力。但對模型而言,這需要我們解決一個關鍵挑戰——如何準確判斷哪些訓練樣本是「值得學」的?


用MCTS判斷「樣本難度」,篩選高質量訓練集

ThinkLite-VL的最大創新在于:用蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)來重新定義「樣本難度」。

研究人員首先從廣泛使用的開源多模態訓練數據集中收集了70k的樣本,涵蓋了三個關鍵的視覺任務:數學推理,自然圖像理解和圖表理解,具體的數據分布和來源如下表所示。


值得注意的是,為了避免大模型在回答過程中因為選擇題選項中提供了正確答案而「蒙對」,研究人員將大部分的樣本從選擇題格式改成了開放問答格式,這樣一來模型就必須依靠自身的推理能力真正理解題目并解決問題,真正的把題做對。

之后,研究人員提出了一種基于蒙特卡洛樹搜索(MCTS)的樣本選擇方式。

具體來說,大模型將問題和圖像作為輸入,讓模型通過蒙特卡洛樹搜索進行一步步推理,然后記錄模型需要通過多少次推理迭代才能得到正確答案。模型所需要的MCTS迭代次數越多,說明模型需要通過更多的探索和思考才能解決問題,表明該問題對于模型來說更難。

整個過程中,只使用了VLM本身的LLM部分判斷MCTS final answer的正確與否,模型通過解題成功的探索次數認識到哪些題是「難題」,并將其作為學習重點。

在對所有的樣本都進行MCTS之后,作者最終篩選出迭代次數大于5或在50次迭代內模型都無法解決的樣本,總共11k,作為最終的訓練集。


強化學習訓練:少樣本+困難樣本,推理效果更強

研究人員基于Qwen2.5-VL-7B-Instruct,在選出的11k樣本上使用GRPO進行了強化學習訓練,得到了最終的模型 ThinkLite-VL-7B。相比于其他reasoning model來說,ThinkLite-VL-7B大大減少了訓練數據量,并且沒有蒸餾任何外部推理模型的知識。


在八個主流視覺推理任務上進行測試,包括MathVista, MathVerse, MathVision,MMMU,MMStar, MMVet, MMBench和AI2D, 結果發現ThinkLite-VL-7B的平均性能相比base model Qwen2.5-VL-7B-Instruct提升了7%,從59.69 提高到 63.89,并且顯著優于使用隨機采樣選擇相同大小數據量進行強化學習訓練的模型。

此外,相比7B級別的其他reasoning VLM,ThinkLite-VL-7B同樣具有明顯優勢,包括OpenVLThinker-7B,MM-Eureka-Qwen-7B等。

特別地,在MathVista上ThinkLite-VL-7B達到了75.1的SoTA準確率,超過了GPT-4o和o1等閉源模型和Qwen2.5-VL-72B等開源更大參數量的模型。



這意味著,即使在沒有額外監督、沒有知識蒸餾、沒有大規模數據的前提下,只需要正確選擇少量對于VLM具有挑戰性的高質量樣本,VLM也能通過self-improve顯著提升推理能力。

研究人員進一步對不同難度組合的訓練集進行了消融分析,發現:

  1. 僅用最難的樣本(無法解出)可以提升能力,但效果不及中等+困難樣本的組合;

  2. 簡單樣本雖然在訓練過程中快速提升reward,但對最終推理能力提升作用有限;

  3. 使用中等難度加上困難樣本的組合才能最大程度提升模型的推理能力,即使模型在訓練中無法解決全部的樣本。

這一發現對未來的模型訓練有重要啟示:合理的樣本難度分布比樣本數量更關鍵。

論文一作王璽堯是馬里蘭大學計算機系三年級phd,導師為Furong Huang教授,主要研究方向為強化學習在大語言模型和視覺語言模型訓練中的應用,在ICML, NeurIPS, ICLR, ACL, EMNLP, NAACL, CVPR等會議上發表過多篇論文。


參考資料:

https://arxiv.org/pdf/2504.07934

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“插座倒裝”是“拿命跟風”?快提醒身邊朋友,別拿安全開玩笑!

“插座倒裝”是“拿命跟風”?快提醒身邊朋友,別拿安全開玩笑!

裝修秀
2025-04-28 11:45:03
中日友好醫院出軌大瓜:女的學4年醫就能進手術室,男的出軌52歲女護士求干活

中日友好醫院出軌大瓜:女的學4年醫就能進手術室,男的出軌52歲女護士求干活

瑪麗姬絲
2025-04-28 13:00:26
不準關閉大壩,巴鐵通電王毅外長,中方遞出18個字,印度直接泄洪

不準關閉大壩,巴鐵通電王毅外長,中方遞出18個字,印度直接泄洪

簡讀視覺
2025-04-28 22:27:31
董某瑩的跨科4+4臨床博士遭教授揭秘:國外規培要10年,協和僅1年

董某瑩的跨科4+4臨床博士遭教授揭秘:國外規培要10年,協和僅1年

東東趣談
2025-04-28 20:05:18
硬漢歸來!Haynes:巴特勒將會在今日火勇G4中迎來復出!

硬漢歸來!Haynes:巴特勒將會在今日火勇G4中迎來復出!

直播吧
2025-04-29 06:21:07
央企副總被舉報長期出軌多名人妻,還遭失陪酒女男友抓奸敲詐!

央企副總被舉報長期出軌多名人妻,還遭失陪酒女男友抓奸敲詐!

兵叔評說
2025-04-28 16:40:22
董醫生媽媽的照片曝光,高級知識分子,女兒的事讓她尷尬得要死

董醫生媽媽的照片曝光,高級知識分子,女兒的事讓她尷尬得要死

魔都姐姐雜談
2025-04-28 10:56:42
越扒越絕望!小四董小姐:背景深厚,凌駕制度之上,親密舊照曝光

越扒越絕望!小四董小姐:背景深厚,凌駕制度之上,親密舊照曝光

溫柔看世界
2025-04-28 17:20:00
某女外嫁西班牙,其老公月薪5000歐卻只給她300歐,從不做家務!

某女外嫁西班牙,其老公月薪5000歐卻只給她300歐,從不做家務!

去非
2025-04-28 19:43:42
德國足協回應呂迪格事件:我們已和他本人聯系,他被皇馬過度渲染的緊張氛圍影響

德國足協回應呂迪格事件:我們已和他本人聯系,他被皇馬過度渲染的緊張氛圍影響

雷速體育
2025-04-28 18:54:20
還是沒藏住!謝霆鋒連開4天演唱會,沒能壓住香港頂流生日會熱度

還是沒藏住!謝霆鋒連開4天演唱會,沒能壓住香港頂流生日會熱度

草莓解說體育
2025-04-29 00:47:45
女子八百多的阿迪達斯板鞋被洗衣店洗壞,鞋修好后反而更生氣:你們沒有通知我!

女子八百多的阿迪達斯板鞋被洗衣店洗壞,鞋修好后反而更生氣:你們沒有通知我!

瀟湘晨報
2025-04-28 18:53:03
王毅會見俄羅斯外長拉夫羅夫

王毅會見俄羅斯外長拉夫羅夫

界面新聞
2025-04-29 06:57:08
三上悠亞近況曝光街頭賞花!初戀神顏上萬網友全戀愛

三上悠亞近況曝光街頭賞花!初戀神顏上萬網友全戀愛

葫蘆哥愛吐槽
2025-04-29 03:31:44
人能無恥到什么地步,才敢拿自己的罪行擺到臺面上掙錢!

人能無恥到什么地步,才敢拿自己的罪行擺到臺面上掙錢!

胖胖說他不胖
2025-04-28 16:41:27
中日友好醫院肖飛首次發聲:醫院處罰太重,不接受!無醫療事故

中日友好醫院肖飛首次發聲:醫院處罰太重,不接受!無醫療事故

小人物看盡人間百態
2025-04-28 16:16:07
友好醫院事件中的五大輸家,最慘的是不是肖副主任

友好醫院事件中的五大輸家,最慘的是不是肖副主任

辣條小劇場
2025-04-29 03:33:26
越扒越有!官小姐被曝不是真實哥大畢業生,博士論文61頁正文30頁

越扒越有!官小姐被曝不是真實哥大畢業生,博士論文61頁正文30頁

辣條小劇場
2025-04-29 03:31:18
男子嫌情婦太黏人,讓妻子勸她分手,2010年情婦不答應被他殺死了

男子嫌情婦太黏人,讓妻子勸她分手,2010年情婦不答應被他殺死了

漢史趣聞
2025-04-28 17:04:39
中日醫院"后宮"后續!出軌6人多次流產,男主嘴硬:我醫德沒問題

中日醫院"后宮"后續!出軌6人多次流產,男主嘴硬:我醫德沒問題

派大星紀錄片
2025-04-28 14:03:47
2025-04-29 07:36:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12611文章數 66022關注度
往期回顧 全部

科技要聞

傳騰訊阿里從字節搶購算力資源 字節否認

頭條要聞

西班牙遭遇史上最嚴重停電 已進入國家緊急狀態

頭條要聞

西班牙遭遇史上最嚴重停電 已進入國家緊急狀態

體育要聞

“我們欠球迷一個冠軍慶典,現在可以狂歡了”

娛樂要聞

黃渤青島做東請客 桌上全人情世故

財經要聞

外賣平臺陷入內卷,傷害的是誰?

汽車要聞

東風日產,重新起跑

態度原創

房產
旅游
親子
藝術
手機

房產要聞

灣區最美戶外教育社區!這座世界莊園自然能量場,為孩子解鎖人生新高度

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

【漲知識】福州廈門代孕公司哪里有代孕機構|ZSE

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

曝蘋果準備了兩款20周年紀念版iPhone,仍要依賴中國生產

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 缙云县| 云浮市| 朝阳市| 磐石市| 宣城市| 石柱| 陈巴尔虎旗| 若羌县| 栾城县| 枣强县| 本溪市| 滨海县| 原阳县| 湘阴县| 崇阳县| 扶绥县| 罗江县| 临夏县| 黄平县| 云安县| 伊川县| 石阡县| 汉寿县| 秀山| 湘乡市| 涟水县| 东辽县| 雅安市| 金乡县| 新泰市| 静宁县| 本溪市| 四川省| 泽州县| 息烽县| 南漳县| 新绛县| 永济市| 宁化县| 阿图什市| 中山市|