速覽熱門論文
1.DeepSeek-R1“思維學(xué)”
2.蘋果:原生多模態(tài)模型的 Scaling Laws
3.7B 模型超越 o1!視覺(jué)推理新突破:所需樣本少,還能自提升
4.MIT 團(tuán)隊(duì)提出“自我引導(dǎo)”LM 方法 DisCIPL
5.MM-IFEngine:邁向多模態(tài)指令跟隨
6.上海 AI Lab:利用強(qiáng)化微調(diào)增強(qiáng) MLLM 時(shí)空感知
1. DeepSeek-R1“思維學(xué)”
像 DeepSeek-R1 這樣的推理模型標(biāo)志著大語(yǔ)言模型(LLM)在處理復(fù)雜問(wèn)題方式上的根本轉(zhuǎn)變。DeepSeek-R1 不是直接根據(jù)給定輸入生成答案,而是創(chuàng)建詳細(xì)的多步推理鏈,仿佛在“思考”問(wèn)題后再做出回答。
這個(gè)推理過(guò)程是公開(kāi)透明的,用戶可以查看,為研究模型的推理行為創(chuàng)造了機(jī)會(huì),并催生了一個(gè)新領(lǐng)域:思維學(xué)(Thoughtology)。
Mila 團(tuán)隊(duì)從 DeepSeek-R1 的基本推理構(gòu)件分類法出發(fā),對(duì) DeepSeek-R1 進(jìn)行了分析,研究了思維長(zhǎng)度的影響和可控性、對(duì)冗長(zhǎng)或混亂上下文的管理、文化和安全問(wèn)題,以及與人類認(rèn)知現(xiàn)象(如類人語(yǔ)言處理與世界建模)之間的關(guān)系。
他們發(fā)現(xiàn),DeepSeek-R1 有一個(gè)推理的“甜蜜點(diǎn)”,超過(guò)這個(gè)點(diǎn)的額外推理時(shí)間反而會(huì)損害模型性能。此外,DeepSeek-R1 還會(huì)反復(fù)糾結(jié)于已探索過(guò)的問(wèn)題表述,從而阻礙了進(jìn)一步的探索。與其非推理模型相比,DeepSeek-R1 存在很強(qiáng)的安全漏洞,這也會(huì)損害安全對(duì)齊的 LLM。
論文鏈接:
https://arxiv.org/abs/2504.07128
2. 蘋果:原生多模態(tài)模型的 Scaling Laws
構(gòu)建能夠通過(guò)多模態(tài)信號(hào)有效感知世界的通用模型,一直是人工智能(AI)領(lǐng)域的長(zhǎng)期目標(biāo)。
目前的方法包括整合單獨(dú)的預(yù)訓(xùn)練組件,例如將視覺(jué)編碼器與大語(yǔ)言模型(LLM)連接,并繼續(xù)進(jìn)行多模態(tài)訓(xùn)練。雖然這些方法顯示出顯著的采樣效率,但這種“晚期融合架構(gòu)”是否具有固有的優(yōu)越性仍是一個(gè)未決問(wèn)題。
在這項(xiàng)工作中,蘋果團(tuán)隊(duì)重新審視了原生多模態(tài)模型(NMM)的架構(gòu)設(shè)計(jì)并進(jìn)行了廣泛的 scaling laws 研究,涵蓋了 457 個(gè)具有不同架構(gòu)和訓(xùn)練 mixture 的訓(xùn)練模型。研究表明,與不依賴圖像編碼器的早期融合架構(gòu)相比,晚期融合架構(gòu)
并沒(méi)有固有優(yōu)勢(shì)。相反,早期融合架構(gòu)在參數(shù)較少的情況下表現(xiàn)出更強(qiáng)的性能,訓(xùn)練效率更高,也更容易部署。受早期融合架構(gòu)性能優(yōu)勢(shì)的啟發(fā),他們展示了將混合專家(MoE)納入模型可以學(xué)習(xí)特定模態(tài)的權(quán)重,從而顯著提高性能。
論文鏈接:
https://arxiv.org/abs/2504.07951
3. 7B 模型超越 o1!視覺(jué)推理新突破:所需樣本少,還能自提升
在這項(xiàng)工作中,來(lái)自馬里蘭大學(xué)和微軟的研究團(tuán)隊(duì)提出了一種增強(qiáng)視覺(jué)推理的有效方法,其所需訓(xùn)練樣本少,純粹依靠自我改進(jìn),且沒(méi)有知識(shí)提煉。
他們認(rèn)為,強(qiáng)化微調(diào)(RFT)過(guò)程中訓(xùn)練數(shù)據(jù)的難度至關(guān)重要,即使數(shù)據(jù)集很小,適當(dāng)?shù)奶魬?zhàn)樣本也能大幅提高推理能力。因此,主要的挑戰(zhàn)仍然是如何準(zhǔn)確量化樣本難度,以實(shí)現(xiàn)有效的數(shù)據(jù)篩選。
為此,他們提出了重新利用蒙特卡洛樹(shù)搜索(MCTS)的新方法。從他們策劃的 70k 個(gè)開(kāi)源訓(xùn)練樣本開(kāi)始,他們引入了一種基于 MCTS 的選擇方法,該方法根據(jù) VLM 解決每個(gè)問(wèn)題所需的迭代次數(shù)來(lái)量化樣本難度。MCTS 中這種明確的
分步推理方法能讓模型思考更長(zhǎng)的時(shí)間,從而更好地識(shí)別真正具有挑戰(zhàn)性的樣本。他們篩選并保留了 11k 個(gè)樣本,在 Qwen2.5-VL-7B-Instruct 上執(zhí)行 RFT,最終形成了 ThinkLite-VL 模型。
對(duì) 8 個(gè)基準(zhǔn)的評(píng)估結(jié)果表明,ThinkLite-VL 在僅使用 11k 個(gè)訓(xùn)練樣本且未進(jìn)行知識(shí)提煉的情況下,將 Qwen2.5-VL-7B-Instruct 的平均性能提高了 7%,優(yōu)于所有現(xiàn)有的 7B 級(jí)推理 VLM,也優(yōu)于他們使用經(jīng)典選擇方法(如基于準(zhǔn)確性的過(guò)濾)的對(duì)比基線。值得注意的是,在 MathVista 上,ThinkLite-VL-7B 實(shí)現(xiàn)了 SoTA 準(zhǔn)確率 75.1,超過(guò)了 Qwen2.5-VL-72B、GPT-4o 和 o1。
論文鏈接:
https://arxiv.org/abs/2504.07934
4. MIT 團(tuán)隊(duì)提出“自我引導(dǎo)”LM 方法 DisCIPL
雖然測(cè)試時(shí)推理使語(yǔ)言模型(LM)能夠處理復(fù)雜的任務(wù),但用自然語(yǔ)言進(jìn)行搜索或規(guī)劃可能會(huì)很慢、成本很高,而且容易出錯(cuò)。然而,盡管語(yǔ)言模型難以模仿解決問(wèn)題所需的精確推理步驟,它們也往往擅長(zhǎng)描述問(wèn)題的抽象結(jié)構(gòu)——包括如何驗(yàn)證解決方案,以及如何搜索解決方案。
在這項(xiàng)工作中,麻省理工學(xué)院(MIT)團(tuán)隊(duì)提出了一種“自我引導(dǎo)”LM 方法 DisCIPL,即一個(gè) Planner 模型生成一個(gè)特定于任務(wù)的推理程序,一群
Follower 模型來(lái)執(zhí)行這一程序。這一方法使 LM 具備了編寫指導(dǎo) LM 推理的遞歸搜索程序的能力,從而實(shí)現(xiàn)了新形式的可驗(yàn)證和高效推理。
當(dāng)實(shí)例化為一個(gè)小型 Follower 模型(例如 Llama-3.2-1B)時(shí),DiscIPL 可以在具有挑戰(zhàn)性的受限生成任務(wù)中比肩(有時(shí)甚至優(yōu)于)
更大型的模型,包括 GPT-4o 和 o1。通過(guò)將規(guī)劃與執(zhí)行解耦,這一工作為高度并行化的蒙特卡洛推理策略開(kāi)辟了設(shè)計(jì)空間,這些策略優(yōu)于標(biāo)準(zhǔn)的 best-of-N 采樣,無(wú)需微調(diào),且可以由現(xiàn)有的 LM 自動(dòng)實(shí)現(xiàn)。
論文鏈接:
https://arxiv.org/abs/2504.07081
5. MM-IFEngine:邁向多模態(tài)指令跟隨
指令跟蹤(IF)能力衡量的是多模態(tài)大語(yǔ)言模型(MLLM)對(duì)用戶指令的準(zhǔn)確理解以及正確解決問(wèn)題的程度。現(xiàn)有多模態(tài)指令跟蹤訓(xùn)練數(shù)據(jù)很少,基準(zhǔn)都是簡(jiǎn)單的原子指令,而且對(duì)于要求精確輸出約束的任務(wù)來(lái)說(shuō),評(píng)估策略并不精確。
為了解決這一問(wèn)題,上海 AI Lab 團(tuán)隊(duì)提出了一個(gè)生成高質(zhì)量圖像指令對(duì)的有效管道——MM-IFEngine,其可以生成大規(guī)模、多樣化和高質(zhì)量的訓(xùn)練數(shù)據(jù) MM-IFInstruct-23k,該數(shù)據(jù)適用于監(jiān)督微調(diào)(SFT),并可擴(kuò)展為用于直接偏
好優(yōu)化(DPO)的 MM-IFDPO-23k。他們進(jìn)一步提出了一個(gè)具有挑戰(zhàn)性和多樣性的多模態(tài)指令跟隨基準(zhǔn)——MM-IFEval,包括:(1)輸出響應(yīng)的合成級(jí)約束和與輸入圖像相關(guān)的感知級(jí)約束;(2)包含基于規(guī)則的評(píng)估和法官模型的綜合評(píng)估管道。
SFT 和 DPO 實(shí)驗(yàn)證明,在 MM-IFInstruct-23k 和 MM-IFDPO-23k 上對(duì) MLLM 進(jìn)行微調(diào),可在 MM-IFEval(+10.2%)、MIA(+7.6%)和 IFEval(+12.3%)等指令跟隨基準(zhǔn)上實(shí)現(xiàn)性能提升。
論文鏈接:
https://arxiv.org/abs/2504.07957
6. 上海 AI Lab:利用強(qiáng)化微調(diào)增強(qiáng) MLLM 時(shí)空感知
強(qiáng)化學(xué)習(xí)提高了多模態(tài)大語(yǔ)言模型(MLLM)的推理能力。雖然群體相對(duì)策略優(yōu)化(GRPO)和基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制等方法已經(jīng)應(yīng)用于文本和圖像領(lǐng)域,但它們?cè)谝曨l理解方面的應(yīng)用仍然有限。
在這項(xiàng)工作中,上海 AI Lab 團(tuán)隊(duì)介紹了針對(duì)視頻 MLLM 的強(qiáng)化微調(diào)(RFT)與 GRPO 的系統(tǒng)探索,旨在增強(qiáng)時(shí)空感知,同時(shí)保持通用能力。
實(shí)驗(yàn)表明,RFT 對(duì)特定任務(wù)的提升具有很高的數(shù)據(jù)效率。通過(guò)對(duì)樣本有限的時(shí)空感知目標(biāo)進(jìn)行多任務(wù) RFT,他們開(kāi)發(fā)出了視頻 MLLM——VideoChat-R1,其在不犧牲聊天能力的前提下,在時(shí)空感知任務(wù)上實(shí)現(xiàn)了 SOTA,同時(shí)展現(xiàn)了時(shí)空推理能力。與 Qwen2.5-VL-7B 相比,VideoChat-R1 在時(shí)間接地(+31.8)和物體跟蹤(+3
1.2)等任務(wù)上的性能提高了數(shù)倍。此外,它還提高了通用問(wèn)答基準(zhǔn)的性能,如 VideoMME(+0.9)、MVBench(+1.0)和 Perception Test(+0.9)。這一研究結(jié)果凸顯了 RFT 在增強(qiáng)視頻 MLLM 的專業(yè)任務(wù)方面的潛力。
論文鏈接:
https://arxiv.org/abs/2504.06958
整理:學(xué)術(shù)君
如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.