99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek-R1“思維學(xué)”;蘋果:原生多模態(tài)模型的Scaling Laws|今日熱門論文

0
分享至


速覽熱門論文

1.DeepSeek-R1“思維學(xué)”

2.蘋果:原生多模態(tài)模型的 Scaling Laws

3.7B 模型超越 o1!視覺(jué)推理新突破:所需樣本少,還能自提升

4.MIT 團(tuán)隊(duì)提出“自我引導(dǎo)”LM 方法 DisCIPL

5.MM-IFEngine:邁向多模態(tài)指令跟隨

6.上海 AI Lab:利用強(qiáng)化微調(diào)增強(qiáng) MLLM 時(shí)空感知

1. DeepSeek-R1“思維學(xué)”

像 DeepSeek-R1 這樣的推理模型標(biāo)志著大語(yǔ)言模型(LLM)在處理復(fù)雜問(wèn)題方式上的根本轉(zhuǎn)變。DeepSeek-R1 不是直接根據(jù)給定輸入生成答案,而是創(chuàng)建詳細(xì)的多步推理鏈,仿佛在“思考”問(wèn)題后再做出回答。

這個(gè)推理過(guò)程是公開(kāi)透明的,用戶可以查看,為研究模型的推理行為創(chuàng)造了機(jī)會(huì),并催生了一個(gè)新領(lǐng)域:思維學(xué)(Thoughtology)。

Mila 團(tuán)隊(duì)從 DeepSeek-R1 的基本推理構(gòu)件分類法出發(fā),對(duì) DeepSeek-R1 進(jìn)行了分析,研究了思維長(zhǎng)度的影響和可控性、對(duì)冗長(zhǎng)或混亂上下文的管理、文化和安全問(wèn)題,以及與人類認(rèn)知現(xiàn)象(如類人語(yǔ)言處理與世界建模)之間的關(guān)系。


他們發(fā)現(xiàn),DeepSeek-R1 有一個(gè)推理的“甜蜜點(diǎn)”,超過(guò)這個(gè)點(diǎn)的額外推理時(shí)間反而會(huì)損害模型性能。此外,DeepSeek-R1 還會(huì)反復(fù)糾結(jié)于已探索過(guò)的問(wèn)題表述,從而阻礙了進(jìn)一步的探索。與其非推理模型相比,DeepSeek-R1 存在很強(qiáng)的安全漏洞,這也會(huì)損害安全對(duì)齊的 LLM。

論文鏈接:

https://arxiv.org/abs/2504.07128

2. 蘋果:原生多模態(tài)模型的 Scaling Laws

構(gòu)建能夠通過(guò)多模態(tài)信號(hào)有效感知世界的通用模型,一直是人工智能(AI)領(lǐng)域的長(zhǎng)期目標(biāo)。

目前的方法包括整合單獨(dú)的預(yù)訓(xùn)練組件,例如將視覺(jué)編碼器與大語(yǔ)言模型(LLM)連接,并繼續(xù)進(jìn)行多模態(tài)訓(xùn)練。雖然這些方法顯示出顯著的采樣效率,但這種“晚期融合架構(gòu)”是否具有固有的優(yōu)越性仍是一個(gè)未決問(wèn)題。

在這項(xiàng)工作中,蘋果團(tuán)隊(duì)重新審視了原生多模態(tài)模型(NMM)的架構(gòu)設(shè)計(jì)并進(jìn)行了廣泛的 scaling laws 研究,涵蓋了 457 個(gè)具有不同架構(gòu)和訓(xùn)練 mixture 的訓(xùn)練模型。研究表明,與不依賴圖像編碼器的早期融合架構(gòu)相比,晚期融合架構(gòu)

并沒(méi)有固有優(yōu)勢(shì)。相反,早期融合架構(gòu)在參數(shù)較少的情況下表現(xiàn)出更強(qiáng)的性能,訓(xùn)練效率更高,也更容易部署。受早期融合架構(gòu)性能優(yōu)勢(shì)的啟發(fā),他們展示了將混合專家(MoE)納入模型可以學(xué)習(xí)特定模態(tài)的權(quán)重,從而顯著提高性能。


論文鏈接:

https://arxiv.org/abs/2504.07951

3. 7B 模型超越 o1!視覺(jué)推理新突破:所需樣本少,還能自提升

在這項(xiàng)工作中,來(lái)自馬里蘭大學(xué)和微軟的研究團(tuán)隊(duì)提出了一種增強(qiáng)視覺(jué)推理的有效方法,其所需訓(xùn)練樣本少,純粹依靠自我改進(jìn),且沒(méi)有知識(shí)提煉。

他們認(rèn)為,強(qiáng)化微調(diào)(RFT)過(guò)程中訓(xùn)練數(shù)據(jù)的難度至關(guān)重要,即使數(shù)據(jù)集很小,適當(dāng)?shù)奶魬?zhàn)樣本也能大幅提高推理能力。因此,主要的挑戰(zhàn)仍然是如何準(zhǔn)確量化樣本難度,以實(shí)現(xiàn)有效的數(shù)據(jù)篩選。

為此,他們提出了重新利用蒙特卡洛樹(shù)搜索(MCTS)的新方法。從他們策劃的 70k 個(gè)開(kāi)源訓(xùn)練樣本開(kāi)始,他們引入了一種基于 MCTS 的選擇方法,該方法根據(jù) VLM 解決每個(gè)問(wèn)題所需的迭代次數(shù)來(lái)量化樣本難度。MCTS 中這種明確的

分步推理方法能讓模型思考更長(zhǎng)的時(shí)間,從而更好地識(shí)別真正具有挑戰(zhàn)性的樣本。他們篩選并保留了 11k 個(gè)樣本,在 Qwen2.5-VL-7B-Instruct 上執(zhí)行 RFT,最終形成了 ThinkLite-VL 模型。


對(duì) 8 個(gè)基準(zhǔn)的評(píng)估結(jié)果表明,ThinkLite-VL 在僅使用 11k 個(gè)訓(xùn)練樣本且未進(jìn)行知識(shí)提煉的情況下,將 Qwen2.5-VL-7B-Instruct 的平均性能提高了 7%,優(yōu)于所有現(xiàn)有的 7B 級(jí)推理 VLM,也優(yōu)于他們使用經(jīng)典選擇方法(如基于準(zhǔn)確性的過(guò)濾)的對(duì)比基線。值得注意的是,在 MathVista 上,ThinkLite-VL-7B 實(shí)現(xiàn)了 SoTA 準(zhǔn)確率 75.1,超過(guò)了 Qwen2.5-VL-72B、GPT-4o 和 o1。

論文鏈接:

https://arxiv.org/abs/2504.07934

4. MIT 團(tuán)隊(duì)提出“自我引導(dǎo)”LM 方法 DisCIPL

雖然測(cè)試時(shí)推理使語(yǔ)言模型(LM)能夠處理復(fù)雜的任務(wù),但用自然語(yǔ)言進(jìn)行搜索或規(guī)劃可能會(huì)很慢、成本很高,而且容易出錯(cuò)。然而,盡管語(yǔ)言模型難以模仿解決問(wèn)題所需的精確推理步驟,它們也往往擅長(zhǎng)描述問(wèn)題的抽象結(jié)構(gòu)——包括如何驗(yàn)證解決方案,以及如何搜索解決方案。

在這項(xiàng)工作中,麻省理工學(xué)院(MIT)團(tuán)隊(duì)提出了一種“自我引導(dǎo)”LM 方法 DisCIPL,即一個(gè) Planner 模型生成一個(gè)特定于任務(wù)的推理程序,一群

Follower 模型來(lái)執(zhí)行這一程序。這一方法使 LM 具備了編寫指導(dǎo) LM 推理的遞歸搜索程序的能力,從而實(shí)現(xiàn)了新形式的可驗(yàn)證和高效推理。


當(dāng)實(shí)例化為一個(gè)小型 Follower 模型(例如 Llama-3.2-1B)時(shí),DiscIPL 可以在具有挑戰(zhàn)性的受限生成任務(wù)中比肩(有時(shí)甚至優(yōu)于)

更大型的模型,包括 GPT-4o 和 o1。通過(guò)將規(guī)劃與執(zhí)行解耦,這一工作為高度并行化的蒙特卡洛推理策略開(kāi)辟了設(shè)計(jì)空間,這些策略優(yōu)于標(biāo)準(zhǔn)的 best-of-N 采樣,無(wú)需微調(diào),且可以由現(xiàn)有的 LM 自動(dòng)實(shí)現(xiàn)。

論文鏈接:

https://arxiv.org/abs/2504.07081

5. MM-IFEngine:邁向多模態(tài)指令跟隨

指令跟蹤(IF)能力衡量的是多模態(tài)大語(yǔ)言模型(MLLM)對(duì)用戶指令的準(zhǔn)確理解以及正確解決問(wèn)題的程度。現(xiàn)有多模態(tài)指令跟蹤訓(xùn)練數(shù)據(jù)很少,基準(zhǔn)都是簡(jiǎn)單的原子指令,而且對(duì)于要求精確輸出約束的任務(wù)來(lái)說(shuō),評(píng)估策略并不精確。

為了解決這一問(wèn)題,上海 AI Lab 團(tuán)隊(duì)提出了一個(gè)生成高質(zhì)量圖像指令對(duì)的有效管道——MM-IFEngine,其可以生成大規(guī)模、多樣化和高質(zhì)量的訓(xùn)練數(shù)據(jù) MM-IFInstruct-23k,該數(shù)據(jù)適用于監(jiān)督微調(diào)(SFT),并可擴(kuò)展為用于直接偏

好優(yōu)化(DPO)的 MM-IFDPO-23k。他們進(jìn)一步提出了一個(gè)具有挑戰(zhàn)性和多樣性的多模態(tài)指令跟隨基準(zhǔn)——MM-IFEval,包括:(1)輸出響應(yīng)的合成級(jí)約束和與輸入圖像相關(guān)的感知級(jí)約束;(2)包含基于規(guī)則的評(píng)估和法官模型的綜合評(píng)估管道。


SFT 和 DPO 實(shí)驗(yàn)證明,在 MM-IFInstruct-23k 和 MM-IFDPO-23k 上對(duì) MLLM 進(jìn)行微調(diào),可在 MM-IFEval(+10.2%)、MIA(+7.6%)和 IFEval(+12.3%)等指令跟隨基準(zhǔn)上實(shí)現(xiàn)性能提升。

論文鏈接:

https://arxiv.org/abs/2504.07957

6. 上海 AI Lab:利用強(qiáng)化微調(diào)增強(qiáng) MLLM 時(shí)空感知

強(qiáng)化學(xué)習(xí)提高了多模態(tài)大語(yǔ)言模型(MLLM)的推理能力。雖然群體相對(duì)策略優(yōu)化(GRPO)和基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制等方法已經(jīng)應(yīng)用于文本和圖像領(lǐng)域,但它們?cè)谝曨l理解方面的應(yīng)用仍然有限。

在這項(xiàng)工作中,上海 AI Lab 團(tuán)隊(duì)介紹了針對(duì)視頻 MLLM 的強(qiáng)化微調(diào)(RFT)與 GRPO 的系統(tǒng)探索,旨在增強(qiáng)時(shí)空感知,同時(shí)保持通用能力。


實(shí)驗(yàn)表明,RFT 對(duì)特定任務(wù)的提升具有很高的數(shù)據(jù)效率。通過(guò)對(duì)樣本有限的時(shí)空感知目標(biāo)進(jìn)行多任務(wù) RFT,他們開(kāi)發(fā)出了視頻 MLLM——VideoChat-R1,其在不犧牲聊天能力的前提下,在時(shí)空感知任務(wù)上實(shí)現(xiàn)了 SOTA,同時(shí)展現(xiàn)了時(shí)空推理能力。與 Qwen2.5-VL-7B 相比,VideoChat-R1 在時(shí)間接地(+31.8)和物體跟蹤(+3

1.2)等任務(wù)上的性能提高了數(shù)倍。此外,它還提高了通用問(wèn)答基準(zhǔn)的性能,如 VideoMME(+0.9)、MVBench(+1.0)和 Perception Test(+0.9)。這一研究結(jié)果凸顯了 RFT 在增強(qiáng)視頻 MLLM 的專業(yè)任務(wù)方面的潛力。

論文鏈接:

https://arxiv.org/abs/2504.06958

整理:學(xué)術(shù)君

如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
專打國(guó)家元首的金牛座導(dǎo)彈抵烏!紅場(chǎng)勝利日閱兵式需要掂量了

專打國(guó)家元首的金牛座導(dǎo)彈抵烏!紅場(chǎng)勝利日閱兵式需要掂量了

大風(fēng)文字
2025-04-25 18:56:10
又美又颯!吳艷妮13米00奪第七:戰(zhàn)斗天使真美,挑戰(zhàn)世界頂尖選手

又美又颯!吳艷妮13米00奪第七:戰(zhàn)斗天使真美,挑戰(zhàn)世界頂尖選手

李喜林籃球絕殺
2025-04-26 21:09:17
調(diào)度中心不雅畫面人員被停職調(diào)查,知情者披露兩人疑似身份內(nèi)情

調(diào)度中心不雅畫面人員被停職調(diào)查,知情者披露兩人疑似身份內(nèi)情

Likepres
2025-04-25 22:29:07
儲(chǔ)戶慌嗎?存款方面迎來(lái)4個(gè)方面的調(diào)整,已存的人咋辦?

儲(chǔ)戶慌嗎?存款方面迎來(lái)4個(gè)方面的調(diào)整,已存的人咋辦?

話史官1
2025-04-26 15:03:19
深圳殉情男子遺書稱想與妻子合葬 岳母:連女兒的牙刷他都不舍得丟 想不到他深情到這個(gè)地步

深圳殉情男子遺書稱想與妻子合葬 岳母:連女兒的牙刷他都不舍得丟 想不到他深情到這個(gè)地步

閃電新聞
2025-04-26 10:42:31
小米YU9曝光,雷軍讓3億中產(chǎn)沸騰了

小米YU9曝光,雷軍讓3億中產(chǎn)沸騰了

互聯(lián)網(wǎng)品牌官
2025-04-24 16:06:32
喬-科爾:希望穆里尼奧回英超,想在三、四年內(nèi)奪冠找他就對(duì)了

喬-科爾:希望穆里尼奧回英超,想在三、四年內(nèi)奪冠找他就對(duì)了

直播吧
2025-04-26 21:55:12
2025年一季度出口值30強(qiáng)城市:蘇州、寧波環(huán)比大增,鄭州漲勢(shì)喜人

2025年一季度出口值30強(qiáng)城市:蘇州、寧波環(huán)比大增,鄭州漲勢(shì)喜人

Data居士
2025-04-26 10:59:59
美麗的新娘

美麗的新娘

動(dòng)物奇奇怪怪
2025-04-27 00:35:07
69年九大名單出爐,毛主席發(fā)怒:怎么沒(méi)他?此人痛哭:主席記得我

69年九大名單出爐,毛主席發(fā)怒:怎么沒(méi)他?此人痛哭:主席記得我

可樂(lè)88
2024-04-26 09:14:34
不滿裁判吹罰?崔康熙:大家都是足球人 有些問(wèn)題我沒(méi)法直說(shuō)

不滿裁判吹罰?崔康熙:大家都是足球人 有些問(wèn)題我沒(méi)法直說(shuō)

球事百科吖
2025-04-27 04:40:14
航母才是最大的捕魚船?遼寧艦每次帶回?cái)?shù)十噸海鮮,全部銷毀!

航母才是最大的捕魚船?遼寧艦每次帶回?cái)?shù)十噸海鮮,全部銷毀!

百態(tài)人間
2025-04-22 16:26:25
中年女人有意讓你“拿下”,會(huì)有一個(gè)表現(xiàn):兩個(gè)字

中年女人有意讓你“拿下”,會(huì)有一個(gè)表現(xiàn):兩個(gè)字

蓮子說(shuō)情感
2025-01-11 10:26:07
王勵(lì)勤遇當(dāng)頭一棒!國(guó)乒大潰敗,單打16人參賽15人出局;日本強(qiáng)勢(shì)

王勵(lì)勤遇當(dāng)頭一棒!國(guó)乒大潰敗,單打16人參賽15人出局;日本強(qiáng)勢(shì)

莼侃體育
2025-04-26 08:27:26
王菲現(xiàn)身謝霆鋒演唱會(huì)!《玉蝴蝶》唱響時(shí),王菲陶醉起舞,太甜了

王菲現(xiàn)身謝霆鋒演唱會(huì)!《玉蝴蝶》唱響時(shí),王菲陶醉起舞,太甜了

叨嘮
2025-04-26 02:45:58
1-0大冷門,90分鐘絕殺,英冠第22掀翻英冠第6,蘭帕德率隊(duì)2連敗

1-0大冷門,90分鐘絕殺,英冠第22掀翻英冠第6,蘭帕德率隊(duì)2連敗

側(cè)身凌空斬
2025-04-26 21:39:34
北京房?jī)r(jià):泡沫與走勢(shì)分析

北京房?jī)r(jià):泡沫與走勢(shì)分析

流蘇晚晴
2025-04-26 21:36:36
殺人誅心!大S離世后,小玥兒的第一個(gè)生日現(xiàn)場(chǎng)曝光,網(wǎng)友集體破防了

殺人誅心!大S離世后,小玥兒的第一個(gè)生日現(xiàn)場(chǎng)曝光,網(wǎng)友集體破防了

瞎說(shuō)娛樂(lè)
2025-04-26 10:55:49
大比分2-1!塔圖姆空砍36+9,黑馬雙星合砍61分,凱爾特人遭逆轉(zhuǎn)

大比分2-1!塔圖姆空砍36+9,黑馬雙星合砍61分,凱爾特人遭逆轉(zhuǎn)

老梁體育漫談
2025-04-26 10:06:15
突降6℃!湖北接下來(lái)大反轉(zhuǎn)

突降6℃!湖北接下來(lái)大反轉(zhuǎn)

魯中晨報(bào)
2025-04-26 11:20:10
2025-04-27 05:28:49
學(xué)術(shù)頭條
學(xué)術(shù)頭條
致力于學(xué)術(shù)傳播和科學(xué)普及,重點(diǎn)關(guān)注人工智能、生命科學(xué)等前沿科學(xué)進(jìn)展。
1247文章數(shù) 5069關(guān)注度
往期回顧 全部

科技要聞

百度心響實(shí)測(cè):“能用版Manus”開(kāi)了個(gè)好頭

頭條要聞

特朗普將舉行集會(huì)慶祝執(zhí)政100天 美媒:時(shí)機(jī)不妙

頭條要聞

特朗普將舉行集會(huì)慶祝執(zhí)政100天 美媒:時(shí)機(jī)不妙

體育要聞

廣廈19分勝遼寧獲開(kāi)門紅 孫銘徽13分3助崴腳

娛樂(lè)要聞

金掃帚獎(jiǎng)出爐,包貝爾意外獲“影帝”

財(cái)經(jīng)要聞

韓國(guó)的"宇樹(shù)科技" 是怎樣被財(cái)閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

手機(jī)
房產(chǎn)
本地
藝術(shù)
數(shù)碼

手機(jī)要聞

vivo大折疊屏新機(jī)曝光,三季度登場(chǎng)

房產(chǎn)要聞

教育理念再進(jìn)階!解碼新世界星輝如何構(gòu)筑「家校社成長(zhǎng)生態(tài)圈」!

本地新聞

云游湖北 | 漢川文旅新體驗(yàn):千年陶藝邂逅湖光

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

AMD修補(bǔ)高危安全漏洞!歷代Zen架構(gòu)CPU 100%中招

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 襄樊市| 浦北县| 磐安县| 积石山| 阿克苏市| 清远市| 阿尔山市| 新河县| 浮梁县| 马尔康县| 安溪县| 图片| 富裕县| 灌南县| 泌阳县| 长寿区| 定结县| 哈密市| 台中县| 台东县| 巴中市| 师宗县| 白银市| 兴和县| 古交市| 高尔夫| 苗栗县| 文昌市| 黔江区| 如东县| 琼中| 图木舒克市| 扶风县| 洛隆县| 西畴县| 剑河县| 广州市| 青州市| 克什克腾旗| 韶关市| 高碑店市|