99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

視頻推理R1時刻,7B模型反超GPT-4o!港中文清華推出首個Video-R1

0
分享至


新智元報(bào)道

編輯:LRST 好困

【新智元導(dǎo)讀】港中文和清華團(tuán)隊(duì)推出Video-R1模型,首次將強(qiáng)化學(xué)習(xí)的R1范式應(yīng)用于視頻推理領(lǐng)域。通過升級的T-GRPO算法和混合圖像視頻數(shù)據(jù)集,Video-R1在視頻空間推理測試中超越了GPT-4o,展現(xiàn)了強(qiáng)大的推理能力,并且全部代碼和數(shù)據(jù)集均已開源。

語言模型的推理剛火完,視頻AI也開始「卷」起來了。

這次出手的是港中文+清華組合,直接把強(qiáng)化學(xué)習(xí)里的R1玩法搬到了視頻領(lǐng)域,整出了全球首個視頻版R1模型:Video-R1

別看它只有7B參數(shù),但它在李飛飛提出的VSI-Bench基準(zhǔn)中,竟然超越了GPT-4o!

這波不是簡單微調(diào)。它背后換上了全新的時間感知算法T-GRPO,再配上圖像+視頻混合訓(xùn)練、兩套高質(zhì)量數(shù)據(jù)集,硬是把AI的視頻推理能力拉滿,讓模型不止能「看」,更開始「思考」。

而且,全套模型、代碼、數(shù)據(jù)集——已經(jīng)開源了!

視頻大模型的「推理時刻」,已經(jīng)開始。


論文鏈接:https://arxiv.org/abs/2503.21776

項(xiàng)目地址:https://github.com/tulerfeng/Video-R1

知名博主AK也連發(fā)2條推特,推薦這篇論文:


為什么視頻大模型總是「不聰明」?

視頻模型看起來「懂點(diǎn)東西」,其實(shí)大多都只是表面功夫。真正讓它們「動腦子」的地方,反而是它們最弱的短板。

研究團(tuán)隊(duì)指出,如果還按照傳統(tǒng)GRPO的套路來訓(xùn)練AI看視頻,會踩兩個坑:

一個是沒時間概念,模型完全不知道視頻事件的前后邏輯,常常「看圖說話」——看到一幀畫面就急著給出答案。這種套路最多就是蒙對幾次,沒法形成真正的因果推理,泛化性差。例如下圖所示。


另一個問題更棘手:訓(xùn)練數(shù)據(jù)太淺。很多現(xiàn)有視頻數(shù)據(jù)集壓根就不適合教模型「思考」,清一色的識別題,幾乎沒多少需要推理才能解的任務(wù)。模型怎么練都只是在死記硬背,根本沒機(jī)會練大腦。

所以,視頻大模型「不聰明」,真不是沒潛力,而是沒人教對方法。

一套獎勵機(jī)制,把視頻推理訓(xùn)會了

研究團(tuán)隊(duì)整了個狠招:獎勵機(jī)制綁定時間理解

研究人員把舊版GRPO算法升級成了更懂時序的T-GRPO,直接把「考慮時序」這事寫進(jìn)了模型的獎勵邏輯里。

方法簡單粗暴又高效——模型每次會收到兩組輸入:一組視頻幀隨機(jī)亂序,一組順序。只有當(dāng)它在「順序」輸入上答對題的比例更高,才會獲得獎勵。

這個機(jī)制在「教」模型:別光看圖,推理得講前因后果。哪怕只看了一幀猜對了題,也拿不到分。

在這種嚴(yán)格打分機(jī)制下,模型終于明白——視頻不是PPT翻頁,而是一個個邏輯線索串起來的故事。

靠混合數(shù)據(jù)打通任督二脈


視頻推理數(shù)據(jù)太稀缺,模型「練不成」?

研究人員干脆把圖像推理數(shù)據(jù)請進(jìn)視頻訓(xùn)練流程,做了兩個關(guān)鍵數(shù)據(jù)集:一個是圖像為主的Video-R1-COT-165k,專門用來冷啟動模型思維;另一個是以高質(zhì)量視頻為核心的Video-R1-260k,用來精調(diào)強(qiáng)化訓(xùn)練。

別以為圖片只是打輔助,恰恰相反——它幫AI打好了「邏輯底盤」,學(xué)會怎么通用推理;而那些優(yōu)選過的視頻數(shù)據(jù),則進(jìn)一步逼它理解時間邏輯和動態(tài)變化。

這套圖像+視頻混合訓(xùn)練方式,不光解決了數(shù)據(jù)稀缺,還真讓模型形成了從「看圖說話」到「視頻深思」的進(jìn)階跳躍,真正打通了多模態(tài)理解的任督二脈。

視頻推理的「aha moment」

Video-R1在推理過程中,竟然出現(xiàn)了類似人類的「頓悟時刻」——那種突然把所有線索串起來、恍然大悟的瞬間,也被稱為「aha moment」。

比如有一道題是:哪個動作會導(dǎo)致系統(tǒng)能量損耗?另一個是:看完一段室內(nèi)漫游視頻,推理出從書柜走到浴缸的路徑。

換做以前的模型,十有八九就是「看一眼」就開答,但Video-R1卻能一步步分析時序,進(jìn)行推理,最終給出邏輯閉環(huán)的準(zhǔn)確回答。

這不是死記硬背,而是推理真正生效的信號。AI第一次表現(xiàn)出:它不只是識圖,而是在「思考」視頻里發(fā)生了什么。



實(shí)驗(yàn)結(jié)果


在多個視頻推理測試基準(zhǔn)上,這個Video-R1-7B模型幾乎場場領(lǐng)先,尤其在李飛飛提出的VSI-Bench這一權(quán)威評測中,拿下了35.8%的準(zhǔn)確率,超越了閉源頂尖大模型GPT-4o。

不僅如此,RL和傳統(tǒng)SFT之間的差距也被拉開了。比如同樣是7B體量的Qwen2.5-VL-SFT,在測試中表現(xiàn)不佳。反觀Video-R1,則在幾乎所有場景中都穩(wěn)定輸出,泛化能力一騎絕塵。


還有一個非常關(guān)鍵的發(fā)現(xiàn):幀數(shù)越多,推理越準(zhǔn)。當(dāng)模型輸入的視頻幀數(shù)從16增加到32,再到64,測試表現(xiàn)都跟著上臺階。這說明,對時間線的理解力,正是視頻推理模型的決勝點(diǎn)——誰能處理更長的視頻,誰就更有未來。


團(tuán)隊(duì)還做了一組消融實(shí)驗(yàn),直接「抽掉」圖像數(shù)據(jù)訓(xùn)練、再試試砍掉時間建模模塊,結(jié)果都一樣——模型性能明顯下滑。這直接驗(yàn)證了一件事:Video-R1的每一塊設(shè)計(jì)都打在了點(diǎn)子上。


不僅如此,從訓(xùn)練動態(tài)中也能看出門道。隨著強(qiáng)化學(xué)習(xí)的推進(jìn),模型獲得的準(zhǔn)確率獎勵和時間獎勵在持續(xù)上升,說明它不僅越來越會答題,還越來越懂得「時間邏輯」這回事。

有意思的是,模型在訓(xùn)練早期輸出的回答變短了——這是在主動拋棄之前SFT里學(xué)到的次優(yōu)推理模式;但隨著訓(xùn)練推進(jìn),輸出逐漸恢復(fù)并穩(wěn)定,形成了一套更高效、更具邏輯的表達(dá)路徑。

Video-R1用實(shí)力證明:強(qiáng)化學(xué)習(xí)不只是NLP的專利,視頻大模型也能玩出推理力。

它不靠「堆料」,靠的是機(jī)制設(shè)計(jì)和訓(xùn)練策略,并且全套開源。

R1的推理范式,正在把下一場AI革命,從文本世界帶進(jìn)了每一幀畫面里。

視頻推理的時代,真的來了。

參考資料:

https://arxiv.org/abs/2503.21776

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斯諾克世錦賽球員簽表:丁俊暉vs舒爾第,趙心童vs杰克-瓊斯

斯諾克世錦賽球員簽表:丁俊暉vs舒爾第,趙心童vs杰克-瓊斯

直播吧
2025-04-18 00:43:07
丁薛祥在陜西調(diào)研

丁薛祥在陜西調(diào)研

新京報(bào)政事兒
2025-04-16 23:41:52
黃一鳴直播時埋怨王思聰:整天抱著懶懶戀愛,一毛錢生活費(fèi)都沒給

黃一鳴直播時埋怨王思聰:整天抱著懶懶戀愛,一毛錢生活費(fèi)都沒給

娛樂看阿敞
2025-04-16 16:45:51
浪姐6被觀眾罵慘了!娛樂圈水真深,她成第二個逆襲的“王心凌”

浪姐6被觀眾罵慘了!娛樂圈水真深,她成第二個逆襲的“王心凌”

手工制作阿殲
2025-04-18 05:55:14
?13萬股民哭暈,2024年“大妖股”,徹底崩了!

?13萬股民哭暈,2024年“大妖股”,徹底崩了!

看財(cái)經(jīng)show
2025-04-17 16:33:07
梁振英次女之死細(xì)節(jié)曝光:她和16歲天才少年,患了同一種“病”

梁振英次女之死細(xì)節(jié)曝光:她和16歲天才少年,患了同一種“病”

體制內(nèi)老陳
2025-04-15 16:56:57
村民看見近3米長蟒蛇求助,消防到場意外發(fā)現(xiàn)五六條巨蟒!“蛇王”近50斤

村民看見近3米長蟒蛇求助,消防到場意外發(fā)現(xiàn)五六條巨蟒!“蛇王”近50斤

魯中晨報(bào)
2025-04-17 16:23:15
2013年,安徽大學(xué)教師郭春牛被執(zhí)行死刑,行刑前痛哭與母親告別

2013年,安徽大學(xué)教師郭春牛被執(zhí)行死刑,行刑前痛哭與母親告別

阿坷敘故事
2024-04-13 16:12:20
網(wǎng)紅燕兒爺自曝出軌公公,多次開房染HPV,公公:誰睡不是睡

網(wǎng)紅燕兒爺自曝出軌公公,多次開房染HPV,公公:誰睡不是睡

社會醬
2025-04-09 17:18:03
媒體人:CBA的一些動作,放在澳洲NBL是會被禁賽的

媒體人:CBA的一些動作,放在澳洲NBL是會被禁賽的

懂球帝
2025-04-17 17:57:15
山西大同訂婚QJ案必將和當(dāng)年的彭宇案一樣具有里程碑的意義!

山西大同訂婚QJ案必將和當(dāng)年的彭宇案一樣具有里程碑的意義!

逍遙論經(jīng)
2025-04-18 05:42:12
這一次,輪到銀行急了,兩大消息暗示

這一次,輪到銀行急了,兩大消息暗示

巢客HOME
2025-04-17 08:45:04
小申的絕望!被從頭控到尾,這一戰(zhàn)對申真谞信心打擊極大

小申的絕望!被從頭控到尾,這一戰(zhàn)對申真谞信心打擊極大

月滿大江流
2025-04-17 11:36:02
林更新:終究敗給了25歲的年輕貌美,為何要選二婚離異趙麗穎?

林更新:終究敗給了25歲的年輕貌美,為何要選二婚離異趙麗穎?

老謝談史
2025-04-16 11:06:04
首虧后光韻達(dá)擬收購謀變,標(biāo)的公司IPO折戟后遺癥待解 |并購一線

首虧后光韻達(dá)擬收購謀變,標(biāo)的公司IPO折戟后遺癥待解 |并購一線

鈦媒體APP
2025-04-17 21:22:43
59歲葉子楣在香港,參加曾志偉壽宴,打扮不倫不類,瘦成了皮包骨

59歲葉子楣在香港,參加曾志偉壽宴,打扮不倫不類,瘦成了皮包骨

軒逸阿II
2025-04-16 14:54:16
為何歐美喝酒的人那么多,肝癌患者卻比中國少?背后的原因有3點(diǎn)

為何歐美喝酒的人那么多,肝癌患者卻比中國少?背后的原因有3點(diǎn)

藥師方健
2023-06-28 16:51:13
大心臟球員!不是制勝絕殺就是補(bǔ)時絕平,馬奎爾賽季4粒進(jìn)球均價值千金

大心臟球員!不是制勝絕殺就是補(bǔ)時絕平,馬奎爾賽季4粒進(jìn)球均價值千金

雷速體育
2025-04-18 06:35:08
全球持有美債破8.8萬億,創(chuàng)新高!中國增持235億,為何不都賣掉?

全球持有美債破8.8萬億,創(chuàng)新高!中國增持235億,為何不都賣掉?

王五說說看
2025-04-17 12:18:38
沒完了?萬斯剛說中國人是鄉(xiāng)巴佬,美防長:中國人在偷我們的食物

沒完了?萬斯剛說中國人是鄉(xiāng)巴佬,美防長:中國人在偷我們的食物

小七七七七
2025-04-17 21:37:00
2025-04-18 07:04:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12544文章數(shù) 66013關(guān)注度
往期回顧 全部

科技要聞

余承東大講安全,絕口不提智駕"替你開車"

頭條要聞

美知名經(jīng)濟(jì)學(xué)家:特朗普低估了中國 也沒有留下逃生門

頭條要聞

美知名經(jīng)濟(jì)學(xué)家:特朗普低估了中國 也沒有留下逃生門

體育要聞

結(jié)束16年等待,一支強(qiáng)硬的阿森納向我們走來

娛樂要聞

張檬順利產(chǎn)子,韓國婆婆趕赴香港陪產(chǎn)

財(cái)經(jīng)要聞

李強(qiáng):要把握政策力度 必要時敢于打破常規(guī)

汽車要聞

一躍跳過障礙/秒切防御姿態(tài) 看懂嵐圖"開掛"絕技

態(tài)度原創(chuàng)

藝術(shù)
旅游
健康
時尚
數(shù)碼

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

唇皰疹和口腔潰瘍是"同伙"嗎?

劣跡藝人不 “安分”,集體 “搞事情”,想復(fù)出?

數(shù)碼要聞

蘋果發(fā)布《環(huán)境進(jìn)展報(bào)告》:庫克表示2030年實(shí)現(xiàn)全業(yè)務(wù)碳中和目標(biāo)

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 镇安县| 宜城市| 昭苏县| 新巴尔虎右旗| 星座| 花垣县| 巴彦县| 开化县| 湘潭市| 南阳市| 聊城市| 宁阳县| 鱼台县| 江永县| 桂林市| 十堰市| 云梦县| 达拉特旗| 闵行区| 饶阳县| 扎鲁特旗| 汾阳市| 合作市| 南江县| 禹城市| 互助| 林周县| 黄平县| 县级市| 大新县| 石门县| 辉南县| 兴隆县| 马关县| 兴山县| 鄂温| 水城县| 平阳县| 疏勒县| 红安县| 湟源县|