99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI理解27分鐘長視頻超越GPT-4o,港理工新國立開源鏈式LoRA新框架

0
分享至

  • VideoMind團隊 投稿
    量子位 | 公眾號 QbitAI

AI能像人類一樣理解長視頻。

港理工、新加坡國立團隊推出VideoMind框架,核心創新在于角色化推理(Role-based Reasoning)和鏈式LoRA(Chain-of-LoRA)策略。

相關論文已上傳arXiv,代碼和數據全部開源。



隨著視頻數據量的激增,如何理解和推理長視頻中的復雜場景和事件成為了多模態人工智能研究的熱點。不同于靜態圖像,視頻不僅包含視覺信息,還包含時間維度上的動態變化,這要求模型在理解視頻時不僅要識別畫面中的物體和場景,還要理解這些物體和場景如何隨時間變化和相互作用。

傳統的基于文本和圖像的推理模型(如OpenAI o1, DeepSeek R1等)往往無法應對這種復雜的時間維度推理任務。

VideoMind框架

區別于文本和圖片,長視頻理解難以用傳統的單次感知 + 純文字推理實現。

相比之下,人類在理解長視頻(如教學視頻、故事類視頻)時往往會尋找相關片段并反復觀看,以此獲取更可靠的結論。

受該現象啟發,作者根據視頻理解所需要的4種核心能力(制定計劃、搜索片段、驗證片段、回答問題),為VideoMind定義了4個角色,并構建了一個角色化的工作流,有效地解決了長視頻中的時序推理問題。

  • 規劃者(Planner)
  • 根據問題動態制定計劃,決定如何調用其他角色(如先定位,再驗證,最后回答問題);
  • 定位器(Grounder)
  • 根據給定的問題或查詢,精確定位與之相關的視頻片段;
  • 驗證器(Verifier)
  • 對定位得到的多個時間片段進行驗證,確保其準確性;
  • 回答者(Answerer)
  • 基于選定的視頻片段進行理解,生成最終答案。



圖1:傳統純文字推理和VideoMind的角色化推理

為了高效整合以上角色,作者進一步提出了鏈式LoRA(Chain-of-LoRA)策略,在一個統一的Base模型(如Qwen2-VL)上同時加載多個輕量的LoRA Adapter,并在推理時根據需要進行動態切換,以實現不同角色間的轉換。該策略僅需要在Base模型上添加少量可學習參數,即可實現多個角色/功能間的無縫切換,既獲得了比單一模型顯著更優的性能,也避免了多模型并行帶來的計算開銷,從而在確保性能的同時大幅提高了計算效率。



圖2: VideoMind的整體架構和推理流程

VideoMind推理流程

如圖2所示,模型接收一個視頻和一個用戶提出的問題作為輸入,通過切換多個角色來推理出最終答案。其中,Planner首先對視頻和問題進行分析,執行后續推理的計劃,其結果以JSON list的形式呈現。推理計劃主要可分為以下三種:



圖3:VideoMind的三種推理模式

其中(i)主要針對長視頻問答任務(Grounded VideoQA),需要使用Grounder + Verifier + Answerer三個角色進行作業;(ii)針對視頻時序定位任務(Video Temporal Grounding),使用Grounder + Verifier來進行相關片段的精準查找;(iii)針對短視頻問答,該場景下由于視頻較短,無需對其進行裁剪,故直接使用Answerer進行推理。



圖4:Timestamp Decoder模塊

Grounder負責接收一個自然語言查詢,并在視頻中定位相關片段。針對這一復雜任務,研究團隊提出了Timestamp Decoder模塊,將離散的Token預測任務和連續的時間回歸任務解耦開來,并使LLM通過Special Token進行調用,實現了強大的Zero-shot時序定位性能。



圖5:Verifier的驗證策略

為保證時間分辨率,Grounder往往工作在較低的空間分辨率下,因此獲得的時間片段可能會不準確。針對此問題,作者設計了Verifier角色來對每個片段進行放大驗證,并從多個候選片段中選取置信度最高的作為目標片段。試驗證明該策略可以進一步顯著提高Temporal Grounding任務的性能。



表1:VideoMind的訓練數據集

為訓練VideoMind,作者針對不同角色收集/制作了多個數據集,共計包含接近50萬個樣本。不同角色使用不同數據集進行訓練,并在推理時合并加載,以確保每個角色的性能最大化。所有訓練數據(包括前期探索使用的更多數據集)全部公開可用。

實驗與評估

為了驗證VideoMind的有效性,作者在14個公開基準測試集上進行了廣泛的實驗,涵蓋了長視頻定位 + 問答(Grounded VideoQA)、視頻時序定位(Video Temporal Grounding)和普通視頻問答(General VideoQA)等任務。



表2:用于VideoMind評測的基準測試集

(1)視頻定位 + 問答(Grounded VideoQA)

在CG-Bench、ReXTime、NExT-GQA等長視頻基準上,VideoMind在答案精確度和時序定位準確性方面表現出了領先優勢。特別的,在平均視頻長度約為27分鐘的CG-Bench中,較小的VideoMind-2B模型在時序定位和問答任務上超越了GPT-4o、Gemini-1.5-Pro等最先進的模型



表3:CG-Bench數據集的測試結果



表4:NExT-GQA數據集的測試結果

(2)視頻時序定位(Video Temporal Grounding)

VideoMind的Grounder通過創新的Timestamp Decoder和Temporal Feature Pyramid設計,顯著提高了視頻時序定位的準確性。Verifier的設計進一步提升了高精度定位的性能。VideoMind在Charades-STA、ActivityNet-Captions、QVHighlights等基準上都取得了最佳性能。此外,VideoMind也是首個支持多片段grounding的多模態大模型,因此可以在QVHighlights數據集上跟現有模型公平對比。



表5:Charades-STA數據集的測試結果



表6:ActivityNet Captions數據集的測試結果



表7:QVHighlights數據集的測試結果

(3)一般視頻問答(General VideoQA)

對于通用的視頻理解問題,VideoMind也表現出了強大的泛化能力。在Video-MME、MVBench、MLVU、LVBench、LongVideoBench等基準上,VideoMind得益于其Planner的設計,可以自適應地決定是否需要grounding,其性能超越了許多先進的視頻問答模型,顯示了其在不同視頻長度下的優越表現。



表8:Video-MME、MLVU和LVBench數據集的測試結果



表9:LongVideoBench數據集的測試結果

以下例子展現了VideoMind在實際場景中的推理流程。給定一個視頻和一個問題,該模型可以拆解問題、指定計劃、搜索片段、驗證結果,并根據獲取的片段推理最終答案。該策略相比傳統的純文字推理(左下部分)更加符合人類行為,結果也更加可靠。



圖6:VideoMind的推理流程可視化

總結

VideoMind的提出不僅在于視頻理解性能的突破,更在于提出了一個模塊化、可擴展、可解釋的多模態推理框架。該框架首次實現了類似人類行為的“指定計劃、搜索片段、驗證結果、回答問題”流程,真正讓AI能“像人類一樣理解視頻”,為未來的視頻理解和多模態智能系統領域奠定了基礎。

項目主頁:https://videomind.github.io/
論文鏈接:https://arxiv.org/abs/2503.13444
開源代碼:https://github.com/yeliudev/VideoMind
開源數據:https://huggingface.co/datasets/yeliudev/VideoMind-Dataset
在線Demo:https://huggingface.co/spaces/yeliudev/VideoMind-2B

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
網友:湖北這次狂風暴雨加冰雹,汽修店都堵了!保險公司受傷最重

網友:湖北這次狂風暴雨加冰雹,汽修店都堵了!保險公司受傷最重

火山詩話
2025-04-12 10:51:50
驚天巨變!中美隨時進入攤牌狀態

驚天巨變!中美隨時進入攤牌狀態

戶外釣魚哥阿旱
2025-04-12 08:57:37
美教育部長將“AI”稱為“A1” 美網友:這就是教育

美教育部長將“AI”稱為“A1” 美網友:這就是教育

看看新聞Knews
2025-04-11 16:11:09
逆轉!加蘭26+13,布倫森27+2,東部前六誕生,尼克斯認清現實

逆轉!加蘭26+13,布倫森27+2,東部前六誕生,尼克斯認清現實

籃球大視野
2025-04-12 10:39:16
北京腫瘤專家關天瑜教授去世,發病到離世僅一周,專家號僅100元

北京腫瘤專家關天瑜教授去世,發病到離世僅一周,專家號僅100元

一桶漿糊要一統江湖
2025-04-12 07:47:46
華僑“鋼鐵大王”在菲被綁架撕票 知情人:懷疑熟人作案,家屬曾聯系道上的人談判|封面頭條

華僑“鋼鐵大王”在菲被綁架撕票 知情人:懷疑熟人作案,家屬曾聯系道上的人談判|封面頭條

封面新聞
2025-04-11 19:30:05
杜蘭特正式接受火箭1.2億合同,督促太陽盡快交易,還提出2個要求

杜蘭特正式接受火箭1.2億合同,督促太陽盡快交易,還提出2個要求

野渡舟山人
2025-04-11 10:56:19
最新確認!今天開始,影響青島!持續3天→

最新確認!今天開始,影響青島!持續3天→

魯中晨報
2025-04-12 07:59:08
網友:偷拍到導師電腦,人都要崩潰!可愛的小老頭還知道賄賂師母

網友:偷拍到導師電腦,人都要崩潰!可愛的小老頭還知道賄賂師母

火山詩話
2025-04-12 07:00:19
“吃定”一個女人,不是卑微討好,也不是頻繁聯系,而是:三個字

“吃定”一個女人,不是卑微討好,也不是頻繁聯系,而是:三個字

蓮子說情感
2025-04-11 10:14:08
大量美國游客因落地免簽、離境退稅涌入中國,開啟瘋狂購物

大量美國游客因落地免簽、離境退稅涌入中國,開啟瘋狂購物

億通電子游戲
2025-04-11 20:48:00
美媒爆特朗普突然改主意,因美債被大量拋售,日本:我們偷襲成功

美媒爆特朗普突然改主意,因美債被大量拋售,日本:我們偷襲成功

袁周院長
2025-04-11 11:40:08
比房價下跌更難受,3大信號出現,行家:房子正在成為負債

比房價下跌更難受,3大信號出現,行家:房子正在成為負債

巢客HOME
2025-04-12 09:10:04
中國人的語言攻擊能力簡直太強了!老外:中國人罵人像惡魔在低語

中國人的語言攻擊能力簡直太強了!老外:中國人罵人像惡魔在低語

奇特短尾矮袋鼠
2024-11-23 16:08:32
在深山徒步時,我與美艷驢友發生了關系,從此我的噩夢開始了

在深山徒步時,我與美艷驢友發生了關系,從此我的噩夢開始了

溫情郵局
2025-04-10 10:38:45
突然反轉了!蘋果開始做出改變,外媒:終究還是頂不住了!

突然反轉了!蘋果開始做出改變,外媒:終究還是頂不住了!

阿矗論古今
2025-04-07 09:35:23
黃金儲備差距:美國8133噸,俄羅斯2350噸,中國讓人“出乎意料”

黃金儲備差距:美國8133噸,俄羅斯2350噸,中國讓人“出乎意料”

魏家東
2024-12-15 09:45:11
為什么特斯拉用的是寧德時代,為啥還大老遠去用LG的電池?

為什么特斯拉用的是寧德時代,為啥還大老遠去用LG的電池?

車有梗
2025-03-11 06:30:17
美股巨震,特朗普竟炫耀朋友一天賺25億美元!購物小票已出現“關稅附加費”,美網友大對賬:“真的開始了!特朗普征稅,我買單”

美股巨震,特朗普竟炫耀朋友一天賺25億美元!購物小票已出現“關稅附加費”,美網友大對賬:“真的開始了!特朗普征稅,我買單”

每日經濟新聞
2025-04-11 14:19:08
天!57歲林憶蓮胖成這模樣了,大圓臉腰上游泳圈,都快認不出了!

天!57歲林憶蓮胖成這模樣了,大圓臉腰上游泳圈,都快認不出了!

草莓解說體育
2025-04-11 01:04:05
2025-04-12 11:44:52
量子位 incentive-icons
量子位
追蹤人工智能動態
10303文章數 176094關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

牛彈琴:特別的客人來到北京 美國公開威脅"后果嚴重"

頭條要聞

牛彈琴:特別的客人來到北京 美國公開威脅"后果嚴重"

體育要聞

當意甲冠軍跌入意乙降級區 老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態度原創

本地
藝術
親子
時尚
房產

本地新聞

華北將迎“歷史罕見”大風

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

挑戰拼三種交通工具,小星星大膽創新玩積木,成果驚艷爸媽!

繼德訓鞋、老爹鞋之后,今年輪到這雙運動鞋刷屏!

房產要聞

官宣6月!地鐵12號線沖刺開通,白云金沙洲終于等來破局

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 佛坪县| 铅山县| 玉龙| 米易县| 陈巴尔虎旗| 台东县| 桓仁| 泸水县| 钦州市| 舟曲县| 涞源县| 开化县| 平江县| 尼木县| 德格县| 万源市| 武胜县| 温州市| 航空| 徐水县| 南投县| 凤冈县| 湘潭县| 永康市| 广平县| 榆中县| 蒙山县| 广德县| 中超| 江口县| 左权县| 厦门市| 合阳县| 会同县| 泉州市| 竹北市| 济阳县| 洛南县| 定兴县| 龙岩市| 汨罗市|