99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

NUS團隊新作FAR同時實現短視頻和長視頻預測SOTA,代碼已開源

0
分享至



本文由 NUS ShowLab 主導完成。第一作者顧宇超為新加坡國立大學 ShowLab@NUS 在讀博士生,研究方向是視覺生成,在 CVPR、ICCV、NeurIPS 等國際頂級會議與期刊上發表多篇研究成果。第二作者毛維嘉為新加坡國立大學 ShowLab@NUS 二博士生,研究方向是多模態理解和生成,項目負責作者為該校校長青年教授壽政。



  • 論文標題:Long-Context Autoregressive Video Modeling with Next-Frame Prediction
  • 論文鏈接:https://arxiv.org/abs/2503.19325
  • 項目主頁:https://farlongctx.github.io/
  • 開源代碼:https://github.com/showlab/FAR

背景:長上下文視頻生成的挑戰

目前的視頻生成技術大多是在短視頻數據上訓練,推理時則通過滑動窗口等策略,逐步擴展生成的視頻長度。然而,這種方式無法充分利用視頻的長時上下文信息,容易導致生成內容在時序上出現潛在的不一致性

解決這一問題的關鍵在于:高效地對長視頻進行訓練。但傳統的自回歸視頻建模面臨嚴重的計算挑戰 —— 隨著視頻長度的增加,token 數量呈爆炸式增長。 視覺 token 相較于語言 token 更為冗余,使得長下文視頻生成比長上下文語言生成更為困難。

本文針對這一核心挑戰,首次系統性地研究了如何高效建模長上下文視頻生成,并提出了相應的解決方案。

我們特別區分了兩個關鍵概念:

  • 長視頻生成:目標是生成較長的視頻,但不一定要求模型持續利用已生成的內容,因此缺乏長時序的一致性。這類方法通常仍在短視頻上訓練,通過滑動窗口等方式延長生成長度。
  • 長上下文視頻生成:不僅要求視頻更長,還要持續利用歷史上下文信息,確保長時序一致性。這類方法需要在長視頻數據上進行訓練,對視頻生成建模能力提出更高要求。

長上下文視頻生成的重要性:

最近的工作 Genie2 [1] 將視頻生成用于 world modeling /game simulation 的場景中,展現出非常令人驚艷的潛力。然而,現有基于滑窗的生成方法通常缺乏記憶機制,無法有效理解、記住并重用在 3D 環境中探索過的信息,比如 OASIS [2]。這種缺乏記憶性的建模方式,不僅影響生成效果,還可能導致對物理規律建模能力的缺失。這可能正是當前長視頻生成中常出現非物理現象的原因之一:模型本身并未在大量長視頻上訓練,i2v(image-to-video)+ 滑動窗口的方式難以確保全局合理性。

FAR 的創新設計與分析

1)幀自回歸模型(FAR)

FAR 將視頻生成任務重新定義為基于已有上下文逐幀(圖像)生成的過程。為解決混合自回歸與擴散模型在訓練與測試階段存在的上下文不一致問題,我們在訓練過程中隨機引入干凈的上下文信息,從而提升模型測試時對利用干凈上下文的穩定性。



FAR 的訓練測試流程;測試時對干凈上下文的生成結果。

2) 長短時上下文建模

我們觀察到,隨著上下文幀數量的增加,視頻生成中會出現視覺 token 數量急劇增長的問題。然而,視覺 token 在時序上具有局部性:對于當前解碼幀,其鄰近幀需要更細粒度的時序交互,而遠離的幀通常僅需作為記憶存在,無需深入的時序交互。基于這一觀察,我們提出了 長短時上下文建模。該機制采用非對稱的 patchify 策略:短時上下文保留原有的 patchify 策略,以保證細粒度交互;而長時上下文則進行更為激進的 patchify,減少 token 數量,從而在保證計算效率的同時,維持時序模擬的質量。



FAR 的長視頻訓練測試流程



長短時上下文的非對稱 patchify 帶來的 token 減少以及訓練效率提升

3) 用于長上下文視頻生成的多層 KV Cache 機制

針對長短時上下文的非對稱 patchify 策略,我們提出了相應的多層 KV-Cache 機制。在自回歸解碼過程中,當某一幀剛離開短時上下文窗口時,我們將其編碼為低粒度的 L2 Cache(少量 token);同時,更新仍處于短時窗口內幀的 L1 Cache(常規 token)。最終,我們結合這兩級 KV Cache,用于當前幀的生成過程。

值得強調的是,多層 KV Cache 與擴散模型中常用的 Timestep Cache 是互補的:前者沿時間序列方向緩存 KV 信息,后者則在擴散時間步維度上進行緩存,共同提升生成效率。



針對長短時上下文策略的多層 KV Cache



長視頻生成的效率提升

FAR 相對于 SORA 類 VideoDiT 的潛在優勢

1)收斂效率:在相同的連續潛空間上進行實驗時,我們發現 FAR 相較于 Video DiT 展現出更快的收斂速度以及更優的短視頻生成性能。



FAR 與 Video DiT 的收斂對比

2)無需額外的 I2V 微調:FAR 無需針對圖像到視頻(I2V)任務進行額外微調,即可同時建模視頻生成與圖像到視頻的預測任務,并在兩者上均達到 SOTA 水平。



條件 / 非條件視頻生成的評測結果



基于條件幀的視頻預測的評測結果

3)高效的長視頻訓練與長上下文建模能力:FAR 支持高效的長視頻訓練以及對長上下文建模。在基于 DMLab 的受控環境中進行實驗時,我們觀察到模型對已觀測的 3D 環境具有出色的記憶能力,在后續幀預測任務中首次實現了近乎完美的長期記憶效果。





總結

我們首次系統性地驗證了長上下文建模在視頻生成中的重要性,并提出了一個基于長短時上下文的幀自回歸模型 ——FAR。FAR 不僅在短視頻生成任務中,相較于 Video DiT 展現出更快的收斂速度與更優性能,同時也在長視頻的 world modeling 場景中,首次實現了顯著的長時序一致性。此外,FAR 有效降低了長視頻生成的訓練成本。在當前文本數據趨于枯竭的背景下,FAR 為高效利用現有海量長視頻數據進行生成式建模,提供了一條具有潛力的全新路徑。

參考文獻:

【1】Genie 2: https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

【2】Oasis: https://oasis-model.github.io/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
197票贊成102票反對!韓國最新投票結果出來了,尹錫悅或等來幫手

197票贊成102票反對!韓國最新投票結果出來了,尹錫悅或等來幫手

國學聚焦
2025-04-23 12:07:11
擁有460萬粉絲,3個月閃婚學生舅舅的網紅周老師,如今怎么樣了

擁有460萬粉絲,3個月閃婚學生舅舅的網紅周老師,如今怎么樣了

凌晨一點的貓
2025-04-09 14:52:54
光線傳媒攤牌,《哪吒2》利潤分配浮出水面,餃子還是賺少了

光線傳媒攤牌,《哪吒2》利潤分配浮出水面,餃子還是賺少了

光影新天地
2025-04-22 14:08:24
士兵突擊20周年重聚!王寶強站C位,連長老了,陳思誠李晨都沒來

士兵突擊20周年重聚!王寶強站C位,連長老了,陳思誠李晨都沒來

鄭丁嘉話
2025-04-22 09:03:11
他們竟是夫妻,因戲生情恩愛10年,妻子是影后,女兒也是小戲骨

他們竟是夫妻,因戲生情恩愛10年,妻子是影后,女兒也是小戲骨

公子麥少
2025-04-21 16:11:59
18年前被要求驗DNA,如今成百億財團唯一合法繼承人,賈靜雯笑了

18年前被要求驗DNA,如今成百億財團唯一合法繼承人,賈靜雯笑了

凡知
2025-03-07 15:37:30
和C羅爭金靴?本澤馬:兄弟我根本不在乎這個,冠軍才是更重要的

和C羅爭金靴?本澤馬:兄弟我根本不在乎這個,冠軍才是更重要的

直播吧
2025-04-23 20:01:12
送走韋瑟斯龐迎來威爾斯!廣廈連續碰上“前任”外援

送走韋瑟斯龐迎來威爾斯!廣廈連續碰上“前任”外援

雷速體育
2025-04-23 22:51:06
福特退出中國,進入倒計時!

福特退出中國,進入倒計時!

牲產隊2024
2025-04-20 21:25:21
殲-10C從埃及起飛,抵近以色列,美媒看出了異樣:中國正在布局

殲-10C從埃及起飛,抵近以色列,美媒看出了異樣:中國正在布局

起喜電影
2025-04-23 16:27:12
車禍3年后,多次整形的林志穎成了嫂子臉,郭德綱可以松口氣了

車禍3年后,多次整形的林志穎成了嫂子臉,郭德綱可以松口氣了

史行途
2025-04-16 18:21:29
廣東會所20歲彝族女孩去世,事發前曾從包廂哭著跑出,哥哥曝細節

廣東會所20歲彝族女孩去世,事發前曾從包廂哭著跑出,哥哥曝細節

清游說娛
2025-04-22 14:50:15
“四物不送人,子孫人上人”,哪4樣東西不能送人?可別犯了忌諱

“四物不送人,子孫人上人”,哪4樣東西不能送人?可別犯了忌諱

長風文史
2025-03-03 14:19:43
女單大冷門!國乒1:3土耳其,資格賽輸球,早田希娜成頭號種子

女單大冷門!國乒1:3土耳其,資格賽輸球,早田希娜成頭號種子

國乒二三事
2025-04-23 07:41:45
蘇群:吳驍神兵天降 助廣廈死里逃生 青島戰斗至最后彰顯韌性

蘇群:吳驍神兵天降 助廣廈死里逃生 青島戰斗至最后彰顯韌性

直播吧
2025-04-23 22:20:06
東大和西大,到底想干嘛

東大和西大,到底想干嘛

虛聲
2025-04-22 20:25:44
我去部隊探望6個月不見的丈夫,被告知他請了半年假,我瞬間懵了

我去部隊探望6個月不見的丈夫,被告知他請了半年假,我瞬間懵了

白云故事
2025-04-18 12:55:08
美媒:美200多名前官員呼吁抵制特朗普

美媒:美200多名前官員呼吁抵制特朗普

參考消息
2025-04-23 22:30:11
2025年下半年,貴人頻出,事業步步高升的三個星座,逆襲翻盤

2025年下半年,貴人頻出,事業步步高升的三個星座,逆襲翻盤

小晴星座說
2025-04-23 20:02:23
蕭亞軒術后首露面 暴瘦20斤驚呆全網:這狀態是吃了防腐劑?

蕭亞軒術后首露面 暴瘦20斤驚呆全網:這狀態是吃了防腐劑?

動物奇奇怪怪
2025-04-23 07:08:08
2025-04-23 23:15:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10395文章數 142296關注度
往期回顧 全部

科技要聞

馬斯克:中國用戶對FSD"最為苛刻"

頭條要聞

特朗普稱"若未達成協議中方按美方說的辦" 外交部回應

頭條要聞

特朗普稱"若未達成協議中方按美方說的辦" 外交部回應

體育要聞

金牌和金子,劉國梁改變國乒的這些年

娛樂要聞

于和偉領銜,央視諜戰劇要有天花板了

財經要聞

董明珠放話"海歸有間諜" 打工人破防了

汽車要聞

以經緯敘事 奇瑞瑞虎新旗艦SUV瑞虎9L快評

態度原創

家居
數碼
旅游
游戲
健康

家居要聞

開闊空間 家居輕智能

數碼要聞

3799元起 酷開Mini LED電視K6 Pro系列發布:頂配1512分區 超越行業同級

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

決勝局四農民采礦崩盤,郭子遇到游戲Bug了?

唇皰疹和口腔潰瘍是"同伙"嗎?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 黄浦区| 特克斯县| 新绛县| 河西区| 南阳市| 白城市| 鹤岗市| 祁门县| 富宁县| 永济市| 香格里拉县| 固安县| 客服| 积石山| 孟连| 高阳县| 顺义区| 陆河县| 琼海市| 西平县| 蚌埠市| 海林市| 临城县| 大兴区| 平乐县| 白河县| 肇庆市| 金湖县| 琼中| 平南县| 敖汉旗| 同心县| 五指山市| 张北县| 平邑县| 吴桥县| 昭苏县| 洛隆县| 苏尼特左旗| 新郑市| 咸阳市|