本文由 NUS ShowLab 主導完成。第一作者顧宇超為新加坡國立大學 ShowLab@NUS 在讀博士生,研究方向是視覺生成,在 CVPR、ICCV、NeurIPS 等國際頂級會議與期刊上發表多篇研究成果。第二作者毛維嘉為新加坡國立大學 ShowLab@NUS 二博士生,研究方向是多模態理解和生成,項目負責作者為該校校長青年教授壽政。
- 論文標題:Long-Context Autoregressive Video Modeling with Next-Frame Prediction
- 論文鏈接:https://arxiv.org/abs/2503.19325
- 項目主頁:https://farlongctx.github.io/
- 開源代碼:https://github.com/showlab/FAR
背景:長上下文視頻生成的挑戰
目前的視頻生成技術大多是在短視頻數據上訓練,推理時則通過滑動窗口等策略,逐步擴展生成的視頻長度。然而,這種方式無法充分利用視頻的長時上下文信息,容易導致生成內容在時序上出現潛在的不一致性。
解決這一問題的關鍵在于:高效地對長視頻進行訓練。但傳統的自回歸視頻建模面臨嚴重的計算挑戰 —— 隨著視頻長度的增加,token 數量呈爆炸式增長。 視覺 token 相較于語言 token 更為冗余,使得長下文視頻生成比長上下文語言生成更為困難。
本文針對這一核心挑戰,首次系統性地研究了如何高效建模長上下文視頻生成,并提出了相應的解決方案。
我們特別區分了兩個關鍵概念:
- 長視頻生成:目標是生成較長的視頻,但不一定要求模型持續利用已生成的內容,因此缺乏長時序的一致性。這類方法通常仍在短視頻上訓練,通過滑動窗口等方式延長生成長度。
- 長上下文視頻生成:不僅要求視頻更長,還要持續利用歷史上下文信息,確保長時序一致性。這類方法需要在長視頻數據上進行訓練,對視頻生成建模能力提出更高要求。
長上下文視頻生成的重要性:
最近的工作 Genie2 [1] 將視頻生成用于 world modeling /game simulation 的場景中,展現出非常令人驚艷的潛力。然而,現有基于滑窗的生成方法通常缺乏記憶機制,無法有效理解、記住并重用在 3D 環境中探索過的信息,比如 OASIS [2]。這種缺乏記憶性的建模方式,不僅影響生成效果,還可能導致對物理規律建模能力的缺失。這可能正是當前長視頻生成中常出現非物理現象的原因之一:模型本身并未在大量長視頻上訓練,i2v(image-to-video)+ 滑動窗口的方式難以確保全局合理性。
FAR 的創新設計與分析
1)幀自回歸模型(FAR)
FAR 將視頻生成任務重新定義為基于已有上下文逐幀(圖像)生成的過程。為解決混合自回歸與擴散模型在訓練與測試階段存在的上下文不一致問題,我們在訓練過程中隨機引入干凈的上下文信息,從而提升模型測試時對利用干凈上下文的穩定性。
FAR 的訓練測試流程;測試時對干凈上下文的生成結果。
2) 長短時上下文建模
我們觀察到,隨著上下文幀數量的增加,視頻生成中會出現視覺 token 數量急劇增長的問題。然而,視覺 token 在時序上具有局部性:對于當前解碼幀,其鄰近幀需要更細粒度的時序交互,而遠離的幀通常僅需作為記憶存在,無需深入的時序交互。基于這一觀察,我們提出了 長短時上下文建模。該機制采用非對稱的 patchify 策略:短時上下文保留原有的 patchify 策略,以保證細粒度交互;而長時上下文則進行更為激進的 patchify,減少 token 數量,從而在保證計算效率的同時,維持時序模擬的質量。
FAR 的長視頻訓練測試流程
長短時上下文的非對稱 patchify 帶來的 token 減少以及訓練效率提升
3) 用于長上下文視頻生成的多層 KV Cache 機制
針對長短時上下文的非對稱 patchify 策略,我們提出了相應的多層 KV-Cache 機制。在自回歸解碼過程中,當某一幀剛離開短時上下文窗口時,我們將其編碼為低粒度的 L2 Cache(少量 token);同時,更新仍處于短時窗口內幀的 L1 Cache(常規 token)。最終,我們結合這兩級 KV Cache,用于當前幀的生成過程。
值得強調的是,多層 KV Cache 與擴散模型中常用的 Timestep Cache 是互補的:前者沿時間序列方向緩存 KV 信息,后者則在擴散時間步維度上進行緩存,共同提升生成效率。
針對長短時上下文策略的多層 KV Cache
長視頻生成的效率提升
FAR 相對于 SORA 類 VideoDiT 的潛在優勢
1)收斂效率:在相同的連續潛空間上進行實驗時,我們發現 FAR 相較于 Video DiT 展現出更快的收斂速度以及更優的短視頻生成性能。
FAR 與 Video DiT 的收斂對比
2)無需額外的 I2V 微調:FAR 無需針對圖像到視頻(I2V)任務進行額外微調,即可同時建模視頻生成與圖像到視頻的預測任務,并在兩者上均達到 SOTA 水平。
條件 / 非條件視頻生成的評測結果
基于條件幀的視頻預測的評測結果
3)高效的長視頻訓練與長上下文建模能力:FAR 支持高效的長視頻訓練以及對長上下文建模。在基于 DMLab 的受控環境中進行實驗時,我們觀察到模型對已觀測的 3D 環境具有出色的記憶能力,在后續幀預測任務中首次實現了近乎完美的長期記憶效果。
總結
我們首次系統性地驗證了長上下文建模在視頻生成中的重要性,并提出了一個基于長短時上下文的幀自回歸模型 ——FAR。FAR 不僅在短視頻生成任務中,相較于 Video DiT 展現出更快的收斂速度與更優性能,同時也在長視頻的 world modeling 場景中,首次實現了顯著的長時序一致性。此外,FAR 有效降低了長視頻生成的訓練成本。在當前文本數據趨于枯竭的背景下,FAR 為高效利用現有海量長視頻數據進行生成式建模,提供了一條具有潛力的全新路徑。
參考文獻:
【1】Genie 2: https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
【2】Oasis: https://oasis-model.github.io/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.