新智元報道
編輯:KingHZ 英智
【新智元導讀】只用6GB顯存的筆記本GPU,就能生成流暢的高質(zhì)量視頻!斯坦福研究團隊重磅推出FramePack,大幅改善了視頻生成中的遺忘和漂移難題。
昨天,視頻生成進入了超低顯存時代!
這次出手的是AI界的「賽博佛祖」、ControlNet的作者、斯坦福大學博士生張呂敏。
他提出了以漸進式生成視頻的新方法——FramePack,才過去一天對應(yīng)的開源項目已有2600多star。
新方法采用獨特的壓縮結(jié)構(gòu)和抗漂移采樣方法,有效緩解了遺忘和漂移難題,提升了視頻質(zhì)量和連貫性。
論文鏈接:https://arxiv.org/abs/2504.12626
項目鏈接:https://lllyasviel.github.io/frame_pack_gitpage/
現(xiàn)在只要一臺RTX 3060 6GB筆記本,就能用單圖生成5秒、30FPS共150幀的視頻。
從古代仕女圖到卡通形象,通通一鍵動起來!
相同的配置,還可以生成單圖生成60s的共1800幀視頻。
不僅如此,作者還開源了功能完備的桌面級軟件,提供GUI,使用非常簡單。
在左側(cè)上傳圖片,并在下方輸入提示詞,右側(cè)就開始顯示生成的視頻及預(yù)覽。
由于采用逐段落幀預(yù)測模型,視頻會持續(xù)延長生成:
每個段落會顯示獨立進度條。
系統(tǒng)會實時預(yù)演下一段落的潛在空間效果。
a jellyfish dances in the sea(一只水母在海中起舞)
網(wǎng)友驚呼:這下視頻生成要進入超超超低顯存時代了,邁入大眾GPU了!馬上就去實測!
簡單總結(jié)一下,F(xiàn)ramePack的特點有:
使用13B模型和6GB顯存的筆記本GPU,能夠以完整的30 FPS速率擴散(生成)數(shù)千幀。
在單個8xA100/H100節(jié)點上,能夠以64的批大小微調(diào)13B視頻模型,適用于個人或?qū)嶒炇摇?/p>
RTX 4090生成速度可達2.5秒/幀(未優(yōu)化)或1.5秒/幀(使用teacache)。
沒有時間步長蒸餾。
技術(shù)上是視頻擴散,但使用體驗上更接近圖像擴散。
FramePack
FramePack是一種全新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):下一幀預(yù)測(next-frame prediction model 或next-frame-selection prediction model )。
新方法旨在攻克視頻生成中的遺忘和漂移問題。
FramePack的設(shè)計理念十分巧妙,它根據(jù)輸入幀的重要性進行壓縮。
預(yù)測下一幀時,輸入幀的重要性并不相同。
比如在人物跑步的視頻里,離預(yù)測時刻越近的幀,對預(yù)測人物下一幀的動作和位置就越關(guān)鍵。
FramePack通過定義長度函數(shù)
來確定每個幀的上下文長度,其中λ>1是壓縮參數(shù),L_f是每幀的基礎(chǔ)上下文長度。
通過這個函數(shù),越不重要的幀,上下文長度被壓縮得越厲害。
經(jīng)過壓縮處理,總上下文長度會遵循幾何級數(shù)變化:
當視頻幀數(shù)T趨向于無窮大時,總上下文長度會收斂到固定值:
這意味著,無論輸入視頻多長,F(xiàn)ramePack都能將總上下文長度控制在固定上限內(nèi),避免因輸入幀過多導致計算量爆炸,有效解決了模型處理大量幀時的計算難題。
考慮到硬件對計算的優(yōu)化偏好,論文中主要討論λ=2的情況。
在實際應(yīng)用中,F(xiàn)ramePack還有一些細節(jié)要處理。比如針對不同壓縮率的輸入投影,使用獨立的神經(jīng)網(wǎng)絡(luò)層參數(shù)能讓學習過程更穩(wěn)定。
當輸入幀長度非常大時,F(xiàn)ramePack提供了三種處理尾部幀的方式:
可以直接刪除尾部幀。
也可以讓每個尾部幀增加一個潛在像素來擴展上下文長度。
或者對所有尾部幀進行全局平均池化,然后用最大的內(nèi)核處理。
在實際測試中發(fā)現(xiàn),這幾種方式對視覺效果的影響相對較小。
另外,由于不同壓縮內(nèi)核編碼的輸入上下文長度不同,F(xiàn)ramePack還需要進行RoPE對齊。
FramePack變體
為滿足不同應(yīng)用場景需求,提升視頻生成質(zhì)量,F(xiàn)ramePack還有多種變體。
一種變體是重復和組合壓縮級別,提高壓縮率。
比如在圖1-(b)中,采用4的冪次方序列,每個級別重復3次,這樣能讓幀寬度和高度的內(nèi)核大小保持一致,使壓縮更緊湊。
壓縮也可以在時間維度上進行,如圖1-(c)所示,使用2的冪次序列,在同一張量中編碼多個幀,這種方式與DiT架構(gòu)天然契合。
FramePack還創(chuàng)新了幀重要性的建模方式。
除了基于時間接近度判斷重要性,在圖1(d)中,給最舊的幀分配全長上下文,在需要強調(diào)初始信息的應(yīng)用場景中,能更好地保留關(guān)鍵信息。
圖1(e)將起始幀和結(jié)束幀視為同等重要,同時對中間幀應(yīng)用更高的壓縮。
在圖像到視頻生成任務(wù)中,這種方式很有效,因為用戶提供的初始幀往往承載關(guān)鍵信息,賦予它們更高重要性可以提升最終生成視頻的質(zhì)量。
抗漂移采樣
漂移一直是視頻生成中的頑疾,F(xiàn)ramePack提出的抗漂移采樣方法為這一問題提供了新思路。
研究發(fā)現(xiàn),漂移通常發(fā)生在模型僅依賴過去幀進行預(yù)測的因果采樣過程中。
如果模型能獲取未來幀的信息,哪怕只有一幀,就能有效避免漂移。基于這一發(fā)現(xiàn),F(xiàn)ramePack提出了雙向上下文的抗漂移采樣方法。
傳統(tǒng)采樣方法,如圖2-(a)是按時間順序迭代預(yù)測未來幀,而抗漂移采樣則不同。
改進后的方法,如圖2-(b),在第一次迭代時,同時生成起始和結(jié)束部分,后續(xù)迭代再填充中間的間隙。
這樣一來,結(jié)束幀在一開始就被確定下來,后續(xù)生成的幀都朝著這個目標靠近,有效防止了漂移。
還有一種反向抗漂移采樣方法,如圖2-(c),這種方法在圖像到視頻生成任務(wù)中表現(xiàn)出色。
它將用戶輸入圖像作為高質(zhì)量的第一幀,然后按反向時間順序生成后續(xù)幀,不斷優(yōu)化生成的幀以接近用戶輸入的第一幀,從而生成高質(zhì)量的視頻。
FramePack實力如何?
為了驗證FramePack的性能,研究人員進行了大量消融實驗。
FramePack基于Wan和HunyuanVideo兩種基礎(chǔ)模型,涵蓋了文本到視頻和圖像到視頻的生成結(jié)構(gòu)。
數(shù)據(jù)集方面,遵循LTXVideo的數(shù)據(jù)集收集流程,收集了多種分辨率和質(zhì)量水平的數(shù)據(jù)。
為全面評估FramePack的性能,實驗采用了多種評估指標,包括多維度指標、漂移測量指標和人工評估。
多維度指標評估涵蓋清晰度、美學、運動、動態(tài)、語義、解剖結(jié)構(gòu)和身份等多個方面。
當視頻發(fā)生漂移時,視頻開頭和結(jié)尾部分在各種質(zhì)量指標上會出現(xiàn)明顯差異。
作者提出了起止對比度
,其中V是測試視頻,V_start代表前15%的幀,V_end代表最后15%的幀,M可以是運動分數(shù)、圖像質(zhì)量等任意質(zhì)量指標。
該指標通過計算起始和結(jié)束部分質(zhì)量指標的絕對差值,直觀反映出漂移的嚴重程度,并且由于使用絕對差值,不受視頻幀生成順序的影響。
研究人員通過A/B測試收集用戶偏好,每個消融架構(gòu)會生成100個結(jié)果,A/B測試在不同的消融架構(gòu)中隨機分配,確保每個消融架構(gòu)至少有100次評估。
最終,通過ELO-K32分數(shù)和相對排名反映用戶對視頻的喜好程度。
消融實驗結(jié)果
在采樣方法對比中,反向抗漂移采樣表現(xiàn)最為突出。
它在7個評估指標中的5個上取得最佳成績,并且在所有漂移指標上都表現(xiàn)優(yōu)異。這充分證明了反向抗漂移采樣方法在減少誤差累積、提升視頻質(zhì)量方面的有效性。
從生成幀數(shù)的角度來看,人工評估顯示,每段生成9幀的配置在ELO分數(shù)上,明顯高于生成1幀或4幀的配置,說明生成9幀能給用戶帶來更好的視覺感知。
普通采樣雖然在動態(tài)指標上獲得最高分數(shù),但這很可能是漂移效應(yīng)導致的,并非真正的質(zhì)量提升。
研究人員還發(fā)現(xiàn),同一采樣方法下,不同配置選項之間的差異相對較小且具有隨機性。
這意味著采樣方法的選擇對整體性能差異的影響更為關(guān)鍵,而具體配置選項的微調(diào)對性能的影響相對有限。
與替代架構(gòu)的比較
為全面評估FramePack的性能,研究人員將其與替代架構(gòu)做了對比。
這些替代架構(gòu)包括重復圖像到視頻、錨幀、因果注意力、噪聲歷史和歷史引導等方法,它們分別從不同角度嘗試解決視頻生成中的長視頻生成、計算瓶頸和漂移等問題。
FramePack在多個方面表現(xiàn)出色。
FramePack在3個全局指標上取得最佳結(jié)果。漂移指標方面,更是全面領(lǐng)先,證明其解決漂移問題的有效性。
從人工評估的ELO分數(shù)來看,F(xiàn)ramePack得分最高,表明在主觀感受上,生成的視頻質(zhì)量更受認可。
FramePack為視頻生成技術(shù)帶來新突破。它通過獨特的壓縮結(jié)構(gòu)和抗漂移采樣方法,有效緩解了遺忘和漂移問題,提升了視頻生成的質(zhì)量和效率。
作者介紹
Lvmin Zhang
Lvmin Zhang是斯坦福大學計算機系的博士生,主要研究領(lǐng)域為計算機圖形學和生成模型。
在今年的ICLR投稿中,經(jīng)過rebuttal,他成功拿下最近幾年的首個滿分論文!
在ICLR 2025滿分論文中,作者介紹了一種擴散式光照編輯模型的訓練方法
Lvmin Zhang還是ControlNet的作者,這是一種創(chuàng)新的神經(jīng)網(wǎng)絡(luò)架構(gòu),顯著增強了預(yù)訓練擴散模型的條件控制能力。
參考資料:
https://lllyasviel.github.io/frame_pack_gitpage/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.