99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ControlNet作者再封神!6GB顯存直出「兔八哥」動畫,開源一夜獲2k+星

0
分享至


新智元報道

編輯:KingHZ 英智

【新智元導讀】只用6GB顯存的筆記本GPU,就能生成流暢的高質(zhì)量視頻!斯坦福研究團隊重磅推出FramePack,大幅改善了視頻生成中的遺忘和漂移難題。

昨天,視頻生成進入了超低顯存時代!

這次出手的是AI界的「賽博佛祖」、ControlNet的作者、斯坦福大學博士生張呂敏。

他提出了以漸進式生成視頻的新方法——FramePack,才過去一天對應(yīng)的開源項目已有2600多star。

新方法采用獨特的壓縮結(jié)構(gòu)和抗漂移采樣方法,有效緩解了遺忘和漂移難題,提升了視頻質(zhì)量和連貫性。


論文鏈接:https://arxiv.org/abs/2504.12626

項目鏈接:https://lllyasviel.github.io/frame_pack_gitpage/

現(xiàn)在只要一臺RTX 3060 6GB筆記本,就能用單圖生成5秒、30FPS共150幀的視頻。




從古代仕女圖到卡通形象,通通一鍵動起來!



相同的配置,還可以生成單圖生成60s的共1800幀視頻。

不僅如此,作者還開源了功能完備的桌面級軟件,提供GUI,使用非常簡單。

左側(cè)上傳圖片,并在下方輸入提示詞,右側(cè)就開始顯示生成的視頻及預(yù)覽。

由于采用逐段落幀預(yù)測模型,視頻會持續(xù)延長生成:

  • 每個段落會顯示獨立進度條。

  • 系統(tǒng)會實時預(yù)演下一段落的潛在空間效果。


a jellyfish dances in the sea(一只水母在海中起舞)

網(wǎng)友驚呼:這下視頻生成要進入超超超低顯存時代了,邁入大眾GPU了!馬上就去實測!


簡單總結(jié)一下,F(xiàn)ramePack的特點有:

  • 使用13B模型和6GB顯存的筆記本GPU,能夠以完整的30 FPS速率擴散(生成)數(shù)千幀。

  • 在單個8xA100/H100節(jié)點上,能夠以64的批大小微調(diào)13B視頻模型,適用于個人或?qū)嶒炇摇?/p>

  • RTX 4090生成速度可達2.5秒/幀(未優(yōu)化)或1.5秒/幀(使用teacache)。

  • 沒有時間步長蒸餾。

  • 技術(shù)上是視頻擴散,但使用體驗上更接近圖像擴散。

FramePack

FramePack是一種全新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):下一幀預(yù)測(next-frame prediction model 或next-frame-selection prediction model )。


新方法旨在攻克視頻生成中的遺忘和漂移問題

FramePack的設(shè)計理念十分巧妙,它根據(jù)輸入幀的重要性進行壓縮。

預(yù)測下一幀時,輸入幀的重要性并不相同。

比如在人物跑步的視頻里,離預(yù)測時刻越近的幀,對預(yù)測人物下一幀的動作和位置就越關(guān)鍵。

FramePack通過定義長度函數(shù)
來確定每個幀的上下文長度,其中λ>1是壓縮參數(shù),L_f是每幀的基礎(chǔ)上下文長度。

通過這個函數(shù),越不重要的幀,上下文長度被壓縮得越厲害。

經(jīng)過壓縮處理,總上下文長度會遵循幾何級數(shù)變化:


當視頻幀數(shù)T趨向于無窮大時,總上下文長度會收斂到固定值:


這意味著,無論輸入視頻多長,F(xiàn)ramePack都能將總上下文長度控制在固定上限內(nèi),避免因輸入幀過多導致計算量爆炸,有效解決了模型處理大量幀時的計算難題。

考慮到硬件對計算的優(yōu)化偏好,論文中主要討論λ=2的情況。

在實際應(yīng)用中,F(xiàn)ramePack還有一些細節(jié)要處理。比如針對不同壓縮率的輸入投影,使用獨立的神經(jīng)網(wǎng)絡(luò)層參數(shù)能讓學習過程更穩(wěn)定。

當輸入幀長度非常大時,F(xiàn)ramePack提供了三種處理尾部幀的方式:

  • 可以直接刪除尾部幀。

  • 也可以讓每個尾部幀增加一個潛在像素來擴展上下文長度。

  • 或者對所有尾部幀進行全局平均池化,然后用最大的內(nèi)核處理。

在實際測試中發(fā)現(xiàn),這幾種方式對視覺效果的影響相對較小。

另外,由于不同壓縮內(nèi)核編碼的輸入上下文長度不同,F(xiàn)ramePack還需要進行RoPE對齊。

FramePack變體

為滿足不同應(yīng)用場景需求,提升視頻生成質(zhì)量,F(xiàn)ramePack還有多種變體。


一種變體是重復和組合壓縮級別,提高壓縮率。

比如在圖1-(b)中,采用4的冪次方序列,每個級別重復3次,這樣能讓幀寬度和高度的內(nèi)核大小保持一致,使壓縮更緊湊。

壓縮也可以在時間維度上進行,如圖1-(c)所示,使用2的冪次序列,在同一張量中編碼多個幀,這種方式與DiT架構(gòu)天然契合。

FramePack還創(chuàng)新了幀重要性的建模方式。

除了基于時間接近度判斷重要性,在圖1(d)中,給最舊的幀分配全長上下文,在需要強調(diào)初始信息的應(yīng)用場景中,能更好地保留關(guān)鍵信息。

圖1(e)將起始幀和結(jié)束幀視為同等重要,同時對中間幀應(yīng)用更高的壓縮。

在圖像到視頻生成任務(wù)中,這種方式很有效,因為用戶提供的初始幀往往承載關(guān)鍵信息,賦予它們更高重要性可以提升最終生成視頻的質(zhì)量。

抗漂移采樣

漂移一直是視頻生成中的頑疾,F(xiàn)ramePack提出的抗漂移采樣方法為這一問題提供了新思路。

研究發(fā)現(xiàn),漂移通常發(fā)生在模型僅依賴過去幀進行預(yù)測的因果采樣過程中。

如果模型能獲取未來幀的信息,哪怕只有一幀,就能有效避免漂移。基于這一發(fā)現(xiàn),F(xiàn)ramePack提出了雙向上下文的抗漂移采樣方法。


傳統(tǒng)采樣方法,如圖2-(a)是按時間順序迭代預(yù)測未來幀,而抗漂移采樣則不同。

改進后的方法,如圖2-(b),在第一次迭代時,同時生成起始和結(jié)束部分,后續(xù)迭代再填充中間的間隙。

這樣一來,結(jié)束幀在一開始就被確定下來,后續(xù)生成的幀都朝著這個目標靠近,有效防止了漂移。

還有一種反向抗漂移采樣方法,如圖2-(c),這種方法在圖像到視頻生成任務(wù)中表現(xiàn)出色。

它將用戶輸入圖像作為高質(zhì)量的第一幀,然后按反向時間順序生成后續(xù)幀,不斷優(yōu)化生成的幀以接近用戶輸入的第一幀,從而生成高質(zhì)量的視頻。

FramePack實力如何?

為了驗證FramePack的性能,研究人員進行了大量消融實驗。

FramePack基于Wan和HunyuanVideo兩種基礎(chǔ)模型,涵蓋了文本到視頻和圖像到視頻的生成結(jié)構(gòu)。

數(shù)據(jù)集方面,遵循LTXVideo的數(shù)據(jù)集收集流程,收集了多種分辨率和質(zhì)量水平的數(shù)據(jù)。

為全面評估FramePack的性能,實驗采用了多種評估指標,包括多維度指標、漂移測量指標和人工評估。

多維度指標評估涵蓋清晰度、美學、運動、動態(tài)、語義、解剖結(jié)構(gòu)和身份等多個方面。

當視頻發(fā)生漂移時,視頻開頭和結(jié)尾部分在各種質(zhì)量指標上會出現(xiàn)明顯差異。

作者提出了起止對比度
,其中V是測試視頻,V_start代表前15%的幀,V_end代表最后15%的幀,M可以是運動分數(shù)、圖像質(zhì)量等任意質(zhì)量指標。

該指標通過計算起始和結(jié)束部分質(zhì)量指標的絕對差值,直觀反映出漂移的嚴重程度,并且由于使用絕對差值,不受視頻幀生成順序的影響。

研究人員通過A/B測試收集用戶偏好,每個消融架構(gòu)會生成100個結(jié)果,A/B測試在不同的消融架構(gòu)中隨機分配,確保每個消融架構(gòu)至少有100次評估。

最終,通過ELO-K32分數(shù)和相對排名反映用戶對視頻的喜好程度。

消融實驗結(jié)果

在采樣方法對比中,反向抗漂移采樣表現(xiàn)最為突出。

它在7個評估指標中的5個上取得最佳成績,并且在所有漂移指標上都表現(xiàn)優(yōu)異。這充分證明了反向抗漂移采樣方法在減少誤差累積、提升視頻質(zhì)量方面的有效性。

從生成幀數(shù)的角度來看,人工評估顯示,每段生成9幀的配置在ELO分數(shù)上,明顯高于生成1幀或4幀的配置,說明生成9幀能給用戶帶來更好的視覺感知。


普通采樣雖然在動態(tài)指標上獲得最高分數(shù),但這很可能是漂移效應(yīng)導致的,并非真正的質(zhì)量提升。

研究人員還發(fā)現(xiàn),同一采樣方法下,不同配置選項之間的差異相對較小且具有隨機性。

這意味著采樣方法的選擇對整體性能差異的影響更為關(guān)鍵,而具體配置選項的微調(diào)對性能的影響相對有限。

與替代架構(gòu)的比較

為全面評估FramePack的性能,研究人員將其與替代架構(gòu)做了對比。

這些替代架構(gòu)包括重復圖像到視頻、錨幀、因果注意力、噪聲歷史和歷史引導等方法,它們分別從不同角度嘗試解決視頻生成中的長視頻生成、計算瓶頸和漂移等問題。

FramePack在多個方面表現(xiàn)出色。


FramePack在3個全局指標上取得最佳結(jié)果。漂移指標方面,更是全面領(lǐng)先,證明其解決漂移問題的有效性。

從人工評估的ELO分數(shù)來看,F(xiàn)ramePack得分最高,表明在主觀感受上,生成的視頻質(zhì)量更受認可。

FramePack為視頻生成技術(shù)帶來新突破。它通過獨特的壓縮結(jié)構(gòu)和抗漂移采樣方法,有效緩解了遺忘和漂移問題,提升了視頻生成的質(zhì)量和效率。

作者介紹

Lvmin Zhang


Lvmin Zhang是斯坦福大學計算機系的博士生,主要研究領(lǐng)域為計算機圖形學和生成模型。

在今年的ICLR投稿中,經(jīng)過rebuttal,他成功拿下最近幾年的首個滿分論文!


在ICLR 2025滿分論文中,作者介紹了一種擴散式光照編輯模型的訓練方法

Lvmin Zhang還是ControlNet的作者,這是一種創(chuàng)新的神經(jīng)網(wǎng)絡(luò)架構(gòu),顯著增強了預(yù)訓練擴散模型的條件控制能力。

參考資料:

https://lllyasviel.github.io/frame_pack_gitpage/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
世乒賽陣容惹爭議!王楚欽沒馬龍保駕棄男雙,再搭孫穎莎混雙保冠

世乒賽陣容惹爭議!王楚欽沒馬龍保駕棄男雙,再搭孫穎莎混雙保冠

三十年萊斯特城球迷
2025-04-21 22:42:46
“特使”黃仁勛抵京,特朗普要給自己找臺階下,中方態(tài)度已有變化

“特使”黃仁勛抵京,特朗普要給自己找臺階下,中方態(tài)度已有變化

國學聚焦
2025-04-22 11:59:22
55順位,砍41+14+3!季后賽也成得分王,難道他也是一名球星?

55順位,砍41+14+3!季后賽也成得分王,難道他也是一名球星?

康泳哥看體育
2025-04-21 13:33:24
突然發(fā)現(xiàn)全國人民都不敢接電話了!

突然發(fā)現(xiàn)全國人民都不敢接電話了!

振華觀史
2025-04-15 13:29:07
羅翔老師解釋婚內(nèi)強奸,按他的說法,中國有幾億男人都犯過強奸罪

羅翔老師解釋婚內(nèi)強奸,按他的說法,中國有幾億男人都犯過強奸罪

吳學華看天下
2025-04-21 08:43:37
Netflix《惡緣》突發(fā)道歉聲明! 6位主演表情沉重「認錯」鞠躬:對不起?

Netflix《惡緣》突發(fā)道歉聲明! 6位主演表情沉重「認錯」鞠躬:對不起?

ETtoday星光云
2025-04-21 11:42:13
8000份簡歷無人問津!28歲女碩士揭就業(yè)真相,太讓人心碎了!

8000份簡歷無人問津!28歲女碩士揭就業(yè)真相,太讓人心碎了!

小毅說事
2025-04-20 20:42:07
坐穿板凳!巴薩10號怒踢水瓶發(fā)脾氣:僅9次出場,不滿主帥

坐穿板凳!巴薩10號怒踢水瓶發(fā)脾氣:僅9次出場,不滿主帥

葉青足球世界
2025-04-21 15:56:24
141場!小卡季后賽得分突破3000!

141場!小卡季后賽得分突破3000!

直播吧
2025-04-22 11:15:10
《我的世界》票房53億,位列全球亞軍,和《哪吒2》還差100億

《我的世界》票房53億,位列全球亞軍,和《哪吒2》還差100億

易同學愛談娛樂
2025-04-21 09:04:46
痛心!河北一男一女,在車里活活被燒死,遇難者鄰居發(fā)聲!

痛心!河北一男一女,在車里活活被燒死,遇難者鄰居發(fā)聲!

魔都姐姐雜談
2025-04-21 12:56:47
你干過最不要臉的事是啥?網(wǎng)友:我有幾個秘密實在講不出口

你干過最不要臉的事是啥?網(wǎng)友:我有幾個秘密實在講不出口

娛樂圈人物大賞
2025-04-21 02:04:06
為什么說不要看不起任何人?網(wǎng)友:第二天廠長親自去賠禮道歉

為什么說不要看不起任何人?網(wǎng)友:第二天廠長親自去賠禮道歉

特約前排觀眾
2025-04-17 00:10:06
白人女性是不是很美,為什么?看網(wǎng)友:俄羅斯和中東易出極品美女

白人女性是不是很美,為什么?看網(wǎng)友:俄羅斯和中東易出極品美女

美好客棧大掌柜
2024-12-24 00:15:02
才半到不到,北理宮琳被開除常旭強則遭反噬

才半到不到,北理宮琳被開除常旭強則遭反噬

清暉有墨
2025-04-20 18:38:57
湖狼大戰(zhàn)G2不變陣!僅一人缺席,雷迪克強調(diào)一點,里弗斯期待改變

湖狼大戰(zhàn)G2不變陣!僅一人缺席,雷迪克強調(diào)一點,里弗斯期待改變

三石記
2025-04-22 09:00:57
曝某地五家公司合招一個女文員,要求在五家公司“流動工作”

曝某地五家公司合招一個女文員,要求在五家公司“流動工作”

可達鴨面面觀
2025-04-20 14:31:28
涉案金額達120萬元!上海徐匯警方破獲一起“薅羊毛”案

涉案金額達120萬元!上海徐匯警方破獲一起“薅羊毛”案

環(huán)球網(wǎng)資訊
2025-04-21 22:07:25
直到看到甲亢哥回國后的表態(tài),才明白,李美越被央視批評真的不冤

直到看到甲亢哥回國后的表態(tài),才明白,李美越被央視批評真的不冤

近史談
2025-04-18 14:23:21
意想不到的結(jié)果,中國贏得全球尊重!特朗普終于明白:施壓沒用的

意想不到的結(jié)果,中國贏得全球尊重!特朗普終于明白:施壓沒用的

界史
2025-04-22 10:50:40
2025-04-22 12:56:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12568文章數(shù) 66019關(guān)注度
往期回顧 全部

科技要聞

未脫離困境,分析師稱蘋果股價或再跌近30%

頭條要聞

88歲羅馬教皇方濟各突然去世 遺囑內(nèi)容對外公布

頭條要聞

88歲羅馬教皇方濟各突然去世 遺囑內(nèi)容對外公布

體育要聞

當今足壇最瘋的門將,能有多離譜?

娛樂要聞

關(guān)曉彤分手風波后首現(xiàn)身!甜美狀態(tài)好

財經(jīng)要聞

沐邦高科危險信號:多筆交易存蹊蹺

汽車要聞

捷途山海T2加長版/山海L9等 捷途新車展前亮相

態(tài)度原創(chuàng)

健康
教育
旅游
本地
軍事航空

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

“我罵了孩子,就像爸媽20年前罵我時一模一樣!”

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

云游湖北 | 澴川醉古今!孝文化名城藏了多少寶藏?

軍事要聞

普京:復活節(jié)停火期限結(jié)束后 軍事行動已經(jīng)恢復

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 玉溪市| 微博| 手游| 宣威市| 旌德县| 峨眉山市| 黄骅市| 乌兰县| 樟树市| 东平县| 萨迦县| 缙云县| 青岛市| 常德市| 晴隆县| 洛浦县| 北京市| 耿马| 阿鲁科尔沁旗| 玉田县| 二连浩特市| 甘泉县| 中宁县| 夏河县| 中超| 和田市| 两当县| 弥勒县| 苍溪县| 治县。| 漳州市| 本溪市| 张家口市| 南郑县| 河源市| 龙海市| 海原县| 萍乡市| 聂荣县| 长垣县| 苏州市|