這是大模型年終 分享系列的第二篇,我們近期將陸續推出其他領域的項目合集,如視頻生成、智能體(agent) 等。希望對大家有所幫助,也請大家多多批評指正。
第一篇傳送門:
由人工智能(AI)大模型驅動的視頻生成,正在引發影視行業的擔憂甚至抵制,一度引發了好萊塢的“停擺”。
然而,拋去這種擔心被機器替代的危機感,AI 視頻生成也有令人可喜的一面:不僅可以作為影視專業人士的得力助手,還可以降低非專業人士的日常視頻創作門檻, 慢則幾分鐘,快則幾十秒,一幀幀栩栩如生的電影級畫面,便顯現在我們眼前 。
在已經結束的 2024 年,「AI 視頻生成」領域涌現出了眾多優秀的研究成果,大大豐富了圖像內容創作的生態,這些成果來自頭部科技大廠、高校院所實驗室和個人開發者,部分研究也已開源。
在這篇總結文章中,我們專注于分享那些 「研究類」 AI 視頻生成項目,我們挑選了 102 個項目中的 12 個分享給大家。 (按照發布時間先后順序,點擊「閱讀原文」查看完整版)
1.Google DeepMind:利用運動軌跡控制視頻生成
運動控制對于生成具有表現力和吸引力的視頻內容至關重要;然而,現有的大多數視頻生成模型主要依靠文本提示進行控制,難以捕捉動態動作和時間組合的細微差別。
為此,來自 Google DeepMind 的研究團隊及其合作者訓練了一種以時空稀疏或密集運動軌跡為條件的視頻生成模型。與之前的運動調節工作不同的是,這種靈活的表示方法可以編碼任意數量的軌跡、特定對象或全局場景運動以及時空稀疏運動;由于其靈活性,他們將這種調節方法稱為運動提示(motion prompt)。雖然用戶可以直接指定稀疏軌跡,但他們也展示了如何將高級用戶請求轉化為詳細的半密集運動提示,他們將這一過程稱為運動提示擴展。
他們通過各種應用展示了這一方法的多功能性,包括相機和物體運動控制、與圖像“互動”、運動傳輸和圖像編輯。
另外,這項研究還展示了一些涌現行為,如逼真的物理現象,這表明運動提示具有探測視頻模型和與未來生成世界模型交互的潛力。
論文鏈接:
https://arxiv.org/abs/2412.02700
項目地址:
https://motion-prompting.github.io/
2.Adobe 團隊推出空間感知視頻生成器 Track4Gen
雖然基礎視頻生成器可以生成視覺豐富的視頻,但在外觀漂移問題上仍表現較差,例如物體會逐漸退化或在幀間發生不一致的變化,從而破壞視覺連貫性。來自 Adobe Research 的研究團隊及其合作者認為,這是因為在特征級別的空間跟蹤方面沒有明確的監督。
在這項工作中,他們推出了一種空間感知視頻生成器——Track4Gen,其將視頻擴散損失與跨幀點跟蹤相結合,提供了對擴散特征的增強空間監督。Track4Gen 通過對現有視頻生成架構進行最小限度的修改,將視頻生成和點跟蹤任務合并到一個網絡中。Track4Gen 以 Stable Video Diffusion 為骨干,證明了統一視頻生成和點跟蹤是可能的,而視頻生成和點跟蹤通常是作為單獨的任務來處理的。
廣泛的評估表明,Track4Gen 可以有效地減少外觀漂移,從而生成時間上穩定、視覺上連貫的視頻。
論文鏈接:
https://arxiv.org/abs/2412.06016
項目地址:
https://hyeonho99.github.io/track4gen/
3.港科大推出 AniDoc:讓動畫創作更簡單
2D 動畫的制作遵循行業標準的工作流程,包括四個基本階段:角色設計、關鍵幀動畫、中間處理和上色。為降低上述流程中的人工成本,來自香港科技大學的研究團隊及其合作者提出了 AniDoc。
AniDoc 以視頻擴散模型為基礎,是一款視頻線條藝術著色工具,可根據參考角色規范自動將素描序列轉換為彩色動畫。這一模型利用對應匹配作為明確的指導,對參考角色和每一幀藝術線條之間的變化(如姿勢)具有很強的魯棒性。
此外,這一模型甚至可以自動完成中間處理過程,用戶只需提供角色圖像以及開始和結束草圖,就能輕松制作出時間一致的動畫。
論文鏈接:
https://arxiv.org/abs/2412.14173
項目地址:
https://yihao-meng.github.io/AniDoc_demo/
4.GameGen-X:交互式開放世界游戲視頻生成
來自香港科技大學、中國科學技術大學和香港中文大學的研究團隊推出了 GameGen-X,它是首個專為生成式和交互式控制開放世界游戲視頻而設計的擴散 Transformer 模型。
該模型模擬了大量游戲引擎功能,如創新角色、動態環境、復雜動作和各種事件,有助于生成高質量的開放域視頻。此外,它還提供了交互式可控性,可根據當前片段預測和改變未來內容,從而實現游戲模擬。
為了實現這一愿景,他們首先從零開始收集并建立了一個開放世界視頻游戲數據集。這是第一個也是最大的開放世界游戲視頻生成和控制數據集,由 150 多款游戲的 100 多萬個不同游戲視頻片段組成,并附有來自 GPT-4o 的詳細說明。
GameGen-X 的訓練過程分為兩個階段:基礎模型預訓練和指令微調。首先,通過文生視頻和視頻延續對模型進行預訓練,使其具備生成長序列、高質量開放域游戲視頻的能力。為了實現交互可控性,他們在設計 InstructNet 時納入了與游戲相關的多模態控制信號專家,使得模型能夠根據用戶輸入調整潛在表征,首次在視頻生成中將角色交互和場景內容控制統一起來。在指令微調過程中,只有 InstructNet 會被更新,而預訓練的基礎模型則會被凍結,這樣就能在不損失生成視頻內容的多樣性和質量的情況下,整合互動可控性。
論文鏈接:
https://arxiv.org/abs/2411.00769
項目地址:
https://gamegen-x.github.io/
5.Meta 團隊推出視頻擴散模型系列 MarDini
來自 Meta 的研究團隊及其合作者推出了 MarDini,這是一個全新的視頻擴散模型系列,它將掩碼自回歸(MAR)的優勢整合到一個統一的擴散模型(DM)框架中。
MAR 處理時間規劃,而 DM 則側重于非對稱網絡設計中的空間生成:基于 MAR 的規劃模型包含大部分參數,使用低分辨率輸入為每個掩碼幀生成規劃信號;輕量級生成模型使用這些信號,通過擴散去噪生成高分辨率幀。MarDini 的 MAR 可以根據任意幀位置上任意數量的掩碼幀生成視頻:單一模型可以處理視頻插值(如掩碼中間幀)、圖生視頻(如從第二幀開始掩碼)和視頻擴展(如掩碼一半幀)。
這種高效的設計將大部分計算資源分配給了低分辨率規劃模型,使得計算成本高但重要的時空注意力在規模上變得可行。MarDini 為視頻插值技術建立了新的 SOTA;同時,只需幾個推理步驟,它就能高效生成與更昂貴的高級圖生視頻模型相當的視頻。
論文鏈接:
https://arxiv.org/abs/2410.20280
項目地址:
https://mardini-vidgen.github.io/
6.北大團隊提出高效視頻生成算法 pyramidal flow matching
視頻生成需要對廣闊的時空進行建模,這需要大量的計算資源和數據。為了降低復雜性,目前流行的方法采用級聯架構,避免直接進行全分辨率訓練。盡管減少了計算需求,但每個子階段的單獨優化卻阻礙了知識共享,犧牲了靈活性。
在這項工作中,來自北京大學的研究團隊及其合作者提出了一種統一的金字塔流匹配(pyramidal flow matching)算法。它將原始去噪軌跡重新解釋為一系列金字塔階段,其中只有最后一個階段以全分辨率運行,從而實現了更高效的視頻生成建模。通過精密設計,不同金字塔階段的流程可以相互連接,以保持連續性。此外,他們還將自回歸視頻生成與時間金字塔相結合,以壓縮全分辨率歷史。整個框架可以端到端方式進行優化,只需一個統一的 DiT。
實驗證明,他們的方法支持在 20.7k A100 GPU 訓練小時內,以 768p 分辨率和 24 FPS 的速度生成高質量的 5 秒(最多 10 秒)視頻。
論文鏈接:
https://arxiv.org/abs/2410.05954
項目地址:
https://pyramid-flow.github.io/
7.PhysGen:更懂物理的“圖生視頻”新方法
在這項工作中,伊利諾伊大學厄巴納-香檳分校團隊提出了一個圖像到視頻生成方法——PhysGen,其可轉換單個圖像和輸入條件(如施加到圖像中對象的力和扭矩),生成逼真、物理上合理且時間一致的視頻。
他們的主要見解是將基于模型的物理仿真與數據驅動的視頻生成過程相結合,從而實現可信的圖像空間動力學。PhysGen 由三個核心組件構成:(1)圖像理解模塊,可有效捕獲圖像的幾何形狀、材料和物理參數;(2)圖像空間動力學仿真模型,利用剛體物理學和推斷參數來模擬逼真的行為;(3)基于圖像的渲染和細化模塊,該模塊利用生成式視頻擴散來生成具有模擬運動的逼真視頻片段。
通過定量比較和全面的用戶研究,PhysGen 生成的視頻在物理和外觀上都非常逼真,甚至可以精確控制,與現有的數據驅動圖像到視頻生成工作相比,顯示出更好的效果。PhysGen 生成的視頻可用于各種下游應用,如將圖像轉化為逼真的動畫,或允許用戶與圖像交互并創建各種動態效果。
論文鏈接:
https://arxiv.org/abs/2409.18964
項目地址:
https://stevenlsw.github.io/physgen/
8.清華、智譜團隊推出視頻生成模型 CogVideoX
在這項工作中,來自清華大學和智譜的研究團隊提出了一種基于擴散 transformer(DiT)的大規模文本到視頻生成模型——CogVideoX,其可以生成與文本提示對齊的 10 秒鐘連續視頻,幀率為 16 fps,分辨率為 768*1360 像素。
以前的視頻生成模型通常動作有限、持續時間短,而且很難根據文本生成具有連貫敘事的視頻。他們提出了幾種設計方案來解決這些問題。首先,他們提出了一種 3D 變分自編碼器(VAE)來壓縮空間和時間維度的視頻,從而提高壓縮率和視頻保真度。其次,為了改善文本與視頻的對齊,他們提出了專家 transformer 和專家自適應 LayerNorm,以促進兩種模態之間的深度融合。然后,通過采用漸進式訓練和多分辨率幀包技術,CogVideoX 擅長生成連貫、長時間且具有顯著運動特征的視頻。此外,他們還開發了有效的文本視頻數據處理管道,包括各種數據預處理策略和視頻字幕方法,大大提高了生成質量和語義一致性。
結果表明,CogVideoX 在多個機器指標和人工評估方面都表現出了一流的性能。
論文鏈接:
https://arxiv.org/abs/2408.06072
GitHub 地址:
https://github.com/THUDM/CogVideo
9.ControlNeXt:高效的可控圖像、視頻生成方法
為了對擴散模型在圖像和視頻方面的生成結果實現更強的控制,以往的研究提出了 ControlNet、Adapters 和 ReferenceNet 等多個架構,從而集成調節控制。然而,目前的方法往往需要大量額外的計算資源,尤其是在視頻生成方面,而且在訓練方面面臨挑戰,或者控制能力較弱。
在這項工作中,來自香港中文大學和 SmartMore 的研究團隊提出了一種高效的可控圖像、視頻生成方法——ControlNeXt。他們首先設計了一個更簡單、更高效的架構,與基礎模型相比,以最小的額外成本取代了復雜的分支模塊。這種簡潔的結構還允許該方法與其他 LoRA 權重無縫集成,無需額外訓練即可改變風格。在訓練方面,與其他方法相比,他們減少了多達 90% 的可學習參數。
此外,他們還提出了另一種名為“交叉歸一化(Cross Normalization)”的方法來替代“Zero-Convolution”,從而實現快速、穩定的訓練收斂。
論文鏈接:
https://arxiv.org/abs/2408.06070
項目地址:
https://pbihao.github.io/projects/controlnext/index.html
10.MagicTime:變形延時視頻生成模型
在文生視頻(T2V)領域,一個被忽視的問題是,現有模型沒有充分編碼真實世界的物理知識,生成的視頻往往具有有限的運動和較差的變化。
來自北京大學和羅切斯特大學的研究團隊及其合作者,提出了一種名為 MagicTime 的變形延時視頻生成模型,該模型從延時視頻中學習真實世界的物理知識,并實現了變形生成。
首先,他們設計了一個 MagicAdapter 方案來解耦時空訓練,從變形視頻中編碼更多的物理知識,并轉換預訓練 T2V 模型來生成變形視頻。其次,他們提出了一種適應變形延時視頻的動態幀提取策略,它具有更大的變化范圍,涵蓋了物體變形過程,比一般視頻體現了更多的物理知識。最后,他們提出了一個魔術文本編碼器,以提高對變形視頻提示的理解。此外,他們還創建了一個名為 ChronoMagic 的延時視頻文本數據集,專門用于解鎖變形視頻生成能力。
實驗證明,MagicTime 在生成高質量和動態變形視頻方面達到了 SOTA,表明延時視頻生成是構建物理世界變形模擬器的一個途徑。
論文鏈接:
https://arxiv.org/abs/2404.05014
項目地址:
https://github.com/PKU-YuanGroup/MagicTime
11.EMO:由音頻生成富有表現力的肖像視頻
在這項工作中,阿里團隊將重點關注音頻線索與面部動作之間的動態和細微關系,以應對在生成“對話頭像”(talking head)視頻時如何提高逼真度和表現力的挑戰。然而,傳統技術往往無法捕捉到人類表情的全貌以及個人面部風格的獨特性。
為此,他們提出了一個新的框架—— EMO,它采用直接從音頻到視頻的合成方法,無需中間 3D 模型或面部標志。EMO 確保了整個視頻的無縫幀轉換和一致的身份保持,從而產生了極富表現力且栩栩如生的動畫。
實驗結果表明,EMO 不僅能生成令人信服的說話視頻,還能生成各種風格的歌唱視頻,在表現力和逼真度方面明顯優于現有的 SOTA 方法。
論文鏈接:
https://arxiv.org/abs/2402.17485
項目網站:
https://humanaigc.github.io/emote-portrait-alive/
12.VideoCrafter2:克服數據限制,構建高質量視頻擴散模型
文生視頻的目的是根據給定的提示制作視頻。最近,一些商業視頻模型已經能夠生成具有最小噪聲、出色細節和較高審美分數的可信視頻。然而,這些模型依賴于大規模、經過良好過濾的高質量視頻,而這些視頻并不面向大眾。現有的許多研究工作都使用低質量的 WebVid-10M 數據集來訓練模型,但很難生成高質量的視頻。
在這項工作中,騰訊 AI Lab 團隊探索了從 Stable Diffusion 擴展而來的視頻模型的訓練方案,并研究了利用低質量視頻和合成高質量圖像獲得高質量視頻模型的可行性。
他們首先分析了視頻模型的空間和時間模塊與低質量視頻的分布轉移之間的聯系。與只訓練時間模塊相比,全面訓練所有模塊會使得空間模塊和時間模塊耦合更強。基于這種更強的耦合,他們通過使用高質量圖像對空間模塊進行微調,在不降低運動質量的情況下將分布轉向更高的質量,從而形成通用的高質量視頻模型。通過評估,他們證明了所提方法的優越性,尤其是在畫質、運動和概念構成方面。
論文鏈接:
https://arxiv.org/abs/2401.09047
項目地址:
https://ailab-cvc.github.io/videocrafter2/
整理:學術君
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.