新智元報道
編輯:編輯部 HZN
【新智元導讀】最近英偉達等機構爆火全網的《貓和老鼠》,背后模型被扒出來了——竟是來自智譜國產大模型CogVideoX-5B!原來,這個模型憑驚人的效果,早已在開源社區開發者中掀起一股全球的二創風暴。
最近,英偉達重現《貓和老鼠》的視頻,在全網掀起一股風暴。
只需要一個提示,不用任何剪輯,AI就可以幫我們任意創作這個童年經典動畫,一次60s,童年回憶無限續杯!
這個神奇的「一分鐘視頻」生成器,由英偉達、斯坦福、UCSD等機構的研究者構建。
而且原理極其簡單——只需在預訓練Transformer中嵌入TTT層,就能讓一個5B的小模型理解復雜提示,生成長達1分鐘的視頻了!
論文地址:https://test-time-training.github.io/video-dit/
前方高能,準備好,無限精彩的童年經典全新故事來了!
湯姆正在廚房的桌子旁高興地吃著蘋果派,不料趁它去開門時,蘋果派被杰瑞偷走了。兩人上演追趕大法,最終杰瑞成功逃脫,湯姆撞到墻上。
杰瑞在水下找到了藏寶圖,成功躲避湯姆后,它在沉船中發現了寶藏。然而正在慶祝時,湯姆的追逐卻讓它遇到一條饑餓的鯊魚,陷入了大麻煩。
如此生動精妙的效果,簡直如同一枚炸彈,在AI創作圈炸出了驚人的沖擊波。
有意思的是,當我們去深入調查背后技術時,發現這個爆火全網的研究,竟然是建立在一個來自智譜AI的國產大模型的基礎上。
具體來說,研究者們用了預訓練的CogVideo-X 5B作為基礎模型,在這個模型里加上TTT層,再進行微調。
隨后,就出來了上面那一幕幕驚人的效果。
CogVideoX-5B亮相即爆火
而這個傳說中的CogVideo-X系列圖生視頻模型,早在去年8月開源時,就在AI圈內引起了不小的轟動。
它是一個簡單且可擴展的結構,包含一個3D因果VAE和一個專家Transformer,可以生成連貫、長時長、動作豐富的視頻:
·支持多種寬高比,分辨率高達768×1360,長度為10秒,幀率為16fps
·是首批商業級開源視頻生成模型,有5B和2B兩種規模,包括文本到視頻和圖像到視頻版本
在CogVideoX-5B中,只要輸入「一張圖像」+「提示詞」,就能生成視頻了。
比如輸入狗狗圖片,配文「開心狗狗」,一只張嘴微笑的開心狗狗視頻就生成了。
而且,CogVideoX-5B的視頻生成效果,在當時開源界就已經足夠驚艷。
一只狗在雨中奔跑,還戴著墨鏡,尤其是地面中的倒影更顯真實。還有外星人與宇航員握手這種未來科幻的場景,以及滿是蝴蝶及噴泉的夢想中的精美畫面,都能實現。
左右滑動查看
這個模型在工程優化上也保持了一定的高標準——
支持多種推理精度,推理顯存需求最低僅為11.4GB,單張3060顯卡即可完成推理;
LoRA微調顯存需求為63GB,SFT微調為75GB,單卡A100(80GB)同樣可以完成微調任務。
后來,智譜團隊又在11月開源了能力更強的CogVideoX v1.5,包括 CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V兩個版本。
相比于CogVideoX-5B,CogVideoX v1.5包含5/10秒、768P、16幀的視頻生成能力,I2V模型支持任意尺寸比例,大幅提升了圖生視頻質量及復雜語義理解。
目前,CogVideo & CogVideoX系列模型已在GitHub上斬獲了11.2k star。
開源項目:https://github.com/THUDM/CogVideo
創新架構,刷新SOTA
一直以來,視頻生成模型都存在著運動幅度有限、持續時間較短的問題。其中,基于文本生成具有連貫敘事性的視頻尤為困難。
為解決這些挑戰,智譜團隊提出了諸多創新性的設計。
論文地址:https://arxiv.org/pdf/2408.06072
首先,團隊設計并訓練了一個3D因果VAE,在空間和時間維度上對視頻進行壓縮,從而實現了高維視頻數據的高效處理。
與先前微調2D VAE的方法相比,這種策略不僅有助于顯著減少序列長度和相關訓練計算量,還能有效防止生成視頻中的閃爍,從而確保幀間的連續性。
其次,為改善視頻與文本間的對齊效果,團隊提出了一種帶有專家自適應LayerNorm的專家Transformer,用來促進兩種模態的融合。
為確保視頻生成中的時序一致性并捕捉大范圍運動,建議使用3D全注意力機制,從而在時間和空間維度上對視頻進行全面建模。
第三,鑒于在線可用的大多數視頻數據缺乏準確的文本描述,團隊開發了一個能夠準確描述視頻內容的視頻描述生成流程。
通過為所有視頻訓練數據生成了新的文本描述,CogVideoX精確理解語義的能力得到了顯著的增強。
此外,團隊還設計了漸進式訓練技術,包括多分辨率幀打包和分辨率漸進式訓練,用以進一步提升CogVideoX的生成性能和穩定性。
以及,提出了顯式均勻采樣(Explicit Uniform Sampling)方法——通過在每個數據并行單元上設置不同的時間步采樣間隔,穩定了訓練損失曲線并加速了收斂。
對于生成時間較長的視頻,一些模型可能會為了獲得更高分數而產生幀間變化極小的視頻,但這類視頻缺乏豐富的內容。
為解決此問題,團隊使用了兩種視頻評估工具:動態質量(Dynamic Quality)和GPT4o-MTScore。
前者通過結合多種質量指標與動態得分,減輕了由視頻動態性與視頻質量之間負相關所帶來的偏差;后者則是通過GPT-4o來測量視頻內容的變化程度。
結果顯示,CogVideoX-5B不僅在視頻生成質量方面表現出色,而且在處理各種復雜動態場景方面也優于先前的模型。
其中,CogVideoX-5B在7項指標中有5項取得了最佳性能,并在其余2項指標上也名列前茅。
在VAE重建效果方面, CogVideoX-5B取得了最高的PSNR值和最低的抖動。
開源社區,全是「二創」
由于出色性能,現在不少項目上都已經適配了CogVideoX。
在官方的Github頁面上展示了十幾個使用CogVideoX的開源項目鏈接,其中不乏一些實用、知名的項目。
比如下面這個DiffSynth-Studio開源項目,已經獲得8.3k個星了。
項目地址:https://github.com/modelscope/DiffSynth-Studio?tab=readme-ov-file
該項目在CogVideoX-5B生成的視頻基礎上進行編輯和幀插值操作,以達到更好的效果。
左側為原始文本生視頻,右側是編輯和幀插值后的結果
而KoolCogVideoX是一個基于CogVideoX的微調模型,專為室內設計而設計。
被CVPR 2025錄用為Highlight的ConsisID,是一種身份保持的文本到視頻生成模型,基于CogVideoX-5B,通過頻率分解在生成的視頻中保持面部一致性。
VideoX-Fun基于CogVideoX的框架,支持靈活的分辨率(從512到1024)和多種啟動方法(包括ComfyUI、WebUI以及Python)。
顯然,在未來我們還將見證更多基于CogVideoX-5B微調的項目如火如荼地上線,充分發揮CogVideoX系列開源模型的力量。
據說,3天后智譜的全新開源模型也要上線,包括基座模型、推理模型、沉思模型,實在是把期待值給拉滿了。
參考資料:
https://github.com/THUDM/CogVideo
https://test-time-training.github.io/video-dit/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.