網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI 版《貓和老鼠》刷爆外網(wǎng)！零剪輯自動(dòng)生成，60 秒神作刷新 AI 視頻天花板

2025-04-11 17:16:42　來源: AppSo

廣東舉報(bào)

分享至

如果在短視頻或者社交媒體上，刷到這條視頻，我大概會(huì)津津有味看完，然后回想這是《貓和老鼠》哪一集。

哪一集都不是，這不僅完全是 AI 生成的，而且是一次性完成。

視頻生成一直以來都有一道「天塹」：時(shí)長。市面上主流的生成式視頻產(chǎn)品，都是以秒為單位，能超過 10 秒就相當(dāng)不錯(cuò)了，還暫且不談這十秒里畫面崩不崩。

這使得在實(shí)際使用中，還是需要剪輯、拼接那些幾秒幾秒的短鏡頭。這是目前的技術(shù)上限所致，沒辦法。

伯克利、斯坦福聯(lián)合英偉達(dá)的最新研究，驚人地把一次性生成時(shí)長推到了 1 分鐘，無剪輯，卻仍然保持逆天的一致性。

通過引入測試時(shí)訓(xùn)練（Test-Time Training， TTT）層，顯著提升了擴(kuò)散 Transformer 模型生成長視頻的能力，使其能夠生成長達(dá)一分鐘、具有復(fù)雜多場景故事的連貫視頻。

傳統(tǒng) RNN 層（如 Mamba、DeltaNet）的隱藏狀態(tài)為固定大小的矩陣（例如線性投影），rank 限制了壓縮長序列信息的能力。當(dāng)處理包含數(shù)十萬視頻令牌的上下文時(shí)，矩陣的線性表達(dá)能力不足以捕捉復(fù)雜的時(shí)空依賴關(guān)系。

聚焦在 TTT 層的創(chuàng)新之處有于，以隱藏狀態(tài)作為神經(jīng)網(wǎng)絡(luò)。在傳統(tǒng)的 RNN 中，隱藏狀態(tài)是用來存儲(chǔ)過去信息的，比如之前的輸入如何影響當(dāng)前輸出。

通常，這個(gè)記憶是一個(gè)固定大小的表格（比如數(shù)字矩陣），只能簡單記錄過去的信息，可能不夠靈活。但在這項(xiàng)研究中，作者將隱藏狀態(tài)設(shè)計(jì)成了一個(gè)神經(jīng)網(wǎng)絡(luò)，這意味著這個(gè)「存儲(chǔ)空間」本身具有學(xué)習(xí)能力。

每當(dāng)處理新的視頻片段時(shí)，這個(gè)程序會(huì)通過練習(xí)來調(diào)整自己。比如，它會(huì)嘗試修復(fù)模糊的畫面（自監(jiān)督任務(wù)），根據(jù)修復(fù)的效果修改自己的內(nèi)部參數(shù)（用梯度下降法）。

同時(shí)，處理每一段視頻時(shí)，神經(jīng)網(wǎng)絡(luò)都會(huì)根據(jù)當(dāng)前內(nèi)容調(diào)整參數(shù)。就像人在做數(shù)學(xué)題時(shí)，每做一題都會(huì)總結(jié)方法，下一題用改進(jìn)后的方法一樣。

這樣，模型就能記住更復(fù)雜的場景變化（比如貓追老鼠的連貫動(dòng)作），生成長達(dá)一分鐘的流暢視頻。

為了檢驗(yàn)成果，研究人員用了《貓和老鼠》作為材料。他們收集了 1940-1948 年間，發(fā)布的 81 集原版動(dòng)畫，總共超過 400 分鐘。掃描原膠片，保留手繪動(dòng)畫的線條和抖動(dòng)特征。

人工標(biāo)注團(tuán)隊(duì)依據(jù)鏡頭連續(xù)性，將平均每 5 分鐘的劇集，分割為 8-12 個(gè)場景。并且在這個(gè)環(huán)節(jié)，通過切割和標(biāo)注的方式，模擬人類編劇從分鏡到劇本的創(chuàng)作過程，使模型學(xué)習(xí)敘事層次結(jié)構(gòu)。

效果有多好呢？

整整一分鐘的視頻，基本完成了劇本中所要求的情節(jié)，除了一些轉(zhuǎn)折處有不自然，整個(gè)故事的完整性沒有問題。

場景一致性、運(yùn)動(dòng)自然性都有驚人的表現(xiàn)。如追逐的場景，各個(gè)物體的屬性、顏色、形狀，以及和空間布局一致性都沒有崩壞，證明了模型長期記憶的能力。

想象一下動(dòng)畫片里湯姆追逐杰瑞的經(jīng)典場面：湯姆可不是簡單地直線跑，他會(huì)急剎車、猛轉(zhuǎn)彎、跳起來躲避障礙，甚至被砸扁后像彈簧一樣恢復(fù)。

這些看似夸張混亂的動(dòng)作，其實(shí)也包含物理邏輯。但要讓 AI 理解這種復(fù)雜的動(dòng)態(tài)場景并不容易。

過去 AI 模型（比如用到MLP技術(shù)的）需要學(xué)會(huì)描繪這種「不走直線」的運(yùn)動(dòng)軌跡。

現(xiàn)在 AI 有了一支靈活的「畫筆」（MLP的隱藏狀態(tài)），讓它能捕捉湯姆突然加速、變向、摔倒?jié)L成球等各種非線性的、但又符合物理規(guī)律的運(yùn)動(dòng)變化，而不是只能畫直線。

前面提到的 TTT 層，核心創(chuàng)新就像給湯姆加了一個(gè)「外掛」，讓他擁有超強(qiáng)的「臨場反應(yīng) 」能力，能根據(jù)實(shí)時(shí)路況（新數(shù)據(jù)）微調(diào)自己的動(dòng)作。

比如湯姆能看到香蕉皮的那個(gè)瞬間（測試時(shí)），立刻調(diào)整自己的腳步和姿勢(shì)（動(dòng)態(tài)調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)），試圖躲開或者以一種夸張的方式滑倒（上下文自適應(yīng)）。

他不再靠以前摔倒的經(jīng)驗(yàn)（靜態(tài)訓(xùn)練好的模型），而是當(dāng)場學(xué)習(xí)和反應(yīng)（測試時(shí)自監(jiān)督學(xué)習(xí)）

不過，基礎(chǔ)模型，本身對(duì)復(fù)雜動(dòng)作的學(xué)習(xí)不夠完美，即使加了 TTT 層，有些錯(cuò)誤還是會(huì)出現(xiàn)。

對(duì)于模型能力而言，如何提高視覺處理能力，始終是一個(gè)「長期主義」任務(wù)。

Kimi 新開源的 Kimi-VL，就是在模型的視覺能力上繼續(xù)鉆研提高。在這次開源的論文中可以看到，Kimi 用原生高分辨率視覺編碼器 MoonViT，來突破傳統(tǒng)視覺編碼的限制。

傳統(tǒng)方法（如 LLaVA-OneVision）需將高分辨率圖像分割為子圖再拼接，導(dǎo)致信息丟失和計(jì)算冗余。

MoonViT 基于 NaViT 的打包策略，將不同分辨率的圖像拆分為塊并展平為序列，結(jié)合 2D 旋轉(zhuǎn)位置編碼（RoPE），直接處理原生分辨率圖像，保留細(xì)粒度視覺信息。

用人話來說，湯姆過去想抓住杰瑞，只能通過好幾個(gè)小窗戶去看一個(gè)大房間（ LLa VA-OneVision）。

MoonViT 就像給湯姆換上了一副超高清、廣角、還能自動(dòng)變焦的「超級(jí)眼鏡」。

他可以直接看到整個(gè)房間（處理原生高分辨率圖像），無論是墻上的小洞還是桌上的面包屑都一清二楚（保留細(xì)粒度信息），而且看得又快又好。

同時(shí)，Kimi 首次將 MoE 深度整合到視覺語言模型，跨模態(tài)的專家協(xié)作，能讓語言模型在保留純文本能力（如代碼生成）的同時(shí)，激活視覺專家處理圖像、視頻等多模態(tài)輸入。

對(duì)于視覺-語言的多模態(tài)任務(wù)而言，模型架構(gòu)層的研究至關(guān)重要，因?yàn)槎嗄B(tài)數(shù)據(jù)的異質(zhì)性、交互復(fù)雜性以及任務(wù)多樣性對(duì)模型的表示能力、計(jì)算效率和泛化性提出了獨(dú)特挑戰(zhàn)。

想讓 AI 能看、能聽、能跑、能思考，它的內(nèi)部模型架構(gòu) 就至關(guān)重要。

你不能簡單地把眼睛（視覺模塊）和耳朵（音頻模塊）、大腦（語言處理）零件堆在一起。

必須精心設(shè)計(jì)它們?nèi)绾芜B接、如何協(xié)同工作（融合異構(gòu)數(shù)據(jù)、跨模態(tài)關(guān)聯(lián)），才能讓 AI 流暢地根據(jù)看到的畫面和聽到的聲音做出反應(yīng)，甚至理解一個(gè)包含畫面和對(duì)話的故事。

更復(fù)雜的是，當(dāng)我們要讓 AI 生成長視頻時(shí)，它不僅要保證畫面好看，還得讓整個(gè)故事情節(jié)前后連貫，講一個(gè)完整的故事而不是隨意堆砌場景，一分鐘的 AI版《貓和老鼠》還是一個(gè)雛形。

未來，隨著 3D 視覺、音頻等多模態(tài)擴(kuò)展，架構(gòu)研究需進(jìn)一步探索，跨模態(tài)動(dòng)態(tài)路由，結(jié)合 TTT 思想設(shè)計(jì)跨模態(tài)交互層，或進(jìn)一步優(yōu)化隱藏狀態(tài)的表達(dá)能力（如引入 Transformer 作為隱藏網(wǎng)絡(luò)），或許是多模態(tài)模型架構(gòu)研究的重要方向。

當(dāng)大模型擁有了這全套「感官」，那些能幫我們干活但稍顯愚蠢的通用 AI Agent ，可用性也將大大提升。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」（請(qǐng)隨簡歷附上項(xiàng)目/作品或相關(guān)鏈接）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.