如果在短視頻或者社交媒體上,刷到這條視頻,我大概會(huì)津津有味看完,然后回想這是《貓和老鼠》哪一集。
哪一集都不是,這不僅完全是 AI 生成的,而且是一次性完成。
視頻生成一直以來都有一道「天塹」:時(shí)長。市面上主流的生成式視頻產(chǎn)品,都是以秒為單位,能超過 10 秒就相當(dāng)不錯(cuò)了,還暫且不談這十秒里畫面崩不崩。
這使得在實(shí)際使用中,還是需要剪輯、拼接那些幾秒幾秒的短鏡頭。這是目前的技術(shù)上限所致,沒辦法。
伯克利、斯坦福聯(lián)合英偉達(dá)的最新研究,驚人地把一次性生成時(shí)長推到了 1 分鐘,無剪輯,卻仍然保持逆天的一致性。
通過引入測試時(shí)訓(xùn)練(Test-Time Training, TTT)層,顯著提升了擴(kuò)散 Transformer 模型生成長視頻的能力,使其能夠生成長達(dá)一分鐘、具有復(fù)雜多場景故事的連貫視頻。
傳統(tǒng) RNN 層(如 Mamba、DeltaNet)的隱藏狀態(tài)為固定大小的矩陣(例如線性投影),rank 限制了壓縮長序列信息的能力。當(dāng)處理包含數(shù)十萬視頻令牌的上下文時(shí),矩陣的線性表達(dá)能力不足以捕捉復(fù)雜的時(shí)空依賴關(guān)系。
聚焦在 TTT 層的創(chuàng)新之處有于,以隱藏狀態(tài)作為神經(jīng)網(wǎng)絡(luò)。在傳統(tǒng)的 RNN 中,隱藏狀態(tài)是用來存儲(chǔ)過去信息的,比如之前的輸入如何影響當(dāng)前輸出。
通常,這個(gè)記憶是一個(gè)固定大小的表格(比如數(shù)字矩陣),只能簡單記錄過去的信息,可能不夠靈活。但在這項(xiàng)研究中,作者將隱藏狀態(tài)設(shè)計(jì)成了一個(gè)神經(jīng)網(wǎng)絡(luò),這意味著這個(gè)「存儲(chǔ)空間」本身具有學(xué)習(xí)能力。
每當(dāng)處理新的視頻片段時(shí),這個(gè)程序會(huì)通過練習(xí)來調(diào)整自己。比如,它會(huì)嘗試修復(fù)模糊的畫面(自監(jiān)督任務(wù)),根據(jù)修復(fù)的效果修改自己的內(nèi)部參數(shù)(用梯度下降法)。
同時(shí),處理每一段視頻時(shí),神經(jīng)網(wǎng)絡(luò)都會(huì)根據(jù)當(dāng)前內(nèi)容調(diào)整參數(shù)。就像人在做數(shù)學(xué)題時(shí),每做一題都會(huì)總結(jié)方法,下一題用改進(jìn)后的方法一樣。
這樣,模型就能記住更復(fù)雜的場景變化(比如貓追老鼠的連貫動(dòng)作),生成長達(dá)一分鐘的流暢視頻。
為了檢驗(yàn)成果,研究人員用了《貓和老鼠》作為材料。他們收集了 1940-1948 年間,發(fā)布的 81 集原版動(dòng)畫,總共超過 400 分鐘。掃描原膠片,保留手繪動(dòng)畫的線條和抖動(dòng)特征。
人工標(biāo)注團(tuán)隊(duì)依據(jù)鏡頭連續(xù)性,將平均每 5 分鐘的劇集,分割為 8-12 個(gè)場景。并且在這個(gè)環(huán)節(jié),通過切割和標(biāo)注的方式,模擬人類編劇從分鏡到劇本的創(chuàng)作過程,使模型學(xué)習(xí)敘事層次結(jié)構(gòu)。
效果有多好呢?
整整一分鐘的視頻,基本完成了劇本中所要求的情節(jié),除了一些轉(zhuǎn)折處有不自然,整個(gè)故事的完整性沒有問題。
場景一致性、運(yùn)動(dòng)自然性都有驚人的表現(xiàn)。如追逐的場景,各個(gè)物體的屬性、顏色、形狀,以及和空間布局一致性都沒有崩壞,證明了模型長期記憶的能力。
想象一下動(dòng)畫片里湯姆追逐杰瑞的經(jīng)典場面:湯姆可不是簡單地直線跑,他會(huì)急剎車、猛轉(zhuǎn)彎、跳起來躲避障礙,甚至被砸扁后像彈簧一樣恢復(fù)。
這些看似夸張混亂的動(dòng)作,其實(shí)也包含物理邏輯。但要讓 AI 理解這種復(fù)雜的動(dòng)態(tài)場景并不容易。
過去 AI 模型(比如用到MLP技術(shù)的)需要學(xué)會(huì)描繪這種「不走直線」的運(yùn)動(dòng)軌跡。
現(xiàn)在 AI 有了一支靈活的「畫筆」(MLP的隱藏狀態(tài)),讓它能捕捉湯姆突然加速、變向、摔倒?jié)L成球等各種非線性的、但又符合物理規(guī)律的運(yùn)動(dòng)變化,而不是只能畫直線。
前面提到的 TTT 層,核心創(chuàng)新就像給湯姆加了一個(gè)「外掛」,讓他 擁有超強(qiáng)的「 臨場反應(yīng) 」 能力, 能根據(jù)實(shí)時(shí)路況(新數(shù)據(jù))微調(diào)自己的動(dòng)作。
比如 湯姆能看到香蕉皮的那個(gè)瞬間(測試時(shí)),立刻調(diào)整自己的腳步和姿勢(shì)(動(dòng)態(tài)調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)),試圖躲開或者以一種夸張的方式滑倒(上下文自適應(yīng))。
他不再靠以前摔倒的經(jīng)驗(yàn)(靜態(tài)訓(xùn)練好的模型),而是當(dāng)場學(xué)習(xí)和反應(yīng)(測試時(shí)自監(jiān)督學(xué)習(xí))
不過,基礎(chǔ)模型,本身對(duì)復(fù)雜動(dòng)作的學(xué)習(xí)不夠完美,即使加了 TTT 層,有些錯(cuò)誤還是會(huì)出現(xiàn)。
對(duì)于模型能力而言,如何提高視覺處理能力,始終是一個(gè)「長期主義」任務(wù)。
Kimi 新開源的 Kimi-VL,就是在模型的視覺能力上繼續(xù)鉆研提高。在這次開源的論文中可以看到,Kimi 用原生高分辨率視覺編碼器 MoonViT,來突破傳統(tǒng)視覺編碼的限制。
傳統(tǒng)方法(如 LLaVA-OneVision)需將高分辨率圖像分割為子圖再拼接,導(dǎo)致信息丟失和計(jì)算冗余。
MoonViT 基于 NaViT 的打包策略,將不同分辨率的圖像拆分為塊并展平為序列,結(jié)合 2D 旋轉(zhuǎn)位置編碼(RoPE),直接處理原生分辨率圖像,保留細(xì)粒度視覺信息。
用人話來說, 湯姆過去想抓住杰瑞,只能通過好幾個(gè)小窗戶去看一個(gè)大房間( LLa VA-OneVision)。
MoonViT 就像給湯姆換上了一副超高清、廣角、還能自動(dòng)變焦的「超級(jí)眼鏡」。
他可以直接看到整個(gè)房間(處理原生高分辨率圖像),無論是墻上的小洞還是桌上的面包屑都一清二楚(保留細(xì)粒度信息),而且看得又快又好。
同時(shí),Kimi 首次將 MoE 深度整合到視覺語言模型,跨模態(tài)的專家協(xié)作,能讓語言模型在保留純文本能力(如代碼生成)的同時(shí),激活視覺專家處理圖像、視頻等多模態(tài)輸入。
對(duì)于視覺-語言的多模態(tài)任務(wù)而言,模型架構(gòu)層的研究至關(guān)重要,因?yàn)槎嗄B(tài)數(shù)據(jù)的異質(zhì)性、交互復(fù)雜性以及任務(wù)多樣性對(duì)模型的表示能力、計(jì)算效率和泛化性提出了獨(dú)特挑戰(zhàn)。
想讓 AI 能看、能聽、能跑、能思考 ,它的內(nèi)部 模型架構(gòu) 就至關(guān)重要。
你不能簡單地把眼睛(視覺模塊)和耳朵(音頻模塊)、大腦(語言處理)零件堆在一起。
必須精心設(shè)計(jì)它們?nèi)绾芜B接、如何協(xié)同工作(融合異構(gòu)數(shù)據(jù)、跨模態(tài)關(guān)聯(lián)),才能讓 AI 流暢地根據(jù)看到的畫面和聽到的聲音做出反應(yīng),甚至理解一個(gè)包含畫面和對(duì)話的故事。
更復(fù)雜的是,當(dāng)我們要讓 AI 生成長視頻時(shí),它不僅要保證畫面好看,還得讓整個(gè)故事情節(jié)前后連貫,講一個(gè)完整的故事而不是隨意堆砌場景,一分鐘的 AI版《貓和老鼠》還是一個(gè)雛形。
未來,隨著 3D 視覺、音頻等多模態(tài)擴(kuò)展,架構(gòu)研究需進(jìn)一步探索,跨模態(tài)動(dòng)態(tài)路由,結(jié)合 TTT 思想設(shè)計(jì)跨模態(tài)交互層,或進(jìn)一步優(yōu)化隱藏狀態(tài)的表達(dá)能力(如引入 Transformer 作為隱藏網(wǎng)絡(luò)),或許是多模態(tài)模型架構(gòu)研究的重要方向。
當(dāng)大模型擁有了這全套「感官」,那些能幫我們干活但稍顯愚蠢的通用 AI Agent ,可用性也將大大提升。
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標(biāo)題「姓名+崗位名稱」(請(qǐng)隨簡歷附上項(xiàng)目/作品或相關(guān)鏈接)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.