99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI 版《貓和老鼠》刷爆外網(wǎng)!零剪輯自動(dòng)生成,60 秒神作刷新 AI 視頻天花板

0
分享至

如果在短視頻或者社交媒體上,刷到這條視頻,我大概會(huì)津津有味看完,然后回想這是《貓和老鼠》哪一集。

哪一集都不是,這不僅完全是 AI 生成的,而且是一次性完成。

視頻生成一直以來都有一道「天塹」:時(shí)長。市面上主流的生成式視頻產(chǎn)品,都是以秒為單位,能超過 10 秒就相當(dāng)不錯(cuò)了,還暫且不談這十秒里畫面崩不崩。

這使得在實(shí)際使用中,還是需要剪輯、拼接那些幾秒幾秒的短鏡頭。這是目前的技術(shù)上限所致,沒辦法。

伯克利、斯坦福聯(lián)合英偉達(dá)的最新研究,驚人地把一次性生成時(shí)長推到了 1 分鐘,無剪輯,卻仍然保持逆天的一致性。



通過引入測試時(shí)訓(xùn)練(Test-Time Training, TTT)層,顯著提升了擴(kuò)散 Transformer 模型生成長視頻的能力,使其能夠生成長達(dá)一分鐘、具有復(fù)雜多場景故事的連貫視頻。


傳統(tǒng) RNN 層(如 Mamba、DeltaNet)的隱藏狀態(tài)為固定大小的矩陣(例如線性投影),rank 限制了壓縮長序列信息的能力。當(dāng)處理包含數(shù)十萬視頻令牌的上下文時(shí),矩陣的線性表達(dá)能力不足以捕捉復(fù)雜的時(shí)空依賴關(guān)系。

聚焦在 TTT 層的創(chuàng)新之處有于,以隱藏狀態(tài)作為神經(jīng)網(wǎng)絡(luò)。在傳統(tǒng)的 RNN 中,隱藏狀態(tài)是用來存儲(chǔ)過去信息的,比如之前的輸入如何影響當(dāng)前輸出。


通常,這個(gè)記憶是一個(gè)固定大小的表格(比如數(shù)字矩陣),只能簡單記錄過去的信息,可能不夠靈活。但在這項(xiàng)研究中,作者將隱藏狀態(tài)設(shè)計(jì)成了一個(gè)神經(jīng)網(wǎng)絡(luò),這意味著這個(gè)「存儲(chǔ)空間」本身具有學(xué)習(xí)能力。

每當(dāng)處理新的視頻片段時(shí),這個(gè)程序會(huì)通過練習(xí)來調(diào)整自己。比如,它會(huì)嘗試修復(fù)模糊的畫面(自監(jiān)督任務(wù)),根據(jù)修復(fù)的效果修改自己的內(nèi)部參數(shù)(用梯度下降法)。

同時(shí),處理每一段視頻時(shí),神經(jīng)網(wǎng)絡(luò)都會(huì)根據(jù)當(dāng)前內(nèi)容調(diào)整參數(shù)。就像人在做數(shù)學(xué)題時(shí),每做一題都會(huì)總結(jié)方法,下一題用改進(jìn)后的方法一樣。

這樣,模型就能記住更復(fù)雜的場景變化(比如貓追老鼠的連貫動(dòng)作),生成長達(dá)一分鐘的流暢視頻。


為了檢驗(yàn)成果,研究人員用了《貓和老鼠》作為材料。他們收集了 1940-1948 年間,發(fā)布的 81 集原版動(dòng)畫,總共超過 400 分鐘。掃描原膠片,保留手繪動(dòng)畫的線條和抖動(dòng)特征。

人工標(biāo)注團(tuán)隊(duì)依據(jù)鏡頭連續(xù)性,將平均每 5 分鐘的劇集,分割為 8-12 個(gè)場景。并且在這個(gè)環(huán)節(jié),通過切割和標(biāo)注的方式,模擬人類編劇從分鏡到劇本的創(chuàng)作過程,使模型學(xué)習(xí)敘事層次結(jié)構(gòu)。


效果有多好呢?

整整一分鐘的視頻,基本完成了劇本中所要求的情節(jié),除了一些轉(zhuǎn)折處有不自然,整個(gè)故事的完整性沒有問題。



場景一致性、運(yùn)動(dòng)自然性都有驚人的表現(xiàn)。如追逐的場景,各個(gè)物體的屬性、顏色、形狀,以及和空間布局一致性都沒有崩壞,證明了模型長期記憶的能力。



想象一下動(dòng)畫片里湯姆追逐杰瑞的經(jīng)典場面:湯姆可不是簡單地直線跑,他會(huì)急剎車、猛轉(zhuǎn)彎、跳起來躲避障礙,甚至被砸扁后像彈簧一樣恢復(fù)。

這些看似夸張混亂的動(dòng)作,其實(shí)也包含物理邏輯。但要讓 AI 理解這種復(fù)雜的動(dòng)態(tài)場景并不容易。


過去 AI 模型(比如用到MLP技術(shù)的)需要學(xué)會(huì)描繪這種「不走直線」的運(yùn)動(dòng)軌跡。

現(xiàn)在 AI 有了一支靈活的「畫筆」(MLP的隱藏狀態(tài)),讓它能捕捉湯姆突然加速、變向、摔倒?jié)L成球等各種非線性的、但又符合物理規(guī)律的運(yùn)動(dòng)變化,而不是只能畫直線。

前面提到的 TTT 層,核心創(chuàng)新就像給湯姆加了一個(gè)「外掛」,讓他 擁有超強(qiáng)的「 臨場反應(yīng) 」 能力, 能根據(jù)實(shí)時(shí)路況(新數(shù)據(jù))微調(diào)自己的動(dòng)作。

比如 湯姆能看到香蕉皮的那個(gè)瞬間(測試時(shí)),立刻調(diào)整自己的腳步和姿勢(shì)(動(dòng)態(tài)調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)),試圖躲開或者以一種夸張的方式滑倒(上下文自適應(yīng))。


他不再靠以前摔倒的經(jīng)驗(yàn)(靜態(tài)訓(xùn)練好的模型),而是當(dāng)場學(xué)習(xí)和反應(yīng)(測試時(shí)自監(jiān)督學(xué)習(xí))

不過,基礎(chǔ)模型,本身對(duì)復(fù)雜動(dòng)作的學(xué)習(xí)不夠完美,即使加了 TTT 層,有些錯(cuò)誤還是會(huì)出現(xiàn)。

對(duì)于模型能力而言,如何提高視覺處理能力,始終是一個(gè)「長期主義」任務(wù)。

Kimi 新開源的 Kimi-VL,就是在模型的視覺能力上繼續(xù)鉆研提高。在這次開源的論文中可以看到,Kimi 用原生高分辨率視覺編碼器 MoonViT,來突破傳統(tǒng)視覺編碼的限制。


傳統(tǒng)方法(如 LLaVA-OneVision)需將高分辨率圖像分割為子圖再拼接,導(dǎo)致信息丟失和計(jì)算冗余。

MoonViT 基于 NaViT 的打包策略,將不同分辨率的圖像拆分為塊并展平為序列,結(jié)合 2D 旋轉(zhuǎn)位置編碼(RoPE),直接處理原生分辨率圖像,保留細(xì)粒度視覺信息。


用人話來說, 湯姆過去想抓住杰瑞,只能通過好幾個(gè)小窗戶去看一個(gè)大房間( LLa VA-OneVision)。

MoonViT 就像給湯姆換上了一副超高清、廣角、還能自動(dòng)變焦的「超級(jí)眼鏡」。

他可以直接看到整個(gè)房間(處理原生高分辨率圖像),無論是墻上的小洞還是桌上的面包屑都一清二楚(保留細(xì)粒度信息),而且看得又快又好。


同時(shí),Kimi 首次將 MoE 深度整合到視覺語言模型,跨模態(tài)的專家協(xié)作,能讓語言模型在保留純文本能力(如代碼生成)的同時(shí),激活視覺專家處理圖像、視頻等多模態(tài)輸入。


對(duì)于視覺-語言的多模態(tài)任務(wù)而言,模型架構(gòu)層的研究至關(guān)重要,因?yàn)槎嗄B(tài)數(shù)據(jù)的異質(zhì)性、交互復(fù)雜性以及任務(wù)多樣性對(duì)模型的表示能力、計(jì)算效率和泛化性提出了獨(dú)特挑戰(zhàn)。

想讓 AI 能看、能聽、能跑、能思考 ,它的內(nèi)部 模型架構(gòu) 就至關(guān)重要。

你不能簡單地把眼睛(視覺模塊)和耳朵(音頻模塊)、大腦(語言處理)零件堆在一起。

必須精心設(shè)計(jì)它們?nèi)绾芜B接、如何協(xié)同工作(融合異構(gòu)數(shù)據(jù)、跨模態(tài)關(guān)聯(lián)),才能讓 AI 流暢地根據(jù)看到的畫面和聽到的聲音做出反應(yīng),甚至理解一個(gè)包含畫面和對(duì)話的故事。

更復(fù)雜的是,當(dāng)我們要讓 AI 生成長視頻時(shí),它不僅要保證畫面好看,還得讓整個(gè)故事情節(jié)前后連貫,講一個(gè)完整的故事而不是隨意堆砌場景,一分鐘的 AI版《貓和老鼠》還是一個(gè)雛形。

未來,隨著 3D 視覺、音頻等多模態(tài)擴(kuò)展,架構(gòu)研究需進(jìn)一步探索,跨模態(tài)動(dòng)態(tài)路由,結(jié)合 TTT 思想設(shè)計(jì)跨模態(tài)交互層,或進(jìn)一步優(yōu)化隱藏狀態(tài)的表達(dá)能力(如引入 Transformer 作為隱藏網(wǎng)絡(luò)),或許是多模態(tài)模型架構(gòu)研究的重要方向。

當(dāng)大模型擁有了這全套「感官」,那些能幫我們干活但稍顯愚蠢的通用 AI Agent ,可用性也將大大提升。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」(請(qǐng)隨簡歷附上項(xiàng)目/作品或相關(guān)鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
巴特勒38+7+6,18罰引發(fā)熱議!庫里制勝三分,勇士晉級(jí)火箭頭大

巴特勒38+7+6,18罰引發(fā)熱議!庫里制勝三分,勇士晉級(jí)火箭頭大

釘釘陌上花開
2025-04-16 12:57:27
志田千陽獲得中國社媒大獎(jiǎng)

志田千陽獲得中國社媒大獎(jiǎng)

佑銘羽球
2025-04-16 11:22:10
京東員工內(nèi)網(wǎng)發(fā)帖:家要被偷了兄弟們

京東員工內(nèi)網(wǎng)發(fā)帖:家要被偷了兄弟們

阿矗論古今
2025-04-15 22:46:58
中方4艘巨艦直撲西太,美軍立刻做出判斷:航母離臺(tái)島越遠(yuǎn)越好

中方4艘巨艦直撲西太,美軍立刻做出判斷:航母離臺(tái)島越遠(yuǎn)越好

空天力量
2025-04-16 13:10:17
美國公布的事實(shí)清單中對(duì)華關(guān)稅加到245%?專家解讀來了

美國公布的事實(shí)清單中對(duì)華關(guān)稅加到245%?專家解讀來了

第一財(cái)經(jīng)資訊
2025-04-16 15:10:10
突傳消息!美國加征關(guān)稅,上海港無貨船進(jìn)出?官方辟謠,實(shí)際情況公布

突傳消息!美國加征關(guān)稅,上海港無貨船進(jìn)出?官方辟謠,實(shí)際情況公布

上觀新聞
2025-04-16 13:11:59
美國向黑龍江Windows設(shè)備發(fā)加密字節(jié) 疑為喚醒激活微軟預(yù)留的后門

美國向黑龍江Windows設(shè)備發(fā)加密字節(jié) 疑為喚醒激活微軟預(yù)留的后門

游古史
2025-04-16 08:35:20
禁止自燃車用鋰電池新國標(biāo)鎖死安全性,車企2027年前舊款全部退市

禁止自燃車用鋰電池新國標(biāo)鎖死安全性,車企2027年前舊款全部退市

趣文說娛
2025-04-16 11:11:15
剛剛!特朗普宣布關(guān)稅加至245%!

剛剛!特朗普宣布關(guān)稅加至245%!

龍行天下虎
2025-04-16 12:21:19
追夢(mèng):最后時(shí)刻我扔了個(gè)三分 庫里很有禮貌地告訴我別這么干

追夢(mèng):最后時(shí)刻我扔了個(gè)三分 庫里很有禮貌地告訴我別這么干

直播吧
2025-04-16 15:21:12
美國白宮宣布對(duì)華關(guān)稅加征至245% ,這草臺(tái)班子距250僅一步之遙!

美國白宮宣布對(duì)華關(guān)稅加征至245% ,這草臺(tái)班子距250僅一步之遙!

去非
2025-04-16 11:42:32
關(guān)稅戰(zhàn),是破除中國內(nèi)卷的契機(jī)

關(guān)稅戰(zhàn),是破除中國內(nèi)卷的契機(jī)

老羅視野
2025-04-16 10:37:34
張本智和給王皓留情面!提前出線讓了一局,馬琳舉動(dòng)被質(zhì)疑沒擔(dān)當(dāng)

張本智和給王皓留情面!提前出線讓了一局,馬琳舉動(dòng)被質(zhì)疑沒擔(dān)當(dāng)

三十年萊斯特城球迷
2025-04-16 12:12:37
哪吒汽車,死透了!

哪吒汽車,死透了!

牲產(chǎn)隊(duì)2024
2025-04-16 14:27:03
“中方反制后續(xù)來了,而特朗普幾乎毫無還手之力”

“中方反制后續(xù)來了,而特朗普幾乎毫無還手之力”

觀察者網(wǎng)
2025-04-16 14:35:15
剛剛,央企巨頭“一把手”調(diào)整!

剛剛,央企巨頭“一把手”調(diào)整!

每日經(jīng)濟(jì)新聞
2025-04-14 18:39:06
王楠這1800萬的鐲子,公眾場合都戴著保護(hù)套,這種買來有什么意義

王楠這1800萬的鐲子,公眾場合都戴著保護(hù)套,這種買來有什么意義

老鵜愛說事
2025-04-16 08:55:30
軍火庫都過載了美媒配圖莫蘭特兩眼無神癱倒在椅子上:賽后

軍火庫都過載了美媒配圖莫蘭特兩眼無神癱倒在椅子上:賽后

直播吧
2025-04-16 16:24:08
李小萌王雷曬全家福,67歲的婆婆意外成了焦點(diǎn)!婆婆這狀態(tài)太絕了

李小萌王雷曬全家福,67歲的婆婆意外成了焦點(diǎn)!婆婆這狀態(tài)太絕了

TVB的四小花
2025-04-16 14:42:40
特朗普體檢出了結(jié)果,78歲的美國總統(tǒng),還有余力“折騰全世界”

特朗普體檢出了結(jié)果,78歲的美國總統(tǒng),還有余力“折騰全世界”

老高風(fēng)云
2025-04-15 16:41:10
2025-04-16 17:52:49
AppSo incentive-icons
AppSo
讓智能手機(jī)更好用的秘密
5270文章數(shù) 26565關(guān)注度
往期回顧 全部

科技要聞

華為問界M8售價(jià)公布:36.98萬元起

頭條要聞

訂婚強(qiáng)奸案細(xì)節(jié):男方不認(rèn)罪 其母公布女方隱私遭訓(xùn)誡

頭條要聞

訂婚強(qiáng)奸案細(xì)節(jié):男方不認(rèn)罪 其母公布女方隱私遭訓(xùn)誡

體育要聞

諾坎普奇跡的兩位當(dāng)事人,差點(diǎn)靈魂互換

娛樂要聞

娛樂圈的“現(xiàn)實(shí)”在岳云鵬身上應(yīng)驗(yàn)了

財(cái)經(jīng)要聞

一季度GDP同比增長5.4%!

汽車要聞

又帥又快超實(shí)用 極氪007GT獵裝車才是完美的車?

態(tài)度原創(chuàng)

家居
教育
藝術(shù)
本地
公開課

家居要聞

秋日的風(fēng) 木質(zhì)簡約空間

教育要聞

教師被要求禁止考公考編,該給教師留一條退路嗎?官方通報(bào)來了

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

云游湖北 | 七仙女都愛的山水,雙峰米酒一口上頭

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 北宁市| 文登市| 嘉荫县| 祁门县| 东方市| 安宁市| 阿荣旗| 永安市| 营口市| 抚远县| 镇康县| 东明县| 手游| 绥德县| 金华市| 宁武县| 玉屏| 武威市| 铁力市| 庆云县| 乐安县| 广宁县| 定襄县| 随州市| 建昌县| 栖霞市| 仁寿县| 永靖县| 搜索| 天镇县| 石林| 南康市| 成都市| 化州市| 定襄县| 安国市| 长治市| 疏附县| 兴化市| 远安县| 开化县|