99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI一次性生成63秒《貓和老鼠》動畫片,無編輯無拼接劇情100%全新

0
分享至

AI 也能生成逼真的《貓和老鼠》動畫片了!長度可以達到 63 秒,劇情也可以重新生成。


(來源:資料圖)

當地時間 4 月 8 日,來自英偉達、美國斯坦福大學、加州大學圣地亞哥分校、加州大學伯克利分校、得克薩斯大學奧斯汀分校的研究人員,基于測試時訓練(TTT,Test-Time Training)生成了多個《貓和老鼠》的動畫視頻。

他們在預訓練的 Transformer 模型中添加了測試時訓練層并對其進行微調,借此生成了具有強時間一致性的《貓和老鼠》一分鐘動畫片。

研究人員表示,每個視頻都是由模型一次性直接生成的,沒有經過編輯、拼接或后處理,每個故事也都是全新創作的。

那么,上述視頻到底是怎么生成的?研究人員表示,如今的 Transformer 模型在生成一分鐘視頻方面仍然面臨挑戰,因為自注意力層在處理長上下文時效率低下。諸如 Mamba 層之類的替代方案在處理復雜的多場景故事時表現不佳,因為它們的隱藏狀態表現力較弱。

為此,他們使用了測試時訓練層,其隱藏狀態本身可以是神經網絡,從而具備更強的表達能力。當在預訓練的 Transformer 中加入測試時訓練層,使其能夠根據文本分鏡腳本生成一分鐘的視頻。

研究中,他們從一個預訓練的擴散 Transformer(CogVideo-X 5B)開始,原本其只能以 16 幀每秒的速度生成 3 秒的短片段,或以 8 幀每秒的速度生成 6 秒的短片段。

但是,研究人員添加了從頭初始化的測試時訓練層,并對該模型進行微調,以便根據文本分鏡腳本生成一分鐘的視頻。

他們將自注意力層限制在 3 秒的片段內,以便將研究成本保持在可控范圍內。整個訓練過程運行在 256 個英偉達 H100 上,相當于消耗了 50 小時的訓練時長。

為了快速進行迭代,研究人員基于約 7 小時的《貓和老鼠》動畫片,并輔以人工標注的分鏡腳本,整理了一個文本到視頻的數據集。

作為概念驗證,本次研究中的數據集側重于復雜、多場景、長鏡頭且充滿動態動作的敘事。而對于視覺和物理真實感方面,此前人們已經取得顯著進展,所以本次研究未作重點強調。


(來源:資料圖)

從宏觀層面來看,本次方法只是在預訓練的擴散 Transformer(Diffusion Transformer)上添加了測試時訓練層,并在帶有文本注釋的長視頻上進行微調。

他們采用了預先添加測試時訓練層、然后再進行微調的方法,這種方法原則上適用于任何主干架構。

研究中,他們選擇擴散 Transformer 作為初步演示,因為它是視頻生成中最流行的架構。由于在視頻上預訓練擴散 Transformer 的成本過高,所以研究人員從 CogVideo-X 5B 的預訓練檢查點開始。

他們將視頻設計為包含多個場景,每個場景包含一個或多個 3 秒的片段,并采用 3 秒片段作為文本與視頻配對的最小單位,之所以這樣做的原因有三個:

第一,原始預訓練的 CogVideo-X 的最大生成長度為 3 秒。第二,在《貓和老鼠》的劇集中,大多數場景的時長至少為 3 秒。第三,以 3 秒為一段構建多階段數據集最為方便。

在推理階段,研究人員按照以下三種格式中的任何一種,以詳細程度遞增的順序來編寫長視頻的文本提示。

? 格式 1:用 5-8 句話簡短概述情節。

? 格式 2:用大約 20 句話詳細描述情節,每句話大致對應 3 秒的片段。

? 格式 3:分鏡腳本。每一個 3 秒鐘的片段都由一段 3 到 5 句話來描述,內容包含背景顏色和鏡頭移動等細節。一個或多個段落組成的腳本組,會被嚴格地界定為屬于某些場景,并且要使用關鍵詞“<場景開始>”和“< 場景結束 >”。

在微調和推理中,文本分詞器的實際輸入始終采用格式 3,格式之間的轉換由 Claude 3.7 Sonnet 按 1→2→3 的順序執行。

為了生成時間較長的視頻,研究人員針對每個 3 秒的片段都獨立使用相同的程序。

具體而言,給定一個包含 n 段落的格式 3 的分鏡腳本,首先生成 n 個序列片段,每個片段都包含從相應段落提取的文本標記以及后續的視頻標記。

然后,將所有 n 個序列片段連接在一起,從而形成輸入序列,這時序列中包含交錯排列的文本 tokens 和視頻 tokens。

對于 CogVideo-X 來說,它采用自注意力層來針對每段最長 3 秒的視頻進行全局序列處理。但是,面對長視頻時,其所采用的全局注意力機制會顯著降低效率。

為了避免增加自注意力層的上下文長度,研究人員將其處理范圍限定在每個 3 秒片段內,使各 n 個序列片段能夠獨立進行注意力計算。

由于測試時訓練層能夠高效地處理長上下文序列,因此他們采用全局方式來處理整個輸入序列。

遵循大語言模型的標準做法,研究人員將改進架構的上下文長度分為五個階段,并將其擴展至一分鐘。

具體來說,他們先在《貓和老鼠》的 3 秒片段上針對整個預訓練模型進行微調。

在此階段,新的參數特別是測試時訓練層和門控機制中的的參數,會被賦予更高的學習率。

接下來,研究人員分別對 9 秒、18 秒、30 秒以及最終的 63 秒的視頻進行微調。

為了避免模型在預訓練過程中遺忘過多的世界知識,研究人員僅對測試時訓練層、門控層和自注意力層進行微調,且在這四個階段中使用較低的學習率。

在原始視頻的選取上,他們選擇了從 1940 年至 1948 年間發行的 81 集《貓和老鼠》,每集時長約 5 分鐘,所有集數加起來時長約 7 小時。

然后,研究人員在原始視頻上運行一個視頻超分辨率模型,從而為數據集生成視覺效果更強的視頻,這些視頻的分辨率均為 720×480。

接著,他們讓人工標注員將每個片段分解為場景,然后從每個場景中提取 3 秒長的片段。

接下來,研究人員讓人工標注員為每個 3 秒的片段撰寫一段詳細的描述,然后直接針對這些片段進行微調。

為了創建數據,研究人員將連續的 3 秒片段拼接成 9 秒、18 秒、30 秒和 63 秒的視頻,并附上相應的文本注釋,所有訓練視頻的標注均采用上文的格式 3。


(來源:資料圖)

對于 GPU 而言,要想高效地實現測試訓練層-多層感知器(TTT-MLP,Test-Time Training-Multi-Layer Perceptron),就需要進行特殊設計,以便利用其內存層次結構。

英偉達 GPU 架構中的核心計算單元是流式多處理器(SMs,Streaming Multiprocessors),其功能類比于 CPU 中的單個核心。

GPU 上的所有流式多處理器共享一個相對較慢但容量較大的全局內存(即 HBM,High Bandwidth Memory),然后每個流式多處理器都有一個快速但容量較小的片上內存(即 SMEM,Shared Memory)。

GPU 上 SMEM 與 HBM 之間的頻繁數據傳輸會顯著降低整體效率。而 Mamba 和自注意力層通過利用內核融合技術,可以減少這類數據的傳輸。

其核心思想是將輸入和初始狀態加載到每個 SMEM 中,完全在片上進行計算,并且只將最終輸出寫回 HBM。

然而,TTT-MLP 的隱藏狀態即雙層 MLP 函數 f 的權重矩陣 W(1) 和 W(2),由于體積過大無法存儲于單個流式多處理器的共享內存中。

為了減少每個流式多處理器所需的內存,研究人員使用張量并行機制,將 W(1) 和 W(2) 在流式多處理器之間進行分片。


(來源:資料圖)

由于大型多層感知器層可以被分片并跨多個 GPU 的高帶寬存儲器上進行訓練,因此研究人員將同樣的思路用于多個流式多處理器的共享內存中,將每個流式多處理器視為一個 GPU 的類比。

研究人員利用英偉達 Hopper GPU 架構的分布式共享內存特性,實現了流式多處理器間的全局歸約操作,進而顯著提升了效率。

作為一種通用原則,如果一個模型架構 f 可以通過標準張量并行機制在 GPU 之間進行分片,那么當 f 用作隱藏狀態時,同樣的分片策略也可以用于流式多處理器之間。


(來源:資料圖)

不過,本次研究的 TTT-MLP 內核受限于寄存器溢出和異步指令的次優排序。未來,通過降低寄存器壓力以及開發編譯器感知更強的異步操作方案,其執行效率或能得到進一步提升。總的來說,本次方法有望用于生成更長、更復雜視頻,也許下一代兒童將能看上由 AI 生成的動畫連續劇?目前看來,這一設想并非沒有實現的可能。

參考資料:

https://test-time-training.github.io/video-dit/

https://x.com/arankomatsuzaki/status/1909336661743550555

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
小哥哭訴被貍花貓棄養后,每天半夜還會回來揍他…網友:這是基操

小哥哭訴被貍花貓棄養后,每天半夜還會回來揍他…網友:這是基操

侃侃娛季
2025-04-16 23:08:33
哈佛硬剛特朗普遭立即斷供:漸凍癥等研究叫停,實驗猴將被迫安樂死

哈佛硬剛特朗普遭立即斷供:漸凍癥等研究叫停,實驗猴將被迫安樂死

澎湃新聞
2025-04-16 15:00:28
狠批特朗普,拜登真正該痛心的是:特朗普把他對華3大部署全毀了

狠批特朗普,拜登真正該痛心的是:特朗普把他對華3大部署全毀了

千里持劍
2025-04-16 11:30:32
特朗普親自上陣與日本談關稅!日本趁機大出血買天價美制武器?

特朗普親自上陣與日本談關稅!日本趁機大出血買天價美制武器?

國際情爆猿
2025-04-16 22:19:47
毛遠新披露:毛主席對周總理的真實看法!

毛遠新披露:毛主席對周總理的真實看法!

歷史龍元閣
2024-10-06 23:11:38
芯片大廠AMD警告:美國政府對華出口限制將增加8億美元額外費用

芯片大廠AMD警告:美國政府對華出口限制將增加8億美元額外費用

財聯社
2025-04-17 09:55:05
“歐盟將進一步轉向亞洲”,馮德萊恩:我們所熟悉的西方已不復存在

“歐盟將進一步轉向亞洲”,馮德萊恩:我們所熟悉的西方已不復存在

每日經濟新聞
2025-04-16 23:34:05
比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

影史侃談
2025-03-16 22:40:07
山西大同訂婚強奸案:贏了官司,輸了人心!

山西大同訂婚強奸案:贏了官司,輸了人心!

牲產隊2024
2025-04-17 12:05:11
萬斯稱中國人“鄉巴佬”后續:三方反應都很絕!

萬斯稱中國人“鄉巴佬”后續:三方反應都很絕!

消失的電波
2025-04-17 10:01:22
中美關系或難破冰?4月17日,凌晨的三大消息沖擊市場!

中美關系或難破冰?4月17日,凌晨的三大消息沖擊市場!

風口招財豬
2025-04-17 01:46:26
乒乓世界杯-梁靖崑3-0連丟兩局 4-2干翻日本冠軍 能贏林高遠沒用

乒乓世界杯-梁靖崑3-0連丟兩局 4-2干翻日本冠軍 能贏林高遠沒用

安海客
2025-04-17 12:52:32
“特朗普,白日做夢”

“特朗普,白日做夢”

中國新聞周刊
2025-04-16 13:52:07
“一家三口被撞身亡案”受害者家屬:被告人竟稱對車速沒感覺

“一家三口被撞身亡案”受害者家屬:被告人竟稱對車速沒感覺

南方都市報
2025-04-17 09:41:06
這下尷尬了!今年手機銷量排名公布后,才知誰是真正的國產老大!

這下尷尬了!今年手機銷量排名公布后,才知誰是真正的國產老大!

青青子衿
2025-04-15 11:55:42
我方還沒出手,美債出現拋售潮,川普凌晨2點發言,對華態度反轉

我方還沒出手,美債出現拋售潮,川普凌晨2點發言,對華態度反轉

縱橫觀天下ZK
2025-04-16 18:03:06
北京國安VS山東泰山:國安多名球員受傷病困擾,泰山后衛線有隱患

北京國安VS山東泰山:國安多名球員受傷病困擾,泰山后衛線有隱患

去山野間追風
2025-04-17 12:42:13
庫爾斯克烏軍僅剩兩三個據點,為何俄軍重兵圍攻月余還沒奪下來?

庫爾斯克烏軍僅剩兩三個據點,為何俄軍重兵圍攻月余還沒奪下來?

凱撒談兵
2025-04-16 10:21:05
第二批055來的很是時候,排水量達2萬噸,美恐怕不樂意看到了

第二批055來的很是時候,排水量達2萬噸,美恐怕不樂意看到了

Hi秒懂科普
2025-04-16 11:44:04
1992年,陳賡遺孀傅涯執意要去臺灣,剛落地十幾輛汽車讓她呆住了

1992年,陳賡遺孀傅涯執意要去臺灣,剛落地十幾輛汽車讓她呆住了

諾言卿史錄
2025-04-14 10:16:25
2025-04-17 14:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15071文章數 513549關注度
往期回顧 全部

科技要聞

余承東大講安全,絕口不提智駕"替你開車"

頭條要聞

媒體:5775億美元外匯儲備 賴清德備妥第3份對美投名狀

體育要聞

楊瀚森參加NBA選秀 與詹姆斯同一家經紀公司

娛樂要聞

丁真官宣“新身份”謝霆鋒眼光有多絕

財經要聞

特朗普吹牛 美國海關“打臉”

汽車要聞

炸出蘑菇云、冰封24小時 啟辰這波玩大了

態度原創

藝術
教育
本地
時尚
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

絕對不能隱瞞父母的四件事!關乎孩子的安全!

本地新聞

云游湖北 | 七仙女都愛的山水,雙峰米酒一口上頭

闊腿褲+德訓鞋=王炸CP,掌握這些技巧,解鎖初夏時尚密碼

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 富裕县| 南川市| 永平县| 三江| 海丰县| 饶河县| 赤壁市| 河北区| 武平县| 封开县| 商洛市| 乳源| 武威市| 玉屏| 灵寿县| 永川市| 余庆县| 井陉县| 杭锦旗| 兰西县| 安庆市| 尉氏县| 衡阳县| 石首市| 莱芜市| 政和县| 翁源县| 公安县| 象山县| 阿荣旗| 潼关县| 通化县| 恭城| 名山县| 澄迈县| 齐河县| 宁陵县| 仪征市| 彰化市| 广汉市| 福州市|