99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI一次性生成63秒《貓和老鼠》動(dòng)畫片,無編輯無拼接劇情100%全新

0
分享至

AI 也能生成逼真的《貓和老鼠》動(dòng)畫片了!長(zhǎng)度可以達(dá)到 63 秒,劇情也可以重新生成。


(來源:資料圖)

當(dāng)?shù)貢r(shí)間 4 月 8 日,來自英偉達(dá)、美國斯坦福大學(xué)、加州大學(xué)圣地亞哥分校、加州大學(xué)伯克利分校、得克薩斯大學(xué)奧斯汀分校的研究人員,基于測(cè)試時(shí)訓(xùn)練(TTT,Test-Time Training)生成了多個(gè)《貓和老鼠》的動(dòng)畫視頻。

他們?cè)陬A(yù)訓(xùn)練的 Transformer 模型中添加了測(cè)試時(shí)訓(xùn)練層并對(duì)其進(jìn)行微調(diào),借此生成了具有強(qiáng)時(shí)間一致性的《貓和老鼠》一分鐘動(dòng)畫片。

研究人員表示,每個(gè)視頻都是由模型一次性直接生成的,沒有經(jīng)過編輯、拼接或后處理,每個(gè)故事也都是全新創(chuàng)作的。

那么,上述視頻到底是怎么生成的?研究人員表示,如今的 Transformer 模型在生成一分鐘視頻方面仍然面臨挑戰(zhàn),因?yàn)樽宰⒁饬釉谔幚黹L(zhǎng)上下文時(shí)效率低下。諸如 Mamba 層之類的替代方案在處理復(fù)雜的多場(chǎng)景故事時(shí)表現(xiàn)不佳,因?yàn)樗鼈兊碾[藏狀態(tài)表現(xiàn)力較弱。

為此,他們使用了測(cè)試時(shí)訓(xùn)練層,其隱藏狀態(tài)本身可以是神經(jīng)網(wǎng)絡(luò),從而具備更強(qiáng)的表達(dá)能力。當(dāng)在預(yù)訓(xùn)練的 Transformer 中加入測(cè)試時(shí)訓(xùn)練層,使其能夠根據(jù)文本分鏡腳本生成一分鐘的視頻。

研究中,他們從一個(gè)預(yù)訓(xùn)練的擴(kuò)散 Transformer(CogVideo-X 5B)開始,原本其只能以 16 幀每秒的速度生成 3 秒的短片段,或以 8 幀每秒的速度生成 6 秒的短片段。

但是,研究人員添加了從頭初始化的測(cè)試時(shí)訓(xùn)練層,并對(duì)該模型進(jìn)行微調(diào),以便根據(jù)文本分鏡腳本生成一分鐘的視頻。

他們將自注意力層限制在 3 秒的片段內(nèi),以便將研究成本保持在可控范圍內(nèi)。整個(gè)訓(xùn)練過程運(yùn)行在 256 個(gè)英偉達(dá) H100 上,相當(dāng)于消耗了 50 小時(shí)的訓(xùn)練時(shí)長(zhǎng)。

為了快速進(jìn)行迭代,研究人員基于約 7 小時(shí)的《貓和老鼠》動(dòng)畫片,并輔以人工標(biāo)注的分鏡腳本,整理了一個(gè)文本到視頻的數(shù)據(jù)集。

作為概念驗(yàn)證,本次研究中的數(shù)據(jù)集側(cè)重于復(fù)雜、多場(chǎng)景、長(zhǎng)鏡頭且充滿動(dòng)態(tài)動(dòng)作的敘事。而對(duì)于視覺和物理真實(shí)感方面,此前人們已經(jīng)取得顯著進(jìn)展,所以本次研究未作重點(diǎn)強(qiáng)調(diào)。


(來源:資料圖)

從宏觀層面來看,本次方法只是在預(yù)訓(xùn)練的擴(kuò)散 Transformer(Diffusion Transformer)上添加了測(cè)試時(shí)訓(xùn)練層,并在帶有文本注釋的長(zhǎng)視頻上進(jìn)行微調(diào)。

他們采用了預(yù)先添加測(cè)試時(shí)訓(xùn)練層、然后再進(jìn)行微調(diào)的方法,這種方法原則上適用于任何主干架構(gòu)。

研究中,他們選擇擴(kuò)散 Transformer 作為初步演示,因?yàn)樗且曨l生成中最流行的架構(gòu)。由于在視頻上預(yù)訓(xùn)練擴(kuò)散 Transformer 的成本過高,所以研究人員從 CogVideo-X 5B 的預(yù)訓(xùn)練檢查點(diǎn)開始。

他們將視頻設(shè)計(jì)為包含多個(gè)場(chǎng)景,每個(gè)場(chǎng)景包含一個(gè)或多個(gè) 3 秒的片段,并采用 3 秒片段作為文本與視頻配對(duì)的最小單位,之所以這樣做的原因有三個(gè):

第一,原始預(yù)訓(xùn)練的 CogVideo-X 的最大生成長(zhǎng)度為 3 秒。第二,在《貓和老鼠》的劇集中,大多數(shù)場(chǎng)景的時(shí)長(zhǎng)至少為 3 秒。第三,以 3 秒為一段構(gòu)建多階段數(shù)據(jù)集最為方便。

在推理階段,研究人員按照以下三種格式中的任何一種,以詳細(xì)程度遞增的順序來編寫長(zhǎng)視頻的文本提示。

? 格式 1:用 5-8 句話簡(jiǎn)短概述情節(jié)。

? 格式 2:用大約 20 句話詳細(xì)描述情節(jié),每句話大致對(duì)應(yīng) 3 秒的片段。

? 格式 3:分鏡腳本。每一個(gè) 3 秒鐘的片段都由一段 3 到 5 句話來描述,內(nèi)容包含背景顏色和鏡頭移動(dòng)等細(xì)節(jié)。一個(gè)或多個(gè)段落組成的腳本組,會(huì)被嚴(yán)格地界定為屬于某些場(chǎng)景,并且要使用關(guān)鍵詞“<場(chǎng)景開始>”和“< 場(chǎng)景結(jié)束 >”。

在微調(diào)和推理中,文本分詞器的實(shí)際輸入始終采用格式 3,格式之間的轉(zhuǎn)換由 Claude 3.7 Sonnet 按 1→2→3 的順序執(zhí)行。

為了生成時(shí)間較長(zhǎng)的視頻,研究人員針對(duì)每個(gè) 3 秒的片段都獨(dú)立使用相同的程序。

具體而言,給定一個(gè)包含 n 段落的格式 3 的分鏡腳本,首先生成 n 個(gè)序列片段,每個(gè)片段都包含從相應(yīng)段落提取的文本標(biāo)記以及后續(xù)的視頻標(biāo)記。

然后,將所有 n 個(gè)序列片段連接在一起,從而形成輸入序列,這時(shí)序列中包含交錯(cuò)排列的文本 tokens 和視頻 tokens。

對(duì)于 CogVideo-X 來說,它采用自注意力層來針對(duì)每段最長(zhǎng) 3 秒的視頻進(jìn)行全局序列處理。但是,面對(duì)長(zhǎng)視頻時(shí),其所采用的全局注意力機(jī)制會(huì)顯著降低效率。

為了避免增加自注意力層的上下文長(zhǎng)度,研究人員將其處理范圍限定在每個(gè) 3 秒片段內(nèi),使各 n 個(gè)序列片段能夠獨(dú)立進(jìn)行注意力計(jì)算。

由于測(cè)試時(shí)訓(xùn)練層能夠高效地處理長(zhǎng)上下文序列,因此他們采用全局方式來處理整個(gè)輸入序列。

遵循大語言模型的標(biāo)準(zhǔn)做法,研究人員將改進(jìn)架構(gòu)的上下文長(zhǎng)度分為五個(gè)階段,并將其擴(kuò)展至一分鐘。

具體來說,他們先在《貓和老鼠》的 3 秒片段上針對(duì)整個(gè)預(yù)訓(xùn)練模型進(jìn)行微調(diào)。

在此階段,新的參數(shù)特別是測(cè)試時(shí)訓(xùn)練層和門控機(jī)制中的的參數(shù),會(huì)被賦予更高的學(xué)習(xí)率。

接下來,研究人員分別對(duì) 9 秒、18 秒、30 秒以及最終的 63 秒的視頻進(jìn)行微調(diào)。

為了避免模型在預(yù)訓(xùn)練過程中遺忘過多的世界知識(shí),研究人員僅對(duì)測(cè)試時(shí)訓(xùn)練層、門控層和自注意力層進(jìn)行微調(diào),且在這四個(gè)階段中使用較低的學(xué)習(xí)率。

在原始視頻的選取上,他們選擇了從 1940 年至 1948 年間發(fā)行的 81 集《貓和老鼠》,每集時(shí)長(zhǎng)約 5 分鐘,所有集數(shù)加起來時(shí)長(zhǎng)約 7 小時(shí)。

然后,研究人員在原始視頻上運(yùn)行一個(gè)視頻超分辨率模型,從而為數(shù)據(jù)集生成視覺效果更強(qiáng)的視頻,這些視頻的分辨率均為 720×480。

接著,他們讓人工標(biāo)注員將每個(gè)片段分解為場(chǎng)景,然后從每個(gè)場(chǎng)景中提取 3 秒長(zhǎng)的片段。

接下來,研究人員讓人工標(biāo)注員為每個(gè) 3 秒的片段撰寫一段詳細(xì)的描述,然后直接針對(duì)這些片段進(jìn)行微調(diào)。

為了創(chuàng)建數(shù)據(jù),研究人員將連續(xù)的 3 秒片段拼接成 9 秒、18 秒、30 秒和 63 秒的視頻,并附上相應(yīng)的文本注釋,所有訓(xùn)練視頻的標(biāo)注均采用上文的格式 3。


(來源:資料圖)

對(duì)于 GPU 而言,要想高效地實(shí)現(xiàn)測(cè)試訓(xùn)練層-多層感知器(TTT-MLP,Test-Time Training-Multi-Layer Perceptron),就需要進(jìn)行特殊設(shè)計(jì),以便利用其內(nèi)存層次結(jié)構(gòu)。

英偉達(dá) GPU 架構(gòu)中的核心計(jì)算單元是流式多處理器(SMs,Streaming Multiprocessors),其功能類比于 CPU 中的單個(gè)核心。

GPU 上的所有流式多處理器共享一個(gè)相對(duì)較慢但容量較大的全局內(nèi)存(即 HBM,High Bandwidth Memory),然后每個(gè)流式多處理器都有一個(gè)快速但容量較小的片上內(nèi)存(即 SMEM,Shared Memory)。

GPU 上 SMEM 與 HBM 之間的頻繁數(shù)據(jù)傳輸會(huì)顯著降低整體效率。而 Mamba 和自注意力層通過利用內(nèi)核融合技術(shù),可以減少這類數(shù)據(jù)的傳輸。

其核心思想是將輸入和初始狀態(tài)加載到每個(gè) SMEM 中,完全在片上進(jìn)行計(jì)算,并且只將最終輸出寫回 HBM。

然而,TTT-MLP 的隱藏狀態(tài)即雙層 MLP 函數(shù) f 的權(quán)重矩陣 W(1) 和 W(2),由于體積過大無法存儲(chǔ)于單個(gè)流式多處理器的共享內(nèi)存中。

為了減少每個(gè)流式多處理器所需的內(nèi)存,研究人員使用張量并行機(jī)制,將 W(1) 和 W(2) 在流式多處理器之間進(jìn)行分片。


(來源:資料圖)

由于大型多層感知器層可以被分片并跨多個(gè) GPU 的高帶寬存儲(chǔ)器上進(jìn)行訓(xùn)練,因此研究人員將同樣的思路用于多個(gè)流式多處理器的共享內(nèi)存中,將每個(gè)流式多處理器視為一個(gè) GPU 的類比。

研究人員利用英偉達(dá) Hopper GPU 架構(gòu)的分布式共享內(nèi)存特性,實(shí)現(xiàn)了流式多處理器間的全局歸約操作,進(jìn)而顯著提升了效率。

作為一種通用原則,如果一個(gè)模型架構(gòu) f 可以通過標(biāo)準(zhǔn)張量并行機(jī)制在 GPU 之間進(jìn)行分片,那么當(dāng) f 用作隱藏狀態(tài)時(shí),同樣的分片策略也可以用于流式多處理器之間。


(來源:資料圖)

不過,本次研究的 TTT-MLP 內(nèi)核受限于寄存器溢出和異步指令的次優(yōu)排序。未來,通過降低寄存器壓力以及開發(fā)編譯器感知更強(qiáng)的異步操作方案,其執(zhí)行效率或能得到進(jìn)一步提升。總的來說,本次方法有望用于生成更長(zhǎng)、更復(fù)雜視頻,也許下一代兒童將能看上由 AI 生成的動(dòng)畫連續(xù)劇?目前看來,這一設(shè)想并非沒有實(shí)現(xiàn)的可能。

參考資料:

https://test-time-training.github.io/video-dit/

https://x.com/arankomatsuzaki/status/1909336661743550555

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“永遠(yuǎn)別想成立業(yè)委會(huì)!” 福州這個(gè)小區(qū)業(yè)主崩潰了

“永遠(yuǎn)別想成立業(yè)委會(huì)!” 福州這個(gè)小區(qū)業(yè)主崩潰了

娛樂八卦木木子
2025-04-18 00:09:11
喬治:考慮到我們的人員配置,沒料到會(huì)位于東部第13這樣的位置

喬治:考慮到我們的人員配置,沒料到會(huì)位于東部第13這樣的位置

懂球帝
2025-04-17 14:47:30
我空降到家鄉(xiāng)擔(dān)任副省長(zhǎng),參加校友聚會(huì),卻被班花的處長(zhǎng)丈夫嘲笑

我空降到家鄉(xiāng)擔(dān)任副省長(zhǎng),參加校友聚會(huì),卻被班花的處長(zhǎng)丈夫嘲笑

紅豆講堂
2025-04-16 10:47:03
賺翻國米3億歐賣盧卡庫&奧納納5人 首發(fā)11人只花1.39億歐

賺翻國米3億歐賣盧卡庫&奧納納5人 首發(fā)11人只花1.39億歐

直播吧
2025-04-17 22:56:09
絕了!貝克漢姆二公子接盤大哥前任,布魯克林怒撕親弟為哪般?

絕了!貝克漢姆二公子接盤大哥前任,布魯克林怒撕親弟為哪般?

歐美八卦圈
2025-04-11 08:30:03
近千人認(rèn)購!上海一新盤認(rèn)購數(shù)創(chuàng)今年新高,3月份7個(gè)項(xiàng)目開盤“日光”

近千人認(rèn)購!上海一新盤認(rèn)購數(shù)創(chuàng)今年新高,3月份7個(gè)項(xiàng)目開盤“日光”

澎湃新聞
2025-04-18 07:38:27
王曼昱艱難的一小時(shí)二十分!馬琳緊張 劉國梁激動(dòng)跳起 男隊(duì)轉(zhuǎn)移觀戰(zhàn)

王曼昱艱難的一小時(shí)二十分!馬琳緊張 劉國梁激動(dòng)跳起 男隊(duì)轉(zhuǎn)移觀戰(zhàn)

海闊山遙YAO
2025-04-18 03:52:00
一家三口被殺:全程僅1分鐘、最小僅2歲,兇手身份和照片曝光

一家三口被殺:全程僅1分鐘、最小僅2歲,兇手身份和照片曝光

溫柔看世界
2025-04-17 10:35:19
突然火爆美國!這款中國App下載量猛增940%,大量海外網(wǎng)友涌入淘寶連夜搜索…都是因?yàn)樘乩势眨?>
    </a>
        <h3>
      <a href=上觀新聞
2025-04-16 20:14:03
妹妹結(jié)婚我隨20萬禮金,臨走時(shí)妹夫給兒子塞紅包,打開一看我懵了

妹妹結(jié)婚我隨20萬禮金,臨走時(shí)妹夫給兒子塞紅包,打開一看我懵了

黑貓故事所
2025-04-16 11:31:46
胡明軒胸頂?shù)蟻喡迨莿窦埽颗_(tái)名嘴:出現(xiàn)費(fèi)解動(dòng)作表示廣東已沒辦法

胡明軒胸頂?shù)蟻喡迨莿窦埽颗_(tái)名嘴:出現(xiàn)費(fèi)解動(dòng)作表示廣東已沒辦法

大嘴爵爺侃球
2025-04-17 23:33:27
俄軍坦克“包圍”美國駐莫斯科大使館?俄方攻擊旅客列車

俄軍坦克“包圍”美國駐莫斯科大使館?俄方攻擊旅客列車

項(xiàng)鵬飛
2025-04-15 22:53:21
中國率先脫鉤!240萬噸大豆一到港,中國開始動(dòng)真格

中國率先脫鉤!240萬噸大豆一到港,中國開始動(dòng)真格

科學(xué)認(rèn)識(shí)論
2025-04-17 15:20:22
車禍3年后,多次整形的林志穎成了嫂子臉,郭德綱可以松口氣了

車禍3年后,多次整形的林志穎成了嫂子臉,郭德綱可以松口氣了

史行途
2025-04-16 18:21:29
濟(jì)南市天橋區(qū)板橋莊一居民區(qū)內(nèi)發(fā)生煤氣爆炸事故 目擊者:震感強(qiáng)烈

濟(jì)南市天橋區(qū)板橋莊一居民區(qū)內(nèi)發(fā)生煤氣爆炸事故 目擊者:震感強(qiáng)烈

閃電新聞
2025-04-18 01:31:12
美國副總統(tǒng)發(fā)文:有人想對(duì)中國動(dòng)武,解放軍該再打1枚洲際彈了?

美國副總統(tǒng)發(fā)文:有人想對(duì)中國動(dòng)武,解放軍該再打1枚洲際彈了?

歷史求知所
2025-04-17 20:25:05
這一天,中國已經(jīng)準(zhǔn)備6年!美媒:我們?cè)阱e(cuò)誤的時(shí)間打響了關(guān)稅戰(zhàn)

這一天,中國已經(jīng)準(zhǔn)備6年!美媒:我們?cè)阱e(cuò)誤的時(shí)間打響了關(guān)稅戰(zhàn)

科技有趣事
2025-04-17 23:35:03
丁俊暉好簽!首輪對(duì)陣147先生,或打破魔咒,8強(qiáng)戰(zhàn)會(huì)師世界第1?

丁俊暉好簽!首輪對(duì)陣147先生,或打破魔咒,8強(qiáng)戰(zhàn)會(huì)師世界第1?

劉姚堯的文字城堡
2025-04-18 06:07:21
中美一旦開戰(zhàn),美轟炸機(jī)或投放雨點(diǎn)般的炸彈量,中國民眾會(huì)害怕嗎

中美一旦開戰(zhàn),美轟炸機(jī)或投放雨點(diǎn)般的炸彈量,中國民眾會(huì)害怕嗎

原來仙女不講理
2025-04-16 08:29:58
特朗普直接參與關(guān)稅談判!美國、日本會(huì)談傳巨大進(jìn)展 強(qiáng)調(diào)排除“外匯”課題

特朗普直接參與關(guān)稅談判!美國、日本會(huì)談傳巨大進(jìn)展 強(qiáng)調(diào)排除“外匯”課題

金融界
2025-04-17 13:17:05
2025-04-18 09:07:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15075文章數(shù) 513550關(guān)注度
往期回顧 全部

科技要聞

特朗普再出招 限制芯片能鎖住中國AI騰飛?

頭條要聞

美烏礦產(chǎn)協(xié)議取得重大進(jìn)展 特朗普、澤連斯基發(fā)聲

頭條要聞

美烏礦產(chǎn)協(xié)議取得重大進(jìn)展 特朗普、澤連斯基發(fā)聲

體育要聞

結(jié)束16年等待,一支強(qiáng)硬的阿森納向我們走來

娛樂要聞

張檬順利產(chǎn)子,韓國婆婆趕赴香港陪產(chǎn)

財(cái)經(jīng)要聞

小心 ,全球衰退不遠(yuǎn)了

汽車要聞

一躍跳過障礙/秒切防御姿態(tài) 看懂嵐圖"開掛"絕技

態(tài)度原創(chuàng)

家居
健康
數(shù)碼
手機(jī)
公開課

家居要聞

現(xiàn)代極簡(jiǎn) 舒適與美觀并存

唇皰疹和口腔潰瘍是"同伙"嗎?

數(shù)碼要聞

制造商 Woojer 推出 Haptic Vest 3 震動(dòng)背心外設(shè)

手機(jī)要聞

摩托羅拉 Moto G86 5G 手機(jī)渲染圖首曝:Edge 風(fēng)格、5000 萬主攝

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 榆社县| 阳谷县| 静乐县| 霞浦县| 潜江市| 蕲春县| 东至县| 灌云县| 中西区| 双鸭山市| 华坪县| 无棣县| 上栗县| 林芝县| 潢川县| 金川县| 乌兰县| 康保县| 汾西县| 拜城县| 古浪县| 渭源县| 车险| 凌源市| 交城县| 西丰县| 靖江市| 磐石市| 宜君县| 昂仁县| 万宁市| 沅陵县| 上犹县| 滁州市| 杭锦旗| 冕宁县| 海安县| 水富县| 黎川县| 长海县| 碌曲县|