AI 也能生æˆé€¼çœŸçš„《貓和è€é¼ 》動畫片了ï¼é•·åº¦å¯ä»¥é”到 63 秒,劇情也å¯ä»¥é‡æ–°ç”Ÿæˆã€‚
(來æºï¼šè³‡æ–™åœ–)
當地時間 4 月 8 日,來自英å‰é”ã€ç¾Žåœ‹æ–¯å¦ç¦å¤§å¸ã€åŠ å·žå¤§å¸åœ£åœ°äºžå“¥åˆ†æ ¡ã€åŠ å·žå¤§å¸ä¼¯å…‹åˆ©åˆ†æ ¡ã€å¾—克薩斯大å¸å¥§æ–¯æ±€åˆ†æ ¡çš„ç ”ç©¶äººå“¡ï¼ŒåŸºäºŽæ¸¬è©¦æ™‚è¨“ç·´ï¼ˆTTT,Test-Time Training)生æˆäº†å¤šå€‹ã€Šè²“å’Œè€é¼ ã€‹çš„å‹•ç•«è¦–é »ã€‚
他們在é 訓練的 Transformer æ¨¡åž‹ä¸æ·»åŠ äº†æ¸¬è©¦æ™‚è¨“ç·´å±¤å¹¶å°å…¶é€²è¡Œå¾®èª¿ï¼Œå€Ÿæ¤ç”Ÿæˆäº†å…·æœ‰å¼·æ™‚間一致性的《貓和è€é¼ 》一分é˜å‹•畫片。
ç ”ç©¶äººå“¡è¡¨ç¤ºï¼Œæ¯å€‹è¦–é »éƒ½æ˜¯ç”±æ¨¡åž‹ä¸€æ¬¡æ€§ç›´æŽ¥ç”Ÿæˆçš„,沒有經éŽç·¨è¼¯ã€æ‹¼æŽ¥æˆ–åŽè™•ç†ï¼Œæ¯å€‹æ•…事也都是全新創作的。
é‚£ä¹ˆï¼Œä¸Šè¿°è¦–é »åˆ°åº•æ˜¯æ€Žä¹ˆç”Ÿæˆçš„ï¼Ÿç ”ç©¶äººå“¡è¡¨ç¤ºï¼Œå¦‚ä»Šçš„ Transformer 模型在生æˆä¸€åˆ†é˜è¦–é »æ–¹é¢ä»ç„¶é¢è‡¨æŒ‘æˆ°ï¼Œå› ç‚ºè‡ªæ³¨æ„力層在處ç†é•·ä¸Šä¸‹æ–‡æ™‚效率低下。諸如 Mamba 層之類的替代方案在處ç†å¾©é›œçš„å¤šå ´æ™¯æ•…äº‹æ™‚è¡¨ç¾ä¸ä½³ï¼Œå› 為它們的隱è—狀態表ç¾åŠ›è¼ƒå¼±ã€‚
為æ¤ï¼Œä»–們使用了測試時訓練層,其隱è—狀態本身å¯ä»¥æ˜¯ç¥žç¶“網絡,從而具備更強的表é”能力。當在é 訓練的 Transformer ä¸åŠ å…¥æ¸¬è©¦æ™‚è¨“ç·´å±¤ï¼Œä½¿å…¶èƒ½å¤ æ ¹æ“šæ–‡æœ¬åˆ†é¡è…³æœ¬ç”Ÿæˆä¸€åˆ†é˜çš„è¦–é »ã€‚
ç ”ç©¶ä¸ï¼Œä»–們從一個é 訓練的擴散 Transformer(CogVideo-X 5B)開始,原本其åªèƒ½ä»¥ 16 å¹€æ¯ç§’çš„é€Ÿåº¦ç”Ÿæˆ 3 ç§’çš„çŸç‰‡æ®µï¼Œæˆ–以 8 å¹€æ¯ç§’çš„é€Ÿåº¦ç”Ÿæˆ 6 ç§’çš„çŸç‰‡æ®µã€‚
ä½†æ˜¯ï¼Œç ”ç©¶äººå“¡æ·»åŠ äº†å¾žé åˆå§‹åŒ–的測試時訓練層,并å°è©²æ¨¡åž‹é€²è¡Œå¾®èª¿ï¼Œä»¥ä¾¿æ ¹æ“šæ–‡æœ¬åˆ†é¡è…³æœ¬ç”Ÿæˆä¸€åˆ†é˜çš„è¦–é »ã€‚
他們將自注æ„力層é™åˆ¶åœ¨ 3 ç§’çš„ç‰‡æ®µå…§ï¼Œä»¥ä¾¿å°‡ç ”ç©¶æˆæœ¬ä¿æŒåœ¨å¯æŽ§èŒƒåœå…§ã€‚整個訓練éŽç¨‹é‹è¡Œåœ¨ 256 個英å‰é” H100 上,相當于消耗了 50 å°æ™‚的訓練時長。
為了快速進行è¿ä»£ï¼Œç ”究人員基于約 7 å°æ™‚的《貓和è€é¼ 》動畫片,并輔以人工標注的分é¡è…³æœ¬ï¼Œæ•´ç†äº†ä¸€å€‹æ–‡æœ¬åˆ°è¦–é »çš„æ•¸æ“šé›†ã€‚
作為概念驗è‰ï¼Œæœ¬æ¬¡ç ”ç©¶ä¸çš„æ•¸æ“šé›†å´é‡äºŽå¾©é›œã€å¤šå ´æ™¯ã€é•·é¡é 且充滿動態動作的敘事。而å°äºŽè¦–覺和物ç†çœŸå¯¦æ„Ÿæ–¹é¢ï¼Œæ¤å‰äººå€‘已經å–å¾—é¡¯è‘—é€²å±•ï¼Œæ‰€ä»¥æœ¬æ¬¡ç ”ç©¶æœªä½œé‡é»žå¼·èª¿ã€‚
(來æºï¼šè³‡æ–™åœ–)
從å®è§€å±¤é¢ä¾†çœ‹ï¼Œæœ¬æ¬¡æ–¹æ³•åªæ˜¯åœ¨é 訓練的擴散 Transformer(Diffusion Transformerï¼‰ä¸Šæ·»åŠ äº†æ¸¬è©¦æ™‚è¨“ç·´å±¤ï¼Œå¹¶åœ¨å¸¶æœ‰æ–‡æœ¬æ³¨é‡‹çš„é•·è¦–é »ä¸Šé€²è¡Œå¾®èª¿ã€‚
他們采用了é å…ˆæ·»åŠ æ¸¬è©¦æ™‚è¨“ç·´å±¤ã€ç„¶åŽå†é€²è¡Œå¾®èª¿çš„æ–¹æ³•,這種方法原則上é©ç”¨äºŽä»»ä½•主干架構。
ç ”ç©¶ä¸ï¼Œä»–們鏿“‡æ“´æ•£ Transformer ä½œç‚ºåˆæ¥æ¼”ç¤ºï¼Œå› ç‚ºå®ƒæ˜¯è¦–é »ç”Ÿæˆä¸æœ€æµè¡Œçš„æž¶æ§‹ã€‚ç”±äºŽåœ¨è¦–é »ä¸Šé 訓練擴散 Transformer çš„æˆæœ¬éŽé«˜ï¼Œæ‰€ä»¥ç ”究人員從 CogVideo-X 5B çš„é 訓練檢查點開始。
ä»–å€‘å°‡è¦–é »è¨è¨ˆç‚ºåŒ…å«å¤šå€‹å ´æ™¯ï¼Œæ¯å€‹å ´æ™¯åŒ…å«ä¸€å€‹æˆ–多個 3 秒的片段,并采用 3 ç§’ç‰‡æ®µä½œç‚ºæ–‡æœ¬èˆ‡è¦–é »é…å°çš„æœ€å°å–®ä½ï¼Œä¹‹æ‰€ä»¥é€™æ¨£åšçš„åŽŸå› æœ‰ä¸‰å€‹ï¼š
第一,原始é 訓練的 CogVideo-X 的最大生æˆé•·åº¦ç‚º 3 秒。第二,在《貓和è€é¼ 》的劇集ä¸ï¼Œå¤§å¤šæ•¸å ´æ™¯çš„æ™‚長至少為 3 秒。第三,以 3 秒為一段構建多階段數據集最為方便。
在推ç†éšŽæ®µï¼Œç ”ç©¶äººå“¡æŒ‰ç…§ä»¥ä¸‹ä¸‰ç¨®æ ¼å¼ä¸çš„任何一種,以詳細程度éžå¢žçš„é †åºä¾†ç·¨å¯«é•·è¦–é »çš„æ–‡æœ¬æç¤ºã€‚
? æ ¼å¼ 1:用 5-8 å¥è©±ç°¡çŸæ¦‚述情節。
? æ ¼å¼ 2:用大約 20 å¥è©±è©³ç´°æè¿°æƒ…節,æ¯å¥è©±å¤§è‡´å°æ‡‰ 3 秒的片段。
? æ ¼å¼ 3:分é¡è…³æœ¬ã€‚æ¯ä¸€å€‹ 3 ç§’é˜çš„片段都由一段 3 到 5 å¥è©±ä¾†æè¿°ï¼Œå…§å®¹åŒ…å«èƒŒæ™¯é¡è‰²å’Œé¡é 移動ç‰ç´°ç¯€ã€‚一個或多個段è½çµ„æˆçš„è…³æœ¬çµ„ï¼Œæœƒè¢«åš´æ ¼åœ°ç•Œå®šç‚ºå±¬äºŽæŸäº›å ´æ™¯ï¼Œå¹¶ä¸”è¦ä½¿ç”¨é—œéµè©žâ€œ<å ´æ™¯é–‹å§‹>â€å’Œâ€œ< å ´æ™¯çµæŸ >â€ã€‚
在微調和推ç†ä¸ï¼Œæ–‡æœ¬åˆ†è©žå™¨çš„å¯¦éš›è¼¸å…¥å§‹çµ‚é‡‡ç”¨æ ¼å¼ 3ï¼Œæ ¼å¼ä¹‹é–“的轉æ›ç”± Claude 3.7 Sonnet 按 1→2→3 çš„é †åºåŸ·è¡Œã€‚
ç‚ºäº†ç”Ÿæˆæ™‚é–“è¼ƒé•·çš„è¦–é »ï¼Œç ”ç©¶äººå“¡é‡å°æ¯å€‹ 3 秒的片段都ç¨ç«‹ä½¿ç”¨ç›¸åŒçš„程åºã€‚
å…·é«”è€Œè¨€ï¼Œçµ¦å®šä¸€å€‹åŒ…å« n 段è½çš„æ ¼å¼ 3 的分é¡è…³æœ¬ï¼Œé¦–å…ˆç”Ÿæˆ n 個åºåˆ—片段,æ¯å€‹ç‰‡æ®µéƒ½åŒ…å«å¾žç›¸æ‡‰æ®µè½æå–的文本標記以åŠåŽçºŒçš„è¦–é »æ¨™è¨˜ã€‚
ç„¶åŽï¼Œå°‡æ‰€æœ‰ n 個åºåˆ—片段連接在一起,從而形æˆè¼¸å…¥åºåˆ—,這時åºåˆ—ä¸åŒ…å«äº¤éŒ¯æŽ’列的文本 tokens å’Œè¦–é » tokens。
å°äºŽ CogVideo-X 來說,它采用自注æ„力層來é‡å°æ¯æ®µæœ€é•· 3 ç§’çš„è¦–é »é€²è¡Œå…¨å±€åºåˆ—處ç†ã€‚但是,é¢å°é•·è¦–é »æ™‚ï¼Œå…¶æ‰€é‡‡ç”¨çš„å…¨å±€æ³¨æ„力機制會顯著é™ä½Žæ•ˆçŽ‡ã€‚
為了é¿å…å¢žåŠ è‡ªæ³¨æ„åŠ›å±¤çš„ä¸Šä¸‹æ–‡é•·åº¦ï¼Œç ”ç©¶äººå“¡å°‡å…¶è™•ç†èŒƒåœé™å®šåœ¨æ¯å€‹ 3 ç§’ç‰‡æ®µå…§ï¼Œä½¿å„ n 個åºåˆ—ç‰‡æ®µèƒ½å¤ ç¨ç«‹é€²è¡Œæ³¨æ„力計算。
ç”±äºŽæ¸¬è©¦æ™‚è¨“ç·´å±¤èƒ½å¤ é«˜æ•ˆåœ°è™•ç†é•·ä¸Šä¸‹æ–‡åºåˆ—ï¼Œå› æ¤ä»–們采用全局方å¼ä¾†è™•ç†æ•´å€‹è¼¸å…¥åºåˆ—。
éµå¾ªå¤§èªžè¨€æ¨¡åž‹çš„æ¨™æº–åšæ³•ï¼Œç ”ç©¶äººå“¡å°‡æ”¹é€²æž¶æ§‹çš„ä¸Šä¸‹æ–‡é•·åº¦åˆ†ç‚ºäº”å€‹éšŽæ®µï¼Œå¹¶å°‡å…¶æ“´å±•è‡³ä¸€åˆ†é˜ã€‚
具體來說,他們先在《貓和è€é¼ 》的 3 秒片段上é‡å°æ•´å€‹é 訓練模型進行微調。
在æ¤éšŽæ®µï¼Œæ–°çš„åƒæ•¸ç‰¹åˆ¥æ˜¯æ¸¬è©¦æ™‚訓練層和門控機制ä¸çš„çš„åƒæ•¸ï¼Œæœƒè¢«è³¦äºˆæ›´é«˜çš„å¸ç¿’率。
æŽ¥ä¸‹ä¾†ï¼Œç ”ç©¶äººå“¡åˆ†åˆ¥å° 9 ç§’ã€18 ç§’ã€30 ç§’ä»¥åŠæœ€çµ‚çš„ 63 ç§’çš„è¦–é »é€²è¡Œå¾®èª¿ã€‚
為了é¿å…模型在é 訓練éŽç¨‹ä¸éºå¿˜éŽå¤šçš„世界知è˜ï¼Œç ”ç©¶äººå“¡åƒ…å°æ¸¬è©¦æ™‚訓練層ã€é–€æŽ§å±¤å’Œè‡ªæ³¨æ„力層進行微調,且在這四個階段ä¸ä½¿ç”¨è¼ƒä½Žçš„å¸ç¿’率。
åœ¨åŽŸå§‹è¦–é »çš„é¸å–ä¸Šï¼Œä»–å€‘é¸æ“‡äº†å¾ž 1940 年至 1948 年間發行的 81 集《貓和è€é¼ 》,æ¯é›†æ™‚é•·ç´„ 5 分é˜ï¼Œæ‰€æœ‰é›†æ•¸åŠ èµ·ä¾†æ™‚é•·ç´„ 7 å°æ™‚。
ç„¶åŽï¼Œç ”ç©¶äººå“¡åœ¨åŽŸå§‹è¦–é »ä¸Šé‹è¡Œä¸€å€‹è¦–é »è¶…åˆ†è¾¨çŽ‡æ¨¡åž‹ï¼Œå¾žè€Œç‚ºæ•¸æ“šé›†ç”Ÿæˆè¦–è¦ºæ•ˆæžœæ›´å¼·çš„è¦–é »ï¼Œé€™äº›è¦–é »çš„åˆ†è¾¨çŽ‡å‡ç‚º 720×480。
接著,他們讓人工標注員將æ¯å€‹ç‰‡æ®µåˆ†è§£ç‚ºå ´æ™¯ï¼Œç„¶åŽå¾žæ¯å€‹å ´æ™¯ä¸æå– 3 秒長的片段。
æŽ¥ä¸‹ä¾†ï¼Œç ”ç©¶äººå“¡è®“äººå·¥æ¨™æ³¨å“¡ç‚ºæ¯å€‹ 3 秒的片段撰寫一段詳細的æè¿°ï¼Œç„¶åŽç›´æŽ¥é‡å°é€™äº›ç‰‡æ®µé€²è¡Œå¾®èª¿ã€‚
ç‚ºäº†å‰µå»ºæ•¸æ“šï¼Œç ”ç©¶äººå“¡å°‡é€£çºŒçš„ 3 ç§’ç‰‡æ®µæ‹¼æŽ¥æˆ 9 ç§’ã€18 ç§’ã€30 ç§’å’Œ 63 ç§’çš„è¦–é »ï¼Œå¹¶é™„ä¸Šç›¸æ‡‰çš„æ–‡æœ¬æ³¨é‡‹ï¼Œæ‰€æœ‰è¨“ç·´è¦–é »çš„æ¨™æ³¨å‡é‡‡ç”¨ä¸Šæ–‡çš„æ ¼å¼ 3。
(來æºï¼šè³‡æ–™åœ–)
å°äºŽ GPU è€Œè¨€ï¼Œè¦æƒ³é«˜æ•ˆåœ°å¯¦ç¾æ¸¬è©¦è¨“練層-多層感知器(TTT-MLP,Test-Time Training-Multi-Layer Perceptron),就需è¦é€²è¡Œç‰¹æ®Šè¨è¨ˆï¼Œä»¥ä¾¿åˆ©ç”¨å…¶å…§å˜å±¤æ¬¡çµæ§‹ã€‚
英å‰é” GPU æž¶æ§‹ä¸çš„æ ¸å¿ƒè¨ˆç®—單元是æµå¼å¤šè™•ç†å™¨ï¼ˆSMs,Streaming Multiprocessors),其功能類比于 CPU ä¸çš„å–®å€‹æ ¸å¿ƒã€‚
GPU 上的所有æµå¼å¤šè™•ç†å™¨å…±äº«ä¸€å€‹ç›¸å°è¼ƒæ…¢ä½†å®¹é‡è¼ƒå¤§çš„全局內å˜ï¼ˆå³ HBM,High Bandwidth Memoryï¼‰ï¼Œç„¶åŽæ¯å€‹æµå¼å¤šè™•ç†å™¨éƒ½æœ‰ä¸€å€‹å¿«é€Ÿä½†å®¹é‡è¼ƒå°çš„片上內å˜ï¼ˆå³ SMEM,Shared Memory)。
GPU 上 SMEM 與 HBM ä¹‹é–“çš„é »ç¹æ•¸æ“šå‚³è¼¸æœƒé¡¯è‘—é™ä½Žæ•´é«”效率。而 Mamba 和自注æ„力層通éŽåˆ©ç”¨å…§æ ¸èžåˆæŠ€è¡“,å¯ä»¥æ¸›å°‘這類數據的傳輸。
å…¶æ ¸å¿ƒæ€æƒ³æ˜¯å°‡è¼¸å…¥å’Œåˆå§‹ç‹€æ…‹åŠ è¼‰åˆ°æ¯å€‹ SMEM ä¸ï¼Œå®Œå…¨åœ¨ç‰‡ä¸Šé€²è¡Œè¨ˆç®—,并且åªå°‡æœ€çµ‚輸出寫回 HBM。
然而,TTT-MLP 的隱è—狀態å³é›™å±¤ MLP 函數 f 的權é‡çŸ©é™£ W(1) å’Œ W(2),由于體ç©éŽå¤§ç„¡æ³•å˜å„²äºŽå–®å€‹æµå¼å¤šè™•ç†å™¨çš„共享內å˜ä¸ã€‚
為了減少æ¯å€‹æµå¼å¤šè™•ç†å™¨æ‰€éœ€çš„å…§å˜ï¼Œç ”究人員使用張é‡å¹¶è¡Œæ©Ÿåˆ¶ï¼Œå°‡ W(1) å’Œ W(2) 在æµå¼å¤šè™•ç†å™¨ä¹‹é–“進行分片。
(來æºï¼šè³‡æ–™åœ–)
由于大型多層感知器層å¯ä»¥è¢«åˆ†ç‰‡å¹¶è·¨å¤šå€‹ GPU 的高帶寬å˜å„²å™¨ä¸Šé€²è¡Œè¨“ç·´ï¼Œå› æ¤ç ”ç©¶äººå“¡å°‡åŒæ¨£çš„æ€è·¯ç”¨äºŽå¤šå€‹æµå¼å¤šè™•ç†å™¨çš„共享內å˜ä¸ï¼Œå°‡æ¯å€‹æµå¼å¤šè™•ç†å™¨è¦–為一個 GPU 的類比。
ç ”ç©¶äººå“¡åˆ©ç”¨è‹±å‰é” Hopper GPU 架構的分布å¼å…±äº«å…§å˜ç‰¹æ€§ï¼Œå¯¦ç¾äº†æµå¼å¤šè™•ç†å™¨é–“的全局æ¸ç´„æ“作,進而顯著æå‡äº†æ•ˆçŽ‡ã€‚
作為一種通用原則,如果一個模型架構 f å¯ä»¥é€šéŽæ¨™æº–å¼µé‡å¹¶è¡Œæ©Ÿåˆ¶åœ¨ GPU 之間進行分片,那么當 f 用作隱è—ç‹€æ…‹æ™‚ï¼ŒåŒæ¨£çš„分片ç–略也å¯ä»¥ç”¨äºŽæµå¼å¤šè™•ç†å™¨ä¹‹é–“。
(來æºï¼šè³‡æ–™åœ–)
ä¸éŽï¼Œæœ¬æ¬¡ç ”ç©¶çš„ TTT-MLP å…§æ ¸å—é™äºŽå¯„å˜å™¨æº¢å‡ºå’Œç•°æ¥æŒ‡ä»¤çš„æ¬¡å„ªæŽ’åºã€‚未來,通éŽé™ä½Žå¯„å˜å™¨å£“力以åŠé–‹ç™¼ç·¨è¯å™¨æ„ŸçŸ¥æ›´å¼·çš„ç•°æ¥æ“ä½œæ–¹æ¡ˆï¼Œå…¶åŸ·è¡Œæ•ˆçŽ‡æˆ–èƒ½å¾—åˆ°é€²ä¸€æ¥æå‡ã€‚ç¸½çš„ä¾†èªªï¼Œæœ¬æ¬¡æ–¹æ³•æœ‰æœ›ç”¨äºŽç”Ÿæˆæ›´é•·ã€æ›´å¾©é›œè¦–é »ï¼Œä¹Ÿè¨±ä¸‹ä¸€ä»£å…’ç«¥å°‡èƒ½çœ‹ä¸Šç”± AI 生æˆçš„動畫連續劇?目å‰çœ‹ä¾†ï¼Œé€™ä¸€è¨æƒ³å¹¶éžæ²’有實ç¾çš„å¯èƒ½ã€‚
åƒè€ƒè³‡æ–™ï¼š
https://test-time-training.github.io/video-dit/
https://x.com/arankomatsuzaki/status/1909336661743550555
é‹ç‡Ÿ/排版:何晨é¾
ç‰¹åˆ¥è²æ˜Žï¼šä»¥ä¸Šå…§å®¹(å¦‚æœ‰åœ–ç‰‡æˆ–è¦–é »äº¦åŒ…æ‹¬åœ¨å…§)為自媒體平臺“網易號â€ç”¨æˆ¶ä¸Šå‚³å¹¶ç™¼å¸ƒï¼Œæœ¬å¹³è‡ºåƒ…æä¾›ä¿¡æ¯å˜å„²æœå‹™ã€‚
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.