MagicMotion團隊 投稿
é‡åä½ | 公眾號 QbitAI
è»Œè·¡å¯æŽ§çš„è¦–é »ç”Ÿæˆä¾†äº†ï¼Œæ”¯æŒä¸‰ç¨®ä¸åŒç´šåˆ¥çš„軌跡控制æ¢ä»¶â€”—分別為掩碼ã€é‚Šç•Œæ¡†å’Œç¨€ç–框。
è¿‘å¹´ä¾†ï¼Œè¦–é »ç”ŸæˆæŠ€è¡“å¿«é€Ÿç™¼å±•,顯著æå‡äº†è¦–é »çš„è¦–è¦ºè³ªé‡èˆ‡æ™‚間連貫性。在æ¤åŸºç¤Žä¸Šï¼Œï¼ˆtrajectory-controllable video generation)涌ç¾äº†è¨±å¤šå·¥ä½œï¼Œä½¿å¾—é€šéŽæ˜Žç¢ºå®šç¾©çš„路徑精確控制生æˆè¦–é »ä¸çš„物體é‹å‹•軌跡æˆç‚ºå¯èƒ½ã€‚
ç„¶è€Œï¼Œç¾æœ‰æ–¹æ³•在處ç†å¾©é›œçš„物體é‹å‹•軌跡和多物體軌跡控制方é¢ä»é¢è‡¨æŒ‘戰,導致生æˆçš„è¦–é »ç‰©é«”ç§»å‹•è»Œè·¡ä¸å¤ 精確,或者整體視覺質é‡è¼ƒä½Žã€‚æ¤å¤–,這些方法通常僅支æŒå–®ä¸€æ ¼å¼çš„軌跡控制,é™åˆ¶äº†å…¶åœ¨ä¸åŒæ‡‰ç”¨å ´æ™¯ä¸çš„éˆæ´»æ€§ã€‚ä¸åƒ…如æ¤ï¼Œç›®å‰å°šç„¡å°ˆé–€é‡å°è»Œè·¡å¯æŽ§è¦–é »ç”Ÿæˆçš„å…¬é–‹æ•¸æ“šé›†æˆ–è©•åƒ¹åŸºæº–ï¼Œé˜»ç¤™äº†è©²é ˜åŸŸçš„æ›´é€²ä¸€æ¥çš„æ·±å…¥ç ”究與系統性評估。
ç‚ºäº†è§£æ±ºé€™äº›æŒ‘æˆ°ï¼Œç ”ç©¶äººå“¡æå‡ºäº†MagicMotion,一種創新的圖åƒåˆ°è¦–é »ç”Ÿæˆæ¡†æž¶ï¼Œå…±åŒç¬¬ä¸€ä½œè€…為復旦大å¸ç ”究生æŽå…¨æ˜Šã€é‚¢æ¥¨ï¼Œé€šè¨Šä½œè€…為復旦大å¸å³ç¥–煊副教授。
在給定一張輸入圖åƒå’Œå°æ‡‰ç‰©é«”軌跡的情æ³ä¸‹ï¼ŒMagicMotionèƒ½å¤ ç²¾æº–åœ°æŽ§åˆ¶ç‰©é«”æ²¿è‘—æŒ‡å®šè»Œè·¡é‹å‹•ï¼ŒåŒæ™‚ä¿æŒè¦–é »çš„è¦–è¦ºè³ªé‡ã€‚
æ¤å¤–,本文構建了MagicDataï¼Œä¸€å€‹å¤§è¦æ¨¡çš„è»Œè·¡æŽ§åˆ¶è¦–é »æ•¸æ“šé›†ï¼Œå¹¶é…å‚™äº†ä¸€å¥—è‡ªå‹•åŒ–çš„æ¨™æ³¨èˆ‡ç¯©é¸æµç¨‹ï¼Œä»¥æå‡æ•¸æ“šè³ªé‡å’Œè™•ç†æ•ˆçŽ‡ã€‚
本文還引入了MagicBenchï¼Œä¸€å€‹å°ˆç‚ºè»Œè·¡æŽ§åˆ¶è¦–é »ç”Ÿæˆè¨è¨ˆçš„ç¶œåˆè©•測基準,旨在評估在控制ä¸åŒæ•¸é‡ç‰©é«”é‹å‹•情æ³ä¸‹çš„è¦–é »è³ªé‡åŠè»Œè·¡æŽ§åˆ¶ç²¾åº¦ã€‚
大é‡å¯¦é©—表明,MagicMotionåœ¨å¤šå€‹é—œéµæŒ‡æ¨™ä¸Šå‡è¶…è¶Šç¾æœ‰æ–¹æ³•,展ç¾å‡ºå“越的性能。
方法介紹
MagicMotion基于 CogVideoX5B-I2V 這一圖åƒåˆ°è¦–é »ç”Ÿæˆæ¨¡åž‹ï¼Œå¹¶å¼•入了é¡å¤–的軌跡控制網絡(Trajectory ControlNet)。該è¨è¨ˆèƒ½å¤ 高效地將ä¸åŒé¡žåž‹çš„軌跡信æ¯ç·¨ç¢¼åˆ°è¦–é »ç”Ÿæˆæ¨¡åž‹ä¸ï¼Œå¯¦ç¾è»Œè·¡å¯æŽ§çš„è¦–é »ç”Ÿæˆã€‚如圖所示,本文使用 3D VAE 編碼器將軌跡圖編碼到隱空間,然åŽå°‡å…¶èˆ‡ç·¨ç¢¼åŽçš„è¦–é »æ‹¼æŽ¥ï¼Œä½œç‚ºè»Œè·¡æŽ§åˆ¶ç¶²çµ¡çš„è¼¸å…¥ã€‚è»Œè·¡æŽ§åˆ¶ç¶²çµ¡ç”±æ‰€æœ‰é 訓練的 DiT 模塊的å¯è¨“練副本構建而æˆï¼Œç”¨äºŽç·¨ç¢¼ç”¨æˆ¶æä¾›çš„軌跡信æ¯ã€‚æ¯å€‹è»Œè·¡æŽ§åˆ¶ç¶²çµ¡æ¨¡å¡Šçš„è¼¸å‡ºéš¨åŽæœƒé€šéŽä¸€å€‹é›¶åˆå§‹åŒ–çš„å·ç©å±¤é€²è¡Œè™•ç†ï¼Œå¹¶æ·»åŠ åˆ°åŸºç¤Žæ¨¡åž‹ä¸å°æ‡‰çš„ DiT 模塊,以æä¾›è»Œè·¡å¼•導。
MagicMotion采用了從密集軌跡控制到稀ç–軌跡控制的漸進å¼è¨“ç·´éŽç¨‹ï¼Œå…¶ä¸æ¯å€‹éšŽæ®µéƒ½ç”¨å‰ä¸€éšŽæ®µçš„æ¬Šé‡ä¾†åˆå§‹åŒ–å…¶æ¨¡åž‹ã€‚é€™ä½¿å¾—èƒ½å¤ å¯¦ç¾å¾žå¯†é›†åˆ°ç¨€ç–的三種類型的軌跡控制。本文發ç¾ï¼Œèˆ‡ä½¿ç”¨ç¨€ç–æ¢ä»¶å¾žé 開始訓練相比,這種漸進å¼è¨“ç·´ç–略有助于模型å–得更好的性能。具體來說,本文在å„個階段采用以下軌跡æ¢ä»¶ï¼šéšŽæ®µ 1 使用分割掩碼,階段 2 使用邊界框,階段 3 使用稀ç–邊界框,其ä¸å°‘于 10 幀有邊界框標注。æ¤å¤–,本文總是將軌跡æ¢ä»¶çš„第一幀è¨ç½®ç‚ºåˆ†å‰²æŽ©ç¢¼ï¼Œä»¥æŒ‡å®šæ‡‰è©²ç§»å‹•çš„å‰æ™¯å°è±¡ã€‚
æ¤å¤–,MagicMotioné‚„æå‡ºäº†éš±åˆ†å‰²æå¤±ï¼ˆlatent segment loss),它在模型訓練éŽç¨‹ä¸å¼•入分割掩碼信æ¯ï¼Œå¢žå¼·äº†æ¨¡åž‹å°ç‰©é«”ç´°ç²’åº¦å½¢ç‹€çš„æ„ŸçŸ¥èƒ½åŠ›ã€‚ç ”ç©¶è€…ä½¿ç”¨è¼•é‡ç´šåˆ†å‰²é 直接在隱空間ä¸é 測出分割掩碼,從而在引入極å°è¨ˆç®—開銷的情æ³ä¸‹ï¼Œç„¡éœ€é€²è¡Œè§£ç¢¼æ“作,幫助模型在生æˆè¦–é »çš„åŒæ™‚在潛在空間ä¸åŸ·è¡Œç‰©é«”分割任務,從而更好地ç†è§£ç‰©é«”的細粒度形狀。
ç ”ç©¶è€…é‚„æå‡ºäº†ä¸€å€‹å…¨æ–°çš„è‡ªå‹•æ•¸æ“šè™•ç†æµç¨‹ï¼ŒåŒ…括兩個主è¦éšŽæ®µï¼šæ•¸æ“šæ•´ç†æµç¨‹ï¼ˆCuration Pipelineï¼‰å’Œæ•¸æ“šç¯©é¸æµç¨‹ï¼ˆFiltering Pipelineï¼‰ã€‚æ•¸æ“šæ•´ç†æµç¨‹è² è²¬å¾žå¤§è¦æ¨¡çš„è¦–é »-æ–‡æœ¬æ•¸æ“šé›†ä¸æ§‹é€ 軌跡信æ¯ï¼Œè€Œæ•¸æ“šç¯©é¸æµç¨‹å‰‡ç¢ºä¿åœ¨è¨“ç·´å‰ç§»é™¤ä¸é©åˆçš„è¦–é »ã€‚
å¯¦é©—èˆ‡çµæžœ
MagicMotionçš„æ¯å€‹éšŽæ®µéƒ½åœ¨MagicData上訓練一個輪次。訓練éŽç¨‹åŒ…括三個階段。階段1從零開始訓練軌跡控制網絡(Trajectory ControlNet)。在階段2ä¸ï¼Œä½¿ç”¨éšŽæ®µ1的權é‡é€²ä¸€æ¥å„ªåŒ–軌跡控制網絡(Trajectory ControlNetï¼‰ï¼ŒåŒæ™‚從零開始訓練分割é (Segment Head)。最åŽï¼Œåœ¨éšŽæ®µ3ä¸ï¼Œè»Œè·¡æŽ§åˆ¶ç¶²çµ¡ï¼ˆTrajectory ControlNet)和分割é (Segment Head)都使用階段2的權é‡ç¹¼çºŒè¨“ç·´ã€‚ç ”ç©¶è€…é‡‡ç”¨AdamW作為優化器,所有訓練實驗å‡åœ¨ 4 å¼µ NVIDIA A100-80G GPU 上進行,å¸ç¿’率è¨ç‚º 1e-5。
ç ”ç©¶è€…å°‡MagicMotion與7種æµè¡Œçš„è»Œè·¡å¯æŽ§åœ–åƒåˆ°è¦–é »ï¼ˆI2Vï¼‰æ–¹æ³•é€²è¡Œäº†å°æ¯”,在MagicBenchå’ŒDAVISä¸Šå°æ‰€æœ‰æ–¹æ³•進行評估。
çµæžœå¦‚下表所示,MagicMotion在MagicBenchå’ŒDAVISä¸Šçš„æ‰€æœ‰æŒ‡æ¨™ä¸Šéƒ½å„ªäºŽä»¥å¾€çš„æ‰€æœ‰æ–¹æ³•ï¼Œé€™è¡¨æ˜Žå®ƒèƒ½å¤ ç”Ÿæˆæ›´é«˜è³ªé‡çš„è¦–é »å¹¶å¯¦ç¾æ›´ç²¾ç¢ºçš„軌跡控制。
æ¤å¤–ï¼Œæœ¬æ–‡æ ¹æ“šå—æŽ§å°è±¡çš„æ•¸é‡è©•估了æ¯ç¨®æ–¹æ³•在MagicBench上的性能。如下圖所示,MagicMotionæ–¹æ³•åœ¨æ‰€æœ‰å—æŽ§ç‰©é«”æ•¸é‡çš„類別ä¸éƒ½å–å¾—äº†æœ€ä½³çµæžœï¼Œé€²ä¸€æ¥è‰æ˜Žäº†è©²æ–¹æ³•的優越性。
å®šæ€§å°æ¯”çµæžœ
如下圖所示,Toraèƒ½å¤ ç²¾æº–æŽ§åˆ¶é‹å‹•è»Œè·¡ï¼Œä½†é›£ä»¥ç²¾ç¢ºä¿æŒç‰©é«”的形狀。DragAnything ã€ImageConductor å’Œ MotionI2V 在 ä¿æŒä¸»é«”一致性方é¢å˜åœ¨å›°é›£ï¼Œå°Žè‡´åŽçºŒå¹€ä¸å‡ºç¾æ˜Žé¡¯çš„å½¢è®Šã€‚åŒæ™‚,DragNUWAã€LeviTor å’Œ SG-I2V生æˆçš„çµæžœç¶“常出ç¾è¦–é »è³ªé‡åº•下和細節ä¸ä¸€è‡´çš„å•題。相比之下,MagicMotionèƒ½å¤ ä½¿ç§»å‹•çš„ç‰©é«”å¹³æ»‘åœ°æ²¿æŒ‡å®šè»Œè·¡é‹å‹•ï¼ŒåŒæ™‚ä¿æŒé«˜è³ªé‡çš„è¦–é »ç”Ÿæˆæ•ˆæžœã€‚
論文地å€ï¼šhttps://arxiv.org/abs/2503.16421
論文主é :https://quanhaol.github.io/magicmotion-site/
ä»£ç¢¼éˆæŽ¥ï¼šhttps://github.com/quanhaol/MagicMotion
ç‰¹åˆ¥è²æ˜Žï¼šä»¥ä¸Šå…§å®¹(å¦‚æœ‰åœ–ç‰‡æˆ–è¦–é »äº¦åŒ…æ‹¬åœ¨å…§)為自媒體平臺“網易號â€ç”¨æˆ¶ä¸Šå‚³å¹¶ç™¼å¸ƒï¼Œæœ¬å¹³è‡ºåƒ…æä¾›ä¿¡æ¯å˜å„²æœå‹™ã€‚
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.