99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

軌跡可控視頻生成新范式,復旦微軟破解視頻生成難題

0
分享至

MagicMotion團隊 投稿
量子位 | 公眾號 QbitAI

軌跡可控的視頻生成來了,支持三種不同級別的軌跡控制條件——分別為掩碼、邊界框和稀疏框。

近年來,視頻生成技術快速發展,顯著提升了視頻的視覺質量與時間連貫性。在此基礎上,(trajectory-controllable video generation)涌現了許多工作,使得通過明確定義的路徑精確控制生成視頻中的物體運動軌跡成為可能。

然而,現有方法在處理復雜的物體運動軌跡和多物體軌跡控制方面仍面臨挑戰,導致生成的視頻物體移動軌跡不夠精確,或者整體視覺質量較低。此外,這些方法通常僅支持單一格式的軌跡控制,限制了其在不同應用場景中的靈活性。不僅如此,目前尚無專門針對軌跡可控視頻生成的公開數據集或評價基準,阻礙了該領域的更進一步的深入研究與系統性評估。

為了解決這些挑戰,研究人員提出了MagicMotion,一種創新的圖像到視頻生成框架,共同第一作者為復旦大學研究生李全昊、邢楨,通訊作者為復旦大學吳祖煊副教授。



在給定一張輸入圖像和對應物體軌跡的情況下,MagicMotion能夠精準地控制物體沿著指定軌跡運動,同時保持視頻的視覺質量。

此外,本文構建了MagicData,一個大規模的軌跡控制視頻數據集,并配備了一套自動化的標注與篩選流程,以提升數據質量和處理效率。

本文還引入了MagicBench,一個專為軌跡控制視頻生成設計的綜合評測基準,旨在評估在控制不同數量物體運動情況下的視頻質量及軌跡控制精度。

大量實驗表明,MagicMotion在多個關鍵指標上均超越現有方法,展現出卓越的性能。



方法介紹

MagicMotion基于 CogVideoX5B-I2V 這一圖像到視頻生成模型,并引入了額外的軌跡控制網絡(Trajectory ControlNet)。該設計能夠高效地將不同類型的軌跡信息編碼到視頻生成模型中,實現軌跡可控的視頻生成。如圖所示,本文使用 3D VAE 編碼器將軌跡圖編碼到隱空間,然后將其與編碼后的視頻拼接,作為軌跡控制網絡的輸入。軌跡控制網絡由所有預訓練的 DiT 模塊的可訓練副本構建而成,用于編碼用戶提供的軌跡信息。每個軌跡控制網絡模塊的輸出隨后會通過一個零初始化的卷積層進行處理,并添加到基礎模型中對應的 DiT 模塊,以提供軌跡引導。



MagicMotion采用了從密集軌跡控制到稀疏軌跡控制的漸進式訓練過程,其中每個階段都用前一階段的權重來初始化其模型。這使得能夠實現從密集到稀疏的三種類型的軌跡控制。本文發現,與使用稀疏條件從頭開始訓練相比,這種漸進式訓練策略有助于模型取得更好的性能。具體來說,本文在各個階段采用以下軌跡條件:階段 1 使用分割掩碼,階段 2 使用邊界框,階段 3 使用稀疏邊界框,其中少于 10 幀有邊界框標注。此外,本文總是將軌跡條件的第一幀設置為分割掩碼,以指定應該移動的前景對象。

此外,MagicMotion還提出了隱分割損失(latent segment loss),它在模型訓練過程中引入分割掩碼信息,增強了模型對物體細粒度形狀的感知能力。研究者使用輕量級分割頭直接在隱空間中預測出分割掩碼,從而在引入極小計算開銷的情況下,無需進行解碼操作,幫助模型在生成視頻的同時在潛在空間中執行物體分割任務,從而更好地理解物體的細粒度形狀。



研究者還提出了一個全新的自動數據處理流程,包括兩個主要階段:數據整理流程(Curation Pipeline)和數據篩選流程(Filtering Pipeline)。數據整理流程負責從大規模的視頻-文本數據集中構造軌跡信息,而數據篩選流程則確保在訓練前移除不適合的視頻。

實驗與結果

MagicMotion的每個階段都在MagicData上訓練一個輪次。訓練過程包括三個階段。階段1從零開始訓練軌跡控制網絡(Trajectory ControlNet)。在階段2中,使用階段1的權重進一步優化軌跡控制網絡(Trajectory ControlNet),同時從零開始訓練分割頭(Segment Head)。最后,在階段3中,軌跡控制網絡(Trajectory ControlNet)和分割頭(Segment Head)都使用階段2的權重繼續訓練。研究者采用AdamW作為優化器,所有訓練實驗均在 4 張 NVIDIA A100-80G GPU 上進行,學習率設為 1e-5。

研究者將MagicMotion與7種流行的軌跡可控圖像到視頻(I2V)方法進行了對比,在MagicBench和DAVIS上對所有方法進行評估。

結果如下表所示,MagicMotion在MagicBench和DAVIS上的所有指標上都優于以往的所有方法,這表明它能夠生成更高質量的視頻并實現更精確的軌跡控制。





此外,本文根據受控對象的數量評估了每種方法在MagicBench上的性能。如下圖所示,MagicMotion方法在所有受控物體數量的類別中都取得了最佳結果,進一步證明了該方法的優越性。

定性對比結果

如下圖所示,Tora能夠精準控制運動軌跡,但難以精確保持物體的形狀。DragAnything 、ImageConductor 和 MotionI2V 在 保持主體一致性方面存在困難,導致后續幀中出現明顯的形變。同時,DragNUWA、LeviTor 和 SG-I2V生成的結果經常出現視頻質量底下和細節不一致的問題。相比之下,MagicMotion能夠使移動的物體平滑地沿指定軌跡運動,同時保持高質量的視頻生成效果。



論文地址:https://arxiv.org/abs/2503.16421
論文主頁:https://quanhaol.github.io/magicmotion-site/
代碼鏈接:https://github.com/quanhaol/MagicMotion

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
新中國第一屆國家領導人名單

新中國第一屆國家領導人名單

天地
2025-04-10 08:22:41
被中方晾了4天,特朗普修改對華稱呼,性質嚴重,中方回了8個字

被中方晾了4天,特朗普修改對華稱呼,性質嚴重,中方回了8個字

獵火照狼山
2025-04-16 16:56:52
一覺醒來,美聯儲正面硬剛白宮,特朗普懵了,波音只是盤開胃小菜

一覺醒來,美聯儲正面硬剛白宮,特朗普懵了,波音只是盤開胃小菜

阿纂看事
2025-04-17 09:40:22
中國拒購波音震動白宮 特朗普連發三條推文破防?三大底牌已握緊

中國拒購波音震動白宮 特朗普連發三條推文破防?三大底牌已握緊

爆笑大聰明阿衿
2025-04-16 09:50:29
英超32輪積分榜:紐卡升至第3,第3和第7名之間只相差5分

英超32輪積分榜:紐卡升至第3,第3和第7名之間只相差5分

懂球帝
2025-04-17 04:49:20
云南一股民35元買入泰鴻萬立連虧6天,真的虧麻了。

云南一股民35元買入泰鴻萬立連虧6天,真的虧麻了。

晨晨星
2025-04-17 09:14:48
“根本上不了車”!今早突發,廣州地鐵道歉→

“根本上不了車”!今早突發,廣州地鐵道歉→

FM96.2廣州新聞電臺
2025-04-16 12:36:29
養老金全國統籌落地!這 8 個省份退休人員待遇將大幅提升

養老金全國統籌落地!這 8 個省份退休人員待遇將大幅提升

振華觀史
2025-04-17 09:15:59
好消息!國內油價將迎來年內最大降幅

好消息!國內油價將迎來年內最大降幅

上海崇明
2025-04-17 10:25:27
小楊哥徒弟小黃近況被曝光!竟然回老家做凈爐手?

小楊哥徒弟小黃近況被曝光!竟然回老家做凈爐手?

喜歡歷史的阿繁
2025-04-15 13:51:33
離譜!22歲男因“巨債”跳黃河被救,網友:這債務都不夠我塞牙縫

離譜!22歲男因“巨債”跳黃河被救,網友:這債務都不夠我塞牙縫

小人物看盡人間百態
2025-04-16 12:24:04
監獄工作了30年的老獄警揭秘:執行死刑一般都是在上午,越早越好

監獄工作了30年的老獄警揭秘:執行死刑一般都是在上午,越早越好

茶喝多了睡不著
2025-04-15 18:20:09
美媒:特朗普政府計劃關閉多個駐外使領館

美媒:特朗普政府計劃關閉多個駐外使領館

看看新聞Knews
2025-04-17 08:02:42
有一個很無知的家長是啥體驗?網友:大禍就是這樣來的

有一個很無知的家長是啥體驗?網友:大禍就是這樣來的

娛樂圈人物大賞
2025-04-17 01:25:05
節目效果拉滿!賈巴爾節目中整蠱鄭欽文,鄭欽文被嚇出表情包

節目效果拉滿!賈巴爾節目中整蠱鄭欽文,鄭欽文被嚇出表情包

直播吧
2025-04-16 11:48:03
官宣!緊急接受右膝注射治療!衛冕冠軍遭遇打擊!

官宣!緊急接受右膝注射治療!衛冕冠軍遭遇打擊!

籃球技巧教學
2025-04-16 17:45:58
手上青筋越多,說明身體越.....

手上青筋越多,說明身體越.....

保險課堂
2024-12-02 22:35:43
美媒:一旦中國武統臺島,美軍將全面空襲中國,解放軍敢開戰嗎?

美媒:一旦中國武統臺島,美軍將全面空襲中國,解放軍敢開戰嗎?

小晨同學啊
2025-04-14 15:58:48
殺瘋了紐卡5連勝連續3場大勝,排名從第7飆至第3距阿森納4分

殺瘋了紐卡5連勝連續3場大勝,排名從第7飆至第3距阿森納4分

直播吧
2025-04-17 10:37:10
新娘“國泰民安臉”走紅,溫柔大方給足丈夫面子,網友:撿到寶了

新娘“國泰民安臉”走紅,溫柔大方給足丈夫面子,網友:撿到寶了

梅子的小情緒
2025-04-15 20:40:29
2025-04-17 11:07:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10325文章數 176106關注度
往期回顧 全部

科技要聞

OpenAI重磅推出o3/o4-mini!能"看圖思考"

頭條要聞

特朗普聲稱1天能征20億美元關稅 美國海關:只有2.5億

體育要聞

楊瀚森參加NBA選秀 與詹姆斯同一家經紀公司

娛樂要聞

丁真官宣“新身份”謝霆鋒眼光有多絕

財經要聞

特朗普吹牛 美國海關“打臉”

汽車要聞

又帥又快超實用 極氪007GT獵裝車才是完美的車?

態度原創

手機
藝術
時尚
本地
數碼

手機要聞

全新OPPO Find X8系列正式開售,影像旗艦等你上手 !

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

這條裙子很美,但建議你先別買!

本地新聞

云游湖北 | 七仙女都愛的山水,雙峰米酒一口上頭

數碼要聞

AMD RX 9060 XT 顯卡被曝 5 月臺北電腦展公布,6 月初發售

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 武乡县| 石嘴山市| 越西县| 泉州市| 尖扎县| 汤原县| 新余市| 韶关市| 五峰| 木兰县| 武穴市| 什邡市| 南郑县| 山丹县| 天水市| 晋中市| 麻阳| 黔南| 铁岭市| 陈巴尔虎旗| 两当县| 洪江市| 武川县| 兴仁县| 锦屏县| 延吉市| 望江县| 威远县| 建瓯市| 固镇县| 调兵山市| 清远市| 高尔夫| 伊吾县| 视频| 额尔古纳市| 阿尔山市| 和林格尔县| 成都市| 喀什市| 陆河县|