99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

SkyReels-V2開源:突破視頻生成技術(shù)邊界,無限長電影生成新時(shí)代

0
分享至

4月21日,昆侖萬維SkyReels團(tuán)隊(duì)正式發(fā)布并開源SkyReels-V2——全球首個(gè)使用擴(kuò)散強(qiáng)迫(Diffusion-forcing)框架的無限時(shí)長電影生成模型,其通過結(jié)合多模態(tài)大語言模型(MLLM)、多階段預(yù)訓(xùn)練(Multi-stagePretraining)、強(qiáng)化學(xué)習(xí)(ReinforcementLearning)和擴(kuò)散強(qiáng)迫(Diffusion-forcing)框架來實(shí)現(xiàn)協(xié)同優(yōu)化。



回顧過去一年,視頻生成技術(shù)在擴(kuò)散模型和自回歸框架的推動(dòng)下取得了顯著進(jìn)展,但在提示詞遵循、視覺質(zhì)量、運(yùn)動(dòng)動(dòng)態(tài)和視頻時(shí)長的協(xié)調(diào)上仍面臨重大挑戰(zhàn)。

現(xiàn)有技術(shù)在提升穩(wěn)定的視覺質(zhì)量時(shí)往往犧牲運(yùn)動(dòng)動(dòng)態(tài)效果,為了優(yōu)先考慮高分辨率而限制視頻時(shí)長(通常為5-10秒),并且由于通用多模態(tài)大語言模型(MLLM)無法解讀電影語法(如鏡頭構(gòu)圖、演員表情和攝像機(jī)運(yùn)動(dòng)),導(dǎo)致鏡頭感知生成能力不足。這些相互關(guān)聯(lián)的限制阻礙了長視頻的逼真合成和專業(yè)電影風(fēng)格的生成。

為了解決這些痛點(diǎn),SkyReels-V2應(yīng)運(yùn)而生,它不僅在技術(shù)上實(shí)現(xiàn)了突破,還提供多了多種有用的應(yīng)用場景,包括故事生成、圖生視頻、運(yùn)鏡專家和多主體一致性視頻生成(SkyReels-A2)。

SkyReels-V2現(xiàn)已支持生成30秒、40秒的視頻,且具備生成高運(yùn)動(dòng)質(zhì)量、高一致性、高保真視頻的能力。

核心技術(shù)創(chuàng)新,邁入“無限時(shí)長、影視級質(zhì)量、精準(zhǔn)控制”的全新視頻生成階段



圖丨SkyReels-V2方法概述

SkyReels-V2能夠達(dá)到這樣的視頻生成效果,源于其多項(xiàng)創(chuàng)新技術(shù):

1.全面的影視級視頻理解模型:SkyCaptioner-V1

為了提高提示詞遵循能力,團(tuán)隊(duì)設(shè)計(jì)了一種結(jié)構(gòu)化的視頻表示方法,將多模態(tài)LLM的一般描述與子專家模型的詳細(xì)鏡頭語言相結(jié)合。這種方法能夠識(shí)別視頻中的主體類型、外觀、表情、動(dòng)作和位置等信息,同時(shí)通過人工標(biāo)注和模型訓(xùn)練,進(jìn)一步提升了對鏡頭語言的理解能力。

同時(shí),團(tuán)隊(duì)訓(xùn)練了一個(gè)統(tǒng)一的視頻理解模型SkyCaptioner-V1,它能夠高效地理解視頻數(shù)據(jù),生成符合原始結(jié)構(gòu)信息的多樣化描述。通過這種方式,SkyCaptioner-V1不僅能夠理解視頻的一般內(nèi)容,還能捕捉到電影場景中的專業(yè)鏡頭語言,從而顯著提高了生成視頻的提示詞遵循能力。此外,這個(gè)模型現(xiàn)在已經(jīng)開源,可以直接使用。



圖丨在視頻理解測試集上的模型綜合性能比較中,SkyCaptioner-V1表現(xiàn)優(yōu)異,超越了SOTA的模型。

2.針對運(yùn)動(dòng)的偏好優(yōu)化

現(xiàn)有的視頻生成模型在運(yùn)動(dòng)質(zhì)量上表現(xiàn)不佳,主要原因是優(yōu)化目標(biāo)未能充分考慮時(shí)序一致性和運(yùn)動(dòng)合理性。我們通過強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,使用人工標(biāo)注和合成失真數(shù)據(jù),解決了動(dòng)態(tài)扭曲、不合理等問題。為了降低數(shù)據(jù)標(biāo)注成本,我們設(shè)計(jì)了一個(gè)半自動(dòng)數(shù)據(jù)收集管道,能夠高效地生成偏好對比數(shù)據(jù)對。

通過這種方式,SkyReels-V2在運(yùn)動(dòng)動(dòng)態(tài)方面表現(xiàn)優(yōu)異,能夠生成流暢且逼真的視頻內(nèi)容,滿足電影制作中對高質(zhì)量運(yùn)動(dòng)動(dòng)態(tài)的需求。

3.高效的擴(kuò)散強(qiáng)迫框架

為了實(shí)現(xiàn)長視頻生成能力,我們提出了一種擴(kuò)散強(qiáng)迫(diffusionforcing)后訓(xùn)練方法。與從零開始訓(xùn)練擴(kuò)散強(qiáng)迫模型不同,我們通過微調(diào)預(yù)訓(xùn)練的擴(kuò)散模型,將其轉(zhuǎn)化為擴(kuò)散強(qiáng)迫模型。這種方法不僅減少了訓(xùn)練成本,還顯著提高了生成效率。

我們采用非遞減噪聲時(shí)間表,將連續(xù)幀的去噪時(shí)間表搜索空間從O(1e48)降低到O(1e32),從而實(shí)現(xiàn)了長視頻的高效生成。這一創(chuàng)新使得SkyReels-V2能夠生成幾乎無限時(shí)長的高質(zhì)量視頻內(nèi)容。

4.漸進(jìn)式分辨率預(yù)訓(xùn)練與多階段后訓(xùn)練優(yōu)化

為了開發(fā)一個(gè)專業(yè)的影視生成模型,我們的多階段質(zhì)量保證框架整合了來自三個(gè)主要來源的數(shù)據(jù):

通用數(shù)據(jù)集:整合了開源資源,包括Koala-36M、HumanVid,以及從互聯(lián)網(wǎng)爬取的額外視頻資源。這些數(shù)據(jù)提供了廣泛的基礎(chǔ)視頻素材,涵蓋了多種場景和動(dòng)作。

自收集媒體:包括280,000多部電影和800,000多集電視劇,覆蓋120多個(gè)國家(估計(jì)總時(shí)長超過620萬小時(shí))。這些數(shù)據(jù)為模型提供了豐富的電影風(fēng)格和敘事結(jié)構(gòu)。

藝術(shù)資源庫:從互聯(lián)網(wǎng)獲取的高質(zhì)量視頻資產(chǎn),確保生成內(nèi)容的視覺質(zhì)量達(dá)到專業(yè)標(biāo)準(zhǔn)。

原始數(shù)據(jù)集規(guī)模達(dá)到億級(O(100M)),不同子集根據(jù)質(zhì)量要求在各個(gè)訓(xùn)練階段使用。此外,我們還收集了億級的概念平衡圖像數(shù)據(jù),以加速早期訓(xùn)練中生成能力的建立。在此數(shù)據(jù)基礎(chǔ)上,我們首先通過漸進(jìn)式分辨率預(yù)訓(xùn)練建立基礎(chǔ)視頻生成模型,然后進(jìn)行四階段的后續(xù)訓(xùn)練增強(qiáng):

初始概念平衡的監(jiān)督微調(diào)(SFT):通過概念平衡的數(shù)據(jù)集進(jìn)行微調(diào),為后續(xù)優(yōu)化提供良好的初始化。

運(yùn)動(dòng)特定的強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練:通過偏好優(yōu)化提升運(yùn)動(dòng)動(dòng)態(tài)質(zhì)量。

擴(kuò)散強(qiáng)迫框架(DF):實(shí)現(xiàn)長視頻生成能力。

高質(zhì)量SFT:進(jìn)一步提升視覺保真度。

結(jié)合富含影視級別數(shù)據(jù)和多階段優(yōu)化方法,我們確保了SkyReels-V2在資源有限的情況下,高效的穩(wěn)步提升多方面的表現(xiàn),達(dá)到影視級視頻生成的水準(zhǔn)。

在SkyReels-Bench和V-Bench評估中,性能表現(xiàn)卓越

為了全面評估SkyReels-V2的性能,我們構(gòu)建了SkyReels-Bench用于人類評估,并利用開源的V-Bench進(jìn)行自動(dòng)化評估。這種雙重評估框架使我們能夠系統(tǒng)地比較SkyReels-V2和其他最先進(jìn)的基線模型(包括開源和閉源模型)。

1.SkyReels-Bench評估

SkyReels-Bench包含1020個(gè)文本提示詞,系統(tǒng)性地評估了四個(gè)關(guān)鍵維度:指令遵循、運(yùn)動(dòng)質(zhì)量、一致性和視覺質(zhì)量。該基準(zhǔn)旨在評估文本到視頻(T2V)和圖像到視頻(I2V)生成模型,提供跨不同生成范式的全面評估。

在SkyReels-Bench評估中,SkyReels-V2在指令遵循方面取得了顯著進(jìn)展,同時(shí)在保證運(yùn)動(dòng)質(zhì)量的同時(shí)不犧牲視頻的一致性效果。具體表現(xiàn)如下:

指令遵循:SkyReels-V2在運(yùn)動(dòng)指令、主體指令、空間關(guān)系、鏡頭類型、表情和攝像機(jī)運(yùn)動(dòng)的遵循上均優(yōu)于基線方法。

運(yùn)動(dòng)質(zhì)量:在運(yùn)動(dòng)動(dòng)態(tài)性、流暢性和物理合理性方面,SkyReels-V2表現(xiàn)出色,生成的運(yùn)動(dòng)內(nèi)容自然且多樣。

一致性:主體和場景在整個(gè)視頻中保持高度一致,運(yùn)動(dòng)過程有較高的保真度。

視覺質(zhì)量:生成視頻在視覺清晰度、色彩準(zhǔn)確性和結(jié)構(gòu)完整性上均達(dá)到高水平,無明顯扭曲或損壞。



圖丨在SkyReels-Bench的T2V多維度人工評測集下,SkyReels-V2在指令遵循和一致性得到最高水準(zhǔn),同時(shí)在視頻質(zhì)量和運(yùn)動(dòng)質(zhì)量上保持第一梯隊(duì)

2.VBench1.0結(jié)果

在VBench1.0自動(dòng)化評估中,SkyReels-V2在總分(83.9%)和質(zhì)量分(84.7%)上均優(yōu)于所有對比模型,包括HunyuanVideo-13B和Wan2.1-14B。這一結(jié)果進(jìn)一步驗(yàn)證了SkyReels-V2在生成高保真、指令對齊的視頻內(nèi)容方面的強(qiáng)大能力。



圖丨在V-bench1.0的長prompt版本下,SkyReels-V2超越了所有的開源模型,包括HunyuanVideo-13B和Wan2.1-14B

03

豐富的應(yīng)用場景,賦能創(chuàng)意實(shí)現(xiàn)

SkyReels-V2不僅在技術(shù)上實(shí)現(xiàn)了突破,還為多個(gè)實(shí)際應(yīng)用場景提供了強(qiáng)大的支持:

1.故事生成

SkyReels-V2能夠生成理論上無限時(shí)長的視頻,通過滑動(dòng)窗口方法,模型在生成新幀時(shí)會(huì)參考之前生成的幀和文本提示。為了防止錯(cuò)誤積累,我們采用了穩(wěn)定化技術(shù),通過在之前生成的幀上添加輕微噪聲來穩(wěn)定生成過程。這種方法不僅支持時(shí)間上的擴(kuò)展,還能生成具有連貫敘事的長鏡頭視頻。

通過一系列敘事文本提示,SkyReels-V2能夠編排一個(gè)連貫的視覺敘事,跨越多個(gè)動(dòng)作場景,同時(shí)保持視覺一致性。這種能力確保了場景之間的平滑過渡,使得動(dòng)態(tài)敘事更加流暢,而不會(huì)影響視覺元素的完整性。這一功能特別適合需要復(fù)雜多動(dòng)作序列的應(yīng)用,如電影制作和廣告創(chuàng)作。

2.圖像到視頻合成

SkyReels-V2提供了兩種圖像到視頻(I2V)的生成方法:

·微調(diào)全序列文本到視頻(T2V)擴(kuò)散模型(SkyReels-V2-I2V):通過將輸入圖像作為條件注入T2V架構(gòu)中,模型能夠利用參考幀進(jìn)行后續(xù)生成。這種方法在384個(gè)GPU上僅需10,000次訓(xùn)練迭代即可取得和閉源模型同等級的效果。

·擴(kuò)散強(qiáng)迫模型與幀條件結(jié)合(SkyReels-V2-DF):通過將第一幀作為干凈的參考條件輸入擴(kuò)散框架,無需顯式重新訓(xùn)練即可保持時(shí)間一致性。

在SkyReels-Bench的I2V多維度人工評測集下,SkyReels-V2在所有質(zhì)量維度上均優(yōu)于其他開源模型,并與閉源模型表現(xiàn)相當(dāng)。




3.攝像導(dǎo)演功能

SkyReels-V2在標(biāo)注攝像機(jī)運(yùn)動(dòng)方面表現(xiàn)出色,但我們發(fā)現(xiàn)攝像機(jī)運(yùn)動(dòng)數(shù)據(jù)的固有不平衡對進(jìn)一步優(yōu)化攝影參數(shù)提出了挑戰(zhàn)。為此,我們專門篩選了約100萬個(gè)樣本,確保基本攝像機(jī)運(yùn)動(dòng)及其常見組合的平衡表示。通過在384個(gè)GPU上進(jìn)行3,000次迭代的微調(diào)實(shí)驗(yàn),我們顯著提升了攝影效果,特別是在攝像機(jī)運(yùn)動(dòng)的流暢性和多樣性方面。

4.元素到視頻生成

基于SkyReels-V2基座模型,我們研發(fā)了SkyReels-A2方案,并提出了一種新的多元素到視頻(E2V)任務(wù),能夠?qū)⑷我庖曈X元素(如人物、物體和背景)組合成由文本提示引導(dǎo)的連貫視頻,同時(shí)確保對每個(gè)元素的參考圖像的高保真度。這一功能特別適合短劇、音樂視頻和虛擬電商內(nèi)容創(chuàng)作等應(yīng)用。

作為首個(gè)商業(yè)級E2V開源模型,SkyReels-A2在E2V評估BenchmarkA2-Bench中的結(jié)果表明,其一致性和質(zhì)量維度上評估與閉源模型相當(dāng)。未來,我們計(jì)劃擴(kuò)展框架以支持更多輸入模態(tài),如音頻和動(dòng)作,旨在構(gòu)建一個(gè)統(tǒng)一的視頻生成系統(tǒng),以支持更廣泛的應(yīng)用。

SkyReels-V2的推出標(biāo)志著視頻生成技術(shù)邁入了一個(gè)新的階段,為實(shí)現(xiàn)高質(zhì)量、長時(shí)間的電影風(fēng)格視頻生成提供了全新的解決方案。它不僅為內(nèi)容創(chuàng)作者提供了強(qiáng)大的工具,更開啟了利用AI進(jìn)行視頻敘事和創(chuàng)意表達(dá)的無限可能。

昆侖萬維SkyReels團(tuán)隊(duì)仍致力于推動(dòng)視頻生成技術(shù)的發(fā)展,并將SkyCaptioner-V1和SkyReels-V2系列模型(包括擴(kuò)散強(qiáng)迫、文本到視頻、圖像到視頻、攝像導(dǎo)演和元素到視頻模型)的各種尺寸(1.3B、5B、14B)進(jìn)行完全開源,以促進(jìn)學(xué)術(shù)界和工業(yè)界的進(jìn)一步研究和應(yīng)用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
歸隊(duì)重大突破,馬龍赴任首談樊振東:比我還強(qiáng),未來國乒領(lǐng)軍人物

歸隊(duì)重大突破,馬龍赴任首談樊振東:比我還強(qiáng),未來國乒領(lǐng)軍人物

二哥聊球
2025-04-28 10:08:01
蘋果加速移走生產(chǎn)線遭中國阻撓,銷美iPhone將全「印度制造」

蘋果加速移走生產(chǎn)線遭中國阻撓,銷美iPhone將全「印度制造」

阿鳧愛吐槽
2025-04-26 11:38:08
狄波拉和兩孫子首次公開合體亮相,兄弟倆被張柏芝教育的太棒了

狄波拉和兩孫子首次公開合體亮相,兄弟倆被張柏芝教育的太棒了

情感大頭說說
2025-04-28 04:14:26
益陽市資陽區(qū)公路建設(shè)養(yǎng)護(hù)中心黨組書記、主任肖佳波接受審查調(diào)查

益陽市資陽區(qū)公路建設(shè)養(yǎng)護(hù)中心黨組書記、主任肖佳波接受審查調(diào)查

益陽廣電
2025-04-28 11:19:37
太逗!周琦砍15+10北京險(xiǎn)勝山西,兒子在家高喊爸爸替胡明軒贏了

太逗!周琦砍15+10北京險(xiǎn)勝山西,兒子在家高喊爸爸替胡明軒贏了

林小湜體育頻道
2025-04-27 22:41:00
30歲丈夫出軌55歲保姆,妻子逼問自己哪里不如她,丈夫回答讓她崩潰

30歲丈夫出軌55歲保姆,妻子逼問自己哪里不如她,丈夫回答讓她崩潰

荔枝人物記
2025-04-22 17:22:38
班長組織同學(xué)會(huì),群收款:2000,我直接退群,聚會(huì)當(dāng)天全班卻懵了

班長組織同學(xué)會(huì),群收款:2000,我直接退群,聚會(huì)當(dāng)天全班卻懵了

星宇共鳴
2025-04-26 18:30:54
跟印度打了兩天后,巴基斯坦承認(rèn)看錯(cuò)西方,并向中國做出一項(xiàng)承諾

跟印度打了兩天后,巴基斯坦承認(rèn)看錯(cuò)西方,并向中國做出一項(xiàng)承諾

小宇宙雙色球
2025-04-27 17:08:22
川普因“違反著裝規(guī)定”提前“被離開”

川普因“違反著裝規(guī)定”提前“被離開”

風(fēng)華講史
2025-04-28 09:32:01
網(wǎng)傳小仙女們有多難伺候?把女司機(jī)都弄崩潰了,求平臺(tái)高抬貴手

網(wǎng)傳小仙女們有多難伺候?把女司機(jī)都弄崩潰了,求平臺(tái)高抬貴手

筆尖下的人生
2025-04-27 18:01:26
德國稱抓到兩名俄方特工!手機(jī)里竟有美國防長的電話

德國稱抓到兩名俄方特工!手機(jī)里竟有美國防長的電話

項(xiàng)鵬飛
2025-04-27 21:51:00
肖飛事件有感,小三小四還沒老婆漂亮,究竟圖啥呢

肖飛事件有感,小三小四還沒老婆漂亮,究竟圖啥呢

金牌娛樂
2025-04-28 10:23:38
同城死敵砸場子!埃弗頓球迷更改包裝后,將1萬個(gè)藍(lán)色照明彈出售給利物浦球迷

同城死敵砸場子!埃弗頓球迷更改包裝后,將1萬個(gè)藍(lán)色照明彈出售給利物浦球迷

雷速體育
2025-04-28 09:20:32
中國醫(yī)院將自費(fèi)為一名來自盧甘斯克人民共和國的觸雷受傷男孩提供康復(fù)治療

中國醫(yī)院將自費(fèi)為一名來自盧甘斯克人民共和國的觸雷受傷男孩提供康復(fù)治療

俄羅斯衛(wèi)星通訊社
2025-04-27 15:29:25
外籍留學(xué)生打人后續(xù):是巴基斯坦人,現(xiàn)已被拘留,被打者接近毀容

外籍留學(xué)生打人后續(xù):是巴基斯坦人,現(xiàn)已被拘留,被打者接近毀容

野山歷史
2025-04-27 14:36:29
字節(jié)某員工:天天加班結(jié)果被戴“綠帽子”,媳婦出軌了

字節(jié)某員工:天天加班結(jié)果被戴“綠帽子”,媳婦出軌了

螞蟻大喇叭
2025-04-27 15:25:21
印度開閘放水,巴鐵撥通中國電話,希望得到中方幫助,王毅表態(tài)了

印度開閘放水,巴鐵撥通中國電話,希望得到中方幫助,王毅表態(tài)了

博覽歷史
2025-04-28 10:57:43
詹姆斯談邊線發(fā)球失誤:我在找人接球,結(jié)果大家都跑前場去了

詹姆斯談邊線發(fā)球失誤:我在找人接球,結(jié)果大家都跑前場去了

懂球帝
2025-04-28 09:41:21
這6樣?xùn)|西“沒有保質(zhì)期”,過期了也能用,別再傻乎乎地扔了!

這6樣?xùn)|西“沒有保質(zhì)期”,過期了也能用,別再傻乎乎地扔了!

室內(nèi)設(shè)計(jì)師有料兒
2025-03-10 09:05:09
那種冷到極致的冷知識(shí),看完網(wǎng)友分享,感覺我又要長腦子了!

那種冷到極致的冷知識(shí),看完網(wǎng)友分享,感覺我又要長腦子了!

墻頭草
2025-04-28 08:52:07
2025-04-28 13:52:49
產(chǎn)業(yè)家
產(chǎn)業(yè)家
產(chǎn)業(yè)互聯(lián)網(wǎng)第一媒體
851文章數(shù) 1323關(guān)注度
往期回顧 全部

科技要聞

大廠圍獵AI人才:部分實(shí)習(xí)生日薪可達(dá)2000

頭條要聞

媒體:被中方連續(xù)揭露說謊 特朗普惱羞成怒發(fā)布假照片

頭條要聞

媒體:被中方連續(xù)揭露說謊 特朗普惱羞成怒發(fā)布假照片

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

王寶強(qiáng)座位引眾怒 論演技誰能壓得了

財(cái)經(jīng)要聞

事關(guān)穩(wěn)就業(yè)、穩(wěn)經(jīng)濟(jì)!四部門聯(lián)合發(fā)聲

汽車要聞

中型純電轎跑SUV/6月上市 豐田bZ5預(yù)售13-16萬

態(tài)度原創(chuàng)

藝術(shù)
健康
親子
手機(jī)
教育

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎?

親子要聞

澎湃思想周報(bào)丨數(shù)字時(shí)代的育兒;凜冬已至好萊塢

手機(jī)要聞

網(wǎng)友吐槽蘋果鬧鐘太抽象:節(jié)假日識(shí)別很難嗎

教育要聞

3部門重磅發(fā)文:挖掘高校崗位資源,向高校畢業(yè)生傾斜

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 兴城市| 乌拉特前旗| 新源县| 迁安市| 内乡县| 武鸣县| 黑龙江省| 滨海县| 鄂温| 宜阳县| 许昌县| 灵宝市| 延津县| 寿光市| 兖州市| 夏邑县| 怀宁县| 建德市| 闽清县| 温泉县| 巴青县| 佛坪县| 合作市| 万盛区| 岳阳县| 武穴市| 关岭| 雅江县| 永修县| 松江区| 门源| 和硕县| 安仁县| 石家庄市| 甘泉县| 聊城市| 延庆县| 郧西县| 定结县| 玉山县| 敖汉旗|