99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

突破視頻生成技術邊界,開啟無限時長電影生成新時代

0
分享至

4月21日,昆侖萬維SkyReels團隊正式發布并開源SkyReels-V2——全球首個使用擴散強迫(Diffusion-forcing)框架的無限時長電影生成模型,其通過結合多模態大語言模型(MLLM)、多階段預訓練(Multi-stage Pretraining)、強化學習(Reinforcement Learning)和擴散強迫(Diffusion-forcing)框架來實現協同優化。



回顧過去一年,視頻生成技術在擴散模型和自回歸框架的推動下取得了顯著進展,但在提示詞遵循、視覺質量、運動動態和視頻時長的協調上仍面臨重大挑戰。

現有技術在提升穩定的視覺質量時往往犧牲運動動態效果,為了優先考慮高分辨率而限制視頻時長(通常為5-10秒),并且由于通用多模態大語言模型(MLLM)無法解讀電影語法(如鏡頭構圖、演員表情和攝像機運動),導致鏡頭感知生成能力不足。這些相互關聯的限制阻礙了長視頻的逼真合成和專業電影風格的生成。

為了解決這些痛點,SkyReels-V2應運而生,它不僅在技術上實現了突破,還提供多了多種有用的應用場景,包括故事生成、圖生視頻、運鏡專家和多主體一致性視頻生成(SkyReels-A2)。

SkyReels-V2現已支持生成30秒、40秒的視頻,且具備生成高運動質量、高一致性、高保真視頻的能力。

核心技術創新,邁入“無限時長、影視級質量、精準控制”的全新視頻生成階段



圖丨SkyReels-V2方法概述

SkyReels-V2能夠達到這樣的視頻生成效果,源于其多項創新技術:

1. 全面的影視級視頻理解模型:SkyCaptioner-V1

為了提高提示詞遵循能力,團隊設計了一種結構化的視頻表示方法,將多模態LLM的一般描述與子專家模型的詳細鏡頭語言相結合。這種方法能夠識別視頻中的主體類型、外觀、表情、動作和位置等信息,同時通過人工標注和模型訓練,進一步提升了對鏡頭語言的理解能力。

同時,團隊訓練了一個統一的視頻理解模型 SkyCaptioner-V1,它能夠高效地理解視頻數據,生成符合原始結構信息的多樣化描述。通過這種方式,SkyCaptioner-V1不僅能夠理解視頻的一般內容,還能捕捉到電影場景中的專業鏡頭語言,從而顯著提高了生成視頻的提示詞遵循能力。此外,這個模型現在已經開源,可以直接使用。



圖丨在視頻理解測試集上的模型綜合性能比較中,SkyCaptioner-V1表現優異,超越了SOTA的模型。

2. 針對運動的偏好優化

現有的視頻生成模型在運動質量上表現不佳,主要原因是優化目標未能充分考慮時序一致性和運動合理性。我們通過強化學習(RL)訓練,使用人工標注和合成失真數據,解決了動態扭曲、不合理等問題。為了降低數據標注成本,我們設計了一個半自動數據收集管道,能夠高效地生成偏好對比數據對。

通過這種方式,SkyReels-V2在運動動態方面表現優異,能夠生成流暢且逼真的視頻內容,滿足電影制作中對高質量運動動態的需求。

3. 高效的擴散強迫框架

為了實現長視頻生成能力,我們提出了一種擴散強迫(diffusion forcing)后訓練方法。與從零開始訓練擴散強迫模型不同,我們通過微調預訓練的擴散模型,將其轉化為擴散強迫模型。這種方法不僅減少了訓練成本,還顯著提高了生成效率。

我們采用非遞減噪聲時間表,將連續幀的去噪時間表搜索空間從O(1e48) 降低到O(1e32),從而實現了長視頻的高效生成。這一創新使得SkyReels-V2能夠生成幾乎無限時長的高質量視頻內容。

4. 漸進式分辨率預訓練與多階段后訓練優化

為了開發一個專業的影視生成模型,我們的多階段質量保證框架整合了來自三個主要來源的數據:

通用數據集:整合了開源資源,包括Koala-36M、HumanVid,以及從互聯網爬取的額外視頻資源。這些數據提供了廣泛的基礎視頻素材,涵蓋了多種場景和動作。

自收集媒體:包括280,000多部電影和800,000多集電視劇,覆蓋120多個國家(估計總時長超過620萬小時)。這些數據為模型提供了豐富的電影風格和敘事結構。

藝術資源庫:從互聯網獲取的高質量視頻資產,確保生成內容的視覺質量達到專業標準。

原始數據集規模達到億級(O(100M)),不同子集根據質量要求在各個訓練階段使用。此外,我們還收集了億級的概念平衡圖像數據,以加速早期訓練中生成能力的建立。在此數據基礎上,我們首先通過漸進式分辨率預訓練建立基礎視頻生成模型,然后進行四階段的后續訓練增強:

初始概念平衡的監督微調(SFT):通過概念平衡的數據集進行微調,為后續優化提供良好的初始化。

運動特定的強化學習(RL)訓練:通過偏好優化提升運動動態質量。

擴散強迫框架(DF):實現長視頻生成能力。

高質量SFT:進一步提升視覺保真度。

結合富含影視級別數據和多階段優化方法,我們確保了SkyReels-V2在資源有限的情況下,高效的穩步提升多方面的表現,達到影視級視頻生成的水準。

在SkyReels-Bench和V-Bench評估中,性能表現卓越

為了全面評估SkyReels-V2的性能,我們構建了SkyReels-Bench用于人類評估,并利用開源的V-Bench進行自動化評估。這種雙重評估框架使我們能夠系統地比較SkyReels-V2和其他最先進的基線模型(包括開源和閉源模型)。

1. SkyReels-Bench評估

SkyReels-Bench包含1020個文本提示詞,系統性地評估了四個關鍵維度:指令遵循、運動質量、一致性和視覺質量。該基準旨在評估文本到視頻(T2V)和圖像到視頻(I2V)生成模型,提供跨不同生成范式的全面評估。

在SkyReels-Bench評估中,SkyReels-V2在指令遵循方面取得了顯著進展,同時在保證運動質量的同時不犧牲視頻的一致性效果。具體表現如下:

指令遵循:SkyReels-V2在運動指令、主體指令、空間關系、鏡頭類型、表情和攝像機運動的遵循上均優于基線方法。

運動質量:在運動動態性、流暢性和物理合理性方面,SkyReels-V2表現出色,生成的運動內容自然且多樣。

一致性:主體和場景在整個視頻中保持高度一致,運動過程有較高的保真度。

視覺質量:生成視頻在視覺清晰度、色彩準確性和結構完整性上均達到高水平,無明顯扭曲或損壞。



圖丨在SkyReels-Bench的T2V多維度人工評測集下,SkyReels-V2在指令遵循和一致性得到最高水準,同時在視頻質量和運動質量上保持第一梯隊

2. VBench1.0結果

在VBench1.0自動化評估中,SkyReels-V2在總分(83.9%)和質量分(84.7%)上均優于所有對比模型,包括HunyuanVideo-13B和Wan2.1-14B。這一結果進一步驗證了SkyReels-V2在生成高保真、指令對齊的視頻內容方面的強大能力。



圖丨在V-bench1.0的長prompt版本下,SkyReels-V2超越了所有的開源模型,包括HunyuanVideo-13B和Wan2.1-14B

03

豐富的應用場景,賦能創意實現

SkyReels-V2不僅在技術上實現了突破,還為多個實際應用場景提供了強大的支持:

1. 故事生成

SkyReels-V2能夠生成理論上無限時長的視頻,通過滑動窗口方法,模型在生成新幀時會參考之前生成的幀和文本提示。為了防止錯誤積累,我們采用了穩定化技術,通過在之前生成的幀上添加輕微噪聲來穩定生成過程。這種方法不僅支持時間上的擴展,還能生成具有連貫敘事的長鏡頭視頻。

通過一系列敘事文本提示,SkyReels-V2能夠編排一個連貫的視覺敘事,跨越多個動作場景,同時保持視覺一致性。這種能力確保了場景之間的平滑過渡,使得動態敘事更加流暢,而不會影響視覺元素的完整性。這一功能特別適合需要復雜多動作序列的應用,如電影制作和廣告創作。

2. 圖像到視頻合成

SkyReels-V2提供了兩種圖像到視頻(I2V)的生成方法:

·微調全序列文本到視頻(T2V)擴散模型(SkyReels-V2-I2V):通過將輸入圖像作為條件注入T2V架構中,模型能夠利用參考幀進行后續生成。這種方法在384個GPU上僅需10,000次訓練迭代即可取得和閉源模型同等級的效果。

· 擴散強迫模型與幀條件結合(SkyReels-V2-DF):通過將第一幀作為干凈的參考條件輸入擴散框架,無需顯式重新訓練即可保持時間一致性。

在SkyReels-Bench的I2V多維度人工評測集下,SkyReels-V2在所有質量維度上均優于其他開源模型,并與閉源模型表現相當。



3. 攝像導演功能

SkyReels-V2在標注攝像機運動方面表現出色,但我們發現攝像機運動數據的固有不平衡對進一步優化攝影參數提出了挑戰。為此,我們專門篩選了約100萬個樣本,確保基本攝像機運動及其常見組合的平衡表示。通過在384個GPU上進行3,000次迭代的微調實驗,我們顯著提升了攝影效果,特別是在攝像機運動的流暢性和多樣性方面。

4. 元素到視頻生成

基于SkyReels-V2基座模型,我們研發了SkyReels-A2方案,并提出了一種新的多元素到視頻(E2V)任務,能夠將任意視覺元素(如人物、物體和背景)組合成由文本提示引導的連貫視頻,同時確保對每個元素的參考圖像的高保真度。這一功能特別適合短劇、音樂視頻和虛擬電商內容創作等應用。

作為首個商業級E2V開源模型,SkyReels-A2在E2V評估Benchmark A2-Bench中的結果表明,其一致性和質量維度上評估與閉源模型相當。未來,我們計劃擴展框架以支持更多輸入模態,如音頻和動作,旨在構建一個統一的視頻生成系統,以支持更廣泛的應用。

SkyReels-V2的推出標志著視頻生成技術邁入了一個新的階段,為實現高質量、長時間的電影風格視頻生成提供了全新的解決方案。它不僅為內容創作者提供了強大的工具,更開啟了利用AI進行視頻敘事和創意表達的無限可能。

昆侖萬維SkyReels團隊仍致力于推動視頻生成技術的發展,并將SkyCaptioner-V1和SkyReels-V2系列模型(包括擴散強迫、文本到視頻、圖像到視頻、攝像導演和元素到視頻模型)的各種尺寸(1.3B、5B、14B)進行完全開源,以促進學術界和工業界的進一步研究和應用。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“生母繼父殺子案”發生2年后:鄰居稱孩子外婆曾幾月不出門,男孩生前常被“管教”

“生母繼父殺子案”發生2年后:鄰居稱孩子外婆曾幾月不出門,男孩生前常被“管教”

紅星新聞
2025-04-26 01:24:18
女人不怕你占她便宜,而是怕…

女人不怕你占她便宜,而是怕…

青蘋果sht
2025-04-18 05:59:47
A股:周末重磅!國務院同意建立,財政部、證監會集體發聲!

A股:周末重磅!國務院同意建立,財政部、證監會集體發聲!

虎哥閑聊
2025-04-26 10:20:57
鄭欽文0-2慘敗!可怕不是輸球,而是賽后鄭欽文這番話,心氣沒了

鄭欽文0-2慘敗!可怕不是輸球,而是賽后鄭欽文這番話,心氣沒了

振華觀史
2025-04-26 11:03:21
北京知名外科醫生出軌多人:護士長3月兩懷孕,大量骯臟細節披露

北京知名外科醫生出軌多人:護士長3月兩懷孕,大量骯臟細節披露

博士觀察
2025-04-26 10:30:20
男子炒股11年賺6000萬,曾1天虧1100萬,當事人:不建議模仿

男子炒股11年賺6000萬,曾1天虧1100萬,當事人:不建議模仿

瀟湘晨報
2025-04-26 15:00:07
劉強東:我還有一個領養的妹妹,并不熟悉,但每年都給她很多錢

劉強東:我還有一個領養的妹妹,并不熟悉,但每年都給她很多錢

慢看世界
2025-04-26 10:01:12
名記:阿隆·戈登因小腿傷勢目前幾乎無法起跳,現在球隊更衣室內的氛圍非常凝重

名記:阿隆·戈登因小腿傷勢目前幾乎無法起跳,現在球隊更衣室內的氛圍非常凝重

雷速體育
2025-04-26 12:53:55
北京上海大跌,千萬要警惕了!

北京上海大跌,千萬要警惕了!

七叔東山再起
2025-04-25 20:49:46
太行山懸崖摩天筒梯走紅,景區回應:每年“體檢”已運營近25年

太行山懸崖摩天筒梯走紅,景區回應:每年“體檢”已運營近25年

上游新聞
2025-04-26 12:45:11
王菲現身謝霆鋒演唱會!安靜地坐在角落聽歌,55歲的年紀看起來像30

王菲現身謝霆鋒演唱會!安靜地坐在角落聽歌,55歲的年紀看起來像30

二月侃事
2025-04-26 08:38:27
江西一家三口被開快車泄憤男子撞死后 失獨老人發現兒子的獻血證和聯合國兒童基金會“月捐”證書

江西一家三口被開快車泄憤男子撞死后 失獨老人發現兒子的獻血證和聯合國兒童基金會“月捐”證書

閃電新聞
2025-04-25 22:54:13
四川一國企“80后”掌門人為報領導“知遇之恩”,盲目決策致數億損失

四川一國企“80后”掌門人為報領導“知遇之恩”,盲目決策致數億損失

澎湃新聞
2025-04-26 15:18:26
“愛潑斯坦案”關鍵證人弗吉尼亞·朱弗雷自殺身亡

“愛潑斯坦案”關鍵證人弗吉尼亞·朱弗雷自殺身亡

新京報
2025-04-26 10:14:08
波音總裁回應:波音不會繼續為不接收飛機的客戶制造飛機!

波音總裁回應:波音不會繼續為不接收飛機的客戶制造飛機!

翻開歷史和現實
2025-04-24 21:48:17
心智障礙者做100杯咖啡上崗0投訴,創始人回應:殘次品半價銷售,客人整體包容度很高

心智障礙者做100杯咖啡上崗0投訴,創始人回應:殘次品半價銷售,客人整體包容度很高

觀威海
2025-04-25 15:19:29
字母哥37+12+6雄鹿大勝步行者1-2,奇兵特倫特37分利拉德7+5

字母哥37+12+6雄鹿大勝步行者1-2,奇兵特倫特37分利拉德7+5

湖人崛起
2025-04-26 10:29:17
“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

南方都市報
2025-04-25 17:58:08
外籍學生群毆中國人后續:受害者已毀容,畫面不忍直視,官方介入

外籍學生群毆中國人后續:受害者已毀容,畫面不忍直視,官方介入

歸史
2025-04-26 11:25:34
“五一花100塊買票回家”引全網群嘲:貧窮,是父母最失敗的教育

“五一花100塊買票回家”引全網群嘲:貧窮,是父母最失敗的教育

熙熙說教
2025-04-25 20:40:56
2025-04-26 15:35:00
腦極體 incentive-icons
腦極體
從智能密鑰到已知盡頭
3319文章數 166801關注度
往期回顧 全部

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

本地
藝術
時尚
數碼
教育

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

今夏流行“不穿褲子”!洋氣顯瘦顯腿長,誰穿誰好看!

數碼要聞

英特爾7工藝的最大的代工客戶是英特爾本身

教育要聞

網民反映孩子“在華海中學遭霸凌”,海口市教育局回應正核查

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 黎平县| 浦东新区| 库尔勒市| 黑水县| 崇文区| 绵阳市| 凤山市| 招远市| 波密县| 丹阳市| 石楼县| 巴东县| 平安县| 宁蒗| 黄浦区| 安顺市| 万荣县| 昌乐县| 静海县| 通化县| 磐石市| 洛南县| 皮山县| 遵义市| 宁陵县| 沛县| 汉中市| 富顺县| 莒南县| 砀山县| 繁峙县| 新邵县| 余姚市| 唐海县| 台中县| 茂名市| 霍邱县| 桃园县| 慈溪市| 新丰县| 乌拉特中旗|