白交 發自 凹非寺
量子位 | 公眾號 QbitAI
字節Seed團隊視頻生成基礎模型,來了。
Seaweed海藻,“Seed-Video”的縮寫(真是好一個諧音梗!)。
首發僅70億參數,卻能實現超越同類140億參數視頻模型的效果——
它能根據文本描述創建各種分辨率(原生支持1280x720分辨率)、任意寬高比和時長的視頻。
它是使用665000 H100 GPU小時完成訓練,而同類模型通常需要超百萬GPU小時,其相當于是1000個H100訓練27.7天完成。
而且中小團隊可部署,僅需40GB顯存單GPU就可生成分辨率達1280x720的視頻。
字節最新視頻生成模型
作為基礎模型,其標志性功能一定得具備。
比如像開頭小短片這種人/動物、景觀生成已經屬于是灑灑水。
它支持圖像生成模型,控制功能也增強,并支持首尾幀調節
并且支持微調,根據「參考主體」圖像生成視頻,單幅多幅都可以,將其合成為動態視頻序列。
而結合字節多模態數字人方案Omnihuman——一張圖、一段音頻,就可以生成一段人物視頻。它可以創建人聲更為匹配人物角色,唇部、肢體動作都跟著音頻一起同步。
此外,它還支持用視頻生成音頻,來配合視頻的敘事場景、風格。
在這些基礎功能之上,Seaweed還技術大放送,結合過往技術成果展現了新的體驗。
長篇故事敘述,用戶既可以為整體敘事提供全局文本描述,也可以為每個鏡頭提供細粒度的文本描述。
這背后結合「長上下文調優」、面向長篇敘述生成「VideoAuteur」等技術。
- 高分辨率
- 除了原生支持1280x720分辨率,還支持進一步采樣至2K(2560x1440)。
背后是基于SeedVR,基于Diffusion Transformer實現通用視頻修復。
- 實時生成
- 可實時生成分辨率為1280x720、幀率為24fps的視頻。
此外,還支持「攝影機」控制生成、物理一致性生成,背后分別有CameraCtrl II、SimDrop技術加持。
與其他模型對比情況。
圖像到視頻任務。
文本到視頻的任務。
在單個H100 GPU運行中,Seaweed響應速度是Wan-2.1(參數量是前者兩倍)的62分之一。
技術報告:三大技術創新
不過更詳細的技術細節,還是集中在技術報告里。
整篇技術報告核心討論的就是一個問題:在視頻生成基礎模型的訓練上,如何實現低成本高效益。
他們選擇訓練一個中等規模的模型——約70億個參數的DiT模型,使用665000個H100 GPU Hours從頭開始訓練該模型,相當于在1000個H100 GPU上訓練27.7天。
具體在數據處理、模型架構設計、以及訓練策略和優化方面三個方面的技術創新。
首先是數據這塊。
他們有一套全面的數據處理管道,其中包括但不限于時間分割、空間裁剪、質量過濾、多視角數據平衡、重復數據刪除和視頻字幕。
每一個步驟都有他們詳細的處理細節。
以字幕任務為例,他們發現使用更大的72B LLM可以減少幻覺。但是,使用72B模型為數百萬個視頻生成視頻字幕的計算成本要高得多。
于是他們選擇將72B作為教師模型然后蒸餾出7B的學生模型,節約成本的同時還提高了準確率。此外他們還將詳細字幕「推導」成簡短字幕,類似于思維鏈過程,結果進一步提高簡短字幕的準確率——從84.81%到90.84%。
利用這一基礎設施,他們每天可以處理超過500000小時的視頻數據。
然后再是模型架構設計上面,由64x壓縮比 VAE與Diffusion Transformer結合組成 Seaweed 。
VAE這邊,由一個編碼器和一個解碼器組成,編碼器將原始像素數據壓縮到一個緊湊的潛在空間,解碼器則根據這些潛在特征重建原始輸入像素。理想的VAE應在保持較高重建質量的同時實現較高的壓縮比。
這種設計為視頻生成提供了兩個優勢,首先,它統一了圖像和視頻編碼,使第一幀條件圖像視頻生成任務變得自然。其次,它消除了兩個推斷片段之間邊界的閃爍,并允許編碼和解碼任意長的視頻,而無需人工拼接。
而在Diffusion Transformer這邊,他們用圖像和視頻的原始分辨率和持續時間對它們進行混合訓練。為了平衡運行時間的計算,較短的序列被打包在一起。
最后就是多階段多任務學習訓練策略。
他們采用了從低分辨率到高分辨率的多階段漸進式的訓練策略。這一設計側重于在訓練過程中戰略性地分配 GPU 資源,以提高整體質量。
Pre-Training階段,他們只通過低分辨率圖像對模型進行預訓練,這樣就能建立文本摘要與常見視覺概念之間的對齊關系。
Post-training階段。我們會應用監督微調(SFT),然后是人類反饋強化學習(RLHF),以進一步提高輸出結果的美學質量、動作一致性和結構連貫性。
Just Like This~
這一階段分別針對文本到視頻和圖像到視頻任務進行。
而在更具體Infra層面的優化,他們還做了這些方面的措施。
比如采用并行策略在長語境視頻中訓練7B模型;引入了運行時平衡(Runtime Balance)策略,以減輕圖像和視頻聯合訓練過程中的負載不平衡;還設計了多級激活檢查點(MLAC),以減少GPU內存使用量和重新計算開銷。
最后,還通過實施融合的CUDA內核來簡化零散的I/O操作,從而優化GPU利用率。
因此,在大規模分布式訓練中,Seaweed-7B的模型FLOPs利用率(MFU)達到了38%。
Seed研究團隊大曝光
而在官網最后,背后研究團隊也都全部曝光。
由蔣路、馮佳時、楊振恒、楊建超帶領的研究團隊。
其中蔣路正是去年加盟字節的前谷歌高級科學家,曾負責谷歌視頻生成工作,在多個谷歌產品(如YouTube、云服務、AutoML、廣告、Waymo和翻譯)中做出了重要貢獻,同時也是CMU兼職教授。
馮佳時則是首次曝光的「關鍵8人」之一,大模型視覺基礎研究團隊負責人,專注于計算機視覺、機器學習領域的相關研究及其在多媒體中的應用。
具體研究團隊成員如下:
基礎設施以及貢獻者還有這些:
參考鏈接:
[1]https://seaweed.video/
[2]https://arxiv.org/abs/2504.08685
[3]https://x.com/CeyuanY/status/1911618555210334350
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.