99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

字節視頻基礎大模型發布!單GPU就可生成1080P,蔣路領銜團隊曝光

0
分享至

白交 發自 凹非寺
量子位 | 公眾號 QbitAI

字節Seed團隊視頻生成基礎模型,來了。

Seaweed海藻,“Seed-Video”的縮寫(真是好一個諧音梗!)



首發僅70億參數,卻能實現超越同類140億參數視頻模型的效果——

它能根據文本描述創建各種分辨率(原生支持1280x720分辨率)、任意寬高比和時長的視頻。



它是使用665000 H100 GPU小時完成訓練,而同類模型通常需要超百萬GPU小時,其相當于是1000個H100訓練27.7天完成。

而且中小團隊可部署,僅需40GB顯存單GPU就可生成分辨率達1280x720的視頻。

字節最新視頻生成模型

作為基礎模型,其標志性功能一定得具備。

比如像開頭小短片這種人/動物、景觀生成已經屬于是灑灑水。

它支持圖像生成模型,控制功能也增強,并支持首尾幀調節



并且支持微調,根據「參考主體」圖像生成視頻,單幅多幅都可以,將其合成為動態視頻序列。



而結合字節多模態數字人方案Omnihuman——一張圖、一段音頻,就可以生成一段人物視頻。它可以創建人聲更為匹配人物角色,唇部、肢體動作都跟著音頻一起同步。



此外,它還支持用視頻生成音頻,來配合視頻的敘事場景、風格。

在這些基礎功能之上,Seaweed還技術大放送,結合過往技術成果展現了新的體驗。

長篇故事敘述,用戶既可以為整體敘事提供全局文本描述,也可以為每個鏡頭提供細粒度的文本描述。



這背后結合「長上下文調優」、面向長篇敘述生成「VideoAuteur」等技術。





  • 高分辨率
  • 除了原生支持1280x720分辨率,還支持進一步采樣至2K(2560x1440)。



背后是基于SeedVR,基于Diffusion Transformer實現通用視頻修復。



  • 實時生成
  • 可實時生成分辨率為1280x720、幀率為24fps的視頻。



此外,還支持「攝影機」控制生成、物理一致性生成,背后分別有CameraCtrl II、SimDrop技術加持。





與其他模型對比情況。

圖像到視頻任務。



文本到視頻的任務。



在單個H100 GPU運行中,Seaweed響應速度是Wan-2.1(參數量是前者兩倍)的62分之一。



技術報告:三大技術創新

不過更詳細的技術細節,還是集中在技術報告里。

整篇技術報告核心討論的就是一個問題:在視頻生成基礎模型的訓練上,如何實現低成本高效益

他們選擇訓練一個中等規模的模型——約70億個參數的DiT模型,使用665000個H100 GPU Hours從頭開始訓練該模型,相當于在1000個H100 GPU上訓練27.7天。

具體在數據處理、模型架構設計、以及訓練策略和優化方面三個方面的技術創新。

首先是數據這塊。

他們有一套全面的數據處理管道,其中包括但不限于時間分割、空間裁剪、質量過濾、多視角數據平衡、重復數據刪除和視頻字幕。



每一個步驟都有他們詳細的處理細節。

以字幕任務為例,他們發現使用更大的72B LLM可以減少幻覺。但是,使用72B模型為數百萬個視頻生成視頻字幕的計算成本要高得多。

于是他們選擇將72B作為教師模型然后蒸餾出7B的學生模型,節約成本的同時還提高了準確率。此外他們還將詳細字幕「推導」成簡短字幕,類似于思維鏈過程,結果進一步提高簡短字幕的準確率——從84.81%到90.84%。



利用這一基礎設施,他們每天可以處理超過500000小時的視頻數據。

然后再是模型架構設計上面,由64x壓縮比 VAE與Diffusion Transformer結合組成 Seaweed 。

VAE這邊,由一個編碼器和一個解碼器組成,編碼器將原始像素數據壓縮到一個緊湊的潛在空間,解碼器則根據這些潛在特征重建原始輸入像素。理想的VAE應在保持較高重建質量的同時實現較高的壓縮比。




這種設計為視頻生成提供了兩個優勢,首先,它統一了圖像和視頻編碼,使第一幀條件圖像視頻生成任務變得自然。其次,它消除了兩個推斷片段之間邊界的閃爍,并允許編碼和解碼任意長的視頻,而無需人工拼接。

而在Diffusion Transformer這邊,他們用圖像和視頻的原始分辨率和持續時間對它們進行混合訓練。為了平衡運行時間的計算,較短的序列被打包在一起。



最后就是多階段多任務學習訓練策略

他們采用了從低分辨率到高分辨率的多階段漸進式的訓練策略。這一設計側重于在訓練過程中戰略性地分配 GPU 資源,以提高整體質量。

Pre-Training階段,他們只通過低分辨率圖像對模型進行預訓練,這樣就能建立文本摘要與常見視覺概念之間的對齊關系。



Post-training階段。我們會應用監督微調(SFT),然后是人類反饋強化學習(RLHF),以進一步提高輸出結果的美學質量、動作一致性和結構連貫性。

Just Like This~



這一階段分別針對文本到視頻和圖像到視頻任務進行。

而在更具體Infra層面的優化,他們還做了這些方面的措施。

比如采用并行策略在長語境視頻中訓練7B模型;引入了運行時平衡(Runtime Balance)策略,以減輕圖像和視頻聯合訓練過程中的負載不平衡;還設計了多級激活檢查點(MLAC),以減少GPU內存使用量和重新計算開銷。



最后,還通過實施融合的CUDA內核來簡化零散的I/O操作,從而優化GPU利用率。

因此,在大規模分布式訓練中,Seaweed-7B的模型FLOPs利用率(MFU)達到了38%。



Seed研究團隊大曝光

而在官網最后,背后研究團隊也都全部曝光。

由蔣路、馮佳時、楊振恒、楊建超帶領的研究團隊。



其中蔣路正是去年加盟字節的前谷歌高級科學家,曾負責谷歌視頻生成工作,在多個谷歌產品(如YouTube、云服務、AutoML、廣告、Waymo和翻譯)中做出了重要貢獻,同時也是CMU兼職教授。

馮佳時則是首次曝光的「關鍵8人」之一,大模型視覺基礎研究團隊負責人,專注于計算機視覺、機器學習領域的相關研究及其在多媒體中的應用。

具體研究團隊成員如下:



基礎設施以及貢獻者還有這些:



參考鏈接:
[1]https://seaweed.video/
[2]https://arxiv.org/abs/2504.08685
[3]https://x.com/CeyuanY/status/1911618555210334350

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
臺海出情況了,金門上空兩岸軍機對峙,臺軍在解放軍面前不堪一擊

臺海出情況了,金門上空兩岸軍機對峙,臺軍在解放軍面前不堪一擊

觀察者小海風
2025-04-17 01:51:55
后續來了!三河市招牌換色原因曝光,各大官媒怒批,負責人被免!

后續來了!三河市招牌換色原因曝光,各大官媒怒批,負責人被免!

青青子衿
2025-04-15 19:03:45
國米殺進歐冠4強,決戰巴薩!勞塔羅創2大紀錄,7萬人狂歡

國米殺進歐冠4強,決戰巴薩!勞塔羅創2大紀錄,7萬人狂歡

葉青足球世界
2025-04-17 04:38:34
大量洋妞涌入相親角,不要彩禮有車有房,國內大齡剩女:滾出中國

大量洋妞涌入相親角,不要彩禮有車有房,國內大齡剩女:滾出中國

小正說娛樂
2025-04-16 14:38:59
我方還沒出手,美債出現拋售潮,川普凌晨2點發言,對華態度反轉

我方還沒出手,美債出現拋售潮,川普凌晨2點發言,對華態度反轉

縱橫觀天下ZK
2025-04-16 18:03:06
北京銀行倒閉的風險有多大

北京銀行倒閉的風險有多大

叮當當科技
2025-04-17 01:32:42
央媽放水預期點燃信號,4月17日,凌晨三大重要消息沖擊來襲

央媽放水預期點燃信號,4月17日,凌晨三大重要消息沖擊來襲

風口招財豬
2025-04-17 01:44:05
斯凱利更新社交媒體慶祝勝利,并曬出被呂迪格踩踏的照片

斯凱利更新社交媒體慶祝勝利,并曬出被呂迪格踩踏的照片

懂球帝
2025-04-17 06:57:14
暫停接收波音,中國要警惕:美國制裁或到來,C919國產發動機要快

暫停接收波音,中國要警惕:美國制裁或到來,C919國產發動機要快

二月侃事
2025-04-16 18:01:24
再丟1冠!31歲凱恩欲哭無淚:92分鐘踢飛半空門 無冠魔咒何時解封

再丟1冠!31歲凱恩欲哭無淚:92分鐘踢飛半空門 無冠魔咒何時解封

風過鄉
2025-04-17 07:29:04
炸裂!男子曝光無錫KTV酒水女涉黃涉詐,是自我檢舉嗎?

炸裂!男子曝光無錫KTV酒水女涉黃涉詐,是自我檢舉嗎?

小人物看盡人間百態
2025-04-15 21:34:27
打響第一槍!“臺獨”李延賀被抓,竟然還是大陸人

打響第一槍!“臺獨”李延賀被抓,竟然還是大陸人

靚仔情感
2025-04-11 15:04:51
姐姐的快樂,你想象不到。(弟弟不要看圖)

姐姐的快樂,你想象不到。(弟弟不要看圖)

性學研究僧
2025-04-16 22:07:17
華為余承東:問界M8預訂突破15萬臺,與上汽合作的“尚界”預計今秋推出

華為余承東:問界M8預訂突破15萬臺,與上汽合作的“尚界”預計今秋推出

上觀新聞
2025-04-16 17:14:31
故事:廣東退休教授夫婦雙雙跳海,存款有800萬,遺言:無路可走

故事:廣東退休教授夫婦雙雙跳海,存款有800萬,遺言:無路可走

紅豆講堂
2025-04-16 11:35:58
果子溝發生泥石流阻斷高速路,交警回應已恢復通車可入景區旅游

果子溝發生泥石流阻斷高速路,交警回應已恢復通車可入景區旅游

大風新聞
2025-04-16 21:11:02
率先成立新機構!北京市委書記、市長明確任務清單

率先成立新機構!北京市委書記、市長明確任務清單

政知新媒體
2025-04-16 22:22:43
“餃子”被韓國食品在美注冊外觀專利?律師提醒:中國出海企業需規避侵權風險|封面頭條

“餃子”被韓國食品在美注冊外觀專利?律師提醒:中國出海企業需規避侵權風險|封面頭條

封面新聞
2025-04-16 14:41:03
2025年5月1日起施行:農村戶口遷回政策!三類子女不能繼承宅基地

2025年5月1日起施行:農村戶口遷回政策!三類子女不能繼承宅基地

錘不倒的拖油瓶
2025-03-18 07:12:35
王思聰女友懶懶街拍美出圈!這是什么人間精致芭比娃娃

王思聰女友懶懶街拍美出圈!這是什么人間精致芭比娃娃

星辰生肖館
2025-04-14 03:30:05
2025-04-17 08:44:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10325文章數 176106關注度
往期回顧 全部

科技要聞

OpenAI重磅推出o3/o4-mini!能"看圖思考"

頭條要聞

中國和巴西將舉行會談 涉大豆和牛肉等出口

頭條要聞

中國和巴西將舉行會談 涉大豆和牛肉等出口

體育要聞

對著木板踢球的小鎮姑娘 成了皇馬第一人

娛樂要聞

娛樂圈的“現實”在岳云鵬身上應驗了

財經要聞

史上首次!現貨黃金漲破3300美元關口

汽車要聞

又帥又快超實用 極氪007GT獵裝車才是完美的車?

態度原創

教育
本地
房產
手機
數碼

教育要聞

985高校研究生拿到事業單位入場券,卻遭遇盲審卡脖子,申請再審

本地新聞

云游湖北 | 七仙女都愛的山水,雙峰米酒一口上頭

房產要聞

中海|南海·叁號院,以海岸美學重塑海口灣生活向往

手機要聞

周意保走訪門店,OPPO Find X8s含果量真高

數碼要聞

下一代 Apple Vision 頭顯或將采用鈦金屬來減輕重量

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 彩票| 德昌县| 旺苍县| 东兰县| 新泰市| 古田县| 双城市| 吐鲁番市| 醴陵市| 耿马| 恭城| 绍兴市| 汤原县| 奉贤区| 宜阳县| 泸水县| 阆中市| 始兴县| 华安县| 柘荣县| 吐鲁番市| 新巴尔虎右旗| 明溪县| 连云港市| 东丰县| 黑山县| 高平市| 徐水县| 寻甸| 类乌齐县| 巨野县| 突泉县| 阜康市| 荆门市| 潞城市| 武隆县| 牡丹江市| 中西区| 齐河县| 定兴县| 樟树市|