網易首頁 > 網易號 > 正文申請入駐

豆包“王炸”：字節跳動一天發布兩款視頻生成大模型

2024-09-24 16:53:41　來源: 大廠青年

北京舉報

分享至

字節跳動正式宣告進軍AI視頻生成。9月24日，字節跳動旗下火山引擎在深圳舉辦AI創新巡展，一舉發布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型，面向企業市場開啟邀測。

活動現場展示的視頻生成效果令人驚嘆。無論是語義理解能力，多個主體運動的復雜交互畫面，還是多鏡頭切換的內容一致性，豆包視頻生成大模型均達到業界先進水平。火山引擎總裁譚待表示，“視頻生成有很多難關亟待突破。豆包兩款模型會持續演進，在解決關鍵問題上探索更多可能性，加速拓展AI視頻的創作空間和應用落地。”

圖：火山引擎總裁譚待發布豆包視頻生成模型

創新技術，破解多主體互動和一致性難題

此前視頻生成模型大多只能完成簡單指令，豆包視頻生成模型則能實現自然連貫的多拍動作與多主體復雜交互。有創作者在搶鮮體驗豆包視頻生成模型時發現，其生成的視頻不僅能夠遵循復雜指令，讓不同人物完成多個動作指令的互動，人物樣貌、服裝細節甚至頭飾在不同運鏡下也保持一致，接近實拍效果。

據火山引擎介紹，豆包視頻生成模型基于 DiT 架構，通過高效的DiT融合計算單元，讓視頻在大動態與運鏡中自由切換，擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。全新設計的擴散模型訓練方法更是攻克了多鏡頭切換的一致性難題，在鏡頭切換時可同時保持主體、風格、氛圍的一致性，這也是豆包視頻生成模型獨樹一幟的技術創新。

經過剪映、即夢AI等業務場景打磨和持續迭代，豆包視頻生成模型具備專業級光影布局和色彩調和，畫面視覺極具美感和真實感。深度優化的Transformer結構，則大幅提升了豆包視頻生成的泛化能力，支持3D動畫、2D動畫、國畫、黑白、厚涂等多種風格，適配電影、電視、電腦、手機等各種設備的比例，不僅適用于電商營銷、動畫教育、城市文旅、微劇本等企業場景，也能為專業創作者和藝術家們提供創作輔助。

目前，新款豆包視頻生成模型正在即夢AI內測版小范圍測試，未來將逐步開放給所有用戶。剪映和即夢AI市場負責人陳欣然認為，AI能夠和創作者深度互動，共同創作，帶來很多驚喜和啟發，即夢AI希望成為用戶最親密和有智慧的創作伙伴。

豆包大模型推出業界最高并發流量標準

此次活動中，豆包大模型不僅新增視頻生成模型，還發布了豆包音樂模型和同聲傳譯模型，已全面覆蓋語言、語音、圖像、視頻等全模態，全方位滿足不同行業和領域的業務場景需求。

在產品能力日益完善的同時，豆包大模型的使用量也在極速增長。據火山引擎披露，截至9月，豆包語言模型的日均tokens使用量超過1.3萬億，相比5月首次發布時猛增十倍，多模態數據處理量也分別達到每天5000萬張圖片和85萬小時語音。

此前，豆包大模型公布低于行業99%的定價，引領國內大模型開啟降價潮。譚待認為，大模型價格已不再是阻礙創新的門檻，隨著企業大規模應用，大模型支持更大的并發流量正在成為行業發展的關鍵因素。

據譚待介紹，業內多家大模型目前最高僅支持300K甚至100K的TPM（每分鐘token數），難以承載企業生產環境流量。例如某科研機構的文獻翻譯場景，TPM峰值為360K，某汽車智能座艙的TPM峰值為420K，某AI教育公司的TPM峰值更是達到630K。為此，豆包大模型默認支持800K的初始TPM，遠超行業平均水平，客戶還可根據需求靈活擴容。

“在我們努力下，大模型的應用成本已經得到很好解決。大模型要從卷價格走向卷性能，卷更好的模型能力和服務。”譚待表示。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.