就在昨晚,Runway 發布了最新的AI視頻生成器 —— Runway Gen-4。
其號稱迄今為止保真度最高。
從官方演示視頻和X網友實測效果評估來看,可以說,Runway Gen-4 大幅度改善了視頻生成中最關鍵的方面,即主體一致性和環境一致性。這一點和近期 GPT-4o實現的提升點是相似的。
只需要一張圖像作為參考,Runway Gen-4 就能生成具有“連貫的環境背景”的視頻,從背景中的不同視角和位置都能很好地還原主體。
Runway 還特別強調了提示詞的簡潔性要求:“因為圖像傳達了有關主題、構圖、顏色、燈光和風格的關鍵視覺信息,所以文本提示應該幾乎完全集中在描述所需的動作上。”
以下是展示主體一致性的生成效果。比如雕塑在日常戶外、燃燒建筑、陰暗室內都能呈現一致的外形輪廓和細節,光照效果也非常自然。你甚至能看到視頻后面部分,街頭擺放的小球球面反射呈現了走動人群的真實動態。
以下是展示場景一致性的生成效果,很明顯地貌上能保持一致,但真實地形上是否能夠完全還原其實還有待更多考察。畢竟單個片段只有 5 秒和 10 秒兩種視頻長度,建議在制作時多提供同一個場景的不同視角的照片。
除了一致性,Runway Gen-4 生成的視頻在動作層面具有相當好的真實性和動態性,以及物理理解能力。
在 Runway Gen-4 之前,真實性最好的視頻生成器,應該是谷歌的 Veo 2,目前感覺兩者不相伯仲。
Veo 2 價格昂貴(2.50美元/5秒),相比之下,按照 Runway 年付費 144 美元(每月12美元)的普通用戶來估算,每個月 625 Credit,Gen-4 視頻每秒 12 Credit,折合價格是 1.15 美元/5 秒,不到 Veo 2 的一半。
據網友的一個具體場景的單片段測試,在生成場景的動態性方面,Runway Gen-4可能比 Veo 2 更強大。
以下例子從一個 Midjourney 生成的圖像作為第一幀,基于 Runway Gen-4、Luma Ray2、Kling 1.6、Pika 2.2、Veo 2 分別生成后續內容。Runway Gen-4 呈現了人物快速啟動降落傘以及鏡頭下沉并拉遠的動態,還兼顧背景的爆炸效果,無限接近電影級別。其它模型(包括Veo 2)則把內容限定在主體身上,運動速度慢,運鏡也很一般,就是一個普通的動圖。
再來看看網友實測的這個開車場景,動態性方面可以說刷爆了速度與激情指標。
不同主體或物體的交互帶來的巨大動態變化也是視頻生成的痛點,網友實測的這個海浪沖擊人物的效果著實將碰撞瞬間處理的特別好,雖然呈現的不算完全真實,至少沒翻車,也沒顯得過度魔幻。
再來看看多片段合成的玩偶動物紀錄片的例子。
過去這類實物定格動畫的耗資成本巨大。以黏土動畫《小雞快跑》為例,完成這部時長 84 分鐘的影片需要 30 組布景、80 名動畫師以及 180 名工作人員。整個影片耗費了 18 個月才拍攝而成,團隊每天只能拍出大約 11 秒的成片。
黏土動畫對材料依賴性也很高,其制作公司“阿德曼動畫公司”在 2023 年底還被曝出差點因為 “ Newplast ” 黏土停產,而停止制作粘土動畫。
現在你只需要一個人在網頁上就可以做出來這類動畫。對于風格多樣的實景宣傳片,那更是不在話下。
不僅是實景、動畫,Runway Gen-4 還可以和電影視覺特效內容無縫集成。
Runway 通過一個例子來展示如何從草圖生成真實的影像級概念圖,并繼而生成好萊塢級別的影片片段,最終拼接出了完整的故事。整個生成過程保持了高度的主體一致性和環境一致性。
最后的成品如下,講述了一個農場背景中,一個年輕人通過智取逃離仇人追殺的故事片段。除了基礎的主體一致性、場景一致性,成片在真實感、電影感方面都是好萊塢級別。
那么,如何用 Runway Gen-4 做出優質的視頻呢?
實際上,官方也溫馨提示:即便模型如此強大,也不要貪快。
Runway 特別寫了一個博客介紹如何生成高質量的視頻:
- 文本提示盡可能簡潔;
- 輸入圖像盡可能高質量(無視覺偽影);
- 文本提示要重點描述動作;
- 在提示中說明“需要什么”,而不是“不需要什么”;
- 用一般術語來指代主體,例如“主體”;
參考圖像是必須的。不要從過于復雜的提示開始,逐步迭代而不是一步到位能夠更好地保證質量。
具體而言,先從簡單的提示開始,然后根據需要添加更多細節。基礎提示只捕捉場景中最基本的運動。
一旦基本動作運行良好,嘗試添加不同的提示元素以進一步優化輸出(每次只添加一個新元素):
- 主體運動
- 相機運動
- 場景運動
- 風格描述
Runway 表示:“這樣可以幫助你確定哪些添加內容可以改善視頻,了解不同元素如何相互作用,以及更有效地排除意外結果的故障。”
比如對于這個機械公牛的輸入圖像:
給 Runway Gen-4 的提示詞是:一架手持攝像機跟蹤這頭機械公牛穿越沙漠的軌跡。它的運動擾動了機械公牛身后揚起的塵土。電影真人版。
我們對提示詞進行分解:
- 主體運動是“穿越沙漠的軌跡”;
- 相機運動是“一架手持攝像機跟蹤”;
- 場景運動是“身后揚起的塵土”;
- 風格描述是“電影真人版”;
最后的生成視頻如下。
Runway Gen-4 支持的分辨率是百萬像素級別,支持 24 幀生成,你也可以在生成完成之后將視頻分辨率提高到 4K。 這些基礎能力足夠滿足好萊塢級別的影片制作。
一直以來,Runway 在全球的 AI 視頻生成領域都能保持領先,用戶活躍度也是最高的。主要原因應該是 Runway 在數據層面具有獨到的優勢,他們與好萊塢一家大型制片廠達成協議,并撥出數百萬美元資助使用人工智能生成視頻的電影。關于Gen-4 的訓練數據細節,Runway 并未透露其來源。
目前,Runway Gen-4 正在分階段向付費個人和企業客戶推出,還沒等到更新的可以先刷一下實測視頻過過癮。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.