AI好好用報道
編輯:楊文
人人免費可用。
大洋彼岸,兩大巨頭 OpenAI 和谷歌輪番炸場。
一個發布了那個傳說中的 Sora,一個推出了最強視頻生成模型 Veo2。
不過,每月 200 美金的 Sora 上線即翻車,而好評不斷的 Veo 2 則尚未對公眾開放。
與他們相比,國內這家視頻大模型公司顯得尤為豪橫,直接大手一揮,將自家模型開源了。
12 月 17 日,圖森未來發布了一款圖生視頻的開源大模型,名字很中國風,叫 Ruyi(如意)。
同時,他們還將 Ruyi-Mini-7B 版本正式開源,網友們現在就可以去 Hugging Face 上下載使用。
Hugging Face 模型鏈接:
https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
GitHub 代碼鏈接:
https://github.com/IamCreateAI/Ruyi-Models
為了讓網友們能夠快速上手,他們還提供了部署說明和 ComfyUI 工作流,網友只需在消費級顯卡(例如 RTX 4090)上運行即可。
不要錢就能上手玩,Ruyi 效果究竟如何?我們先放幾個官方 demo。
頭戴耳機的女孩眼神自然流轉:
宇航員漫步在荒涼的月球:
還有忽閃著大眼睛的動漫角色:
以及海浪拍打著礁石:
看著效果還挺 OK,接下來我們親自上手評測一番。
一張圖片直出 5 秒視頻
Ruyi 是圖森未來正式發布的第一款「圖生視頻」模型。
無需輸入提示詞,只要上傳一張圖片,Ruyi 就能生成一段最高分辨率 720P、時長 5 秒的視頻。
它支持任意長寬比,會根據「喂」給它的圖片生成相應尺寸的視頻。
(動圖:16:9 尺寸)
(動圖:9:16 尺寸)
Ruyi 還支持最多 5 個起始幀、最多 5 個結束幀基礎上的視頻生成,通過循環疊加可以生成任意長度的視頻。
此外,Ruyi 提供了 4 檔運動幅度控制,方便創作者對整體畫面的變化程度進行控制。
以及上、下、左、右、靜止 5 種鏡頭控制。
接下來,我們將從寫實風格、影視劇照、動畫風格、動物、風景等 5 個維度進行測評。
寫實風格
寫實風格是評價視頻生成模型性能的關鍵指標之一。
這是因為它要求模型能夠精準捕捉并再現現實世界中的細節,包括人物面部表情、光影效果、物體材質等。
我們先上傳了一張 AI 生成的寫實人物圖片,再讓 Ruyi 將其轉為視頻。
視頻中,金發女郎微微抬頭并輕晃身體,形象保持了一致性,面部表情也沒崩。
我們又丟給它一張韓國影星金敏喜的真人照片,在生成的 3 秒視頻中,Ruyi 對于人物面部識別和細節拿捏得還挺到位。
影視劇照
我們再來看看 Ruyi「拍」電影鏡頭的水平。
在 Ruyi 一頓操作下,《老友記》中身著紅衣的莫妮卡似乎在和某人進行對話。
畫面色彩豐富,很有美感,動作幅度也較大。
還有《公主日記》中的安妮?海瑟薇,如果不加以說明,Ruyi 生成的視頻甚至能「以假亂真」。
動畫風格
與其他模型類似,Ruyi 還很擅長生成動畫卡通風格的視頻。
比如這只皮克斯風格的臘腸犬,眼神凌厲,搖頭晃腦:
還有卡通風格的擬人小兔,邁著八字步緩緩走來,雖然運動幅度較大,但畫面很穩定,動作流暢絲滑。
動物
僅需一張小狗的圖片,連提示詞都省了,Ruyi 就能讓靜態的小狗變得活靈活現。
在下面這則小貓的生成視頻中,扭頭動作倒也連貫逼真。
風景
水流的動態涉及到流體動力學的原理,AI 模型需要能夠理解和模擬水流的運動,包括水流的速度、方向等。
Ruyi 呈現了一個微風吹過,湖面泛起陣陣漣漪的畫面。其細節之處在于水波的紋理、陽光照在水面的光影以及水流與巖石碰撞時產生的回流。
下面這則視頻是 Ruyi 模擬攝像機緩慢推進鏡頭的場景。
畫面沿著馬路向前延伸,遠處的行道樹逐漸逼近,很有紀錄片的感覺。
總體來看,Ruyi 的圖生視頻在畫面一致性、動作流暢性以及真實性上表現還不錯,不過仍存在手部畸形、多人時面部細節崩壞、不可控轉場等問題。
智駕公司「半路出家」搞生成式 AI
實際上,圖森未來曾是一家正兒八經的智能駕駛公司。
不過今年 8 月 15 日,這家公司突然宣布進軍動畫與視頻游戲市場,并成立「生成式 AI」新業務部門。
據官方稱,此舉是為了充分利用圖森在自動駕駛領域的技術積累,探索下一個商業化機會。
該公司認為,他們在自動駕駛領域的技術優勢可以轉化為 AI 生成領域的競爭力,做自動駕駛時所積累的 AI 基礎設施和工具、大規模數據處理能力以及模型訓練優化經驗等可以直接轉換到大模型訓練上。
而最佳應用場景又是孵化生成式 AI 工具的原動力,于是他們盯上了動漫和游戲產業,試圖利用大模型降低動漫和游戲內容的開發周期和開發成本。
短短 4 個月時間,圖森就搞出了圖生視頻模型 Ruyi。
除了模型開源外,圖生未來研發團隊還揭秘了背后的模型架構和訓練方式。
作為 Sora 的「幕后功臣」,DiT 架構在近幾年逐漸流行起來。
Ruyi 也是一個基于 DiT 架構的圖生視頻模型。它由兩部分構成:一個 Casual VAE 模塊負責視頻數據的壓縮和解壓,一個 Diffusion Transformer 負責壓縮后的視頻生成。
其中 Casual VAE 模塊會將空間分辨率壓縮至 1/8,時間分辨率壓縮至 1/4,壓縮后每個像素由 16 位的 BF16 進行表示。
DiT 部分使用 3D full attention,在空間上使用 2D RoPE 進行位置編碼,時間上使用 sin_cos 進行位置編碼,最終的 loss 選用了 DDPM 進行訓練。
模型的總參數量約為 7.1B,使用了約 200M 個視頻片段進行訓練。
雖然與其他視頻生成模型相比,Ruyi 發布似乎慢了一拍,功能也相對單一,但畢竟目前開源免費。
對于后續的技術路線和功能升級,圖森未來也有規劃。
他們將在 2025 年推出 Ruyi Standard 閉源模型和一系列 ACG-GEN 工具,滿足專業內容制作團隊的需求。
(ACG 是英文「Anime,Comics and Games」詞組的縮寫,意為動畫、漫畫和游戲)
到 2026 年則發布最強性能版本,支持強大語義理解能力和多條件可控生成。
對此,你有什么看法?來評論區聊聊吧。
? THE END
轉載請聯系本公眾號獲得授權
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.