看完《魷魚游戲》不過癮?干脆自己做個結局。
不想等《沙丘》第三部了?自己上手做一個。
放在以前,光是要讓這些演員不走形、不崩壞,都要費半天勁。現在只需要丟一張截圖給 AI,就可以開始做電影了。
這是海螺 AI 上線的「主體參考」功能,由全新的 S2V-01 模型提供底層技術支持,可以精準識別所上傳圖片中的主體,并設定為所生成視頻的角色。剩下的,只需要簡單的 prompt 指令,就可以隨意發揮。
▲來自 X 用戶@KarolineGeorges 的創作,面部信息精準保留
▲來自 X 用戶@Apple_Dog_Sol 的創作,呈現多元主體
「主體參考」怎么就這么牛了
有一說一,「主體參考」的功能很多廠商都在做。但并非每一家都能攻破這項功能所涉及的難點:穩定、連貫,運動起來依然一致。
別人可能不行,但海螺 AI 可以。只需要一張圖片,就能準確理解人物特征,識別為主體,隨后讓人物出現在各種場景和環境里。
上一秒還在拯救世界的蜘蛛俠,下一秒就騎上機車了。
本來應該在權游里訓龍的龍媽,一轉眼在逗小狼。
「主體參考」的突破性進展在于實現了創作自由度和還原度的完美平衡。這就像是給了創作者一個「萬能演員」,這位演員的外形不會崩壞,而是能隨著動作、姿態自然地變化,還能根據導演的要求,在任何場景中表演任何動作。
不僅是新功能,更是獨特的技術方案
實測下來的感受是:主體參考是一個截然不同的功能,跟文生、圖生所實現的效果并不一樣,背后所涉及的技術難點不同,對技術思路的要求也不同。
傳統的圖生視頻,只是讓靜態的圖片動起來,而且主要是局部的改動。以這張宋慧喬的劇照為例,圖生只是把原來靜態的圖片變成了動態,而且范圍有限,不會有很大的動作。
▲ 原始劇照
▲ 基于圖生視頻的成片
同一張照片,「主體參考」卻能基于 prompt 的文字,形成一個完整的片段,動作自由的同時,面部特征依舊穩定實現。
▲ prompt:暖調室內打光,劇院觀眾席中,主人公身穿黑色西裝,坐在中排靠左的位置。她的表情充滿專注,時而露出輕松的微笑,雙手鼓掌,動作自然且富有節奏感。鏡頭從主人公側面開始,捕捉她身邊其他觀眾的剪影和暗淡的座椅紋理,強調環境的層次感。隨著鏡頭推進,主人公站起來。
以人物為主體生成視頻,目前有兩種技術路線。一種是基于 LoRA 技術,對預訓練的大型生成模型,進行特定微調。LoRA 在生成新視頻時,需要大量計算。這就導致用戶必須上傳同一主體、不同角度的素材,甚至精確到單個片段需要具備哪些不同的元素,才能保證生成質量。同時還需要消耗大量的 token,以及漫長的等待時間。
基于大量的技術探索,MiniMax 選擇了基于圖片參考的技術路線:圖片包含的視覺信息最準確,從圖片出發,符合物理拍攝的創作邏輯。在這個技術路線中,畫面的主人公是所有視覺信息中,模型最優先識別的——無論接下來出現什么畫面、無論什么情節,主體都需要保持一致。
而其它的視覺信息則更加開放,由文字 prompt 進行控制。這樣一來,就能實現「精準還原+高自由度」的生成目標。
▲山谷的空地中,主人公站在巨龍前,長發隨風飄動。鏡頭逐漸拉升,捕捉主人公轉身看向遠方的動作,巨龍的翅膀展開,吹動主人公的頭發和她的裙擺,畫面最終以俯拍收尾
這段視頻里,只傳給了模型一張龍媽的圖片。最終呈現出來的視頻中,模型準確呈現了 prompt 中涉及的鏡頭語言、畫面元素,體現出極強的理解能力。
圖片參考的技術路線,相比于 LoRA 方案,肉眼可見的減少了用戶上傳的素材,數十段視頻化為一張圖片。同時等待時間以秒計算,體感上和文字生成、圖片生成所花的時間差不了多遠——既有圖生視頻的準確,又有文生視頻的自由。
國產之光,滿足你的「既要又要」
「既要又要」并不是過分的要求。只有同時實現人物形象的準確一致和自由活動,才能讓模型走出整活、做梗圖的范疇,在行業應用場景中,具有更廣泛的使用價值。
比如在產品廣告中,一張模特圖,直接針對多種產品生成視頻,只需要改變 prompt 就能實現。
如果用圖生視頻的方式來實現,目前的主流方案是設置首尾幀,可以實現的效果也被已有圖片限制住了。同時還得要反復抽卡,收集不同的角度,最后再把素材拼接在一起,才能完成一組有長度的鏡頭。
結合不同技術的特點,更加符合視頻創作的工作流程,正是「主體參考」的優勢。未來,超過 80% 的營銷從業者會在不同的環節用到生成式工具,他們只需要專注在故事和情節構思上,解放抽卡的雙手。
Statista 的統計顯示,2021 年時廣告營銷的生成式 AI 產品市場規模已經超過 150 億美元。到 2028 年時這個數字將達到 1075 億美元。以往的工作流里,純粹的文生視頻有太多不可控,適合用在創作初期。歐美的廣告營銷行業里生成式 AI 已經非常普遍,其中 52% 的用例是在初稿、策劃,48% 用于頭腦風暴。
目前,海螺 AI 先開放的是對單個人物的參考能力,未來,將會拓展到多人、物體、場景等更加豐富的參考能力,進一步解放創造力,正如海螺的 slogan 所提出的,「每個想法都是一部大片」。
自從去年 8 月,MiniMax 發布視頻模型以來,從生成畫面品質、流暢度,到一致性和穩定性等方面,在海外持續吸引著大量用戶的關注和體驗,其中不乏有影像創作經驗的從業者,收獲了大量正面反饋和專業認可。
在過去一年多的技術競爭中,AI 視頻生成領域的競爭格局初步展現。Sora 的實現效果使人們看到視頻生成這一領域的潛力,隨后各大科技公司,在這一領域紛紛投入資源,重金研發。
隨著年底 Sora 產品推出延遲、以及用戶試用的口碑平平,未能滿足市場期待。這也給了其它玩家搶占市場的機會。
如今,在生成式視頻即將走入下半場之時,如今真正展現出技術實力和發展潛力的只有三家:MiniMax 的海螺 AI、快手的可靈 AI、以及字節的即夢 AI 。
作為一家成立剛剛 3 年的初創公司,MiniMax 以精悍干練的初創公司體量,帶來足以躋身 T0 水準的產品和技術。從去年 12 月的圖生視頻模型 I2V-01-Live,到現在的 S2V-01 新模型,都在解決以往視頻生成中的棘手難題。
隨著技術的不斷成熟和應用場景的逐步擴大,視頻生成 AI 會在內容創作、影視制作、營銷傳播等領域掀起新一輪革命。這幾家代表著中國視頻生成 AI 領域最高水平的廠商,除了繼續領銜國內市場,更有望在全球范圍內與國際巨頭展開競爭。與此同時,如何在保持技術創新的同時,確保產品的穩定性和可控性,將是這些企業面臨的持續挑戰。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.