網易首頁 > 網易號 > 正文申請入駐

AI 視頻的國產之光，這個新功能徹底解放抽卡的雙手

2025-01-10 12:05:21　來源: 愛范兒

廣東舉報

分享至

看完《魷魚游戲》不過癮？干脆自己做個結局。

不想等《沙丘》第三部了？自己上手做一個。

放在以前，光是要讓這些演員不走形、不崩壞，都要費半天勁。現在只需要丟一張截圖給 AI，就可以開始做電影了。

這是海螺 AI 上線的「主體參考」功能，由全新的 S2V-01 模型提供底層技術支持，可以精準識別所上傳圖片中的主體，并設定為所生成視頻的角色。剩下的，只需要簡單的 prompt 指令，就可以隨意發揮。

▲來自 X 用戶@KarolineGeorges 的創作，面部信息精準保留

▲來自 X 用戶@Apple_Dog_Sol 的創作，呈現多元主體

「主體參考」怎么就這么牛了

有一說一，「主體參考」的功能很多廠商都在做。但并非每一家都能攻破這項功能所涉及的難點：穩定、連貫，運動起來依然一致。

別人可能不行，但海螺 AI 可以。只需要一張圖片，就能準確理解人物特征，識別為主體，隨后讓人物出現在各種場景和環境里。

上一秒還在拯救世界的蜘蛛俠，下一秒就騎上機車了。

本來應該在權游里訓龍的龍媽，一轉眼在逗小狼。

「主體參考」的突破性進展在于實現了創作自由度和還原度的完美平衡。這就像是給了創作者一個「萬能演員」，這位演員的外形不會崩壞，而是能隨著動作、姿態自然地變化，還能根據導演的要求，在任何場景中表演任何動作。

不僅是新功能，更是獨特的技術方案

實測下來的感受是：主體參考是一個截然不同的功能，跟文生、圖生所實現的效果并不一樣，背后所涉及的技術難點不同，對技術思路的要求也不同。

傳統的圖生視頻，只是讓靜態的圖片動起來，而且主要是局部的改動。以這張宋慧喬的劇照為例，圖生只是把原來靜態的圖片變成了動態，而且范圍有限，不會有很大的動作。

▲ 原始劇照

▲ 基于圖生視頻的成片

同一張照片，「主體參考」卻能基于 prompt 的文字，形成一個完整的片段，動作自由的同時，面部特征依舊穩定實現。

▲ prompt：暖調室內打光，劇院觀眾席中，主人公身穿黑色西裝，坐在中排靠左的位置。她的表情充滿專注，時而露出輕松的微笑，雙手鼓掌，動作自然且富有節奏感。鏡頭從主人公側面開始，捕捉她身邊其他觀眾的剪影和暗淡的座椅紋理，強調環境的層次感。隨著鏡頭推進，主人公站起來。

以人物為主體生成視頻，目前有兩種技術路線。一種是基于 LoRA 技術，對預訓練的大型生成模型，進行特定微調。LoRA 在生成新視頻時，需要大量計算。這就導致用戶必須上傳同一主體、不同角度的素材，甚至精確到單個片段需要具備哪些不同的元素，才能保證生成質量。同時還需要消耗大量的 token，以及漫長的等待時間。

基于大量的技術探索，MiniMax 選擇了基于圖片參考的技術路線：圖片包含的視覺信息最準確，從圖片出發，符合物理拍攝的創作邏輯。在這個技術路線中，畫面的主人公是所有視覺信息中，模型最優先識別的——無論接下來出現什么畫面、無論什么情節，主體都需要保持一致。

而其它的視覺信息則更加開放，由文字 prompt 進行控制。這樣一來，就能實現「精準還原+高自由度」的生成目標。

▲山谷的空地中，主人公站在巨龍前，長發隨風飄動。鏡頭逐漸拉升，捕捉主人公轉身看向遠方的動作，巨龍的翅膀展開，吹動主人公的頭發和她的裙擺，畫面最終以俯拍收尾

這段視頻里，只傳給了模型一張龍媽的圖片。最終呈現出來的視頻中，模型準確呈現了 prompt 中涉及的鏡頭語言、畫面元素，體現出極強的理解能力。

圖片參考的技術路線，相比于 LoRA 方案，肉眼可見的減少了用戶上傳的素材，數十段視頻化為一張圖片。同時等待時間以秒計算，體感上和文字生成、圖片生成所花的時間差不了多遠——既有圖生視頻的準確，又有文生視頻的自由。

國產之光，滿足你的「既要又要」

「既要又要」并不是過分的要求。只有同時實現人物形象的準確一致和自由活動，才能讓模型走出整活、做梗圖的范疇，在行業應用場景中，具有更廣泛的使用價值。

比如在產品廣告中，一張模特圖，直接針對多種產品生成視頻，只需要改變 prompt 就能實現。

如果用圖生視頻的方式來實現，目前的主流方案是設置首尾幀，可以實現的效果也被已有圖片限制住了。同時還得要反復抽卡，收集不同的角度，最后再把素材拼接在一起，才能完成一組有長度的鏡頭。

結合不同技術的特點，更加符合視頻創作的工作流程，正是「主體參考」的優勢。未來，超過 80% 的營銷從業者會在不同的環節用到生成式工具，他們只需要專注在故事和情節構思上，解放抽卡的雙手。

Statista 的統計顯示，2021 年時廣告營銷的生成式 AI 產品市場規模已經超過 150 億美元。到 2028 年時這個數字將達到 1075 億美元。以往的工作流里，純粹的文生視頻有太多不可控，適合用在創作初期。歐美的廣告營銷行業里生成式 AI 已經非常普遍，其中 52% 的用例是在初稿、策劃，48% 用于頭腦風暴。

目前，海螺 AI 先開放的是對單個人物的參考能力，未來，將會拓展到多人、物體、場景等更加豐富的參考能力，進一步解放創造力，正如海螺的 slogan 所提出的，「每個想法都是一部大片」。

自從去年 8 月，MiniMax 發布視頻模型以來，從生成畫面品質、流暢度，到一致性和穩定性等方面，在海外持續吸引著大量用戶的關注和體驗，其中不乏有影像創作經驗的從業者，收獲了大量正面反饋和專業認可。

在過去一年多的技術競爭中，AI 視頻生成領域的競爭格局初步展現。Sora 的實現效果使人們看到視頻生成這一領域的潛力，隨后各大科技公司，在這一領域紛紛投入資源，重金研發。

隨著年底 Sora 產品推出延遲、以及用戶試用的口碑平平，未能滿足市場期待。這也給了其它玩家搶占市場的機會。

如今，在生成式視頻即將走入下半場之時，如今真正展現出技術實力和發展潛力的只有三家：MiniMax 的海螺 AI、快手的可靈 AI、以及字節的即夢 AI 。

作為一家成立剛剛 3 年的初創公司，MiniMax 以精悍干練的初創公司體量，帶來足以躋身 T0 水準的產品和技術。從去年 12 月的圖生視頻模型 I2V-01-Live，到現在的 S2V-01 新模型，都在解決以往視頻生成中的棘手難題。

隨著技術的不斷成熟和應用場景的逐步擴大，視頻生成 AI 會在內容創作、影視制作、營銷傳播等領域掀起新一輪革命。這幾家代表著中國視頻生成 AI 領域最高水平的廠商，除了繼續領銜國內市場，更有望在全球范圍內與國際巨頭展開競爭。與此同時，如何在保持技術創新的同時，確保產品的穩定性和可控性，將是這些企業面臨的持續挑戰。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.