網易首頁 > 網易號 > 正文申請入駐

生數科技廖謙：多模態技術定將催生全新內容平臺，實現完全個性化

2025-04-18 09:10:17　來源: 量子位

北京舉報

分享至

編輯部整理自 AIGC峰會
量子位 | 公眾號 QbitAI

多模態生成技術持續突破內容創作的邊界。

生數作為多模態領域的明星玩家，所提供的技術正推動AI視頻創作進入系統性可用新階段。

在本次第三屆AIGC產業峰會上，生數科技產品副總裁、Vidu產品負責人廖謙分享了這樣的觀點：

隨著多模態模型的生成能力發展到實時、可控、可交互，內容可以完全個性化，會誕生全新的內容平臺。

為了完整體現廖謙的思考，在不改變原意的基礎上，量子位對演講內容進行了編輯整理，希望能給你帶來更多啟發。

中國AIGC產業峰會是由量子位主辦的AI領域前沿峰會，20余位產業代表與會討論。線下參會觀眾超千人，線上直播觀眾320萬+，累計曝光2000萬+。

話題要點

視頻生成進入黃金發展期，將迎來“Midjourney V5時刻”級別的突破。
AI能夠給專業創作者、C端消費者和B端企業客戶都帶來生產力的加持。
大模型的可控生成問題亟待解決和突破。
多模態大模型一定會誕生出新的內容平臺。

以下為廖謙演講全文：

多模態大模型的終局：誕生新的內容平臺

多模態大模型可以簡單分為兩個方向：第一是多模態的理解，第二是多模態的生成。

今天我的分享主要聚焦在多模態的生成這一方向。

首先看整體的技術發展，從最左邊的曲線看，主要是文本生成這一塊，也就是大語言模型。文本生成的工作起步相對更早一些，隨著GPT系列技術不斷的演進，它的技術范式相對來說確立一些。

在Scaling Law的加持下，這塊發展得非常快，解鎖的應用場景非常多。而多模態的起步相對晚一些，中間這條曲線是圖像生成，圖像生成已經突破了技術的基點，不管是Midjourney，還有很火的GPT-4o吉卜力的風格在網絡上有非常多的流傳，這一塊發展速度非常快。

第三條曲線是視頻生成，現在視頻生成的研發進入到黃金發展期，當下如何去提升模型的能力、從而達到系統性可用，是我們要去重點解決的問題。

除了視頻生成，最近還有一個很重要的方向是具身智能，具身智能也是多模態方向的應用。當多模態的模型可以利用更多維度的數據，不僅僅局限于文本，還包含音頻、視頻，甚至包括感覺類信息的時候，我相信會產生更高維度的智能涌現。

在產品方面，從2024年Sora發布首個宣傳片，到2024年4月生數科技發布了Vidu——中國首個長時長、高動態性、高一致性的視頻大模型。從去年9月開始，產品的迭代速度非常快，大家都是以月、甚至是周的維度在進行應用的更新、模型的進展。

多模態生成，尤其是視頻生成領域，到底有哪些場景和應用的落地？

這里也分享一些Vidu在全球的落地實踐。去年《毒液：最后一舞》在中國上映的時候，就是用Vidu制作的中國宣傳片，這也是好萊塢五大電影公司首次在中國擁抱AI。

像這樣的內容，完全是由AI生成的。如果用傳統的方式去做，一般需要超過30天，但當時我們總共只花了10天時間。AI除了降本，還可以增效、釋放無盡想象力。這個影片里的轉場特效，其實給創作者帶來了很大的啟發。

此外，我們的超創藝術家柔樹特效還一個人制作了動漫作品，他利用了非常多的AI工具、AI生圖、AI生音樂，包括利用我們的Vidu去做AI的視頻生成。這樣的內容過去一個人完成是不可能的，當前多模態大模型技術不斷發展，已經讓一人工作室成為了可能。現在業界已經有了非常多的小團隊、甚至個人也能進行高質量的內容制作。

AI除了給專業創作者帶來了一些生產力的加持，對我們大眾、對我們C端消費者也帶來了深遠的影響。

這是我們在大眾娛樂全球用戶的使用場景。從去年8月份開始，社交媒體上興起了非常大的一股AI特效玩法的浪潮，包括前幾天GPT4o也屬于這樣的范疇。

去年的時候我們看到全球社交媒體上有非常多AI擁抱、AI親吻，甚至一些變身的玩法，尤其是我們發現很多用戶可以跟去世的親人或者明星進行互動。多模態技術發展之前，這樣的內容制作成本非常高，也不可能說僅僅上傳張兩張圖片就能達到這樣的效果。

除了大眾娛樂和專業創作者，我們在廣告營銷、內容營銷領域也有非常多的落地實踐。

第一個是電商的場景，電商我們有非常多的存量的營銷圖片，在視頻的時代，不管亞馬遜電商或者其他電商，都會希望商家上傳盡可能多的視頻內容，基于存量圖片我們可以結合大模型生成一些內容，包括人物、物體的運鏡轉場，還有比較趣味的動態海報，用戶所需要的僅僅是上傳一些圖片加上提示詞描述即可。

然而，多模態生成還是有很多問題亟待解決，其中一個重要的問題就是如何解決隨機的問題，讓模型按照我們想要的方式生成。

實際上生數科技自成立以來一直在研究和思考可控生成問題。

第一個可控問題是位置，上面是輸入圖片，我們可以擬定一些角色、場景和道具的參考，也希望模型按照我們畫的線稿圖確定位置。

當前的行業現狀是，它的物理規律和出現的方式非常奇怪，很難做到可控。但是在Q1模型的加持下，我們可以做到精準控制不同角色的位置，也能做到比較符合人類的審美和自然規律。

除了位置可控，還有運動布局的可控。給定人物角色、場景和道具，我們希望按照我們想要的軌跡進行運動。行業現狀是雖然我們給了一些參考，但是出現的方式很奇怪。而未來ViduQ1模型可以精準控制機器人，從畫外走向畫內，比例和軌跡運動的幅度都會比較自然。

生數科技將于下周發布Vidu Q1模型，歡迎大家屆時在APP端和網頁端體驗。Q1的更多可控相關功能未來也會陸續上線，敬請期待。

我們這次會推出可控音頻，通過文字加上時間軸的方式控制音頻的生成，我們只需要輸入下面的文字就可以生成對應的音頻，整體做到視頻和音頻同時精準的控制。

我相信今年是多模態生成的爆發之年，在多模態領域我認為有三個方面趨勢：

趨勢一，視頻生成這一塊內容大量大幅提升，將迎來視頻生成領域的Midjourney V5時刻。
趨勢二，當前視頻生成主要是默劇片斷的方式，并不是音視頻內容的直接生成，今年大模型會發展成音視頻直接生成的情況。
趨勢三，我們相信有非常多專業和半專業用戶會涌入，之前還在猶豫觀望的人群將大規模涌入產生破圈高價值的內容。

作為產品經理，我也分享一下對多模態大模型終局的思考。

我認為多模態大模型一定會誕生出新的內容平臺，這個內容平臺跟當前的內容平臺肯定不一樣。當前內容平臺不管是TikTok或者YouTube，更多內容是提前制作好的，不管內容是UGC（用戶生成內容）或者PGC（專業生產內容），通過推薦算法做到內容的個性化推薦，但它并不是內容的個性化生成。

隨著多模態技術發展，當多模態可以做到實時可控、可交互的時候，它可以是完全個性化的，屆時一定會誕生出帶來新體驗的內容平臺，這個技術未來將應用在社交、游戲、VR、AR等多個領域，會對所有的行業帶來非常深遠的影響。

關于生數科技

生數科技成立于2023年3月，創始人是朱軍教授，致力于打造全球領先的多模態大模型及應用產品，該團隊在國際頂會和頂刊上發表的論文超30篇。

目前，生數科技在全球取得了一些成績，當前已經支持面向全球海量用戶和企業用戶。

ToC方面，Vidu產品上線20天用戶突破百萬，上線100天突破千萬用戶，且用戶絕大部分來自于海外；ToB方面，生數科技也跟國內外的一些巨頭和創業公司有合作，包括百度、360、美圖、同花順等。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.