- 編輯部 整理自 AIGC峰會
- 量子位 | 公眾號 QbitAI
多模態生成技術持續突破內容創作的邊界。
生數作為多模態領域的明星玩家,所提供的技術正推動AI視頻創作進入系統性可用新階段。
在本次第三屆AIGC產業峰會上,生數科技產品副總裁、Vidu產品負責人廖謙分享了這樣的觀點:
- 隨著多模態模型的生成能力發展到實時、可控、可交互,內容可以完全個性化,會誕生全新的內容平臺。
為了完整體現廖謙的思考,在不改變原意的基礎上,量子位對演講內容進行了編輯整理,希望能給你帶來更多啟發。
中國AIGC產業峰會是由量子位主辦的AI領域前沿峰會,20余位產業代表與會討論。線下參會觀眾超千人,線上直播觀眾320萬+,累計曝光2000萬+。
話題要點
- 視頻生成進入黃金發展期,將迎來“Midjourney V5時刻”級別的突破。
- AI能夠給專業創作者、C端消費者和B端企業客戶都帶來生產力的加持。
- 大模型的可控生成問題亟待解決和突破。
- 多模態大模型一定會誕生出新的內容平臺。
以下為廖謙演講全文:
多模態大模型的終局:誕生新的內容平臺
多模態大模型可以簡單分為兩個方向:第一是多模態的理解,第二是多模態的生成。
今天我的分享主要聚焦在多模態的生成這一方向。
首先看整體的技術發展,從最左邊的曲線看,主要是文本生成這一塊,也就是大語言模型。文本生成的工作起步相對更早一些,隨著GPT系列技術不斷的演進,它的技術范式相對來說確立一些。
在Scaling Law的加持下,這塊發展得非常快,解鎖的應用場景非常多。而多模態的起步相對晚一些,中間這條曲線是圖像生成,圖像生成已經突破了技術的基點,不管是Midjourney,還有很火的GPT-4o吉卜力的風格在網絡上有非常多的流傳,這一塊發展速度非常快。
第三條曲線是視頻生成,現在視頻生成的研發進入到黃金發展期,當下如何去提升模型的能力、從而達到系統性可用,是我們要去重點解決的問題。
除了視頻生成,最近還有一個很重要的方向是具身智能,具身智能也是多模態方向的應用。當多模態的模型可以利用更多維度的數據,不僅僅局限于文本,還包含音頻、視頻,甚至包括感覺類信息的時候,我相信會產生更高維度的智能涌現。
在產品方面,從2024年Sora發布首個宣傳片,到2024年4月生數科技發布了Vidu——中國首個長時長、高動態性、高一致性的視頻大模型。從去年9月開始,產品的迭代速度非常快,大家都是以月、甚至是周的維度在進行應用的更新、模型的進展。
多模態生成,尤其是視頻生成領域,到底有哪些場景和應用的落地?
這里也分享一些Vidu在全球的落地實踐。去年《毒液:最后一舞》在中國上映的時候,就是用Vidu制作的中國宣傳片,這也是好萊塢五大電影公司首次在中國擁抱AI。
像這樣的內容,完全是由AI生成的。如果用傳統的方式去做,一般需要超過30天,但當時我們總共只花了10天時間。AI除了降本,還可以增效、釋放無盡想象力。這個影片里的轉場特效,其實給創作者帶來了很大的啟發。
此外,我們的超創藝術家柔樹特效還一個人制作了動漫作品,他利用了非常多的AI工具、AI生圖、AI生音樂,包括利用我們的Vidu去做AI的視頻生成。這樣的內容過去一個人完成是不可能的,當前多模態大模型技術不斷發展,已經讓一人工作室成為了可能。現在業界已經有了非常多的小團隊、甚至個人也能進行高質量的內容制作。
AI除了給專業創作者帶來了一些生產力的加持,對我們大眾、對我們C端消費者也帶來了深遠的影響。
這是我們在大眾娛樂全球用戶的使用場景。從去年8月份開始,社交媒體上興起了非常大的一股AI特效玩法的浪潮,包括前幾天GPT4o也屬于這樣的范疇。
去年的時候我們看到全球社交媒體上有非常多AI擁抱、AI親吻,甚至一些變身的玩法,尤其是我們發現很多用戶可以跟去世的親人或者明星進行互動。多模態技術發展之前,這樣的內容制作成本非常高,也不可能說僅僅上傳張兩張圖片就能達到這樣的效果。
除了大眾娛樂和專業創作者,我們在廣告營銷、內容營銷領域也有非常多的落地實踐。
第一個是電商的場景,電商我們有非常多的存量的營銷圖片,在視頻的時代,不管亞馬遜電商或者其他電商,都會希望商家上傳盡可能多的視頻內容,基于存量圖片我們可以結合大模型生成一些內容,包括人物、物體的運鏡轉場,還有比較趣味的動態海報,用戶所需要的僅僅是上傳一些圖片加上提示詞描述即可。
然而,多模態生成還是有很多問題亟待解決,其中一個重要的問題就是如何解決隨機的問題,讓模型按照我們想要的方式生成。
實際上生數科技自成立以來一直在研究和思考可控生成問題。
第一個可控問題是位置,上面是輸入圖片,我們可以擬定一些角色、場景和道具的參考,也希望模型按照我們畫的線稿圖確定位置。
當前的行業現狀是,它的物理規律和出現的方式非常奇怪,很難做到可控。但是在Q1模型的加持下,我們可以做到精準控制不同角色的位置,也能做到比較符合人類的審美和自然規律。
除了位置可控,還有運動布局的可控。給定人物角色、場景和道具,我們希望按照我們想要的軌跡進行運動。行業現狀是雖然我們給了一些參考,但是出現的方式很奇怪。而未來ViduQ1模型可以精準控制機器人,從畫外走向畫內,比例和軌跡運動的幅度都會比較自然。
生數科技將于下周發布Vidu Q1模型,歡迎大家屆時在APP端和網頁端體驗。Q1的更多可控相關功能未來也會陸續上線,敬請期待。
我們這次會推出可控音頻,通過文字加上時間軸的方式控制音頻的生成,我們只需要輸入下面的文字就可以生成對應的音頻,整體做到視頻和音頻同時精準的控制。
我相信今年是多模態生成的爆發之年,在多模態領域我認為有三個方面趨勢:
- 趨勢一,視頻生成這一塊內容大量大幅提升,將迎來視頻生成領域的Midjourney V5時刻。
- 趨勢二,當前視頻生成主要是默劇片斷的方式,并不是音視頻內容的直接生成,今年大模型會發展成音視頻直接生成的情況。
- 趨勢三,我們相信有非常多專業和半專業用戶會涌入,之前還在猶豫觀望的人群將大規模涌入產生破圈高價值的內容。
作為產品經理,我也分享一下對多模態大模型終局的思考。
我認為多模態大模型一定會誕生出新的內容平臺,這個內容平臺跟當前的內容平臺肯定不一樣。當前內容平臺不管是TikTok或者YouTube,更多內容是提前制作好的,不管內容是UGC(用戶生成內容)或者PGC(專業生產內容),通過推薦算法做到內容的個性化推薦,但它并不是內容的個性化生成。
隨著多模態技術發展,當多模態可以做到實時可控、可交互的時候,它可以是完全個性化的,屆時一定會誕生出帶來新體驗的內容平臺,這個技術未來將應用在社交、游戲、VR、AR等多個領域,會對所有的行業帶來非常深遠的影響。
關于生數科技
生數科技成立于2023年3月,創始人是朱軍教授,致力于打造全球領先的多模態大模型及應用產品,該團隊在國際頂會和頂刊上發表的論文超30篇。
目前,生數科技在全球取得了一些成績,當前已經支持面向全球海量用戶和企業用戶。
ToC方面,Vidu產品上線20天用戶突破百萬,上線100天突破千萬用戶,且用戶絕大部分來自于海外;ToB方面,生數科技也跟國內外的一些巨頭和創業公司有合作,包括百度、360、美圖、同花順等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.