半個月前,字節的OmniHuman-1模型在全球的AI圈,都掀起了巨浪。
可能有些朋友不知道這是個啥,我大概通俗易懂的解釋一下:
一張圖+一段音頻,就能生成超逼真的唇形同步AI視頻。
聽起來好像是不是之前已經有了?沒毛病,這種AI視頻我們一般稱為對照片說話,我自己之前也寫過:
那時候的效果是這樣的:
說實話,這個效果已經很不錯了,但是有個最大的問題,就是只能生成面部或者頭部的動畫,背景、肢體全都沒法動,非常的尷尬。
而這一次,OmniHuman-1做了巨幅的突破,一張照片+一段音頻,就可以生成背景是動態、支持全身動作的視頻,甚至還能保證口型同步。
在我心中,這好像才是真正的Sora該有的樣子。
而我等啊等啊等啊。
終于,在今天深夜,我等來了OmniHuman-1的內測。
這一次,他們把這個模型也放在了老朋友即夢上。
視頻生成中的對口型上的大師模式,就是OmniHuman-1。
三種模式的描述對比一下:
在我玩了2個小時后,我只能感嘆一句:
AI視頻中的人物表演,也終于走進了下一個時代。
視頻中的人物,再也不是默劇了,讓人物開口說話也終于不用先跑一段動態AI視頻再換口型了。
只需要一鍵,就直接生成一段帶表演的、帶口型的15秒視頻。
這就像當年的語音,從TTS,進化到了端到端的聲音一樣。
酷到爆炸了好嗎。
給大家看下怎么用,真的巨簡單。
首先,你需要準備一張人物角色圖和一段音頻。
圖的話沒啥需要注意的,不同于之前的生動模式會強制剪裁,現在的OmniHuman-1支持任何比例,同時我自己測試下來,有個問題比較大,就是角色的審核非常嚴格。
貓貓狗狗之類的動物不能生存我能理解,但是一些擬人角色,或者稍微側面一點的,都顯示未檢測到可用角色,比如我傳這個哪吒的圖:
就會顯示這個:
這個我覺得就有一點問題,我就去直接問了下產品經理,是BUG,還是模型特性。產品的回復是:
至于音頻的話,除了真人配音之外,如果想用AI生成,我比較建議去海螺AI,目前我覺得最強的AI語音。我曾經也寫過一篇文章介紹:
https://hailuoai.com/audio
全部準備就緒上傳之后,你只要,點擊生成就可以了。
比如我準備了一張哪吒的圖片,和一段哪吒2里非常經典的語音。
然后,他兩直接合成了一段,AI哪吒念詩。
這效果,雖然有一些瑕疵,而且不能跟哪吒2原片段比,但是已經是我見過的,表演最好的了,畢竟你要是真能跟哪吒2片段打個平手。。。
那...AI對于影視的沖擊...
我又整了個活,讓奧特曼...來搞個花的。
這個運動非常夸張,不僅奧特曼自己的表演是到位的,背景里面的行人也是匆匆,左右穿越,穩得一筆。
又或者這個miku醬彈吉他。
太牛逼了。
再放幾個跑的case。
甚至不止單人,連多人...都可以。
AI女團有望。
從以前要調動畫、找配音、做后期合成,至少得個把星期的工作量,如今十幾秒鐘就能完成,還能批量跑,簡直讓人不敢相信這是現實。
說實話,這就是我心里那個AI視頻2.0時代的標志。
人物不僅動了,還能用自然語音去表達信息,真正把視頻當做核心載體,讓AI深度參與到表演和敘事中。
這樣的想法放在半年前,像極了天方夜譚,可它如今就真實地擺在你面前。
再往后,我們也許要重新思考。
影視、動畫、廣告、甚至直播,這些傳統概念,會不會因為一個AI,而統統被打碎重構?
相信,結論,都在大家的心中。
只是時間上的尺度有不同而已。
科技的長河滾滾向前。
從來不會等待,任何人。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.