AI好好用報道
編輯:Sia
音頻視頻的同步生成,是時候開卷了~
承認吧,雖然谷歌 Veo2 在視頻生成上完虐了 Sora,但生成的還是個默片。
沒聲音的 AI 視頻,說白了就是個半成品。
看看這組數字:
谷歌開放的大規模音頻數據集 AudioSet 顯示,82% 以上的視頻都有人聲或音樂;
去年抖音上傳的 100 多億條視頻里,差不多八成都配了背景音樂。
號稱今年華語最佳電影《好東西》最封神的一場戲,正好也與聲音有關。
在聲效蒙太奇下,日常家務也有山河之聲。
最近火爆全網的 The Heist 也是個好例子。
來自 x @jasonzada
雖然每個畫面都是用 Google Veo 2 靠文字生成的,但你猜怎么著?
作者最費勁的活兒反而是后期音效 ,全靠手動完成。
作者吐槽,最為致命
看來大家說的沒錯啊,視聽同步生成還真是 AIGC 領域的下一個「硬骨頭」!但好消息是,戰斗已經打響了。
近期,伊利諾伊大學和索尼的聯合團隊搞出了一個配音工具 MMAudio——上傳一段視頻,不需要人工手動,系統可以自動生成合適的音頻,效果很不錯。
一個 8 秒的高質量音頻片段僅需 1.23 秒!
工具鏈接:
https://replicate.com/zsxkib/mmaudio
官方 Demo 先走一波:
Videos from Sora
Videos from Veo 2
MMAudio 專注于模擬真實世界的各種聲音,主要分兩大類:環境音效和動作音效。
環境音效指的是場景中的背景聲音,比如下雨聲、河流聲、風吹樹葉的沙沙聲、鳥叫聲等自然環境的聲音。
這是大導演庫布里克的電影《閃靈》中的一個場景,原來只有背景音樂,沒有音效。
體驗一下 MMAudio 想象出來的效果。
來自 X @cocktailpeanut
災難現場的模擬。
來自X @blizaine
動作音效則是視頻中可見事件產生的聲音,例如物體碰撞的聲音、運動器材的聲音(如網球拍擊球)、動物的叫聲(如狗叫)等。
MMAudio 可以重現李小龍功夫音,難得的是,雙節棍舞動的聲音也有卡點。
來自x @cocktailpeanut
就連一段蘋果發布會的視頻也能整出動靜。你別說,挺合理,同樣卡點準確!
我們也試了一把。
這是一段旅行拍攝的山鵪鶉,因為距離很遠,原視頻只有雜音。
上傳到 MMAudio 、輸入提示詞,結果很理想。
不僅沒了原來的雜音,還添加了動物的聲音,更適合發圈了:
提示詞:A covey of quail
上傳一段法國小哥賣煎餅果子的視頻,聽聽音效怎么樣?
MMAudio 就像一個專業擬音師,通過生成與視頻畫面在語義和時間上都同步的自然聲效,讓視頻內容更真實生動。
雖然它的主要目標不是生成音樂和人聲,但研究表明,多模態聯合訓練并未影響其在單模態任務上的表現。
換句話說,它也能生成背景音樂甚至人聲,雖然不是專業的。
官方給出的demo之一,就是給視頻配上印度風格的BGM。
確實也有網友用 MMAudio 生出了背景音樂。
prompt: Christmas snow holiday music Santa Claus Festive
話又說回來,有沒有給視頻一鍵生成背景音樂的工具呢?你別說,還真有!而且,免費!
且聽下回分解。
以后我們會帶來更多好玩的AI評測,也歡迎大家進群交流。
? THE END
轉載請聯系本公眾號獲得授權
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.