AI好好用報(bào)道
編輯:楊文
終于識(shí)得Sora真面目。
Sora 千呼萬(wàn)喚始出來(lái)。
10 日凌晨,OpenAI 直接開(kāi)放了 Sora 的新版本 ——Sora Turbo,ChatGPT Plus 和 Pro 用戶(hù)可以直接上手體驗(yàn)。
鏈接直達(dá):https://sora.com/
相較于今年 2 月 16 日發(fā)布的 Sora 預(yù)覽版,這個(gè)新版本速度更快,功能也更全,一口氣上線了 Remix、Re-cut、混合、故事板剪輯、風(fēng)格預(yù)設(shè)等多項(xiàng)功能。
(查看詳情,請(qǐng)移步:)
Sora 吊了太長(zhǎng)時(shí)間的胃口,此次一經(jīng)上線,網(wǎng)站直接被擠崩。
不過(guò),還是有不少博主在社交平臺(tái)上放出了一手體驗(yàn)。
(Prompt:一只獅子和一只貓?jiān)谔镆袄锿嫠?
翻車(chē)來(lái)得猝不及防。
知名科技博主 @MKBHD從上周就用上了 Sora 最新版。在嘗試了各種風(fēng)格和角色、向它拋出了幾十個(gè)提示詞后,最終得出了以下結(jié)論:
搞抽象,或者生成藝術(shù)風(fēng)格鏡頭,那水平絕對(duì)一流,但一遇到寫(xiě)實(shí)風(fēng)格,別的大模型有的毛病,Sora 照樣有。
生成效果很逼真,但文字仍會(huì)亂碼
Prompt :CBS style of video of news coverage of a recent fog event. 提示詞:CBS 對(duì)近期大霧事件的新聞報(bào)道視頻。
眾所周知,AI 經(jīng)常會(huì)把文字處理成一些奇怪的「鬼畫(huà)符」,Sora 生成的這段視頻也不例外,其中包含了很多混亂的文字。
不過(guò),Sora在生成視頻時(shí)能夠模擬一些視頻編輯技巧,如插入不同鏡頭、制作滾動(dòng)條效果,以及模擬新聞風(fēng)格的視頻拍攝,生成的新聞主播看起來(lái)也很真實(shí)。
難以理解和模擬現(xiàn)實(shí)世界中的物理規(guī)律
Sora 并未對(duì)視頻中的物體產(chǎn)生「理解」,模型仍然容易出現(xiàn)「幻覺(jué)」,主要表現(xiàn)為不合邏輯的運(yùn)動(dòng),以及缺乏物理恒常性。
比如,生成的視頻中物體會(huì)相互穿透,或者無(wú)故消失和重現(xiàn)等。
Prompt :A black tech reviewer talking about a smartphone, while sitting at a desk in front of 2 displays. 提示詞:一位黑人技術(shù)評(píng)論員坐在辦公桌前,面對(duì)兩臺(tái)顯示屏談?wù)撘豢钪悄苁謾C(jī)。
在這段視頻中,黑人小哥的表情、動(dòng)作還挺逼真流暢,但是細(xì)究起來(lái)也有不少 bug。
比如,黑人小哥右手拿的手機(jī)總是憑空出現(xiàn)或消失,而且他的左手會(huì)在不經(jīng)意間多根手指或少根手指。
同時(shí),Sora 也并未嚴(yán)格遵循文本描述,黑人評(píng)論員不是面對(duì)兩臺(tái)顯示屏,而是背對(duì)。顯示屏中的圖片也都出現(xiàn)了手指畸變的情況。
Prompt :A high resolution drone shot of the Golden Gate Bridge on a clear morning with a the peak of the bridge poking through some thin clouds. 提示詞:在一個(gè)晴朗的早晨,無(wú)人機(jī)拍攝到的金門(mén)大橋的高清畫(huà)面,大橋的頂峰從薄薄的云層中探出頭來(lái)。
視頻中,跨海大橋上密密麻麻的小汽車(chē)在較大的運(yùn)動(dòng)幅度下,紛紛出現(xiàn)模糊、變形、憑空消失、無(wú)中生有等 AI 視頻中常見(jiàn)的毛病。
Prompt:National Geographic style video of a person befriending a penguin. 提示詞:國(guó)家地理雜志拍攝的與企鵝交朋友的視頻。
在該視頻中,男人不僅手里憑空出現(xiàn)了一條小魚(yú),而且他單膝跪下的動(dòng)作變化也稍顯奇怪。
Prompt:A side scrolling shot of a rhinoceros walking through a dry field of low grass plans. 提示詞:側(cè)滾動(dòng)拍攝的犀牛在干燥的低矮草地上行走的畫(huà)面。
Sora 生成的這只犀牛的運(yùn)動(dòng)就更加驚悚了,要么一躍而起,要么在空中拐彎,總之,你永遠(yuǎn)不知道它下一秒會(huì)落在哪里。
圖生視頻拉胯
在測(cè)試圖生視頻時(shí),該博主發(fā)現(xiàn) Sora 有時(shí)根本不知道在特定圖片中,物體的方向或速度應(yīng)該是怎樣的。
比如,他上傳一張自己騰空接飛盤(pán)的圖片,并輸入 Prompt:He catches the disc before landing.(他在落地前接住了飛盤(pán)。)
當(dāng)人騰空幾乎與地面平行時(shí),接下來(lái)就應(yīng)該是在重力的作用下落地,但在 Sora 生成的視頻中,男人好像擁有了某種超能力,硬生生往前飛出去好幾米。
再如這張和袋鼠的合照,Prompt:The kangaroo jumps over the man.(袋鼠從這個(gè)人身上跳過(guò)。)
最終生成的效果有種莫名的喜感:
媲美紀(jì)錄片的風(fēng)景鏡頭
盡管 Sora 在模擬現(xiàn)實(shí)世界的物理運(yùn)動(dòng)存在一些局限性,但在風(fēng)景渲染方面表現(xiàn)出色。
它幾乎能夠生成任何無(wú)人機(jī)拍攝的標(biāo)志性景觀,或者創(chuàng)造出非常接近于紀(jì)錄片乃至低成本電影中使用的高質(zhì)量鏡頭。
-5-
擅長(zhǎng)動(dòng)畫(huà)風(fēng)格
相比于寫(xiě)實(shí)風(fēng)格,Sora等視頻生成模型更擅長(zhǎng)生成動(dòng)畫(huà)。
一方面是因?yàn)閯?dòng)畫(huà)風(fēng)格不需要嚴(yán)格遵守現(xiàn)實(shí)世界的物理規(guī)則,這減少了模型需要處理的復(fù)雜性。例如,在動(dòng)畫(huà)中,物體可以無(wú)視重力飛行或者以不符合現(xiàn)實(shí)物理的方式變形。
另一方面,動(dòng)畫(huà)通常具有風(fēng)格化的特征,如夸張的表情、色彩和形狀,這些特征更容易被 AI 模型捕捉和模仿。
Prompt:Stop-motion claymation footage of Santa punching a snowman. 提示詞:圣誕老人打雪人的定格粘土動(dòng)畫(huà)片段。
提示詞:claymation of a sentient ball of yarn cute character surfing. 提示詞:一個(gè)有感知能力的毛線球可愛(ài)角色的粘土動(dòng)畫(huà)沖浪場(chǎng)景。
提示詞:They are singing and dancing in the moonlight. 提示詞:他們?cè)谠鹿庀螺d歌載舞。
你有什么看法?歡迎評(píng)論區(qū)聊聊~
詳細(xì)測(cè)評(píng)視頻鏈接:
https://www.youtube.com/watch?v=OY2x0TyKzIQ
以后我們會(huì)帶來(lái)更多好玩的AI評(píng)測(cè),也歡迎大家進(jìn)群交流。
? THE END
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.