昨天的AI新聞有點太密集了,肝快廢了。
凌晨2點半,Claude發3.7 Sonnet,凌晨5點半,阿里發了推理模型QwQ-Max的預覽版,早上10點DeepSeek開源了一個DeepEP代碼庫,然后晚上10點20,阿里的視頻模型萬相2.1,也來了。
而且,正式開源。
2月25號是什么黃道吉日嗎。。。
萬相2.1開源鏈接在此:
Huggingface的:https://huggingface.co/Wan-AI
GitHub的:https://github.com/Wan-Video/Wan2.1
阿里,真的也是“源神”。
這次上線的有四個模型,文生和圖生各倆。
文生視頻模型有1.3B和14B兩個規格。圖生視頻模型都是14B,分辨率一個480P一個720P。
這回比較讓人驚喜的是,低配置的模型真的小,1.3B的模型,只需要8個G的顯存就能跑了,也就是說,本地的4060都能跑得動了。
如果你有4090,跑一條5秒鐘的480P視頻的時間大概只要4分鐘。
說實話,在年前的時候,萬相2.1就已經上線通義萬相了。
只不過叫2.1專業和2.1極速版。
這塊在我測試下來,專業版和極速版其實都是14B的,只不過專業版感覺是原生720P,極速版是直出的480P然后超分到720P的。
而1.3B是這次為了本地部署特意出的,所以線上目前還沒有體驗渠道,想用的話,只能自己部署。
我也第一時間跑了一些case,14B因為太大了,我直接用線上的通義萬相來跑的。1.3B我是直接在魔搭上部署了跑的,還是比較簡單的。
https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-1.3B
整體效果上,語義理解、物理真實性、復雜運動的表現,萬相2.1 14B在開源視頻模型里絕對是第一梯隊,而1.3B別看小,但是使用門檻也低啊,在實力上也真的完全不含糊。
直接先上一點我們跑的case。
首先是長文本和Prompt的語義理解表現不錯。一連串動作,都能按prompt順序挨個兒給你實現。
Prompt:空鏡從臥室頂部45度俯拍,一位女子躺在凌亂的床上。清晨陽光透過百葉窗在她臉上投下條紋狀光影。她閉著眼,用手揉眼睛。然后睜開眼睛, 微笑。
14B效果:
1.3B效果:
物理規律和質感表現也挺不錯,這個切檸檬的影子變化、刀面紋理,還有切下去的質感,真實感拉滿。
Prompt:高速攝影拍攝一個新鮮檸檬被切開的瞬間。鏡頭推進,從中景到特寫。鋒利的銀色水果刀從上方切下,檸檬汁飛濺而出,形成細小水珠。特寫畫面呈現檸檬的橫切面和果肉紋理。
14B效果:
1.3B效果:
然后就是萬相2.1剛上線通義的時候,不少人吹的運動表現。
我測下來,雖然還說不上是版本T0,但優點確實也挺明顯。大幅度的動作、旋轉還有動作的速度,都很猛。
Prompt:在冰面上,一位 18 歲的中國美少女明星短道速滑運動員熠熠生輝。她五官玲瓏,神色自信,肌膚勝雪,高馬尾充滿活力。她身著一條薄荷綠的超短薄紗裙,裙擺隨風飄動,上身搭配白色露臍運動背心。以全景鏡頭俯拍,通過軌道車拍攝跟行。柔和的淡藍色燈光從斜前方灑下,光質輕柔,光比偏小,營造出清新的氛圍。她身姿矯健地疾馳,臨近終點時采用推鏡頭特寫其堅毅的眼神和快速擺動的手臂。
14B:
1.3B:
2.1還可以直接實現運鏡效果,連復雜的遮擋物運鏡都行。
Prompt:低機位拍攝圖書館書架,前景書本縫隙間閃過金絲眼鏡的反光。當鏡頭水平移過三格書架,穿灰色毛衣的男生恰好轉頭,看向鏡頭,手中懸停的棕色書本封皮。
14B:
1.3B:
還有必須提一下的文字生成,萬相是全世界第一個能直出中文字的,現在能在AI視頻里,直接生成中文的AI視頻模型太少了。
Prompt:以紅色新年宣紙為背景,出現一滴水墨,暈染墨汁緩緩暈染開來。文字的筆畫邊緣模糊且自然,隨著暈染的進行,水墨在紙上呈現「福」字,墨色從深到淺過渡,呈現出獨特的東方韻味。背景高級簡潔,雜志攝影感。
14B效果:
1.3B效果:
不過文字生成還是有待改進,親測目前只能支持生成非常簡單的、筆畫數少的中文,可以實現的字體也比較少,復雜點的文字內容還是容易出現亂碼和鬼畫符。不過沒關系,這只是剛開始,萬相繼續加油吧,這個方向是非常實用的。
整體來說,萬相2.1語義理解和物理表現都很穩,畫面審美也在基準之上。
而且不要忘了,這玩意可是開源的。。。
對與生態的加持,想象空間太大了。
如果你現在想用萬相2.1的話,有 幾種使用方式。
先說14B的,14B的你可以跟我一樣,直接去官網免費用,每天簽到有50靈感值,如果你在APP上跑一個視頻的話每天可以再加50靈感值。
1個專業版(14B 720P)的視頻,5靈感值,也就是說,你其實一天可以白嫖20個視頻了。
然后就是Hugging Face上的demo,雖然是可以所謂的無限免費用,但是算力太少人太多,基本約等于用不了,可以直接放棄。
還有就是去阿里云百煉,接API用:
https://bailian.console.aliyun.com/model-market#/home
價格的話,Plus(2.1專業版)是每秒0.7元,Trubo(2.1極速版)是每秒0.24元。
然后就是1.3B,如果你本身有8G以上的顯卡,那就無腦直接本地化自己部署就行了。
具體的可以去他們github上看。
其實我最期待的,還是關于ComfyUI的集成,如果這能接進去,那就可以玩很多的花活了。
最后,我還是想表達一下對阿里的敬佩。
AI領域的半壁江山,現在幾乎都是阿里的。
Qwen作為老大哥遙遙領先,新秀萬相補上AI視頻的空白,現在全世界,都知道了阿里的名號。
而且不止是AI圈,金融圈,更是因為阿里在AI上的策略,全世界的資本開始重新關注過來。
你就看看阿里漲了多少吧,帶著恒生科技和中概互聯又飛了多少吧。
中國資產的全面復蘇。
正是因為前幾天阿里炸裂的財報,還有AGI的決心,讓全球的投資者都認識到,中國的宏觀、行業、企業在節點上,都已經完成了對齊。
順帶也告訴全世界:
我們不只在跟跑,我們也開始在領跑了。
未來肯定還會有更多挑戰,但如今,我有理由對阿里,對DeepSeek,對整個中國的AI產業抱以更大的信心。
最后,用一句話收尾吧:
源神之名。
當之無愧。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、穩穩
>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.