- 克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
“史上最強視覺生成模型”,現在屬于快手。
一基雙子的可靈AI基礎模型——文/圖生圖的可圖、文/圖生視頻的可靈,都重磅升級到2.0版本。
- 可圖2.0,對比MidJourney 7.0,勝負比「(good+same) / (same+bad)」超300%,對比FLUX超過150%;
- 可靈2.0,文生視頻對比Sora勝負比超360%,圖生視頻對比谷歌Veo2勝負比超180%。
新版本當中,兩款模型的語義遵循能力和美學能力均大幅提升,還新增了圖像編輯、風格轉繪等一系列新功能。
并且一如既往堅持不搞期貨,發布會一結束,兩款模型及新功能就立即上線可用。
模型發布后,也引發國內外廣泛討論,就連馬斯克也在X上連夜關注了可靈AI官方賬號。
實測可圖全新升級
在過去,MidJourney生圖+可靈圖生視頻是一種常用的創作工作流。
但隨著可圖的全新升級,創作者們可以告別MidJourney,在可靈AI的平臺內完成這一系列操作了。
相比前一代模型,可圖2.0基礎模型的第一個亮點,就是語義遵循能力大幅提升,具體又可以分為三個方面——
復雜元素響應更精準、鏡頭語言設計更合理、畫面細節表現更豐富。
話不多說,直接看案例:
- 黑白照片,少女照鏡子,鏡子里映出她老年的樣子,寫實攝影,左右對比,側面構圖,電影光照,一位白裙少女正在一個復古圓鏡前照鏡子,倫勃朗光照,景深攝影。
這組提示詞設置了“現實”中的少女樣貌和鏡子中老年形象的反差,這樣的場景是一種藝術設計,在真實世界中并不存在。
即便如此,可圖2.0還是按照提示詞中的要求完成了創作,構圖、顏色等設置也都滿足提示詞要求。
相比之下,前一代生成的圖片,除了確實有一位少女和一個鏡子之外,和提示詞幾乎沒有什么關聯。
再看第二組。
- 春節,爺爺奶奶,爸爸媽媽,1個男孩,5個人其樂融融的互相聊天,桌上的菜肴豐富。
這個設定看似簡單,但實際上想要讓準確呈現人或物體的數量,一直以來都不是一件容易的事。
但可圖2.0的作品當中,人物的數量,以及人和人之間的關系,都完美契合了提示詞的要求。
而前一代產品,四張圖無一例外地出現了6個甚至更多的人物,性別和年齡設定就更隨意了。
內容和細節之外,可圖2.0對提示詞中的構圖、光線和景別設定的響應,也變得更加精準
- 一位盤著淺色毛衣發髻的絕美的東方女性背對鏡頭,倚坐在木質窗邊的扶手椅上,手中的書本在自然光下泛著柔和的紙頁光澤。她的姿態松弛而專注,淺色長裙垂落椅邊,與窗外險峻的雪山形成奇妙呼應——遠處峰巒正被夕陽染成熔金般的色彩,雪線與藍天交界處泛起淡紫的暮靄,粗獷的自然景觀透過玻璃窗框,化作室內暖色空間里一幅流動的油畫。窗臺上冒著水珠的玻璃瓶和搖曳的燭火,在木紋窗臺投下細長的光影,昏暗的室內環境,極簡,大面積留白,影視化構圖,光影美學,夢核,迷惑,豐富的細節,逼真,憂郁,悲傷,朦朧,模糊,虛焦,逆光,攝影,寶麗來風格。
在翻譯行業里,能否做到“信、達、雅”是衡量結果質量的常用標準,放到AI繪圖當中,這套標準也同樣適用。
因為AI繪圖,也可以看作是從文本到視覺信息的一種“翻譯”。
如果說對指令的遵循體現了“信”和“達”,那么可圖2.0的“電影美學表現”,就是在向著“雅”的層次邁進。
來看實測效果。
- 電影質感,下午一位穿淺色衣服的亞洲男人站在路邊打電話,前景有綠色汽車飛速駛過。光影柔和。參考《重慶森林》電影質感。
- 電影感,參考《贖罪》風格,樹林里光線明暗交替,一個女生拿著花束,穿著法式綠色紗裙在樹林中奔跑,她飄逸的卷發隨風飛舞,中景,動態模糊。
可以看出,可圖2.0在勾勒電影質感時,運用了更高級的色彩及光影,使得情緒表達更具感染力。
另外可圖2.0也進行了多風格化響應,支持近百種風格,無論是古典還是現代、寫實還是夸張、實拍還是動漫都能搞定,包括GPT-4o帶火的吉卜力風也能生成。
- 白衣劍客動態姿勢,絲質長袍飄動,劍鋒直指前方。背景懸浮萬劍陣列呈幾何矩陣排列,冷鋼質感伴隨青藍刃光。金色光粒子在氣流中旋繞,柔和的體積光照。強烈明暗對比搭配輪廓光強化肌肉線條。純黑虛空背景增強景深對比。超精細8K渲染,ZBrush級布料雕刻紋理,Octane金屬反射材質。劍身霧氣效果含次表面散射。構圖融合天野喜孝幻想美學、Greg Rutkowski電影級打光與《劍靈》概念設計元素。
- 新海城風格,穿著運動裝的少女在霓虹閃爍的都市街道上疾速奔跑,飄動的長發掠過街邊玻璃櫥窗倒影,交通信號燈在暮色中切換成流動的光帶,背包上的掛飾隨著步伐晃動,柏油路面蒸騰著雨后水汽,廣告牌與電子屏的光斑交織成迷離的背景光暈。
不僅模型,可圖這次更新也增加了兩大全新功能——風格轉繪和圖片編輯
下面的這12張圖,就是由同一張圖片,搭配不同風格提示詞,使用可圖轉繪而成的。
而圖片編輯具體包括了局部重繪和擴圖兩個方面。
有了局部重繪,不僅可以對現實中的圖像進行修改,當得到一張風格特別好但細節有瑕疵的圖片時,也不用再從頭開始“抽卡”了。
比如想要把前面展示的年夜飯照片中小男孩手里的魔方換成螃蟹,就可以框選或涂抹目標區域,然后提出修改要求,就可以等待成果了。
生成的結果是這樣,完成了選中部分的重繪要求,同時未選擇的部分沒有任何變動。
在擴圖功能中,既可以把自己的想法交給可圖實現,也可以什么也不說,給定一個比例,讓可圖自行發揮想象。
擴圖結果,無提示詞
當然,可圖2.0的局部重繪和擴圖并不局限于上面的傳統用法,創作者可以充分發揮想象力,創造出別具一格的作品。
這里就用一個例子拋磚引玉,更多的玩法就交給創作者們自行探索了~
在可圖模型和功能全面上新的背后,是可靈大模型團隊做出的一系列技術創新。
首先是利用全新升級的文本表征處理鏈路,精準建模預訓練文本到視覺表征的映射,這正是可圖2.0語義遵循能力提升的關鍵。
可圖2.0還采用了自適配圖像Caption構建策略,顯著提升了各階段的學習效率。
此外,可靈大模型團隊還在探索后訓練階段的Scaling Law,對數據體系和多樣性進行了全面升級,并應用全新提示詞工程和去噪策略,從而提升模型的表現力。
超越文本,AI創作的新方式
可圖的升級,既是為了更好滿足圖像創作者的需求,也是為了給視頻創作者提供更好的素材獲取途徑。
發布會上,快手副總裁、可靈AI負責人張迪介紹,在使用可靈生成視頻的用戶當中,有85%使用的是圖生視頻。
但其中涉及到的圖片素材,不一定是拍攝或手繪而成,也可能包括生成結果。
相比于完全由文字生成視頻,圖片能夠體現出文本無法精準描述的細節,從而讓視頻生成模型對目標的把控更加清晰。
因此,這種“曲線救國”的方式,可以降低視頻生成結果的不確定性,減少試錯成本,因此受到了用戶的青睞。
這樣看來,可靈AI團隊不斷打磨圖像生成模型的目的,就顯而易見了。
當然除了可圖,視頻生成模型可靈也進行了升級,針對之前指令遵循不好、動態效果不佳、美感缺乏的問題做出了全面升級。
可靈2.0對比谷歌Veo2的勝負比為205%,對比Sora的勝負比達367%,在文字相關性、畫面質量、動態質量等維度上顯著超越對手。
模型與產品升級之外,快手也在探索一種人與AI之間的新型交互方式。
快手高級副總裁蓋坤表示,文字在表達影像信息時是不完備的,我們需要探索新的方式,才能讓人真正精準地表達出心中所想。
所以在本次發布會上,可靈AI正式發布AI視頻生成的全新交互理念——多模態視覺語言(Multi-modal Visual Language,MVL)。
MVL讓用戶能夠結合圖像參考、視頻片段等多模態信息,將腦海中包含身份、外觀、風格、場景、動作、表情、運鏡在內的多維度復雜創意,直接高效地傳達給AI。
基于MVL這一全新交互方式,可靈2.0大師版全面升級了視頻及圖像創作可控生成與編輯能力,上線了全新的多模態視頻編輯功能。
加上之前已有的提示詞優化、音效生成、對口型等一系列功能,快手已經初步構建出了從創意到視覺呈現的完整創作鏈路
這不僅讓專業創作者能夠精準還原腦海中的藝術構思,更讓普通用戶通過“所見即所得”的交互邏輯釋放創作潛能。
讓每個人都能用AI講出好故事
發布會上,蓋坤再一次講到了可靈的愿景——讓每個人都能用AI講出好故事。
自去年6月發布以來,可靈AI已累計完成超20次迭代,累計生成1.68億段視頻和3.44億張圖片素材。
在這一過程當中,可靈AI一直堅守初心,不斷提升模型基礎質量和模型效果,并引入更多創新功能,以滿足用戶的多樣化需求。
包括可圖和可靈2.0版本升級,以及MVL的提出,同樣是在掃清“用AI講好故事”的道路上的障礙。
可靈越來越完備的產品體系和工作鏈路,正在讓AI創作變得愈加觸手可得。
甚至為了幫助不懂提示詞的純小白用戶完成創作,可靈還在Web和APP當中接入了經過專門為設計提示詞而調整的DeepSeek模型,進一步降低了AI視頻創作的門檻。
可靈的表現也獲得了大佬的認可,比如馬斯克早在去年八月就曾評論一則由可靈AI制作的內容,稱“AI娛樂產業正飛速發展”。
到現在馬斯克連夜關注官方賬號,進一步說明可靈已經徹底打造出了國際口碑。
總之,快手正在用技術讓影像創作回歸本真——專業者能精準雕琢每個光影細節,普通人也可憑直覺編織動人故事。
當技術逐漸溶解專業壁壘,那些曾遙不可及的藝術表達,終將成為每個人記錄世界的本能,讓每個平凡瞬間都自帶美學重量。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.