網易首頁 > 網易號 > 正文申請入駐

最強視覺生成模型獲馬斯克連夜關注，吉卜力風格轉繪不需要GPT了

2025-04-17 20:21:26　來源: 量子位

北京舉報

分享至

克雷西發自凹非寺
量子位 | 公眾號 QbitAI

“史上最強視覺生成模型”，現在屬于快手。

一基雙子的可靈AI基礎模型——文/圖生圖的可圖、文/圖生視頻的可靈，都重磅升級到2.0版本。

可圖2.0，對比MidJourney 7.0，勝負比「(good+same) / (same+bad)」超300%，對比FLUX超過150%；
可靈2.0，文生視頻對比Sora勝負比超360%，圖生視頻對比谷歌Veo2勝負比超180%。

新版本當中，兩款模型的語義遵循能力和美學能力均大幅提升，還新增了圖像編輯、風格轉繪等一系列新功能。

并且一如既往堅持不搞期貨，發布會一結束，兩款模型及新功能就立即上線可用。

模型發布后，也引發國內外廣泛討論，就連馬斯克也在X上連夜關注了可靈AI官方賬號。

實測可圖全新升級

在過去，MidJourney生圖+可靈圖生視頻是一種常用的創作工作流。

但隨著可圖的全新升級，創作者們可以告別MidJourney，在可靈AI的平臺內完成這一系列操作了。

相比前一代模型，可圖2.0基礎模型的第一個亮點，就是語義遵循能力大幅提升，具體又可以分為三個方面——

復雜元素響應更精準、鏡頭語言設計更合理、畫面細節表現更豐富。

話不多說，直接看案例：

黑白照片，少女照鏡子，鏡子里映出她老年的樣子，寫實攝影，左右對比，側面構圖，電影光照，一位白裙少女正在一個復古圓鏡前照鏡子，倫勃朗光照，景深攝影。

這組提示詞設置了“現實”中的少女樣貌和鏡子中老年形象的反差，這樣的場景是一種藝術設計，在真實世界中并不存在。

即便如此，可圖2.0還是按照提示詞中的要求完成了創作，構圖、顏色等設置也都滿足提示詞要求。

相比之下，前一代生成的圖片，除了確實有一位少女和一個鏡子之外，和提示詞幾乎沒有什么關聯。

再看第二組。

春節，爺爺奶奶，爸爸媽媽，1個男孩，5個人其樂融融的互相聊天，桌上的菜肴豐富。

這個設定看似簡單，但實際上想要讓準確呈現人或物體的數量，一直以來都不是一件容易的事。

但可圖2.0的作品當中，人物的數量，以及人和人之間的關系，都完美契合了提示詞的要求。

而前一代產品，四張圖無一例外地出現了6個甚至更多的人物，性別和年齡設定就更隨意了。

內容和細節之外，可圖2.0對提示詞中的構圖、光線和景別設定的響應，也變得更加精準

一位盤著淺色毛衣發髻的絕美的東方女性背對鏡頭，倚坐在木質窗邊的扶手椅上，手中的書本在自然光下泛著柔和的紙頁光澤。她的姿態松弛而專注，淺色長裙垂落椅邊，與窗外險峻的雪山形成奇妙呼應——遠處峰巒正被夕陽染成熔金般的色彩，雪線與藍天交界處泛起淡紫的暮靄，粗獷的自然景觀透過玻璃窗框，化作室內暖色空間里一幅流動的油畫。窗臺上冒著水珠的玻璃瓶和搖曳的燭火，在木紋窗臺投下細長的光影，昏暗的室內環境，極簡，大面積留白，影視化構圖，光影美學，夢核，迷惑，豐富的細節，逼真，憂郁，悲傷，朦朧，模糊，虛焦，逆光，攝影，寶麗來風格。

在翻譯行業里，能否做到“信、達、雅”是衡量結果質量的常用標準，放到AI繪圖當中，這套標準也同樣適用。

因為AI繪圖，也可以看作是從文本到視覺信息的一種“翻譯”。

如果說對指令的遵循體現了“信”和“達”，那么可圖2.0的“電影美學表現”，就是在向著“雅”的層次邁進。

來看實測效果。

電影質感，下午一位穿淺色衣服的亞洲男人站在路邊打電話，前景有綠色汽車飛速駛過。光影柔和。參考《重慶森林》電影質感。

電影感，參考《贖罪》風格，樹林里光線明暗交替，一個女生拿著花束，穿著法式綠色紗裙在樹林中奔跑，她飄逸的卷發隨風飛舞，中景，動態模糊。

可以看出，可圖2.0在勾勒電影質感時，運用了更高級的色彩及光影，使得情緒表達更具感染力。

另外可圖2.0也進行了多風格化響應，支持近百種風格，無論是古典還是現代、寫實還是夸張、實拍還是動漫都能搞定，包括GPT-4o帶火的吉卜力風也能生成。

白衣劍客動態姿勢，絲質長袍飄動，劍鋒直指前方。背景懸浮萬劍陣列呈幾何矩陣排列，冷鋼質感伴隨青藍刃光。金色光粒子在氣流中旋繞，柔和的體積光照。強烈明暗對比搭配輪廓光強化肌肉線條。純黑虛空背景增強景深對比。超精細8K渲染，ZBrush級布料雕刻紋理，Octane金屬反射材質。劍身霧氣效果含次表面散射。構圖融合天野喜孝幻想美學、Greg Rutkowski電影級打光與《劍靈》概念設計元素。

新海城風格，穿著運動裝的少女在霓虹閃爍的都市街道上疾速奔跑，飄動的長發掠過街邊玻璃櫥窗倒影，交通信號燈在暮色中切換成流動的光帶，背包上的掛飾隨著步伐晃動，柏油路面蒸騰著雨后水汽，廣告牌與電子屏的光斑交織成迷離的背景光暈。

不僅模型，可圖這次更新也增加了兩大全新功能——風格轉繪和圖片編輯

下面的這12張圖，就是由同一張圖片，搭配不同風格提示詞，使用可圖轉繪而成的。

而圖片編輯具體包括了局部重繪和擴圖兩個方面。

有了局部重繪，不僅可以對現實中的圖像進行修改，當得到一張風格特別好但細節有瑕疵的圖片時，也不用再從頭開始“抽卡”了。

比如想要把前面展示的年夜飯照片中小男孩手里的魔方換成螃蟹，就可以框選或涂抹目標區域，然后提出修改要求，就可以等待成果了。

生成的結果是這樣，完成了選中部分的重繪要求，同時未選擇的部分沒有任何變動。

在擴圖功能中，既可以把自己的想法交給可圖實現，也可以什么也不說，給定一個比例，讓可圖自行發揮想象。

擴圖結果，無提示詞

當然，可圖2.0的局部重繪和擴圖并不局限于上面的傳統用法，創作者可以充分發揮想象力，創造出別具一格的作品。

這里就用一個例子拋磚引玉，更多的玩法就交給創作者們自行探索了~

在可圖模型和功能全面上新的背后，是可靈大模型團隊做出的一系列技術創新。

首先是利用全新升級的文本表征處理鏈路，精準建模預訓練文本到視覺表征的映射，這正是可圖2.0語義遵循能力提升的關鍵。

可圖2.0還采用了自適配圖像Caption構建策略，顯著提升了各階段的學習效率。

此外，可靈大模型團隊還在探索后訓練階段的Scaling Law，對數據體系和多樣性進行了全面升級，并應用全新提示詞工程和去噪策略，從而提升模型的表現力。

超越文本，AI創作的新方式

可圖的升級，既是為了更好滿足圖像創作者的需求，也是為了給視頻創作者提供更好的素材獲取途徑。

發布會上，快手副總裁、可靈AI負責人張迪介紹，在使用可靈生成視頻的用戶當中，有85%使用的是圖生視頻。

但其中涉及到的圖片素材，不一定是拍攝或手繪而成，也可能包括生成結果。

相比于完全由文字生成視頻，圖片能夠體現出文本無法精準描述的細節，從而讓視頻生成模型對目標的把控更加清晰。

因此，這種“曲線救國”的方式，可以降低視頻生成結果的不確定性，減少試錯成本，因此受到了用戶的青睞。

這樣看來，可靈AI團隊不斷打磨圖像生成模型的目的，就顯而易見了。

當然除了可圖，視頻生成模型可靈也進行了升級，針對之前指令遵循不好、動態效果不佳、美感缺乏的問題做出了全面升級。

可靈2.0對比谷歌Veo2的勝負比為205%，對比Sora的勝負比達367%，在文字相關性、畫面質量、動態質量等維度上顯著超越對手。

模型與產品升級之外，快手也在探索一種人與AI之間的新型交互方式。

快手高級副總裁蓋坤表示，文字在表達影像信息時是不完備的，我們需要探索新的方式，才能讓人真正精準地表達出心中所想。

所以在本次發布會上，可靈AI正式發布AI視頻生成的全新交互理念——多模態視覺語言（Multi-modal Visual Language，MVL）。

MVL讓用戶能夠結合圖像參考、視頻片段等多模態信息，將腦海中包含身份、外觀、風格、場景、動作、表情、運鏡在內的多維度復雜創意，直接高效地傳達給AI。

基于MVL這一全新交互方式，可靈2.0大師版全面升級了視頻及圖像創作可控生成與編輯能力，上線了全新的多模態視頻編輯功能。

加上之前已有的提示詞優化、音效生成、對口型等一系列功能，快手已經初步構建出了從創意到視覺呈現的完整創作鏈路

這不僅讓專業創作者能夠精準還原腦海中的藝術構思，更讓普通用戶通過“所見即所得”的交互邏輯釋放創作潛能。

讓每個人都能用AI講出好故事

發布會上，蓋坤再一次講到了可靈的愿景——讓每個人都能用AI講出好故事。

自去年6月發布以來，可靈AI已累計完成超20次迭代，累計生成1.68億段視頻和3.44億張圖片素材。

在這一過程當中，可靈AI一直堅守初心，不斷提升模型基礎質量和模型效果，并引入更多創新功能，以滿足用戶的多樣化需求。

包括可圖和可靈2.0版本升級，以及MVL的提出，同樣是在掃清“用AI講好故事”的道路上的障礙。

可靈越來越完備的產品體系和工作鏈路，正在讓AI創作變得愈加觸手可得。

甚至為了幫助不懂提示詞的純小白用戶完成創作，可靈還在Web和APP當中接入了經過專門為設計提示詞而調整的DeepSeek模型，進一步降低了AI視頻創作的門檻。

可靈的表現也獲得了大佬的認可，比如馬斯克早在去年八月就曾評論一則由可靈AI制作的內容,稱“AI娛樂產業正飛速發展”。

到現在馬斯克連夜關注官方賬號，進一步說明可靈已經徹底打造出了國際口碑。

總之，快手正在用技術讓影像創作回歸本真——專業者能精準雕琢每個光影細節，普通人也可憑直覺編織動人故事。

當技術逐漸溶解專業壁壘，那些曾遙不可及的藝術表達，終將成為每個人記錄世界的本能，讓每個平凡瞬間都自帶美學重量。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.