2月14日,昆侖萬維正式推出Matrix-Zero世界模型,成為中國第一家同時推出3D場景生成、可交互視頻生成模型的探索空間智能的企業。
Matrix-Zero世界模型包含兩款子模型:
3D場景生成大模型
昆侖萬維自研3D場景生成大模型,支持將用戶輸入的圖片轉化為可自由探索的真實合理的3D場景,比World Labs生成場景的探索范圍更大更自由,而且包括動態物理效果;
可交互視頻生成大模型
昆侖萬維自研可交互視頻生成大模型,提供以用戶輸入為核心驅動的可交互空間智能視頻生成方案,支持根據用戶實時輸入生成互動視頻效果,具備更精準控制的action model。
圖像和視頻作為當今人類獲取信息的主要方式,3D場景生成和視頻生成技術的發展有望徹底改變內容生產的方式,大幅提升創作效率。現有的3D AIGC工具(如TripoAI、Meshy等)主要聚焦于單個物體的生成,難以構建完整且合理的3D場景。而傳統3D建模方法則成本高昂、耗時冗長,難以滿足大規模內容生產的需求。
相比之下,結合AI驅動的2D視頻生成與3D場景生成技術,不僅能大幅提升生成效率和泛化能力,使其適應更廣泛的應用場景,還能增強結果的一致性與物理合理性,從而帶來更加真實、沉浸的交互體驗。這種融合技術將重塑數字內容創作模式,提升影視制作、游戲開發、具身智能等領域的生產效率與創新能力,推動行業邁向更高水平的發展。
作為一項新興的前沿技術,空間智能融合了視頻生成、三維建模等多種技術,實現對物理空間的數字化重建。其核心目標是將二維圖像轉換為可交互的三維場景,為用戶提供更加自然、直觀和沉浸式的體驗。在數字時代的AI浪潮中,3D場景生成、視頻生成模型以及相關空間智能技術,正以破竹之勢給諸多行業帶來顛覆性變革,特別是具身智能、影視制作、游戲娛樂等場景。
01昆侖萬維自研3D場景生成大模型,敢為人先開拓空間智能時代
昆侖萬維Matrix-Zero的3D場景生成功能,支持將用戶輸入的圖片轉化為可自由探索的真實合理的3D場景,具備全局一致性、可自由探索、支持不同風格圖片輸入、支持風格遷移、支持動態場景生成等亮點。
Matrix-Zero生成的內容為全局一致的3D場景,我們輸入一張圖片「城堡的花園一角」,可以生成一副360度環視后場景保持不變的3D場景,最后一幀回到起始幀,不會出現生成結果前后不一致現象,能夠應用在3D游戲場景的可控、快速建模,以及具身智能的模擬場景快速搭建。
Matrix-Zero更亮眼的地方在于,可以支持在場景中進行任意方向的長距離、大范圍的探索,為電影/短劇場景鏡頭生成提供了更多的可能性。
從行進方向來看,能實現先環視再前進、后退、前進后右轉、360度俯視、180度回頭、持續左轉、環視場景、大范圍前進等更大、更自由的角度探索。當我們走進一個大廳,視角和行進方向可以絲滑切換。
又或者我們在同一個3D場景中,先讓它180度回頭(右上圖),再環視一圈(右下圖),它可以流暢地切換探索方向。
無論輸入圖片是卡通風格或寫實風格,Matrix-Zero均可生成合理3D場景。亦或對同一張輸入圖片,也可以支持不同風格的場景生成。Matrix-Zero能夠絲滑地支持不同風格圖片輸入和風格遷移。
那么讓我們輸入一張「荷花池塘」圖片和一張「位于森林中的房子」圖片,Matrix-Zero即刻生成了寫實的荷塘場景,也可以輕松切換輸出場景風格,生成卡通風格的房子。
不僅如此,動態場景生成也不在話下,光照效果,水花動態、云霧動態等,Matrix-Zero均可生成合理3D場景,且動態符合物理規律,后續可用于生成符合真實物理規律的3D場景/視頻,構建真正的世界模型。
讓我們來看看自然界中普遍存在的光照效果和水流動態,Matrix-Zero生成的效果怎么樣。輸入一張「小橋流水」圖片,Matrix-Zero能夠生成栩栩如生的光照和水流效果,擬人逼真。
能夠實現這樣的逼真效果,得益于昆侖萬維自研3D場景生成大模型,包含兩個核心模塊:場景布局生成模塊和紋理生成模塊。幾何生成模塊借助可微渲染和擴散模型技術,能創造出和輸入圖片一致的3D場景布局;紋理生成模塊在圖片生成模型和視頻生成模型基礎上訓練,當用戶在場景中運動時,昆侖自研3D場景生成大模型不斷對場景缺失區域進行幾何和紋理的補全,從而確保用戶在任何位置、任何角度都能看到合理、一致的場景。
02自研可交互視頻生成大模型,讓自由探索3D世界成為現實
此前,谷歌Genie(可交互生成環境)系列已經向大眾展示了世界模型的能力和魅力。為達到更好的流暢性、一致性等,昆侖萬維可交互視頻大模型建立在先進的生成式視頻模型之上,結合自主研發的用戶交互模塊,最終實現了一種以用戶輸入為核心驅動的空間智能視頻生成方案。
該方法能夠在保證開放領域視頻生成能力的同時,進一步增強對視頻內容中視角移動的精確控制,使其更加符合用戶的交互需求和預期。通過這種方式,我們不僅可以生成符合用戶意圖的視頻內容,還能夠優化空間智能模型的適配性,從而拓展在虛擬環境、交互式應用以及沉浸式體驗中的應用場景。
例如輸入一張「夜晚的街道」圖片,Matrix-Zero可以接受用戶任意的鍵盤移動方向控制、鼠標移動,生成對應的視頻能夠實現前后左右移動和視角移動。
我們再輸入一張「沙漠」圖片,Matrix-Zero仍可以實現更自由地3D世界探索。
在Matrix-Zero中,用戶輸入交互模型作為可交互視頻模型的核心部分,專門用于解析用戶輸入信息,并將其轉化為視頻調整信號,以確保視頻內容能夠準確響應用戶操作,使交互體驗更加直觀和流暢。該模塊包含多個子系統,用于處理不同類型的用戶輸入,使其能夠精準地影響視頻的動態變化。包括以下幾個關鍵部分:
· 離散運動控制模塊
該模塊用于解析用戶輸入的離散控制信號,例如前進、跳躍、后退等基本運動指令。系統會對這些輸入進行解析,并將其轉化為對應的運動軌跡,從而影響視頻中的對象行為,使其符合用戶的交互需求。
· 連續視角控制模塊
視角移動模塊主要用于解析鼠標或其他輸入設備的連續控制信號,例如視角變化、方向調整等動態操作。該模塊能夠響應用戶的實時輸入,并對視頻內容進行相應調整,確保視角變換的平滑性和一致性。
· 3D場景位置追蹤模塊
該模塊基于三維空間定位技術,提升視角移動時的位置穩定性。通過精確的空間坐標追蹤,系統能夠確保在不同場景下視角變換的自然性,并減少突兀的畫面跳轉問題,使視頻內容更加連貫。
· 滑動窗口機制優化控制體驗
該機制用于引入時間序列中的歷史輸入信息,使系統能夠更準確地預測用戶的下一步操作,并優化控制響應的平滑度。通過滑動窗口技術,系統能夠提高交互的流暢性,并有效減少輸入延遲,提高整體用戶體驗。
作為針對圖片對應的3D世界中自由探索提出的視頻生成系統,Matrix-Zero能夠在不同環境下高效地生成高質量的視頻內容,并確保視頻的流暢性、一致性和合理性。
03緊握AI時代脈搏,成為中國探索空間智能的領跑者
昆侖萬維作為中國AI領軍企業,始終踐行公司使命——實現通用人工智能,讓每個人更好地塑造和表達自我,堅持在人工智能領域自主研發,持續推出AI產品。
過去三年,昆侖萬維在視覺多模態、深度學習、強化學習等關鍵技術方向取得了一系列成績,同時構建起了完整的AI矩陣:最懂金融、學術的天工AI搜索,全球首個AI音樂創作平臺Mureka,AI短劇平臺SkyReels,AI社交產品Linky,AI游戲等,形成了“AI前沿基礎研究——基座模型——AI矩陣產品/應用”的產業鏈。
2025年1月,「天工大模型4.0」o1版和4o版正式上線天工APP和網頁。2025年2月8日,昆侖萬維旗下「天工AI」正式推出PC版重大更新——上線“DeepSeek R1 + 聯網搜索”功能。
勇立潮頭,敢為人先。今天,昆侖萬維Matrix-Zero系列模型的開發和迭代也代表了公司對未來AI技術的提前布局,進一步賦能公司AI業務矩陣。交互生成模型的落地將變革可交互內容引擎,大大提升公司AI多矩陣產品的生產力。
Matrix-Zero世界模型預計4月份上線,將對公司AI游戲生產、AI短劇生產和編輯等業務進一步賦能,為用戶和開發者帶來新的平臺和工具。當視頻模型發展到可以逼真模擬物理世界時,游戲可能不再需要傳統的3D引擎,許多實驗和模擬將可以在虛擬環境中進行,而影視創作也將變得更加普及,甚至成為每個人的基本技能。雖然這些看似是未來的場景,但技術正一步步將它們變為現實,視頻生成模型的火熱正是這一趨勢的重要體現。
未來大模型發展將更加關注智能體工具和用戶交互。空間智能技術不僅為未來智能體研發提供了虛擬平臺,也帶給用戶全新的與生成世界交互的體驗,大大提升了交互的多樣性。空間智能技術的發展也將是通往具身智能乃至AGI路上的一個重要技術里程碑。我們仍將持續升級迭代,研發更先進的AI平臺、打磨體驗更好的AI產品,進一步推動人工智能的繁榮發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.