網易首頁 > 網易號 > 正文申請入駐

昆侖萬維發布Matrix-Zero世界模型，開啟空間智能新時代

2025-02-14 11:17:36　來源: 腦極體

天津舉報

分享至

2月14日，昆侖萬維正式推出Matrix-Zero世界模型，成為中國第一家同時推出3D場景生成、可交互視頻生成模型的探索空間智能的企業。

Matrix-Zero世界模型包含兩款子模型：

3D場景生成大模型

昆侖萬維自研3D場景生成大模型，支持將用戶輸入的圖片轉化為可自由探索的真實合理的3D場景，比World Labs生成場景的探索范圍更大更自由，而且包括動態物理效果；

可交互視頻生成大模型

昆侖萬維自研可交互視頻生成大模型，提供以用戶輸入為核心驅動的可交互空間智能視頻生成方案，支持根據用戶實時輸入生成互動視頻效果，具備更精準控制的action model。

圖像和視頻作為當今人類獲取信息的主要方式，3D場景生成和視頻生成技術的發展有望徹底改變內容生產的方式，大幅提升創作效率。現有的3D AIGC工具（如TripoAI、Meshy等）主要聚焦于單個物體的生成，難以構建完整且合理的3D場景。而傳統3D建模方法則成本高昂、耗時冗長，難以滿足大規模內容生產的需求。

相比之下，結合AI驅動的2D視頻生成與3D場景生成技術，不僅能大幅提升生成效率和泛化能力，使其適應更廣泛的應用場景，還能增強結果的一致性與物理合理性，從而帶來更加真實、沉浸的交互體驗。這種融合技術將重塑數字內容創作模式，提升影視制作、游戲開發、具身智能等領域的生產效率與創新能力，推動行業邁向更高水平的發展。

作為一項新興的前沿技術，空間智能融合了視頻生成、三維建模等多種技術，實現對物理空間的數字化重建。其核心目標是將二維圖像轉換為可交互的三維場景，為用戶提供更加自然、直觀和沉浸式的體驗。在數字時代的AI浪潮中，3D場景生成、視頻生成模型以及相關空間智能技術，正以破竹之勢給諸多行業帶來顛覆性變革，特別是具身智能、影視制作、游戲娛樂等場景。

01昆侖萬維自研3D場景生成大模型，敢為人先開拓空間智能時代

昆侖萬維Matrix-Zero的3D場景生成功能，支持將用戶輸入的圖片轉化為可自由探索的真實合理的3D場景，具備全局一致性、可自由探索、支持不同風格圖片輸入、支持風格遷移、支持動態場景生成等亮點。

Matrix-Zero生成的內容為全局一致的3D場景，我們輸入一張圖片「城堡的花園一角」，可以生成一副360度環視后場景保持不變的3D場景，最后一幀回到起始幀，不會出現生成結果前后不一致現象，能夠應用在3D游戲場景的可控、快速建模，以及具身智能的模擬場景快速搭建。

Matrix-Zero更亮眼的地方在于，可以支持在場景中進行任意方向的長距離、大范圍的探索，為電影/短劇場景鏡頭生成提供了更多的可能性。

從行進方向來看，能實現先環視再前進、后退、前進后右轉、360度俯視、180度回頭、持續左轉、環視場景、大范圍前進等更大、更自由的角度探索。當我們走進一個大廳，視角和行進方向可以絲滑切換。

又或者我們在同一個3D場景中，先讓它180度回頭（右上圖），再環視一圈（右下圖），它可以流暢地切換探索方向。

無論輸入圖片是卡通風格或寫實風格，Matrix-Zero均可生成合理3D場景。亦或對同一張輸入圖片，也可以支持不同風格的場景生成。Matrix-Zero能夠絲滑地支持不同風格圖片輸入和風格遷移。

那么讓我們輸入一張「荷花池塘」圖片和一張「位于森林中的房子」圖片，Matrix-Zero即刻生成了寫實的荷塘場景，也可以輕松切換輸出場景風格，生成卡通風格的房子。

不僅如此，動態場景生成也不在話下，光照效果，水花動態、云霧動態等，Matrix-Zero均可生成合理3D場景，且動態符合物理規律，后續可用于生成符合真實物理規律的3D場景/視頻，構建真正的世界模型。

讓我們來看看自然界中普遍存在的光照效果和水流動態，Matrix-Zero生成的效果怎么樣。輸入一張「小橋流水」圖片，Matrix-Zero能夠生成栩栩如生的光照和水流效果，擬人逼真。

能夠實現這樣的逼真效果，得益于昆侖萬維自研3D場景生成大模型，包含兩個核心模塊：場景布局生成模塊和紋理生成模塊。幾何生成模塊借助可微渲染和擴散模型技術，能創造出和輸入圖片一致的3D場景布局；紋理生成模塊在圖片生成模型和視頻生成模型基礎上訓練，當用戶在場景中運動時，昆侖自研3D場景生成大模型不斷對場景缺失區域進行幾何和紋理的補全，從而確保用戶在任何位置、任何角度都能看到合理、一致的場景。

02自研可交互視頻生成大模型，讓自由探索3D世界成為現實

此前，谷歌Genie（可交互生成環境）系列已經向大眾展示了世界模型的能力和魅力。為達到更好的流暢性、一致性等，昆侖萬維可交互視頻大模型建立在先進的生成式視頻模型之上，結合自主研發的用戶交互模塊，最終實現了一種以用戶輸入為核心驅動的空間智能視頻生成方案。

該方法能夠在保證開放領域視頻生成能力的同時，進一步增強對視頻內容中視角移動的精確控制，使其更加符合用戶的交互需求和預期。通過這種方式，我們不僅可以生成符合用戶意圖的視頻內容，還能夠優化空間智能模型的適配性，從而拓展在虛擬環境、交互式應用以及沉浸式體驗中的應用場景。

例如輸入一張「夜晚的街道」圖片，Matrix-Zero可以接受用戶任意的鍵盤移動方向控制、鼠標移動，生成對應的視頻能夠實現前后左右移動和視角移動。

我們再輸入一張「沙漠」圖片，Matrix-Zero仍可以實現更自由地3D世界探索。

在Matrix-Zero中，用戶輸入交互模型作為可交互視頻模型的核心部分，專門用于解析用戶輸入信息，并將其轉化為視頻調整信號，以確保視頻內容能夠準確響應用戶操作，使交互體驗更加直觀和流暢。該模塊包含多個子系統，用于處理不同類型的用戶輸入，使其能夠精準地影響視頻的動態變化。包括以下幾個關鍵部分：

· 離散運動控制模塊

該模塊用于解析用戶輸入的離散控制信號，例如前進、跳躍、后退等基本運動指令。系統會對這些輸入進行解析，并將其轉化為對應的運動軌跡，從而影響視頻中的對象行為，使其符合用戶的交互需求。

· 連續視角控制模塊

視角移動模塊主要用于解析鼠標或其他輸入設備的連續控制信號，例如視角變化、方向調整等動態操作。該模塊能夠響應用戶的實時輸入，并對視頻內容進行相應調整，確保視角變換的平滑性和一致性。

· 3D場景位置追蹤模塊

該模塊基于三維空間定位技術，提升視角移動時的位置穩定性。通過精確的空間坐標追蹤，系統能夠確保在不同場景下視角變換的自然性，并減少突兀的畫面跳轉問題，使視頻內容更加連貫。

· 滑動窗口機制優化控制體驗

該機制用于引入時間序列中的歷史輸入信息，使系統能夠更準確地預測用戶的下一步操作，并優化控制響應的平滑度。通過滑動窗口技術，系統能夠提高交互的流暢性，并有效減少輸入延遲，提高整體用戶體驗。

作為針對圖片對應的3D世界中自由探索提出的視頻生成系統，Matrix-Zero能夠在不同環境下高效地生成高質量的視頻內容，并確保視頻的流暢性、一致性和合理性。

03緊握AI時代脈搏，成為中國探索空間智能的領跑者

昆侖萬維作為中國AI領軍企業，始終踐行公司使命——實現通用人工智能，讓每個人更好地塑造和表達自我，堅持在人工智能領域自主研發，持續推出AI產品。

過去三年，昆侖萬維在視覺多模態、深度學習、強化學習等關鍵技術方向取得了一系列成績，同時構建起了完整的AI矩陣：最懂金融、學術的天工AI搜索，全球首個AI音樂創作平臺Mureka，AI短劇平臺SkyReels，AI社交產品Linky，AI游戲等，形成了“AI前沿基礎研究——基座模型——AI矩陣產品/應用”的產業鏈。

2025年1月，「天工大模型4.0」o1版和4o版正式上線天工APP和網頁。2025年2月8日，昆侖萬維旗下「天工AI」正式推出PC版重大更新——上線“DeepSeek R1 + 聯網搜索”功能。

勇立潮頭，敢為人先。今天，昆侖萬維Matrix-Zero系列模型的開發和迭代也代表了公司對未來AI技術的提前布局，進一步賦能公司AI業務矩陣。交互生成模型的落地將變革可交互內容引擎，大大提升公司AI多矩陣產品的生產力。

Matrix-Zero世界模型預計4月份上線，將對公司AI游戲生產、AI短劇生產和編輯等業務進一步賦能，為用戶和開發者帶來新的平臺和工具。當視頻模型發展到可以逼真模擬物理世界時，游戲可能不再需要傳統的3D引擎，許多實驗和模擬將可以在虛擬環境中進行，而影視創作也將變得更加普及，甚至成為每個人的基本技能。雖然這些看似是未來的場景，但技術正一步步將它們變為現實，視頻生成模型的火熱正是這一趨勢的重要體現。

未來大模型發展將更加關注智能體工具和用戶交互。空間智能技術不僅為未來智能體研發提供了虛擬平臺，也帶給用戶全新的與生成世界交互的體驗，大大提升了交互的多樣性。空間智能技術的發展也將是通往具身智能乃至AGI路上的一個重要技術里程碑。我們仍將持續升級迭代，研發更先進的AI平臺、打磨體驗更好的AI產品，進一步推動人工智能的繁榮發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.