網易首頁 > 網易號 > 正文申請入駐

北大團隊引領3D生成與對齊革新：OctGPT打破擴散模型壟斷

2025-04-25 15:41:58　來源: 量子位

北京舉報

分享至

OctGPT 團隊投稿
量子位 | 公眾號 QbitAI

近年來，智能三維形狀生成（3D AIGC）技術迅速崛起，正成為推動數字內容創作革新的關鍵力量，特別是在游戲、影視、虛擬現實和工業設計等領域表現出巨大的應用潛力。

隨著技術的不斷進步，三維內容的生成質量與效率持續提升，成為業界與學界廣泛關注的焦點。

最近，北京大學陳寶權教授帶領團隊在三維形狀生成三維數據對齊方面取得新的突破。

在三維數據生成方面，團隊提出了3D自回歸模型新范式，有望打破3D擴散模型在三維生成方面的壟斷地位。

該論文已被SIGGRAPH 2025接收，合作者為王鵬帥助理教授，以及博士生魏斯桐和本科生王瑞環、周傳智。

在三維數據對齊方面，團隊設計了一種僅需單個先驗即可實現同類物體對齊的框架，并構建了當前類別覆蓋最廣的規范化3D數據集，為三維形狀生成提供了數據基礎。

該論文已被CVPR 2025接收，合作者為陳文拯助理教授、王玉潔博士、高慶哲博士和秦學英教授，以及博士生金立、戴啟宇。

SIGGRAPH 2025：OctGPT：3D自回歸模型新范式

一、AIGC：從圖像生成到3D生成

近年來，基于自回歸范式的GPT模型在語言、圖像和視頻生成領域取得了一系列突破。

例如，最新的GPT-4o憑借其原生多模態架構，在圖像生成方面掀起了轟動：它不僅延續了前代卓越的語言理解能力，還通過跨模態協同，輕松產出高質量、多風格的視覺內容。

然而，現有的自回歸模型尚不能很好地完成高質量的三維生成任務，這一技術缺口恰恰對應著虛擬現實、電影工業及游戲開發等場景中快速增長的3D內容需求。

隨著生成式AI技術的持續演進，如何將多模態理解能力延伸至三維空間，已成為推動下一代AI生成系統發展的關鍵命題。

OctGPT能實現高質量三維形狀生成和場景級別生成

二、3D自回歸生成模型的挑戰

當前主流的三維生成技術雖已取得顯著突破，但高度依賴擴散模型的生成范式仍存在顯著局限。

盡管擴散模型在連續空間建模方面表現優異，其與GPT類離散序列生成模型在架構設計上的本質差異，導致二者難以實現技術融合。

近年來，學術界雖已涌現出多項基于GPT的三維生成成果，但這一領域仍面臨諸多挑戰。

首先，GPT的預測機制依賴于序列建模，而現有的三維數據序列化方案往往忽略物體的層次結構與局部關聯性，導致模型收斂緩慢、生成質量受限。

針對這一問題，我們提出了一種全新的序列化方法，顯著提升了生成效果。

此外，以往方法的序列長度通常只有約1K，難以捕捉復雜的局部細節。

我們將序列長度擴展近50倍，使模型能夠精準地建模大尺度、高分辨率的三維形狀。

現有的3D自回歸生成模型受限于有限的序列長度，細節質量不足

三、新解決方案：OctGPT

OctGPT探索了基于八叉樹Octree和GPT架構的三維生成路徑。

用戶可以通過多種條件進行控制，比如文本、圖像、草圖等等，驅動模型進行高質量的三維場景和物體的生成。

這一成果不僅有望打破擴散模型在三維生成領域的技術壟斷，更開辟了多模態原生模型向三維空間拓展的新范式。

OctGPT使用一種基于八叉樹的多尺度三維序列化形狀表達。

八叉樹的遞歸分裂機制自然地表達了多尺度層次特征，其Z型曲線排序策略有效保留空間局部性，為GPT的自回歸預測提供理想的序列化基礎。

OctGPT的模型框架

四、OctGPT的核心技術架構

OctGPT的整體框架包括一個基于八叉樹的多尺度序列化表達和基于窗口注意力機制的高效自回歸模型。

1）八叉樹多尺度序列化表達

八叉樹結構和Z字形序列

首先，根據輸入的三維形狀構建八叉樹。八叉樹的節點狀態被編碼為0/1信號：0代表空節點，1代表細分節點，如上圖（a）的淺色和深色節點所示。

然后按照Z字形進行多尺度序列化，如上圖（b）和（c）Z字形序列所示。我們將不同層次的序列結構由淺到深拼接成多尺度的0/1序列

隨后，使用了基于八叉樹的VQVAE，用于將八叉樹表達轉為完整、光滑的三維模型。

最后，GPT則是逐步生成多尺度的0/1序列。這一類似于二分查找的方式逐層的推理空間結構，極大地簡化了建模目標，加速了收斂。

2）多尺度自回歸模型

多尺度自回歸模型

為了表達復雜的三維形狀，OctGPT將序列長度拓展至50k的量級。為了加速訓練，模型采用了基于八叉樹的Transformer（OctFormer，SIGGRAPH 2023），并通過交替使用膨脹注意力（如上圖b）與移位窗口注意力模塊（如上圖c），實現跨窗口的Token交互，并將訓練速度加速13倍。

OctGPT設計了尺度敏感的Teacher Forcing Mask（如上圖a），在序列生成過程中，按深度層級從淺至深順序預測，同一八叉樹層內允許Token按照隨機順序并行生成，同時確保深層Token的預測能夠得到已生成的淺層Token信息。

在推理時，OctGPT采用了多個token并行預測的策略，將推理速度加速69倍。基于上述創新，OctGPT能夠使用4個4090 GPU在三天內完成訓練。

五、結果展示

此處展示了OctGPT在ShapeNet和Objverse上的生成結果。OctGPT能夠生成高質量的三維模型，展現出強大的生成能力。

Objaverse上文本條件生成結果

ShapeNet上無條件生成結果

Objaverse上無條件生成結果

在ShapeNet上與現有SOTA方法的定性對比

在ShapeNet上與現有SOTA方法的定量對比

六、總結與展望

OctGPT探索了基于八叉樹結構的GPT模型在三維數據生成任務中的應用潛力。

具體創新體現在以下三個方面：其一，通過八叉樹結構對稀疏三維數據進行編碼，有效提升了計算效率；其二，基于八叉樹構建了具有層次性和局部性的多尺度0/1序列，確保序列化過程中空間特征的完整保留；其三，采用Transformer架構直接進行序列化預測，實現了對三維空間特性的端到端建模。

盡管三維數據的稀疏性、層次性與序列性看似相互獨立甚至存在矛盾，但本研究成功證明在八叉樹神經網絡框架下，三者能夠有機統一。

這一突破性成果不僅有望打破擴散模型在三維生成任務中的壟斷地位，更為原生多模態三維建模技術開辟了創新路徑。

論文地址：
https://arxiv.org/abs/2504.09975
項目主頁：
https://github.com/octree-nn/octgpt

CVPR 2025 Highlight：大規模三維數據對齊

CVPR 2025 Highlight論文: 基于幾何和語義一致性的One-shot 3D物體規范化，為三維生成技術和具身智能的快速發展提供了堅實基礎。

該工作由北京大學陳寶權研究團隊主導，山東大學合作完成。

一、3D物體對齊及其重要性

在三維世界里，“對齊”一個物體，意味著將它擺放到一個標準的姿態——不歪、不倒、朝向統一。

就像我們看到一個歪著的杯子，腦海中會自動將它“扶正”來理解它此時的朝向、把手、底部位置。

這樣的對齊操作看似簡單，卻是讓AI真正“看懂”3D物體的關鍵一步。

隨著具身智能和3D生成技術的快速發展，AI不僅要“看見”物體，還要“理解”它們的位置、朝向和語義。

比如，下圖中的機械臂之所以能成功倒出一杯咖啡，正是因為它準確理解了杯子的朝向和語義功能部位。

另一方面，在3D內容生成領域，研究也表明：如果訓練時使用了規范化的3D數據，可以顯著提高生成物體的一致性和質量

從機器人操作到三維生成，物體對齊都在背后發揮著基礎而關鍵的作用

然而，如何實現任意類別、任意初始位姿3D物體的高效對齊，仍然十分具有挑戰性。

3D對齊數據在具身智能和3D生成的作用，素材來自Youtube

二、3D物體對齊的挑戰

在現實世界中，要讓智能體真正理解和操作三維物體，一個帶有朝向、位置和尺寸標注的規范3D數據集至關重要。

它不僅讓模型能統一學習標準姿態，還能支持類別識別、語義分析等下游任務。

然而，獲取這樣的數據極具挑戰：

1）人工標注嚴重依賴經驗，流程繁瑣且易出錯。在使用計算機輔助3D標注時，通常需通過2D界面對3D物體手動調整，交互效率依然不高；

2）基于學習的自動化對齊方法本身也依賴充足的先驗樣本才能訓練，而現實中的物體分布呈嚴重長尾——例如在Objaverse-LVIS中，超93%的類別樣本不足100個，遠遠滿足不了現有方法所需的充足先驗樣本。

因此，無論是人工流程，還是基于學習的自動化方法，目前都難以支撐對大規模、任意類別3D物體進行高效高質量規范化。這也讓如何高效對齊三維物體成為當前研究的核心挑戰之一。

長尾分布問題：對Objaverse-LVIS類別物體數量統計

三、提出的解決方法

為突破上述3D物體規范化中“標注難、樣本少”的雙重困境，我們提出了一種全新的One-shot物體對齊方法：只需一個規范化物體作為先驗，結合2D基礎模型的語義能力，即可自動對任意姿態下的同類3D物體進行高質量規范化。

相比以往依賴大量訓練數據或手工操作的方案，我們的方法無需繁瑣流程，也不怕長尾類別，在樣本稀缺的場景下表現尤為出色

實驗結果顯示，我們的方法顯著提升了3D物體規劃化的精度和魯棒性。進一步地，我們將該方法應用于Objaverse-LVIS數據集，并通過渲染進行清洗和挑選，構建了目前已知覆蓋類別最廣的規范化3D物體數據集——Canonical Objaverse Dataset（COD），涵蓋1,054個類別、32,000個對齊物體，現已開放下載。

同時，我們會持續擴大規范數據集的規模。

one-shot方法（左圖），Objaverse數據集（右圖）

規范化的3D物體數據，來自COD數據集。

四、方法簡介

如圖所示，我們希望以一個同類的物體作為先驗模型，其他物體作為測試物體和先驗模型進行對齊。

算法的核心思想是，結合2D基礎模型提供的語義信息和3D物體的幾何信息進行規范化。

整個框架由三個主要階段組成：zero-shot物體語義對應關系建立（左圖）、規范化位姿假設生成（中圖）以及最終標準位姿選擇（右圖）。

算法框架

在算法框架設計時，我們面臨兩個主要難點：

1）2D基礎模型在處理任意姿態下的物體時易出現檢測錯誤，導致3D語義信息獲取不穩定；

2）同類物體間存在顯著幾何差異，僅依賴語義或幾何信息進行對齊均存在局限，因此亟需設計一種能夠有效聯合利用稀疏語義與幾何信息的對齊機制。

為此，我們提出：

1）基于支撐面的初始化策略：利用算法自動檢測物體的多個支撐面，并以其在水平面上穩定靜止的狀態作為初始化位姿，顯著提高了語義分割模塊的的穩定性與準確性。

2）語義-幾何聯合能量函數：我們設計了結合語義置信度與幾何一致性的能量函數，在對齊過程中實現了語義主導大致朝向、幾何引導細節對齊的協同優化機制，從而更有效地完成物體規范化。

最終，在Objaverse和ShapeNet等數據集上的實驗驗證了我們方法在對齊精度與魯棒性方面的顯著優勢，較現有主流方法表現更優，并展現出良好的泛化能力。

3D物體規范化過程，來自COD數據集。

五、總結及展望

我們提出了一種新穎的one-shot三維物體規范化框架，只需一個先驗模型，即可完成對同類別中其他物體的規范化對齊。

通過引入大型語言模型（LLMs）與視覺-語言模型（VLMs），結合提出的支撐面的位姿采樣策略，我們實現了對物體的zero-shot語義感知，并通過將語義引導的粗對齊與幾何驅動的精細對齊相結合，實現了3D物體的自動化高效對齊。

在多個模擬與真實數據集上的實驗表明，該方法不僅精度優于現有方法，還能有效處理長尾類別，具備強大的泛化能力。

基于這一方法，我們進一步構建了COD數據集（Canonical Objaverse Dataset），涵蓋1054個類別、超過3萬個規范化物體，展現了我們框架在大規模3D數據集構建中的可擴展性。

為滿足不同任務對3D數據的多樣化需求，無論是3D生成任務對高質量網格和材質的要求，還是藝術創作類應用對平整面片和可拆解部件的偏好，我們將持續擴展標注數據規模，豐富標注維度，并歡迎更多研究者加入，共同打造更豐富、更高質量、更貼近社區實際需求的三維物體數據集。

項目主頁：
https://jinli998.github.io/One-shot_3D_Object_Canonicalization/
規范數據集鏈接：
https://github.com/JinLi998/CanonObjaverseDataset

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.