99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

北大團隊引領3D生成與對齊革新:OctGPT打破擴散模型壟斷

0
分享至

  • OctGPT 團隊 投稿
  • 量子位 | 公眾號 QbitAI

近年來,智能三維形狀生成(3D AIGC)技術迅速崛起,正成為推動數字內容創作革新的關鍵力量,特別是在游戲、影視、虛擬現實和工業設計等領域表現出巨大的應用潛力。

隨著技術的不斷進步,三維內容的生成質量與效率持續提升,成為業界與學界廣泛關注的焦點。

最近,北京大學陳寶權教授帶領團隊在三維形狀生成三維數據對齊方面取得新的突破。

在三維數據生成方面,團隊提出了3D自回歸模型新范式,有望打破3D擴散模型在三維生成方面的壟斷地位。

該論文已被SIGGRAPH 2025接收,合作者為王鵬帥助理教授,以及博士生魏斯桐和本科生王瑞環、周傳智。

在三維數據對齊方面,團隊設計了一種僅需單個先驗即可實現同類物體對齊的框架,并構建了當前類別覆蓋最廣的規范化3D數據集,為三維形狀生成提供了數據基礎。

該論文已被CVPR 2025接收,合作者為陳文拯助理教授、王玉潔博士、高慶哲博士和秦學英教授,以及博士生金立、戴啟宇。

SIGGRAPH 2025:OctGPT:3D自回歸模型新范式



一、AIGC:從圖像生成到3D生成

近年來,基于自回歸范式的GPT模型在語言、圖像和視頻生成領域取得了一系列突破。

例如,最新的GPT-4o憑借其原生多模態架構,在圖像生成方面掀起了轟動:它不僅延續了前代卓越的語言理解能力,還通過跨模態協同,輕松產出高質量、多風格的視覺內容。

然而,現有的自回歸模型尚不能很好地完成高質量的三維生成任務,這一技術缺口恰恰對應著虛擬現實、電影工業及游戲開發等場景中快速增長的3D內容需求。

隨著生成式AI技術的持續演進,如何將多模態理解能力延伸至三維空間,已成為推動下一代AI生成系統發展的關鍵命題。


OctGPT能實現高質量三維形狀生成和場景級別生成

二、3D自回歸生成模型的挑戰

當前主流的三維生成技術雖已取得顯著突破,但高度依賴擴散模型的生成范式仍存在顯著局限。

盡管擴散模型在連續空間建模方面表現優異,其與GPT類離散序列生成模型在架構設計上的本質差異,導致二者難以實現技術融合。

近年來,學術界雖已涌現出多項基于GPT的三維生成成果,但這一領域仍面臨諸多挑戰。

首先,GPT的預測機制依賴于序列建模,而現有的三維數據序列化方案往往忽略物體的層次結構與局部關聯性,導致模型收斂緩慢、生成質量受限。

針對這一問題,我們提出了一種全新的序列化方法,顯著提升了生成效果。

此外,以往方法的序列長度通常只有約1K,難以捕捉復雜的局部細節。

我們將序列長度擴展近50倍,使模型能夠精準地建模大尺度、高分辨率的三維形狀。


現有的3D自回歸生成模型受限于有限的序列長度,細節質量不足

三、新解決方案:OctGPT

OctGPT探索了基于八叉樹Octree和GPT架構的三維生成路徑。

用戶可以通過多種條件進行控制,比如文本、圖像、草圖等等,驅動模型進行高質量的三維場景和物體的生成。

這一成果不僅有望打破擴散模型在三維生成領域的技術壟斷,更開辟了多模態原生模型向三維空間拓展的新范式。

OctGPT使用一種基于八叉樹的多尺度三維序列化形狀表達。

八叉樹的遞歸分裂機制自然地表達了多尺度層次特征,其Z型曲線排序策略有效保留空間局部性,為GPT的自回歸預測提供理想的序列化基礎。


OctGPT的模型框架


四、OctGPT的核心技術架構

OctGPT的整體框架包括一個基于八叉樹的多尺度序列化表達和基于窗口注意力機制的高效自回歸模型。

1)八叉樹多尺度序列化表達


八叉樹結構和Z字形序列


首先,根據輸入的三維形狀構建八叉樹。八叉樹的節點狀態被編碼為0/1信號:0代表空節點,1代表細分節點,如上圖(a)的淺色和深色節點所示。

然后按照Z字形進行多尺度序列化,如上圖(b)和(c)Z字形序列所示。我們將不同層次的序列結構由淺到深拼接成多尺度的0/1序列

隨后,使用了基于八叉樹的VQVAE,用于將八叉樹表達轉為完整、光滑的三維模型。

最后,GPT則是逐步生成多尺度的0/1序列。這一類似于二分查找的方式逐層的推理空間結構,極大地簡化了建模目標,加速了收斂。

2)多尺度自回歸模型


多尺度自回歸模型


為了表達復雜的三維形狀,OctGPT將序列長度拓展至50k的量級。為了加速訓練,模型采用了基于八叉樹的Transformer(OctFormer,SIGGRAPH 2023),并通過交替使用膨脹注意力(如上圖b)與移位窗口注意力模塊(如上圖c),實現跨窗口的Token交互,并將訓練速度加速13倍。

OctGPT設計了尺度敏感的Teacher Forcing Mask(如上圖a),在序列生成過程中,按深度層級從淺至深順序預測,同一八叉樹層內允許Token按照隨機順序并行生成,同時確保深層Token的預測能夠得到已生成的淺層Token信息。

在推理時,OctGPT采用了多個token并行預測的策略,將推理速度加速69倍。基于上述創新,OctGPT能夠使用4個4090 GPU在三天內完成訓練。

五、結果展示

此處展示了OctGPT在ShapeNet和Objverse上的生成結果。OctGPT能夠生成高質量的三維模型,展現出強大的生成能力。


Objaverse上文本條件生成結果



ShapeNet上無條件生成結果



Objaverse上無條件生成結果



在ShapeNet上與現有SOTA方法的定性對比



在ShapeNet上與現有SOTA方法的定量對比


六、總結與展望

OctGPT探索了基于八叉樹結構的GPT模型在三維數據生成任務中的應用潛力。

具體創新體現在以下三個方面:其一,通過八叉樹結構對稀疏三維數據進行編碼,有效提升了計算效率;其二,基于八叉樹構建了具有層次性和局部性的多尺度0/1序列,確保序列化過程中空間特征的完整保留;其三,采用Transformer架構直接進行序列化預測,實現了對三維空間特性的端到端建模。

盡管三維數據的稀疏性、層次性與序列性看似相互獨立甚至存在矛盾,但本研究成功證明在八叉樹神經網絡框架下,三者能夠有機統一。

這一突破性成果不僅有望打破擴散模型在三維生成任務中的壟斷地位,更為原生多模態三維建模技術開辟了創新路徑。

論文地址:
https://arxiv.org/abs/2504.09975
項目主頁:
https://github.com/octree-nn/octgpt

CVPR 2025 Highlight:大規模三維數據對齊

CVPR 2025 Highlight論文: 基于幾何和語義一致性的One-shot 3D物體規范化,為三維生成技術和具身智能的快速發展提供了堅實基礎。

該工作由北京大學陳寶權研究團隊主導,山東大學合作完成。



一、3D物體對齊及其重要性

在三維世界里,“對齊”一個物體,意味著將它擺放到一個標準的姿態——不歪、不倒、朝向統一。

就像我們看到一個歪著的杯子,腦海中會自動將它“扶正”來理解它此時的朝向、把手、底部位置。

這樣的對齊操作看似簡單,卻是讓AI真正“看懂”3D物體的關鍵一步。

隨著具身智能和3D生成技術的快速發展,AI不僅要“看見”物體,還要“理解”它們的位置、朝向和語義。

比如,下圖中的機械臂之所以能成功倒出一杯咖啡,正是因為它準確理解了杯子的朝向和語義功能部位。

另一方面,在3D內容生成領域,研究也表明:如果訓練時使用了規范化的3D數據,可以顯著提高生成物體的一致性和質量

從機器人操作到三維生成,物體對齊都在背后發揮著基礎而關鍵的作用

然而,如何實現任意類別、任意初始位姿3D物體的高效對齊,仍然十分具有挑戰性。


3D對齊數據在具身智能和3D生成的作用,素材來自Youtube


二、3D物體對齊的挑戰

在現實世界中,要讓智能體真正理解和操作三維物體,一個帶有朝向、位置和尺寸標注的規范3D數據集至關重要。

它不僅讓模型能統一學習標準姿態,還能支持類別識別、語義分析等下游任務。

然而,獲取這樣的數據極具挑戰:

1)人工標注嚴重依賴經驗,流程繁瑣且易出錯。在使用計算機輔助3D標注時,通常需通過2D界面對3D物體手動調整,交互效率依然不高;

2)基于學習的自動化對齊方法本身也依賴充足的先驗樣本才能訓練,而現實中的物體分布呈嚴重長尾——例如在Objaverse-LVIS中,超93%的類別樣本不足100個,遠遠滿足不了現有方法所需的充足先驗樣本。

因此,無論是人工流程,還是基于學習的自動化方法,目前都難以支撐對大規模、任意類別3D物體進行高效高質量規范化。這也讓如何高效對齊三維物體成為當前研究的核心挑戰之一。


長尾分布問題:對Objaverse-LVIS類別物體數量統計


三、提出的解決方法

為突破上述3D物體規范化中“標注難、樣本少”的雙重困境,我們提出了一種全新的One-shot物體對齊方法:只需一個規范化物體作為先驗,結合2D基礎模型的語義能力,即可自動對任意姿態下的同類3D物體進行高質量規范化。

相比以往依賴大量訓練數據或手工操作的方案,我們的方法無需繁瑣流程,也不怕長尾類別,在樣本稀缺的場景下表現尤為出色

實驗結果顯示,我們的方法顯著提升了3D物體規劃化的精度和魯棒性。進一步地,我們將該方法應用于Objaverse-LVIS數據集,并通過渲染進行清洗和挑選,構建了目前已知覆蓋類別最廣的規范化3D物體數據集——Canonical Objaverse Dataset(COD),涵蓋1,054個類別、32,000個對齊物體,現已開放下載。

同時,我們會持續擴大規范數據集的規模。


one-shot方法(左圖),Objaverse數據集(右圖)



規范化的3D物體數據,來自COD數據集。


四、 方法簡介

如圖所示,我們希望以一個同類的物體作為先驗模型,其他物體作為測試物體和先驗模型進行對齊。

算法的核心思想是,結合2D基礎模型提供的語義信息和3D物體的幾何信息進行規范化。

整個框架由三個主要階段組成:zero-shot物體語義對應關系建立(左圖)、規范化位姿假設生成(中圖)以及最終標準位姿選擇(右圖)。


算法框架


在算法框架設計時,我們面臨兩個主要難點:

1)2D基礎模型在處理任意姿態下的物體時易出現檢測錯誤,導致3D語義信息獲取不穩定;

2)同類物體間存在顯著幾何差異,僅依賴語義或幾何信息進行對齊均存在局限,因此亟需設計一種能夠有效聯合利用稀疏語義與幾何信息的對齊機制。

為此,我們提出:

1)基于支撐面的初始化策略:利用算法自動檢測物體的多個支撐面,并以其在水平面上穩定靜止的狀態作為初始化位姿,顯著提高了語義分割模塊的的穩定性與準確性。

2)語義-幾何聯合能量函數:我們設計了結合語義置信度與幾何一致性的能量函數,在對齊過程中實現了語義主導大致朝向、幾何引導細節對齊的協同優化機制,從而更有效地完成物體規范化。

最終,在Objaverse和ShapeNet等數據集上的實驗驗證了我們方法在對齊精度與魯棒性方面的顯著優勢,較現有主流方法表現更優,并展現出良好的泛化能力。


3D物體規范化過程,來自COD數據集。


五、總結及展望

我們提出了一種新穎的one-shot三維物體規范化框架,只需一個先驗模型,即可完成對同類別中其他物體的規范化對齊。

通過引入大型語言模型(LLMs)與視覺-語言模型(VLMs),結合提出的支撐面的位姿采樣策略,我們實現了對物體的zero-shot語義感知,并通過將語義引導的粗對齊與幾何驅動的精細對齊相結合,實現了3D物體的自動化高效對齊。

在多個模擬與真實數據集上的實驗表明,該方法不僅精度優于現有方法,還能有效處理長尾類別,具備強大的泛化能力。

基于這一方法,我們進一步構建了COD數據集(Canonical Objaverse Dataset),涵蓋1054個類別、超過3萬個規范化物體,展現了我們框架在大規模3D數據集構建中的可擴展性。

為滿足不同任務對3D數據的多樣化需求,無論是3D生成任務對高質量網格和材質的要求,還是藝術創作類應用對平整面片和可拆解部件的偏好,我們將持續擴展標注數據規模,豐富標注維度,并歡迎更多研究者加入,共同打造更豐富、更高質量、更貼近社區實際需求的三維物體數據集。

項目主頁:
https://jinli998.github.io/One-shot_3D_Object_Canonicalization/
規范數據集鏈接:
https://github.com/JinLi998/CanonObjaverseDataset

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中年夫妻想親熱一下咋就那么難?網友:剛有點想法,他就說累!

中年夫妻想親熱一下咋就那么難?網友:剛有點想法,他就說累!

美好客棧大掌柜
2025-03-15 00:20:03
顏值和肉體齊飛,這3部歐美限制級大作,讓人回味無窮

顏值和肉體齊飛,這3部歐美限制級大作,讓人回味無窮

天天美劇吧
2025-04-24 20:44:52
黃仁勛來了也要敬酒!單手插兜的兄弟誰啊,首富酒杯都不敢高過他

黃仁勛來了也要敬酒!單手插兜的兄弟誰啊,首富酒杯都不敢高過他

大風文字
2025-04-22 13:44:06
逐夢失敗!追夢DPOY投票中獲得15張第一選票 總得分154分排名第三

逐夢失敗!追夢DPOY投票中獲得15張第一選票 總得分154分排名第三

直播吧
2025-04-25 07:06:09
戴小暖(女,2002年生)被執行死刑

戴小暖(女,2002年生)被執行死刑

掌中邯鄲
2025-04-15 11:06:25
已確認!他在空襲中喪生

已確認!他在空襲中喪生

FM93浙江交通之聲
2025-04-22 21:35:54
1985年美國大毒梟墜機身亡,30公斤白粉被黑熊當食物,結果如何?

1985年美國大毒梟墜機身亡,30公斤白粉被黑熊當食物,結果如何?

胥言
2025-04-17 18:01:03
4.25政治局會議房地產市場六大看點

4.25政治局會議房地產市場六大看點

同策研究院
2025-04-25 15:55:29
“搬磚9年攢下200萬”男子直言:落下一身職業病,讀書會有更好的出路

“搬磚9年攢下200萬”男子直言:落下一身職業病,讀書會有更好的出路

魯中晨報
2025-04-25 16:12:05
他是惡貫滿盈的特務,41歲逃到臺灣,84歲在大街上說共產黨的好話

他是惡貫滿盈的特務,41歲逃到臺灣,84歲在大街上說共產黨的好話

紅色鑒史官
2025-04-23 17:50:03
英冠冠軍也是冠!執教首冠?孔帕尼否認:我帶伯恩利拿過冠軍

英冠冠軍也是冠!執教首冠?孔帕尼否認:我帶伯恩利拿過冠軍

直播吧
2025-04-25 18:55:07
婆婆教我的“強力去濕湯”,喝了5天,整個人都輕松舒服了

婆婆教我的“強力去濕湯”,喝了5天,整個人都輕松舒服了

江江食研社
2025-04-22 20:32:17
澤連斯基:我不在乎歷史書怎么寫我,只想我的孩子在街上無需躲藏

澤連斯基:我不在乎歷史書怎么寫我,只想我的孩子在街上無需躲藏

翻開歷史和現實
2025-03-27 23:01:56
我問我媽:為什么大人物都格外偏愛全紅嬋?我媽的回答好有道理。

我問我媽:為什么大人物都格外偏愛全紅嬋?我媽的回答好有道理。

明月聊史
2025-04-25 13:44:22
神經學家揭秘停止飲用葡萄酒或啤酒的建議年齡

神經學家揭秘停止飲用葡萄酒或啤酒的建議年齡

仰臥撐FTUer
2025-04-14 11:19:02
比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

影史侃談
2025-03-16 22:40:07
豬油再次成為關注對象?醫生提醒:吃豬油時,務必多留意這幾點!

豬油再次成為關注對象?醫生提醒:吃豬油時,務必多留意這幾點!

DrX說
2025-04-22 14:20:48
踩踏亮牌,給出工體標準?澤卡張稀哲相繼被直紅罰下,尺度漸統一

踩踏亮牌,給出工體標準?澤卡張稀哲相繼被直紅罰下,尺度漸統一

實事球是
2025-04-25 22:29:46
蕭敬騰夫婦網球館打球,51歲林有慧初顯老態,穿白T胸部下垂明顯

蕭敬騰夫婦網球館打球,51歲林有慧初顯老態,穿白T胸部下垂明顯

娛圈小愚
2025-04-25 09:01:33
比“椰汁擦乳”還黃,又一擦邊直播間被封了!

比“椰汁擦乳”還黃,又一擦邊直播間被封了!

品牌觀察官
2025-04-14 19:39:49
2025-04-26 00:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10374文章數 176116關注度
往期回顧 全部

科技要聞

文心模型再降價80%,李彥宏:我打下了價格

頭條要聞

美稱波音應認為中國航司退回3架飛機違約 外交部回應

頭條要聞

美稱波音應認為中國航司退回3架飛機違約 外交部回應

體育要聞

?跑得最快的院長來啦!蘇炳添擔任暨大體育學院院長

娛樂要聞

王菲被諷刺為愚婦 張柏芝最終還是贏了

財經要聞

政治局會議傳遞積極信號 機構熱議6大看點

汽車要聞

"下一代純電寶馬"提前體驗 用代碼編譯駕駛樂趣

態度原創

健康
手機
家居
教育
數碼

唇皰疹和口腔潰瘍是"同伙"嗎?

手機要聞

努比亞平板Pro下周發布:2.8K屏+144Hz智能高刷

家居要聞

清徐現代 有溫度有態度

教育要聞

以權謀私,免去校長職務!

數碼要聞

聯想小新首款翻轉本“小新 14 360 AI 元啟版”發布

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 贺州市| 克山县| 苍山县| 怀来县| 云南省| 五台县| 台北市| 夏河县| 醴陵市| 湘潭县| 江陵县| 浦县| 阿坝县| 夏河县| 资兴市| 通山县| 霸州市| 涿州市| 关岭| 汉源县| 桐庐县| 嵩明县| 随州市| 旌德县| 江都市| 平定县| 蛟河市| 冀州市| 防城港市| 通城县| 二手房| 梁河县| 罗江县| 安福县| 铁岭市| 疏附县| 昆明市| 呼伦贝尔市| 闵行区| 秀山| 津市市|