論文有三位共同一作。趙若雯,清華大學一年級碩士生,主要研究生成模型、強化學習和具身智能,已在ICRA等會議發(fā)表論文。葉俊良,清華大學二年級碩士生,專注于3D生成和基于人類偏好的多模態(tài)強化學習研究,曾以第一作者身份在ECCV發(fā)表DreamReward,該成果能生成更符合人類偏好的3D資產(chǎn)。王征翊,清華大學四年級博士生,主要研究3D多模態(tài)生成模型,已在NeurIPS、ECCV、ICML、CVPR等頂級學術會議發(fā)表多篇論文。
在三維數(shù)字內(nèi)容生產(chǎn)領域,三角形網(wǎng)格作為核心的幾何表示形式,其質(zhì)量直接影響虛擬資產(chǎn)在影視、游戲和工業(yè)設計等應用場景中的表現(xiàn)與效率。
傳統(tǒng)的三維網(wǎng)格生成方式,如人工建模或 Marching Cubes 等算法,存在成本高、拓撲結構質(zhì)量差等問題。
針對這一瓶頸,清華大學朱軍團隊近日提出了 DeepMesh 方法,通過引入創(chuàng)新的自回歸生成框架,顯著提升了高面片人造網(wǎng)格的生成能力。該方法支持生成高達 3 萬個面片的三維網(wǎng)格,相比現(xiàn)有技術提升了一個數(shù)量級。
- 論文標題:DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning
- 論文主頁:https://zhaorw02.github.io/DeepMesh/
- 論文地址:https://arxiv.org/abs/2503.15265
- 代碼:https://github.com/zhaorw02/DeepMesh
DeepMesh 基于輸入點云,采用自回歸的 Transformer 架構逐步預測面片序列,從而生成拓撲結構合理且視覺美觀的高質(zhì)量三維網(wǎng)格。
DeepMesh 架構如圖所示,系統(tǒng)首先利用編碼器對輸入點云進行特征提取;提取到的特征隨后被輸入至自回歸 Transformer 模塊,該模塊通過融合自注意力與交叉注意力機制,逐步預測網(wǎng)格的頂點或面片序列,最終生成結構完整的高質(zhì)量三維網(wǎng)格。
在預訓練階段,DeepMesh 引入了三級塊結構網(wǎng)格標記化方法:根據(jù)面片之間的連通性對網(wǎng)格進行分解,并將其劃分為粗、中、細多個空間層級。在此基礎上,將面片中各頂點的坐標映射為相對于所屬層級塊的偏移索引,并對重復索引進行合并處理。
該方法在確保幾何精度的同時,顯著壓縮了序列長度,從而大幅提升了訓練效率。圖中展示了采用 DeepMesh 網(wǎng)格標記化方法與其他方法,在訓練不同面片數(shù)量的網(wǎng)格數(shù)據(jù)時的耗時對比情況。
通過對訓練數(shù)據(jù)進行封裝處理,并引入融合幾何質(zhì)量與結構規(guī)整度的雙重篩選機制,DeepMesh 有效解決了異常樣本引發(fā)的訓練不穩(wěn)定問題,同時實現(xiàn)了訓練過程中的動態(tài)負載均衡。為突破長序列帶來的內(nèi)存瓶頸,模型還采用了滑動窗口截斷訓練技術,支持單個網(wǎng)格生成高達 3 萬個面片,顯著提升了建模能力。
此外,DeepMesh 創(chuàng)新性地引入了「直接偏好優(yōu)化(DPO)」強化學習框架,并構建了一個結合客觀幾何指標與主觀人類評價的分階段數(shù)據(jù)標注系統(tǒng)。
該系統(tǒng)首先利用幾何質(zhì)量指標篩除存在明顯缺陷的 3D 樣本,隨后由人工對剩余數(shù)據(jù)進行標注,評估其拓撲結構的合理性與視覺觀賞性。基于這套高質(zhì)量的標注數(shù)據(jù),團隊對模型進行了強化訓練,從而顯著提升了生成結果在幾何完整性與拓撲美觀性方面的表現(xiàn)。
DeepMesh 在細節(jié)保真與結構多樣性方面表現(xiàn)出色,并具備對傳統(tǒng)生成方法所生成網(wǎng)格進行拓撲優(yōu)化的能力。與現(xiàn)有方法相比,DeepMesh 在幾何精度與拓撲質(zhì)量兩個維度均實現(xiàn)最優(yōu)性能,生成的三維網(wǎng)格不僅在結構合理性上表現(xiàn)卓越,也在視覺美觀性上更具吸引力。
在多樣性生成方面,DeepMesh 能在保持輸入點云幾何一致性的前提下,對同一輸入生成多種具有高保真度且外觀風格各異的三維網(wǎng)格方案,展現(xiàn)出強大的創(chuàng)意生成與精度控制的能力。這一特性對于影視制作、游戲設計等需進行多版本快速迭代的應用場景具有顯著價值。
針對傳統(tǒng)方法(如 TRELLIS)生成的拓撲結構混亂問題,DeepMesh 可對其輸出結果進行有效的拓撲優(yōu)化,顯著提升網(wǎng)格結構的有序性與合理性。
憑借在高保真、多樣性與拓撲優(yōu)化方面的突出表現(xiàn),DeepMesh 展現(xiàn)出在 3D 內(nèi)容創(chuàng)作領域的顛覆性潛力,特別適用于數(shù)字游戲、虛擬現(xiàn)實、影視制作等對創(chuàng)意表達與建模效率要求極高的行業(yè)。
該研究成果發(fā)布后迅速引發(fā)廣泛關注,知名推特博主 AK 第一時間轉發(fā)支持,相關內(nèi)容獲得上千點贊,引發(fā)業(yè)內(nèi)與社群的熱烈討論與積極反饋。
以下展示更多由 DeepMesh 生成的三維網(wǎng)格示例,進一步體現(xiàn)模型在細節(jié)還原、拓撲合理性及多樣性方面的強大能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.