網易首頁 > 網易號 > 正文申請入駐

擴散模型還原被遮擋物體，幾張稀疏照片也能"腦補"重建交互式場景

2025-04-23 13:17:45　來源: 量子位

北京舉報

分享至

DP-Recon團隊投稿量子位 | 公眾號 QbitAI

你是否設想過，僅憑幾張隨手拍攝的照片，就能重建出一個完整、細節豐富且可自由交互的3D場景？

在傳統方法中，這幾乎是不可能完成的任務，稀少的拍攝視角往往導致模型無法還原被遮擋的區域，生成的場景要么殘缺不全，要么細節模糊。更令人困擾的是，傳統的重建算法無法解耦場景中的獨立物體，重建結果無法交互，嚴重限制了在具身智能、元宇宙和影視游戲等領域的應用前景。

近期，北京通用人工智能研究院聯合清華大學、北京大學的研究團隊提出了名為DP-Recon的創新方法。該方法通過在組合式3D場景重建中，引入生成式擴散模型作為先驗，即便只有寥寥數張圖像輸入，也能智能“腦補”出隱藏在視野之外的場景細節，分別重建出場景中的每個物體和背景。

值得一提的是，該方法還創新性地提出了一套可見性建模技術，通過動態調節擴散先驗和輸入圖片約束的損失權重，巧妙地解決了生成內容與真實場景不一致的難題。在應用層面，DP-Recon不僅支持從稀疏圖像中恢復場景，還能實現基于文本的場景編輯，并導出帶紋理的高質量模型，為具身智能、影視游戲制作、AR/VR內容創作等領域，帶來了全新的可能性。

研究概述

圖1. 重建結果、基于文本編輯和影視特效展示

3D場景重建一直是計算機視覺和圖形學領域的核心挑戰，其目標是從多視角圖像中恢復場景的完整幾何和逼真紋理。近年來，NeRF和3DGS等神經隱式表示方法在多視角充足時表現出色，但在稀疏視角下卻捉襟見肘。更重要的是，這些方法將整個場景作為一個整體重建，無法解耦獨立物體，這嚴重制約了下游應用的發展。

現有的組合式場景重建方法同樣面臨稀疏視角帶來的的嚴峻挑戰。視角稀少會導致大面積區域缺乏觀測數據，模型在這些區域容易崩塌；同時，物體間的相互遮擋使得某些部分在所有輸入圖像中都不可見，最終導致重建結果出現畸形或遺漏。

那么，如何為這些“看不見”的區域補充合理信息，讓重建模型既忠實于輸入圖像，又能在空白處有所依據？DP-Recon給出了令人振奮的解決方案，該方法巧妙地將生成式擴散模型作為先驗引入組合式場景重建，通過Score Distillation Sampling（SDS）技術，將擴散模型對物體概念的“理解”蒸餾到3D重建過程中。例如，當輸入照片只拍到桌子的一面時，擴散模型可以基于對“桌子”這一概念的認知，智能推斷出桌子背面的可能形狀和紋理。這種方式為重建提供了寶貴的信息補充，極大提升了在稀疏視角和遮擋場景下的重建效果。

需要注意的是，直接將擴散先驗硬套用到重建上并非易事。如果處理不當，生成模型可能會“過度想象”，產生與輸入圖像矛盾的內容，反而干擾基于真實照片的重建過程。為此，DP-Recon精心設計了一套基于可見性的平衡機制，巧妙協調重建信號（來自輸入圖像的監督）和生成引導（來自擴散模型的先驗），通過動態調整擴散先驗的作用范圍，確保模型在已有照片信息處保持忠實，在空白區域合理發揮想象力。

下面將深入解析DP-Recon的核心技術細節。

關鍵技術

圖2. DP-Recon的算法框架

DP-Recon的技術創新主要體現在以下三個關鍵方面：

1. 組合式場景重建：

與傳統整體式重建不同，DP-Recon采用組合式重建策略。具體來說，模型會利用多種模態的重建損失（包括：RGB圖像、深度圖、法向量圖和實例分割圖），為每個對象分別建立隱式場（SDF），初步構建幾何輪廓和外觀表征，便于后續對每個物體加入基于文本的先驗信息。

2. 幾何和外觀的分階段優化：

DP-Recon將重建過程分為了幾何和外觀兩個階段，分別針對物體的形狀和紋理進行優化。

在幾何優化階段，基于初步重建的基礎，通過對法向量圖引入Stable Diffusion的SDS損失，進一步優化物體在欠缺觀察區域的細節，顯著提升幾何完整度。此階段結束后，將輸出每個物體和背景的Mesh結構。

在外觀優化階段，使用Nvdiffrast渲染生成的Mesh，巧妙融合輸入圖像的顏色信息和擴散先驗，對物體表面紋理進行優化。為便于后續渲染和編輯，DP-Recon在此階段還會為每個對象生成精細的UV貼圖。

經過以上兩個階段的處理，最終，場景中每個對象的高質量網格模型及其紋理貼圖，均具有精準幾何和逼真外觀。

3. 可見性引導的SDS權重機制：

針對擴散先驗可能帶來的不一致問題，DP-Recon提出了創新的可見性引導解決方案。該方法在計算SDS損失時引入可見性權重，根據每個像素在輸入視角中的可見程度，動態調節擴散模型的引導強度。

具體而言，DP-Recon在重建過程中構建了一個可見性網格，通過輸入視角體渲染過程中積累的透射率，來優化這個網格。當需要計算參與SDS視角的可見性圖時，直接查詢該網格即可。對于輸入照片中高度可見的區域，系統會自動降低SDS損失權重，避免擴散模型“喧賓奪主”；而對于未被拍攝到或被遮擋的區域，則賦予更高的SDS權重，鼓勵網絡借助擴散先驗補全細節。這種精細的可見性引導機制，完美平衡了重建的真實性與完整性。

實驗結果

在Replica和ScanNet++等權威數據集上的系統性評估表明，DP-Recon在稀疏視角下的整體場景重建和分解式物體重建兩方面都實現了顯著突破。

表1. 整場景重建定量結果對比

1. 整體場景重建：

量化結果（見表1）清晰顯示，DP-Recon方法在重建指標和渲染指標上與所有基線模型相比，均展現出明顯優勢。

△圖3. 場景重建結果對比

如圖3所示，通過將生成式先驗融入重建流程，DP-Recon在拍攝不足的區域，實現了更精準的幾何重建和顏色還原，以及更平滑的背景重建和更少的偽影漂浮物。如圖4所示，在相同條件下，DP-Recon的渲染結果質量明顯更高，而基線方法則出現明顯偽影。

圖4. 新視角合成結果對比

2. 分解式物體重建：

如表2和圖3所示，生成式先驗的引入極大改善了遮擋區域的重建效果，被遮擋物體的結構和背景都能更加精確地還原，DP-Recon顯著減少遮擋區域的偽影漂浮物。在遮擋嚴重的復雜大場景測試中（見圖1），DP-Recon僅用10個視角就超越了基線方法使用100個視角的重建效果，這一突破性成果充分證明了該方法在真實場景中的實用價值。

表2. 物體和背景重建結果對比

應用價值

1. 智能家居重建：

DP-Recon對室內場景展現出了卓越的魯棒性。實驗表明，僅需從YouTube看房視頻中提取15張圖像，配合Colmap標注相機位姿和SAM2物體分割，就能重建出高質量的帶紋理場景模型，如圖5所示。

△圖5. YouTube看房視頻重建結果

2. 賦能3D AIGC：

借助DP-Recon的生成式先驗，用戶可以輕松實現基于文本的場景編輯，如圖6所示。就像為3D世界接入了AI想象力，用一句“將花瓶變成泰迪熊”或是“換成太空風格”，就能實現傳統方法需要數日才能完成的修改。這種無縫融合重建與創作的能力，將大幅提升AIGC生產效率。

圖6. 基于文本的場景幾何和外觀編輯

3. 影視游戲工業化：

DP-Recon輸出的每個對象都是帶有精細UV貼圖的獨立網格模型，如圖7所示，這為影視特效（VFX）和游戲開發帶來了極大便利。創作者可以輕松將模型導入Blender等3D軟件，進行光照、動畫和特效制作，或將場景直接接入游戲引擎開發交互內容。

圖7. 影視特效展示

團隊介紹

研究團隊由來自北京通用人工智能研究院（BIGAI）、清華大學和北京大學的跨學科研究者組成，致力于通用人工智能領域的前沿研究。團隊成員在三維場景理解、重建和生成等方面，擁有豐富的研究經驗。一作為清華大學博士生倪俊鋒，其它作者為清華大學博士生劉宇、北京大學博士生陸睿杰、清華大學本科生周子睿；通訊作者為北京通用人工智能研究院研究員陳以新、北京通用人工智能研究院研究員黃思遠。

論文鏈接： https://arxiv.org/abs/2503.14830
項目主頁： https://dp-recon.github.io/
代碼倉庫： https://github.com/DP-Recon/DP-Recon

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.