擴散模型還原被遮擋物體，幾張稀疏照片也能"腦補"重建交互式場景

2025-04-23 13:17:45　來源: 量子位

北京舉報

分享至

DP-Recon團隊投稿量子位 | 公眾號 QbitAI

你是否設想過，僅憑幾張隨手拍攝的照片，就能重建出一個完整、細節(jié)豐富且可自由交互的3D場景？

在傳統(tǒng)方法中，這幾乎是不可能完成的任務，稀少的拍攝視角往往導致模型無法還原被遮擋的區(qū)域，生成的場景要么殘缺不全，要么細節(jié)模糊。更令人困擾的是，傳統(tǒng)的重建算法無法解耦場景中的獨立物體，重建結果無法交互，嚴重限制了在具身智能、元宇宙和影視游戲等領域的應用前景。

近期，北京通用人工智能研究院聯(lián)合清華大學、北京大學的研究團隊提出了名為DP-Recon的創(chuàng)新方法。該方法通過在組合式3D場景重建中，引入生成式擴散模型作為先驗，即便只有寥寥數(shù)張圖像輸入，也能智能“腦補”出隱藏在視野之外的場景細節(jié)，分別重建出場景中的每個物體和背景。

值得一提的是，該方法還創(chuàng)新性地提出了一套可見性建模技術，通過動態(tài)調節(jié)擴散先驗和輸入圖片約束的損失權重，巧妙地解決了生成內容與真實場景不一致的難題。在應用層面，DP-Recon不僅支持從稀疏圖像中恢復場景，還能實現(xiàn)基于文本的場景編輯，并導出帶紋理的高質量模型，為具身智能、影視游戲制作、AR/VR內容創(chuàng)作等領域，帶來了全新的可能性。

研究概述

圖1. 重建結果、基于文本編輯和影視特效展示

3D場景重建一直是計算機視覺和圖形學領域的核心挑戰(zhàn)，其目標是從多視角圖像中恢復場景的完整幾何和逼真紋理。近年來，NeRF和3DGS等神經(jīng)隱式表示方法在多視角充足時表現(xiàn)出色，但在稀疏視角下卻捉襟見肘。更重要的是，這些方法將整個場景作為一個整體重建，無法解耦獨立物體，這嚴重制約了下游應用的發(fā)展。

現(xiàn)有的組合式場景重建方法同樣面臨稀疏視角帶來的的嚴峻挑戰(zhàn)。視角稀少會導致大面積區(qū)域缺乏觀測數(shù)據(jù)，模型在這些區(qū)域容易崩塌；同時，物體間的相互遮擋使得某些部分在所有輸入圖像中都不可見，最終導致重建結果出現(xiàn)畸形或遺漏。

那么，如何為這些“看不見”的區(qū)域補充合理信息，讓重建模型既忠實于輸入圖像，又能在空白處有所依據(jù)？DP-Recon給出了令人振奮的解決方案，該方法巧妙地將生成式擴散模型作為先驗引入組合式場景重建，通過Score Distillation Sampling（SDS）技術，將擴散模型對物體概念的“理解”蒸餾到3D重建過程中。例如，當輸入照片只拍到桌子的一面時，擴散模型可以基于對“桌子”這一概念的認知，智能推斷出桌子背面的可能形狀和紋理。這種方式為重建提供了寶貴的信息補充，極大提升了在稀疏視角和遮擋場景下的重建效果。

需要注意的是，直接將擴散先驗硬套用到重建上并非易事。如果處理不當，生成模型可能會“過度想象”，產(chǎn)生與輸入圖像矛盾的內容，反而干擾基于真實照片的重建過程。為此，DP-Recon精心設計了一套基于可見性的平衡機制，巧妙協(xié)調重建信號（來自輸入圖像的監(jiān)督）和生成引導（來自擴散模型的先驗），通過動態(tài)調整擴散先驗的作用范圍，確保模型在已有照片信息處保持忠實，在空白區(qū)域合理發(fā)揮想象力。

下面將深入解析DP-Recon的核心技術細節(jié)。

關鍵技術

圖2. DP-Recon的算法框架

DP-Recon的技術創(chuàng)新主要體現(xiàn)在以下三個關鍵方面：

1. 組合式場景重建：

與傳統(tǒng)整體式重建不同，DP-Recon采用組合式重建策略。具體來說，模型會利用多種模態(tài)的重建損失（包括：RGB圖像、深度圖、法向量圖和實例分割圖），為每個對象分別建立隱式場（SDF），初步構建幾何輪廓和外觀表征，便于后續(xù)對每個物體加入基于文本的先驗信息。

2. 幾何和外觀的分階段優(yōu)化：

DP-Recon將重建過程分為了幾何和外觀兩個階段，分別針對物體的形狀和紋理進行優(yōu)化。

在幾何優(yōu)化階段，基于初步重建的基礎，通過對法向量圖引入Stable Diffusion的SDS損失，進一步優(yōu)化物體在欠缺觀察區(qū)域的細節(jié)，顯著提升幾何完整度。此階段結束后，將輸出每個物體和背景的Mesh結構。

在外觀優(yōu)化階段，使用Nvdiffrast渲染生成的Mesh，巧妙融合輸入圖像的顏色信息和擴散先驗，對物體表面紋理進行優(yōu)化。為便于后續(xù)渲染和編輯，DP-Recon在此階段還會為每個對象生成精細的UV貼圖。

經(jīng)過以上兩個階段的處理，最終，場景中每個對象的高質量網(wǎng)格模型及其紋理貼圖，均具有精準幾何和逼真外觀。

3. 可見性引導的SDS權重機制：

針對擴散先驗可能帶來的不一致問題，DP-Recon提出了創(chuàng)新的可見性引導解決方案。該方法在計算SDS損失時引入可見性權重，根據(jù)每個像素在輸入視角中的可見程度，動態(tài)調節(jié)擴散模型的引導強度。

具體而言，DP-Recon在重建過程中構建了一個可見性網(wǎng)格，通過輸入視角體渲染過程中積累的透射率，來優(yōu)化這個網(wǎng)格。當需要計算參與SDS視角的可見性圖時，直接查詢該網(wǎng)格即可。對于輸入照片中高度可見的區(qū)域，系統(tǒng)會自動降低SDS損失權重，避免擴散模型“喧賓奪主”；而對于未被拍攝到或被遮擋的區(qū)域，則賦予更高的SDS權重，鼓勵網(wǎng)絡借助擴散先驗補全細節(jié)。這種精細的可見性引導機制，完美平衡了重建的真實性與完整性。

實驗結果

在Replica和ScanNet++等權威數(shù)據(jù)集上的系統(tǒng)性評估表明，DP-Recon在稀疏視角下的整體場景重建和分解式物體重建兩方面都實現(xiàn)了顯著突破。

表1. 整場景重建定量結果對比

1. 整體場景重建：

量化結果（見表1）清晰顯示，DP-Recon方法在重建指標和渲染指標上與所有基線模型相比，均展現(xiàn)出明顯優(yōu)勢。

△圖3. 場景重建結果對比

如圖3所示，通過將生成式先驗融入重建流程，DP-Recon在拍攝不足的區(qū)域，實現(xiàn)了更精準的幾何重建和顏色還原，以及更平滑的背景重建和更少的偽影漂浮物。如圖4所示，在相同條件下，DP-Recon的渲染結果質量明顯更高，而基線方法則出現(xiàn)明顯偽影。

圖4. 新視角合成結果對比

2. 分解式物體重建：

如表2和圖3所示，生成式先驗的引入極大改善了遮擋區(qū)域的重建效果，被遮擋物體的結構和背景都能更加精確地還原，DP-Recon顯著減少遮擋區(qū)域的偽影漂浮物。在遮擋嚴重的復雜大場景測試中（見圖1），DP-Recon僅用10個視角就超越了基線方法使用100個視角的重建效果，這一突破性成果充分證明了該方法在真實場景中的實用價值。

表2. 物體和背景重建結果對比

應用價值

1. 智能家居重建：

DP-Recon對室內場景展現(xiàn)出了卓越的魯棒性。實驗表明，僅需從YouTube看房視頻中提取15張圖像，配合Colmap標注相機位姿和SAM2物體分割，就能重建出高質量的帶紋理場景模型，如圖5所示。

△圖5. YouTube看房視頻重建結果

2. 賦能3D AIGC：

借助DP-Recon的生成式先驗，用戶可以輕松實現(xiàn)基于文本的場景編輯，如圖6所示。就像為3D世界接入了AI想象力，用一句“將花瓶變成泰迪熊”或是“換成太空風格”，就能實現(xiàn)傳統(tǒng)方法需要數(shù)日才能完成的修改。這種無縫融合重建與創(chuàng)作的能力，將大幅提升AIGC生產(chǎn)效率。

圖6. 基于文本的場景幾何和外觀編輯

3. 影視游戲工業(yè)化：

DP-Recon輸出的每個對象都是帶有精細UV貼圖的獨立網(wǎng)格模型，如圖7所示，這為影視特效（VFX）和游戲開發(fā)帶來了極大便利。創(chuàng)作者可以輕松將模型導入Blender等3D軟件，進行光照、動畫和特效制作，或將場景直接接入游戲引擎開發(fā)交互內容。

圖7. 影視特效展示

團隊介紹

研究團隊由來自北京通用人工智能研究院（BIGAI）、清華大學和北京大學的跨學科研究者組成，致力于通用人工智能領域的前沿研究。團隊成員在三維場景理解、重建和生成等方面，擁有豐富的研究經(jīng)驗。一作為清華大學博士生倪俊鋒，其它作者為清華大學博士生劉宇、北京大學博士生陸睿杰、清華大學本科生周子睿；通訊作者為北京通用人工智能研究院研究員陳以新、北京通用人工智能研究院研究員黃思遠。

論文鏈接： https://arxiv.org/abs/2503.14830
項目主頁： https://dp-recon.github.io/
代碼倉庫： https://github.com/DP-Recon/DP-Recon

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.