DP-Recon團隊 投稿量子位 | 公眾號 QbitAI
你是否設想過,僅憑幾張隨手拍攝的照片,就能重建出一個完整、細節(jié)豐富且可自由交互的3D場景?
在傳統(tǒng)方法中,這幾乎是不可能完成的任務,稀少的拍攝視角往往導致模型無法還原被遮擋的區(qū)域,生成的場景要么殘缺不全,要么細節(jié)模糊。更令人困擾的是,傳統(tǒng)的重建算法無法解耦場景中的獨立物體,重建結果無法交互,嚴重限制了在具身智能、元宇宙和影視游戲等領域的應用前景。
近期,北京通用人工智能研究院聯(lián)合清華大學、北京大學的研究團隊提出了名為DP-Recon的創(chuàng)新方法。該方法通過在組合式3D場景重建中,引入生成式擴散模型作為先驗,即便只有寥寥數(shù)張圖像輸入,也能智能“腦補”出隱藏在視野之外的場景細節(jié),分別重建出場景中的每個物體和背景。
值得一提的是,該方法還創(chuàng)新性地提出了一套可見性建模技術,通過動態(tài)調節(jié)擴散先驗和輸入圖片約束的損失權重,巧妙地解決了生成內容與真實場景不一致的難題。在應用層面,DP-Recon不僅支持從稀疏圖像中恢復場景,還能實現(xiàn)基于文本的場景編輯,并導出帶紋理的高質量模型,為具身智能、影視游戲制作、AR/VR內容創(chuàng)作等領域,帶來了全新的可能性。
研究概述
圖1. 重建結果、基于文本編輯和影視特效展示
3D場景重建一直是計算機視覺和圖形學領域的核心挑戰(zhàn),其目標是從多視角圖像中恢復場景的完整幾何和逼真紋理。近年來,NeRF和3DGS等神經(jīng)隱式表示方法在多視角充足時表現(xiàn)出色,但在稀疏視角下卻捉襟見肘。更重要的是,這些方法將整個場景作為一個整體重建,無法解耦獨立物體,這嚴重制約了下游應用的發(fā)展。
現(xiàn)有的組合式場景重建方法同樣面臨稀疏視角帶來的的嚴峻挑戰(zhàn)。視角稀少會導致大面積區(qū)域缺乏觀測數(shù)據(jù),模型在這些區(qū)域容易崩塌;同時,物體間的相互遮擋使得某些部分在所有輸入圖像中都不可見,最終導致重建結果出現(xiàn)畸形或遺漏。
那么,如何為這些“看不見”的區(qū)域補充合理信息,讓重建模型既忠實于輸入圖像,又能在空白處有所依據(jù)?DP-Recon給出了令人振奮的解決方案,該方法巧妙地將生成式擴散模型作為先驗引入組合式場景重建,通過Score Distillation Sampling(SDS)技術,將擴散模型對物體概念的“理解”蒸餾到3D重建過程中。例如,當輸入照片只拍到桌子的一面時,擴散模型可以基于對“桌子”這一概念的認知,智能推斷出桌子背面的可能形狀和紋理。這種方式為重建提供了寶貴的信息補充,極大提升了在稀疏視角和遮擋場景下的重建效果。
需要注意的是,直接將擴散先驗硬套用到重建上并非易事。如果處理不當,生成模型可能會“過度想象”,產(chǎn)生與輸入圖像矛盾的內容,反而干擾基于真實照片的重建過程。為此,DP-Recon精心設計了一套基于可見性的平衡機制,巧妙協(xié)調重建信號(來自輸入圖像的監(jiān)督)和生成引導(來自擴散模型的先驗),通過動態(tài)調整擴散先驗的作用范圍,確保模型在已有照片信息處保持忠實,在空白區(qū)域合理發(fā)揮想象力。
下面將深入解析DP-Recon的核心技術細節(jié)。
關鍵技術
圖2. DP-Recon的算法框架
DP-Recon的技術創(chuàng)新主要體現(xiàn)在以下三個關鍵方面:
1. 組合式場景重建:
與傳統(tǒng)整體式重建不同,DP-Recon采用組合式重建策略。具體來說,模型會利用多種模態(tài)的重建損失(包括:RGB圖像、深度圖、法向量圖和實例分割圖),為每個對象分別建立隱式場(SDF),初步構建幾何輪廓和外觀表征,便于后續(xù)對每個物體加入基于文本的先驗信息。
2. 幾何和外觀的分階段優(yōu)化:
DP-Recon將重建過程分為了幾何和外觀兩個階段,分別針對物體的形狀和紋理進行優(yōu)化。
在幾何優(yōu)化階段,基于初步重建的基礎,通過對法向量圖引入Stable Diffusion的SDS損失,進一步優(yōu)化物體在欠缺觀察區(qū)域的細節(jié),顯著提升幾何完整度。此階段結束后,將輸出每個物體和背景的Mesh結構。
在外觀優(yōu)化階段,使用Nvdiffrast渲染生成的Mesh,巧妙融合輸入圖像的顏色信息和擴散先驗,對物體表面紋理進行優(yōu)化。為便于后續(xù)渲染和編輯,DP-Recon在此階段還會為每個對象生成精細的UV貼圖。
經(jīng)過以上兩個階段的處理,最終,場景中每個對象的高質量網(wǎng)格模型及其紋理貼圖,均具有精準幾何和逼真外觀。
3. 可見性引導的SDS權重機制:
針對擴散先驗可能帶來的不一致問題,DP-Recon提出了創(chuàng)新的可見性引導解決方案。該方法在計算SDS損失時引入可見性權重,根據(jù)每個像素在輸入視角中的可見程度,動態(tài)調節(jié)擴散模型的引導強度。
具體而言,DP-Recon在重建過程中構建了一個可見性網(wǎng)格,通過輸入視角體渲染過程中積累的透射率,來優(yōu)化這個網(wǎng)格。當需要計算參與SDS視角的可見性圖時,直接查詢該網(wǎng)格即可。對于輸入照片中高度可見的區(qū)域,系統(tǒng)會自動降低SDS損失權重,避免擴散模型“喧賓奪主”;而對于未被拍攝到或被遮擋的區(qū)域,則賦予更高的SDS權重,鼓勵網(wǎng)絡借助擴散先驗補全細節(jié)。這種精細的可見性引導機制,完美平衡了重建的真實性與完整性。
實驗結果
在Replica和ScanNet++等權威數(shù)據(jù)集上的系統(tǒng)性評估表明,DP-Recon在稀疏視角下的整體場景重建和分解式物體重建兩方面都實現(xiàn)了顯著突破。
表1. 整場景重建定量結果對比
1. 整體場景重建:
量化結果(見表1)清晰顯示,DP-Recon方法在重建指標和渲染指標上與所有基線模型相比,均展現(xiàn)出明顯優(yōu)勢。
△圖3. 場景重建結果對比
如圖3所示,通過將生成式先驗融入重建流程,DP-Recon在拍攝不足的區(qū)域,實現(xiàn)了更精準的幾何重建和顏色還原,以及更平滑的背景重建和更少的偽影漂浮物。如圖4所示,在相同條件下,DP-Recon的渲染結果質量明顯更高,而基線方法則出現(xiàn)明顯偽影。
圖4. 新視角合成結果對比
2. 分解式物體重建:
如表2和圖3所示,生成式先驗的引入極大改善了遮擋區(qū)域的重建效果,被遮擋物體的結構和背景都能更加精確地還原,DP-Recon顯著減少遮擋區(qū)域的偽影漂浮物。在遮擋嚴重的復雜大場景測試中(見圖1),DP-Recon僅用10個視角就超越了基線方法使用100個視角的重建效果,這一突破性成果充分證明了該方法在真實場景中的實用價值。
表2. 物體和背景重建結果對比
應用價值
1. 智能家居重建:
DP-Recon對室內場景展現(xiàn)出了卓越的魯棒性。實驗表明,僅需從YouTube看房視頻中提取15張圖像,配合Colmap標注相機位姿和SAM2物體分割,就能重建出高質量的帶紋理場景模型,如圖5所示。
△圖5. YouTube看房視頻重建結果
2. 賦能3D AIGC:
借助DP-Recon的生成式先驗,用戶可以輕松實現(xiàn)基于文本的場景編輯,如圖6所示。就像為3D世界接入了AI想象力,用一句“將花瓶變成泰迪熊”或是“換成太空風格”,就能實現(xiàn)傳統(tǒng)方法需要數(shù)日才能完成的修改。這種無縫融合重建與創(chuàng)作的能力,將大幅提升AIGC生產(chǎn)效率。
圖6. 基于文本的場景幾何和外觀編輯
3. 影視游戲工業(yè)化:
DP-Recon輸出的每個對象都是帶有精細UV貼圖的獨立網(wǎng)格模型,如圖7所示,這為影視特效(VFX)和游戲開發(fā)帶來了極大便利。創(chuàng)作者可以輕松將模型導入Blender等3D軟件,進行光照、動畫和特效制作,或將場景直接接入游戲引擎開發(fā)交互內容。
圖7. 影視特效展示
團隊介紹
研究團隊由來自北京通用人工智能研究院(BIGAI)、清華大學和北京大學的跨學科研究者組成,致力于通用人工智能領域的前沿研究。團隊成員在三維場景理解、重建和生成等方面,擁有豐富的研究經(jīng)驗。一作為清華大學博士生倪俊鋒,其它作者為清華大學博士生劉宇、北京大學博士生陸睿杰、清華大學本科生周子睿;通訊作者為北京通用人工智能研究院研究員陳以新、北京通用人工智能研究院研究員黃思遠。
論文鏈接: https://arxiv.org/abs/2503.14830
項目主頁: https://dp-recon.github.io/
代碼倉庫: https://github.com/DP-Recon/DP-Recon
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.