3D基礎模型時代開啟？Meta與牛津大學VGGT，開創(chuàng)高效3D視覺新范式

2025-03-28 11:03:52　來源: 機器之心Pro

北京舉報

分享至

「僅需一次前向推理，即可預測相機參數(shù)、深度圖、點云與 3D 軌跡 ——VGGT 如何重新定義 3D 視覺？」

3D 視覺領域正迎來新的巨變。牛津大學 VGG (Visual Geometry Group) 與 Meta AI 團隊聯(lián)合發(fā)布的最新研究 VGGT（Visual Geometry Grounded Transformer），提出了一種基于純前饋 Transformer 架構的通用 3D 視覺模型，能夠從單張、多張甚至上百張圖像中直接推理出相機內參、外參、深度圖、點云及 3D 點軌跡等核心幾何信息。無需任何后處理優(yōu)化，該模型已經(jīng)在多個 3D 任務中性能顯著超越傳統(tǒng)優(yōu)化方法與現(xiàn)有 SOTA 模型，推理速度可達秒級。這一研究打破了過去 3D 任務依賴繁瑣幾何迭代優(yōu)化的傳統(tǒng)范式，展示了 “越簡單，越有效” 的強大潛力。

論文標題：VGGT: Visual Geometry Grounded Transformer

論文鏈接：https://arxiv.org/abs/2503.11651

代碼鏈接：https://github.com/facebookresearch/vggt
演示平臺：https://huggingface.co/spaces/facebook/vggt

打破傳統(tǒng)范式：從迭代優(yōu)化到端到端推理

傳統(tǒng) 3D 重建技術高度依賴束調整（Bundle Adjustment, BA）等幾何優(yōu)化方法，需反復迭代且計算成本高昂。盡管近年來機器學習被引入輔助優(yōu)化，但仍難以擺脫復雜后處理的桎梏。VGGT 開創(chuàng)性地采用純前饋設計：通過大規(guī)模 3D 標注數(shù)據(jù)與 Transformer 架構的結合，模型在一次前向傳播中即可完成全部幾何推理任務。實驗表明，即便輸入數(shù)百張圖像，VGGT 仍能在數(shù)秒內輸出高質量結果，在精度與速度上均超越傳統(tǒng)優(yōu)化方法。

研究團隊指出，VGGT 的成功并非源于復雜的結構設計或領域先驗，而是得益于 Transformer 架構的通用性與大規(guī)模 3D 數(shù)據(jù)訓練的協(xié)同效應。模型將輸入圖像轉化為 Tokens 后，與隨機初始化的相機 Tokens 共同輸入交替注意力模塊（Alternating-Attention），通過全局與幀級自注意力層的交替堆疊，逐步融合多視圖幾何信息。最終，相機參數(shù)經(jīng)專用頭部解碼，圖像 Tokens 則通過 DPT 頭部生成密集預測（如深度圖與點圖）。值得一提的是，VGGT 僅使用自注意力機制（self attention），未使用跨注意力（cross attention）。

同時，為保持輸入圖像的置換不變性（改變輸入圖像順序不改變預測結果），VGGT 摒棄了幀索引 (frame index) 位置編碼。相反，VGGT 僅通過幀級自注意力機制動態(tài)關聯(lián)同一圖像的 Tokens。這種設計不僅使得模型無需依賴預設位置信息即可區(qū)分多視圖數(shù)據(jù)，更賦予模型強大的泛化能力 —— 即便訓練時僅使用 2-24 幀數(shù)據(jù)，測試時亦可輕松處理超過 200 幀的輸入。VGGT 收集了 17 個大型 3D 數(shù)據(jù)集一起進行訓練，在 64 塊 A100GPU 上共耗時 9 天。

性能與泛化性雙突破

定性演示視頻顯示，VGGT 能輕松應對不同數(shù)量圖像及復雜場景的重建。同時，研究人員提供了與過去 SOTA 的定性比較。VGGT 可精準重建梵高油畫等非真實場景的幾何結構，甚至能處理無重疊視圖或重復紋理的極端案例。用戶可通過 Hugging Face Demo 上傳圖像，實時體驗 3D 重建效果。

在定量實驗中，VGGT 無需任何后處理即在相機姿勢估計，多視圖深度估計、點云重建等任務中全面領先，其推理速度較傳統(tǒng)方法提升近 50 倍。即便與同期 CVPR 2025 的 Transformer-based 重建模型相比，VGGT 性能優(yōu)勢明顯，并與速度最快的 Fast3R 相當。有趣的是，研究團隊還意外發(fā)現(xiàn)，利用模型預測的深度圖與相機參數(shù)反投影生成的點云，其質量甚至超過直接回歸的點圖，這一現(xiàn)象揭示了模型對幾何一致性內在規(guī)律的自發(fā)學習能力。

跨任務泛化的潛力 - 單目重建

盡管 VGGT 從未接受單圖訓練，但仍展現(xiàn)出強大的跨任務泛化能力。研究團隊公布的單圖重建定性結果顯示，VGGT 在未專門訓練的單目任務中表現(xiàn)出色。

VGGT 的代碼和模型公開后，迅速有 github 社區(qū)成員跟進，在標準的單目設置下進行測試。GitHub 社區(qū)測試顯示，VGGT 在 NYU V2 等數(shù)據(jù)集上的表現(xiàn)已逼近單目 SOTA 水平，這一「意外之喜」進一步印證了 VGGT 作為通用 3D 基礎模型的潛力。

結語

視覺重建作為所有 3D 任務的核心，VGGT 的成功標志著 3D 視覺領域或許即將迎來一個全新的，基礎模型的時代。正如論文作者所述，我們正在見證視覺幾何從「手工設計」到「數(shù)據(jù)驅動」的范式遷移，而這可能僅僅是個開端。「簡單架構 + 數(shù)據(jù)驅動」的模式是否能如 2D 視覺和 NLP 領域般徹底重塑 3D 任務？讓我們拭目以待。

作者介紹：論文第一作者王建元為牛津大學視覺幾何組（VGG）與Meta AI的聯(lián)合培養(yǎng)博士生（博士三年級），長期致力于3D重建方法研究。其博士工作聚焦于端到端幾何推理框架的創(chuàng)新，曾主導開發(fā)PoseDiffusion、VGGSfM，以及本次提出的通用3D基礎模型VGGT，相關成果均發(fā)表于CVPR、ICCV等頂級會議，推動了數(shù)據(jù)驅動式3D重建技術的演進。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.