99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

3D基礎模型時代開啟?Meta與牛津大學VGGT,開創(chuàng)高效3D視覺新范式

0
分享至




「僅需一次前向推理,即可預測相機參數(shù)、深度圖、點云與 3D 軌跡 ——VGGT 如何重新定義 3D 視覺?」

3D 視覺領域正迎來新的巨變。牛津大學 VGG (Visual Geometry Group) 與 Meta AI 團隊聯(lián)合發(fā)布的最新研究 VGGT(Visual Geometry Grounded Transformer),提出了一種基于純前饋 Transformer 架構的通用 3D 視覺模型,能夠從單張、多張甚至上百張圖像中直接推理出相機內參、外參、深度圖、點云及 3D 點軌跡等核心幾何信息。無需任何后處理優(yōu)化,該模型已經(jīng)在多個 3D 任務中性能顯著超越傳統(tǒng)優(yōu)化方法與現(xiàn)有 SOTA 模型,推理速度可達秒級。這一研究打破了過去 3D 任務依賴繁瑣幾何迭代優(yōu)化的傳統(tǒng)范式,展示了 “越簡單,越有效” 的強大潛力。



論文標題:VGGT: Visual Geometry Grounded Transformer

論文鏈接:https://arxiv.org/abs/2503.11651

  • 代碼鏈接:https://github.com/facebookresearch/vggt
  • 演示平臺:https://huggingface.co/spaces/facebook/vggt

打破傳統(tǒng)范式:從迭代優(yōu)化到端到端推理

傳統(tǒng) 3D 重建技術高度依賴束調整(Bundle Adjustment, BA)等幾何優(yōu)化方法,需反復迭代且計算成本高昂。盡管近年來機器學習被引入輔助優(yōu)化,但仍難以擺脫復雜后處理的桎梏。VGGT 開創(chuàng)性地采用純前饋設計:通過大規(guī)模 3D 標注數(shù)據(jù)與 Transformer 架構的結合,模型在一次前向傳播中即可完成全部幾何推理任務。實驗表明,即便輸入數(shù)百張圖像,VGGT 仍能在數(shù)秒內輸出高質量結果,在精度與速度上均超越傳統(tǒng)優(yōu)化方法。



研究團隊指出,VGGT 的成功并非源于復雜的結構設計或領域先驗,而是得益于 Transformer 架構的通用性與大規(guī)模 3D 數(shù)據(jù)訓練的協(xié)同效應。模型將輸入圖像轉化為 Tokens 后,與隨機初始化的相機 Tokens 共同輸入交替注意力模塊(Alternating-Attention),通過全局與幀級自注意力層的交替堆疊,逐步融合多視圖幾何信息。最終,相機參數(shù)經(jīng)專用頭部解碼,圖像 Tokens 則通過 DPT 頭部生成密集預測(如深度圖與點圖)。值得一提的是,VGGT 僅使用自注意力機制(self attention),未使用跨注意力(cross attention)。

同時,為保持輸入圖像的置換不變性(改變輸入圖像順序不改變預測結果),VGGT 摒棄了幀索引 (frame index) 位置編碼。相反,VGGT 僅通過幀級自注意力機制動態(tài)關聯(lián)同一圖像的 Tokens。這種設計不僅使得模型無需依賴預設位置信息即可區(qū)分多視圖數(shù)據(jù),更賦予模型強大的泛化能力 —— 即便訓練時僅使用 2-24 幀數(shù)據(jù),測試時亦可輕松處理超過 200 幀的輸入。VGGT 收集了 17 個大型 3D 數(shù)據(jù)集一起進行訓練,在 64 塊 A100GPU 上共耗時 9 天。

性能與泛化性雙突破

定性演示視頻顯示,VGGT 能輕松應對不同數(shù)量圖像及復雜場景的重建。同時,研究人員提供了與過去 SOTA 的定性比較。VGGT 可精準重建梵高油畫等非真實場景的幾何結構,甚至能處理無重疊視圖或重復紋理的極端案例。用戶可通過 Hugging Face Demo 上傳圖像,實時體驗 3D 重建效果。



在定量實驗中,VGGT 無需任何后處理即在相機姿勢估計,多視圖深度估計、點云重建等任務中全面領先,其推理速度較傳統(tǒng)方法提升近 50 倍。即便與同期 CVPR 2025 的 Transformer-based 重建模型相比,VGGT 性能優(yōu)勢明顯,并與速度最快的 Fast3R 相當。有趣的是,研究團隊還意外發(fā)現(xiàn),利用模型預測的深度圖與相機參數(shù)反投影生成的點云,其質量甚至超過直接回歸的點圖,這一現(xiàn)象揭示了模型對幾何一致性內在規(guī)律的自發(fā)學習能力。



跨任務泛化的潛力 - 單目重建

盡管 VGGT 從未接受單圖訓練,但仍展現(xiàn)出強大的跨任務泛化能力。研究團隊公布的單圖重建定性結果顯示,VGGT 在未專門訓練的單目任務中表現(xiàn)出色。



VGGT 的代碼和模型公開后,迅速有 github 社區(qū)成員跟進,在標準的單目設置下進行測試。GitHub 社區(qū)測試顯示,VGGT 在 NYU V2 等數(shù)據(jù)集上的表現(xiàn)已逼近單目 SOTA 水平,這一「意外之喜」進一步印證了 VGGT 作為通用 3D 基礎模型的潛力。



結語

視覺重建作為所有 3D 任務的核心,VGGT 的成功標志著 3D 視覺領域或許即將迎來一個全新的,基礎模型的時代。正如論文作者所述,我們正在見證視覺幾何從 「手工設計」到「數(shù)據(jù)驅動」的范式遷移,而這可能僅僅是個開端。「簡單架構 + 數(shù)據(jù)驅動」的模式是否能如 2D 視覺和 NLP 領域般徹底重塑 3D 任務?讓我們拭目以待。

作者介紹:論文第一作者王建元為牛津大學視覺幾何組(VGG)與Meta AI的聯(lián)合培養(yǎng)博士生(博士三年級),長期致力于3D重建方法研究。其博士工作聚焦于端到端幾何推理框架的創(chuàng)新,曾主導開發(fā)PoseDiffusion、VGGSfM,以及本次提出的通用3D基礎模型VGGT,相關成果均發(fā)表于CVPR、ICCV等頂級會議,推動了數(shù)據(jù)驅動式3D重建技術的演進。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“只有將亮度調亮,才能看懂的梗!”哈哈哈哈哈,細節(jié)決定成敗

“只有將亮度調亮,才能看懂的梗!”哈哈哈哈哈,細節(jié)決定成敗

滄海一書客
2025-02-15 10:40:42
男生女生躲在石頭里約會,釣魚佬全程吃瓜:他們以為別人看不到

男生女生躲在石頭里約會,釣魚佬全程吃瓜:他們以為別人看不到

唐小糖說情感
2025-04-03 16:43:34
偉大的10-5!丁俊暉連贏8局進4強,KO世界冠軍創(chuàng)紀錄,會師塞爾比

偉大的10-5!丁俊暉連贏8局進4強,KO世界冠軍創(chuàng)紀錄,會師塞爾比

劉姚堯的文字城堡
2025-04-04 04:45:54
魯比奧宣稱“中國在圭亞那所建公路差點讓人腦震蕩”,外交部:并非中企承建,不知道為什么睜眼說瞎話

魯比奧宣稱“中國在圭亞那所建公路差點讓人腦震蕩”,外交部:并非中企承建,不知道為什么睜眼說瞎話

環(huán)球網(wǎng)資訊
2025-04-03 15:36:08
求和?解放軍圍臺軍演后,美軍專機抵達上海,中美軍事會議已召開

求和?解放軍圍臺軍演后,美軍專機抵達上海,中美軍事會議已召開

涼羽亭
2025-04-04 18:33:08
趙睿突破時膝蓋受傷痛苦倒地,隨后被擔架抬出場

趙睿突破時膝蓋受傷痛苦倒地,隨后被擔架抬出場

懂球帝
2025-04-04 22:20:09
世界亞軍1-11慘敗!男單8強名單出爐:日韓剩獨苗,林高遠戰(zhàn)黑馬

世界亞軍1-11慘敗!男單8強名單出爐:日韓剩獨苗,林高遠戰(zhàn)黑馬

知軒體育
2025-04-04 21:34:56
勇士為贏球,對40歲老詹,還要用傷人動作,實乃NBA之恥

勇士為贏球,對40歲老詹,還要用傷人動作,實乃NBA之恥

阿雄侃籃球
2025-04-04 19:55:06
青島男籃發(fā)布季后賽倡議書:尊重球員&教練&裁判 遵循公序良俗

青島男籃發(fā)布季后賽倡議書:尊重球員&教練&裁判 遵循公序良俗

直播吧
2025-04-04 11:07:17
國乒首位女單被淘汰!2:3無緣仁川冠軍賽八強,王藝迪驚險晉級

國乒首位女單被淘汰!2:3無緣仁川冠軍賽八強,王藝迪驚險晉級

國乒二三事
2025-04-04 11:53:32
《乘風2025》分組修羅場,同樣是拒絕,吳宣儀還得跟葉童多學學

《乘風2025》分組修羅場,同樣是拒絕,吳宣儀還得跟葉童多學學

汐游記
2025-04-04 21:46:34
退休以檔案年齡為準,最高院一錘定音,檔案材料不全影響待遇申領

退休以檔案年齡為準,最高院一錘定音,檔案材料不全影響待遇申領

晨曦徐徐
2025-04-01 09:49:03
多名高管接連“倒下”,四川農商聯(lián)合銀行深陷反腐風暴

多名高管接連“倒下”,四川農商聯(lián)合銀行深陷反腐風暴

致遠財經(jīng)社
2025-04-04 16:57:10
追夢調侃庫里:50分了去再得2分吧 對一個40歲老頭來說還不賴

追夢調侃庫里:50分了去再得2分吧 對一個40歲老頭來說還不賴

直播吧
2025-04-04 06:09:08
能贏幾場?西部第四湖人剩余6場常規(guī)賽:客戰(zhàn)雷霆x2 對壘火箭

能贏幾場?西部第四湖人剩余6場常規(guī)賽:客戰(zhàn)雷霆x2 對壘火箭

直播吧
2025-04-04 17:28:13
早餐車刮花140萬豪車,車主只要對方賠15個雞蛋餅:不想占他便宜,夫妻倆不容易

早餐車刮花140萬豪車,車主只要對方賠15個雞蛋餅:不想占他便宜,夫妻倆不容易

黃河新聞網(wǎng)呂梁頻道
2025-04-04 17:26:49
舒緩而優(yōu)美的油畫人體 | 法國學院派Paul Sieffert

舒緩而優(yōu)美的油畫人體 | 法國學院派Paul Sieffert

歌雅藝術
2025-01-03 15:41:04
“無內褲”走紅毯是真的?這些女明星們也太敢了吧

“無內褲”走紅毯是真的?這些女明星們也太敢了吧

Yuki女人故事
2025-04-04 22:05:39
嚴屹寬不紅竟是因為老婆?杜若溪被嘲又老又丑,耽誤了丈夫的事業(yè)

嚴屹寬不紅竟是因為老婆?杜若溪被嘲又老又丑,耽誤了丈夫的事業(yè)

泠泠說史
2025-04-03 17:47:02
內娛當紅男星顏值大洗牌,最新排行榜前十,快看看你家哥哥排第幾

內娛當紅男星顏值大洗牌,最新排行榜前十,快看看你家哥哥排第幾

介知
2025-04-03 12:03:02
2025-04-05 00:35:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10317文章數(shù) 142281關注度
往期回顧 全部

科技要聞

DeepSeek提出新方法 或將應用于R2

頭條要聞

美媒感慨:特朗普給了中國黃金機遇 讓他們贏得全世界

頭條要聞

美媒感慨:特朗普給了中國黃金機遇 讓他們贏得全世界

體育要聞

挑對手!恩怨局!CBA季后賽故事可太多了

娛樂要聞

汪小菲懶理S媽暗諷,帶孩子戶外散步

財經(jīng)要聞

中方多箭齊發(fā)!對美加征34%關稅

汽車要聞

別克GL8陸尚內飾官圖發(fā)布 有望上海車展亮相

態(tài)度原創(chuàng)

旅游
房產
本地
數(shù)碼
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

被合生珠光朱氏兄弟拖垮的村民們

本地新聞

我在新昌當女主|大佛寺氛圍感拉滿 古偶頂流機位GET

數(shù)碼要聞

小米米家智能嵌入式洗碗機 P20(18 套)上架,5999 元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 洛宁县| 墨竹工卡县| 湖南省| 伊宁市| 新竹县| 平凉市| 德昌县| 祁阳县| 虎林市| 宝丰县| 华阴市| 湖州市| 略阳县| 商河县| 宝鸡市| 神木县| 巴里| 西华县| 桃园县| 饶阳县| 铁岭市| 板桥市| 将乐县| 汶川县| 五寨县| 沁阳市| 长宁县| 焉耆| 区。| 兴隆县| 佛冈县| 肃南| 崇文区| 朝阳市| 玉环县| 偃师市| 渝中区| 张家口市| 察哈| 左云县| 响水县|