機器之心報道
機器之心編輯部
2025 開年,DeepSeek-R1 的成功在全球掀起了一股開源風潮,上個月的開源周更是毫無保留地將自己的多項核心技術(shù)開放給了全球開發(fā)者。這種「完整技術(shù)棧」式的開源震撼了整個行業(yè)。
毫無疑問,開源正成為國內(nèi)外大模型廠商的「戰(zhàn)略共識」。從文本到視覺,從對話到推理,開源生態(tài)的繁榮正推動大模型技術(shù)快速迭代。在這一波生成式 AI 浪潮中,MiniMax、月之暗面等公司紛紛從應(yīng)用層回歸模型層,聚焦底層架構(gòu)創(chuàng)新,而非僅依賴上層應(yīng)用變現(xiàn)。這一趨勢表明,模型本身的能力突破,而非單純的產(chǎn)品包裝,正成為行業(yè)競爭的核心。
在 3D 生成這一尚未被完全定義的領(lǐng)域,VAST 正以開源先鋒的姿態(tài)重新劃定行業(yè)標準。這家專注于 3D 生成賽道的公司,正通過自主研發(fā)打造面向三維內(nèi)容創(chuàng)作的開源基礎(chǔ)設(shè)施。
3 月 28 日,專注于構(gòu)建通用 3D 大模型的VAST 一口氣開源了兩個 3D 生成項目 ——TripoSG 和 TripoSF。前者是一款基礎(chǔ) 3D 生成模型,在圖像到 3D 生成任務(wù)上遠超所有閉源模型;后者則是 VAST 新一代三維基礎(chǔ)模型 TripoSF 能在所有閉源模型中同樣取得 SOTA 的基礎(chǔ)組件,用于高分辨率的三維重建和生成任務(wù)。
VAST 宣布,即日起,TripoSG 15 億參數(shù)小模型(非 MoE 版本、在 2048 token 的潛空間上運行)的權(quán)重、推理代碼和交互式演示 Demo 將通過 GitHub 和 Hugging Face 統(tǒng)統(tǒng)提供給 AI 社區(qū)
- Homepage:https://yg256li.github.io/TripoSG-Page/
- 論文 ArXiv:https://arxiv.org/abs/2502.06608
- GitHub 代碼:https://github.com/VAST-AI-Research/TripoSG
- Hugging Face 模型權(quán)重:https://huggingface.co/VAST-AI/TripoSG
- Hugging Face 演示:https://huggingface.co/spaces/VAST-AI/TripoSG
同時,TripoSF VAE 的預(yù)訓(xùn)練模型及相關(guān)的推理代碼也同步開源。
- Homepage:https://xianglonghe.github.io/TripoSF/
- 論文 ArXiv:https://arxiv.org/abs/2503.21732
- GitHub 代碼:https://github.com/VAST-AI-Research/TripoSF
- Hugging Face 模型權(quán)重:https://huggingface.co/VAST-AI/TripoSF
這意味著,整個 3D AI 社區(qū)多了 SOTA 級基礎(chǔ)模型,這將大大降低入門門檻和創(chuàng)作門檻,讓開發(fā)者、創(chuàng)作者用上強大的 3D 生產(chǎn)力工具,并加速視覺特效(VFX)、游戲開發(fā)、具身智能、產(chǎn)品設(shè)計等 3D 場景的深度應(yīng)用。
當然,VAST 的開源「野心」不止于此!
接下來一直到 4 月 18 日,他們還將繼續(xù)開源另外一系列 3D 生成項目,涵蓋了三維部件補全模型、通用三維模型綁定生成模型、三維幾何精細化模型以及 SIGGRAPH Asia 2024 RTL 收錄的交互式草圖生三維模型
再加上此前開源的單張圖像生成 3D 場景模型 MIDI 以及多視角圖像生成模型 MV-Adapter,從通用大模型到組件補全、骨骼綁定模型、再到 3D 模型的超分辨率等技術(shù),一套從基礎(chǔ)到細節(jié)的完整 3D AI 生成體系即將完全展示給全球社區(qū)。
- MIDI 代碼:https://github.com/VAST-AI-Research/MIDI-3D
- MV-Adapter 代碼:https://github.com/huanngzh/MV-Adapter
VAST 的 3D「開源月」干貨滿滿,又一次讓開源社區(qū)充滿了期待。
TripoSG:MoE Transformer
開啟高保真 3D 生成新范式
這兩天,沉寂許久的 AI 生圖再次火了起來。
谷歌和 OpenAI 先后上線嘮嗑 P 圖功能,社交平臺上網(wǎng)友們瘋狂整活,就連老板奧特曼的 X 頭像都用 AI 換成了日漫風格。
AI 視頻圈更是「跑馬圈地」,各家模型隔三差五就上新一波。
同樣地,3D 生成領(lǐng)域的進化速度也是突飛猛進,但是高質(zhì)量 3D 內(nèi)容的自動化生成仍面臨諸多技術(shù)瓶頸,比如數(shù)據(jù)獲取、幾何表示復(fù)雜性和模型規(guī)模化等。
為了破解這些難題,VAST 創(chuàng)造性地將大規(guī)模文本、圖像和視頻合成領(lǐng)域的成功范式引入 3D 領(lǐng)域,推出并開源了基礎(chǔ) 3D 生成模型 TripoSG。
與以往模型相比,TripoSG 在質(zhì)量、細節(jié)和保真度上實現(xiàn)了重大突破,能夠直接從單張輸入圖像生成細節(jié)驚艷的 3D 網(wǎng)格模型,并且生成效果達到了業(yè)界最佳水平。
那么,該模型背后又藏著哪些技術(shù)亮點呢?
首先,TripoSG 率先將基于校正流 (Rectified Flow, RF) 的 Transformer 架構(gòu)應(yīng)用于 3D 形狀生成。相較于傳統(tǒng)的擴散模型,RF 提供了從噪聲到數(shù)據(jù)之間更簡潔的線性路徑建模,有助于實現(xiàn)更穩(wěn)定、高效的訓(xùn)練。結(jié)合 Transformer 架構(gòu)已被驗證的可擴展性和卓越性能,構(gòu)成了 TripoSG 的強大核心。其最大的研究模型參數(shù)量達到 40 億,可生成由 4096 個 Latent Token 表示的形狀,從而實現(xiàn)超乎尋常的細節(jié)表現(xiàn)力。
其次在模型架構(gòu)上,TripoSG 基于 Transformer 基礎(chǔ),融合了包括跳躍連接在內(nèi)的關(guān)鍵增強設(shè)計,以改善跨層特征融合。獨立的交叉注意力機制能夠高效地注入全局(CLIP)和局部(DINOv2)圖像特征,確保輸入圖像與輸出 3D 形狀之間的精準對齊。
為了高效擴展模型規(guī)模,他們在 Transformer 模塊中集成了混合專家模型層。這一策略允許在幾乎不增加推理計算成本的前提下顯著提升模型容量,并重點應(yīng)用于網(wǎng)絡(luò)中更深、更關(guān)鍵的層級。
對于 3D 生成來說,潛空間表示的質(zhì)量至關(guān)重要。它不僅是生成模型的「骨架」,更是決定生成結(jié)果是否真實、高效、可控的核心。
為此,VAST 團隊開發(fā)了一種高效的變分自編碼器 (VAE),采用符號距離函數(shù) (Signed Distance Functions, SDFs) 進行幾何表示,相較于此前常用的體素占用柵格具有更高的精度。
更為關(guān)鍵的是,TripoSG 還引入了一種混合監(jiān)督訓(xùn)練策略,將標準的 SDF 損失與表面法線引導(dǎo) (surface normal guidance) 和 程函方程損失 (eikonal loss) 相結(jié)合,促使 VAE 學習到更準確、細節(jié)更豐富的幾何表示,有效避免了其他方法中常見的瑕疵,為后續(xù)的流模型提供了質(zhì)量更高的潛空間。此外,基于 Transformer 的 VAE 架構(gòu)也展現(xiàn)出強大的分辨率泛化能力,無需重新訓(xùn)練即可處理更高分辨率的輸入。
大模型訓(xùn)練需要大規(guī)模、高質(zhì)量的數(shù)據(jù)集,但直接使用來自 Objaverse 等公共數(shù)據(jù)源的原始數(shù)據(jù)由于數(shù)據(jù)質(zhì)量、多樣性等原因會導(dǎo)致模型性能欠佳,于是 VAST 團隊開發(fā)了一套完善的數(shù)據(jù)構(gòu)建與治理流水線,包括質(zhì)量評分、數(shù)據(jù)篩選、修復(fù)與增強、SDF 數(shù)據(jù)生產(chǎn)等環(huán)節(jié)。通過這一精細化流程,TripoSG 構(gòu)建了一個包含 200 萬高質(zhì)量「圖像 - SDF」訓(xùn)練樣本對的數(shù)據(jù)集。消融實驗也證明,在此高質(zhì)量數(shù)據(jù)集上訓(xùn)練的模型性能顯著優(yōu)于在更大規(guī)模、但未經(jīng)過濾的原始數(shù)據(jù)集上訓(xùn)練的模型。
在這一系列技術(shù)加持下,TripoSG 在 3D 內(nèi)容自動化生成領(lǐng)域取得了顯著的進展。
據(jù) Normal-FID 等量化指標評估,以及基于大型多模態(tài)模型的定性評估顯示,TripoSG 無論是在生成速度和質(zhì)量上,還是對大規(guī)模 3D 數(shù)據(jù)的高效利用和處理上,都比先前的 SOTA 方法更具優(yōu)越性。
而 TripoSG 的開源更是為 3D 生成領(lǐng)域注入了一劑強心針,其意義不僅在于技術(shù)上的突破,更在于為整個行業(yè)開辟了新的發(fā)展方向。
TripoSF:閉源 3D 生成新 SOTA
并開源基礎(chǔ)組件與算法
此前閉源 SOTA VAST 推出的 Tripo2.5 已確立行業(yè)標桿,而新一代 TripoSF 不僅以閉源 3D 生成新 SOTA 的姿態(tài)突破性能極限,更開源基礎(chǔ)組件與算法推動生態(tài)發(fā)展。
在 3D 生成領(lǐng)域,高分辨率、任意拓撲的三維重建是一大難題,面臨著模型生成精度、拓撲優(yōu)化、實時渲染和計算資源等多方面的挑戰(zhàn)。
一方面,當遇到不規(guī)則形狀或者涉及多個交叉點、分支、孔洞、表面變化等復(fù)雜拓撲結(jié)構(gòu)的重建時,依賴網(wǎng)格、體素或者點云表示的三維重建方法往往力不從心;另一方面,高分辨率建模則不僅要求捕捉全局形狀,更需要在細節(jié)層次上處理紋理、表面細節(jié)、微觀結(jié)構(gòu)等。
然而,當前主流 3D 表示方法,比如隱式場(SDF/Occupancy)、顯式網(wǎng)格、點云,要么對于細節(jié)的捕捉效果較差,并難以實現(xiàn)對高面數(shù)、復(fù)雜拓撲結(jié)構(gòu)的直接重建;要么在高分辨率下實時渲染時產(chǎn)生巨大的內(nèi)存開銷。這就導(dǎo)致業(yè)界很少有模型能夠生成媲美專業(yè)三維數(shù)字雕刻建模軟件 ZBrush 所創(chuàng)作出的的高精細、高復(fù)雜度作品。
為了克服這些局限性,VAST 推出了新一代三維基礎(chǔ)模型 TripoSF,其核心是引入一種全新的表示方法 —— SparseFlex,實現(xiàn)了基于渲染監(jiān)督的高分辨率(最高可達 10243)、任意拓撲結(jié)構(gòu)的可微分網(wǎng)格重建,為行業(yè)帶來全新解決方案。
SparseFlex 相較于以往方法有哪些新穎之處呢?VAST 稱,SparseFlex 在借鑒英偉達 Flexicubes(可微分提取帶尖銳特征的網(wǎng)格)優(yōu)勢的基礎(chǔ)上,更進一步引入了稀疏體素結(jié)構(gòu)。與傳統(tǒng)的、覆蓋整個空間的稠密網(wǎng)格不同,稀疏體素結(jié)構(gòu)僅在必要的位置(即物體表面附近的區(qū)域)存儲和計算體素數(shù)據(jù),避免了存儲空間浪費。
具體來講,SparseFlex 表達的設(shè)計帶來了三大顯著優(yōu)勢,一是內(nèi)存占用大大降低,使得 TripoSF 可以在 10243 的高分辨率下進行訓(xùn)練和推理;二是原生支持任意拓撲,不僅通過省略空白區(qū)域的體素來自然地表示布料、葉片等開放表面,還能有效地捕捉內(nèi)部結(jié)構(gòu);三是得益于 SparseFlex 的可微分屬性,TripoSF 可以使用渲染損失進行端到端訓(xùn)練,從而避免了水密化等數(shù)據(jù)轉(zhuǎn)換造成的細節(jié)退化。
除了核心的 SparseFlex 表示方法,TripoSF 同樣在模型訓(xùn)練、重建與編解碼上展現(xiàn)出了技術(shù)先進性。
為了實現(xiàn)高分辨率下 TripoSF 的高效訓(xùn)練,VAST 開發(fā)了一種「視錐體感知的分區(qū)體素訓(xùn)練」(Frustum-Aware Sectional Voxel Training)策略。該策略借鑒了實時渲染中的「視錐體剔除」思想,在每次訓(xùn)練迭代中,僅激活和處理位于相機視錐體內(nèi)的 SparseFlex 體素。
如此一來,一方面減少了渲染負擔,進一步降低訓(xùn)練所需的內(nèi)存和算力,使得 10243 分辨率的訓(xùn)練成為可能;另一方面,首次實現(xiàn)僅通過渲染監(jiān)督重建模型的內(nèi)部精細結(jié)構(gòu),減少了對高成本數(shù)據(jù)的依賴,并能在動態(tài)和復(fù)雜環(huán)境中實現(xiàn)更高適應(yīng)性。
而在 SparseFlex 表示和高效訓(xùn)練策略的基礎(chǔ)上,VAST 進一步構(gòu)建了TripoSF 變分自編碼器(VAE)。從輸入、編碼、解碼到輸出,TripoSF VAE 形成了一整套完善高效的處理流程,成為 TripoSF 重建和生成體驗向前邁出一大步的重要基礎(chǔ),并率先開源。
其中在輸入時處理從三維網(wǎng)格采樣得到的點云數(shù)據(jù),然后使用稀疏 Transformer 將輸入的幾何映射為緊湊的隱空間編碼,接著從隱編碼重建高分辨率的 SparseFlex 參數(shù)并采用自剪枝上采樣模塊來保持稀疏性并精確定義邊界(開放表面的效果尤為顯著),最后生成 SparseFlex 參數(shù)以提取高質(zhì)量的三維網(wǎng)格。
效果顯而易見,在與所有閉源模型的直接較量中,TripoSF 的質(zhì)量達到了 SOTA。在多個標準基準測試中,TripoSF 實現(xiàn)了約 82% 的倒角距離(Chamfer Distance)降低和約 88% 的 F-score 提升,在精細細節(jié)、開放表面以及內(nèi)部幾何結(jié)構(gòu)的捕捉上做到了行業(yè)領(lǐng)先。
VAST 表示,作為 TripoSF 開源項目的第一階段,TripoSF VAE 為完整的 3D 生成系統(tǒng)提供了核心的編解碼能力。另外,VAST 還基于 VAE 隱空間構(gòu)建了 Rectified Flow Transformer 生成模型,以高效生成高保真的三維模型。滿血版 TripoSF 生成模型將在 Tripo3.0 版本中亮相。
此次,TripoSF VAE 以及核心 SparseFlex 表示的開源,將使更多研究人員和開發(fā)者體驗到其為高分辨率三維重建帶來的性能增益,并基于它探索更多的應(yīng)用可能性。這讓我們更加期待 TripoSF 下一階段的開源,屆時 VAST 會為社區(qū)帶來更多前沿 3D 技術(shù)。
結(jié)語
VAST 兩大模型的開源只是個開始,這樣一波技術(shù)更新,會為 3D 開源社區(qū)注入新的活力。
視頻生成之后,人們都在期待 AI 帶來的 3D 創(chuàng)作能力。在國內(nèi)外社區(qū),越來越多的設(shè)計師正在嘗試把 3D 生成模型引入自己的工作流,改進游戲、視頻、工業(yè)設(shè)計等領(lǐng)域的生產(chǎn)形態(tài)。由于 AI 生成的內(nèi)容越來越精細、準確,很多一直以來面臨的挑戰(zhàn)迎刃而解。在 2024 年初與 Stability.ai 一起合作開源 TripoSR 時,VAST 曾定義 3D 生成技術(shù)當時第一次達到了 Midjourney V3 的成熟度,并判斷 2025 年 3D 生成會達到 Midjourney V5 的水平,如今可見技術(shù)向前邁進的速度著實比預(yù)計的更快。
以 AI 技術(shù)發(fā)展的角度來看,3D 生成還是「世界模型」的基座,更強大的 3D 生成技術(shù),將會拓展 AI 的前沿。
可以預(yù)見,在 VAST 這一波開源之后,3D 大模型或許很快達到實用化和商業(yè)化的程度,并催生出更多新場景的落地應(yīng)用。返回
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.