3 月 18 日和 19 日,騰訊混元在其開源日宣布開源 5 款全新 3D 生成模型,這些模型均基于 Hunyuan 3D 2.0 技術打造。
此次開源的多款模型涵蓋了 Turbo 系列模型、多視圖版本模型以及輕量級 mini 模型。截至目前,Hunyuan 3D 2.0 家族已有 6 款模型。
此外,該公司自研的 3D AI 創作引擎也同步升級。騰訊混元 3D AI 創作引擎于今年 1 月發布,本次升級后的引擎帶來了四大功能,包括多視圖輸入、模型智能減面、基于物理的渲染(PBR,Physically Based Rendering)材質升級和多格式兼容。這些功能不僅提升了生成效率,也為 C 端創作者提供了更強大的工具。
(來源:騰訊混元)
- Turbo 系列模型:得益于騰訊混元的 3D 生成加速框架 Flash VDM,實現了數十倍的生成速度提升,能夠將高精度模型的生成的時間壓縮至秒級,大幅度提升了 3D 模型的生成時間。
- 多視圖版本模型 Hunyuan3D-2mv:支持多視圖輸入信息(1 到 4 張圖片額外輸入),能夠更精準地捕捉細節,生成更加符合原畫師、設計師用戶對高質量 3D 資產的預期。
- 輕量級模型 Hunyuan3D-2mini:通過架構優化與運行效率提升,大幅度降低了算力需求,為移動端和低算力設備提供了高效解決方案。
與 1 月份開源版本相比,其參數量從 11 億下降到 6 億,并且具有更高的隱空間壓縮率,從而能夠大幅降低了 GPU 顯存的占用。
騰訊混元 3D AI 創作引擎于今年 1 月發布,本次升級后的 3D AI 創作引擎帶來四大功能,包括:多視圖輸入、模型智能減面、PBR 材質升級和多格式兼容。
在多視圖輸入方面,操作非常簡單:上傳幾張標準視角的圖片后,就能得到快速生成的高質量 3D 模型,這大幅降低了游戲制作、3D 用戶生成內容創作等場景的制作成本。
引擎的 3D 智能減面功能能夠為模型“瘦身”。它能夠根據需求自動生成幾百到數千個三角面,優化幾何邊緣的平滑度,從而在減少面片數量的同時,最大限度地保留模型的細節表現。
在質感方面表現方面,通過 PBR 提供了更加真實的顏色以及材質表達,適用于游戲開發、影視制作等高要求場景。
圖丨左圖:普通圖片,右圖:生成 PBR 模型(來源:騰訊混元)
此外,其還實現了多格式兼容,除了支持 OBJ、GLB、FBX 等多種格式輸出以外,還可輸出 STL、USDZ 及 MP4 等主流格式,兼容 3D 打印工具,可滿足模型快速預覽和移動端實時交互需求。
(來源:騰訊混元)
Flash VDM 加速技術是 Turbo 系列模型實現高性能的關鍵。在該技術加持下,最低只需要 5GB 的顯存就可以部署 mini 等模型,可以在任何消費級顯卡上進行部署,并且運行時間可以降低到 1 秒以內。
在顯卡支持方面,最低支持 4050、3050、2060、1070 及以上的顯卡。此外,該技術還可以在 Mac 上的 M1 等芯片上進行部署,并且支持在 MacOS、Windows 和 Linux 三大操作系統上運行,甚至還可以直接在 CPU 上進行部署。
(來源:騰訊混元)
那么,這項技術解決了什么問題呢?目前,業界常用的 3D 生成模型范式是基于 Vecset 的擴散模型(VDM,Vecset Diffusion Model)。盡管這類模型能夠生成比較高的質量,但通常速度會比較慢。
一個明顯的對比是:Hunyuan3D-2 生成 3A 級別的資產,需要半分鐘左右;而使用 Flash VDM 技術之后,其生成一個 3D 模型的時間提速到 1 秒鐘。值得關注的是,如果將其應用到更輕量的 mini 模型上,甚至可以做到 0.5 秒內生成。
圖丨推理階段時間占比(來源:騰訊混元)
人工智能生成內容(AIGC,Artificial Intelligence Generated Content)領域目前主流的方案分為兩個步驟:先進行壓縮,再進行從無到有的生成。
簡單來理解,3D 模型生成就像搭積木,先將雜亂無章的東西壓縮成積木模塊(VAE 的解碼過程),再將這些積木堆成一個完整的 3D 模型(DIT 的生成過程)。這兩個階段是 AIGC 的通用流程,3D 生成模型也不例外。
然而,這兩個階段都需要加速。從上圖中可以看到,生成模型的推理時間占比為 23.94%,而 VAE 解碼的時間占比高達 75.88% 。因此,要想將生成時間從幾分鐘縮短到一兩秒,必須對這兩個階段同步進行加速。
騰訊混元團隊在解碼過程中通過智能化地大幅減少采樣數量,以及減少每個采樣的計算量,實現了速度的大幅度提升(與 Hunyuan3D-2 模型相比):加速版模型的迭代步數為 5 步,而未加速版為 50 步。
(來源:騰訊混元)
此外,騰訊混元團隊還進行了用戶調查,通過眾包平臺對加速版模型(Turbo 模型)和未加速模型(Hunyuan3D-2)進行了評測。結果顯示,87.3% 的用戶認為加速版和未加速版的效果上沒有明顯差異。
當加速版的迭代步數從 5 步增加到 8 步時,認為兩者效果差不多的用戶比例提高到 90% 左右,這說明大多數用戶難以區分加速版和未加速版的生成效果。
圖丨用戶調查對比(來源:騰訊混元)
3D 生成模型技術近年來蓬勃發展。實際上,隨著手工建模的時間已經從一周、幾天縮短到幾分鐘甚至秒級的速度,為什么還要追求更快的速度呢?
其背后反應的是市場對生成模型高質量和高可控性的需求,更快的速度也意味著可以形成良性、迅速的反饋機制。
另一方面,盡管在文字、圖像、視頻領域,生成的大多是單個對象,但在 3D 領域會涉及到成千上萬的 3D 資產的生成(例如城市、場景等),因此效率對更大規模的生成能力是一種強有力的技術保障。
目前,騰訊混元 3D 生成模型在多種場景應用,例如用戶生成內容、商品素材合成、游戲 3D 資產生成等。
總體來說,隨著騰訊混元系列模型的發布和開源,我們看到了 3D 生成技術在廣泛場景中的應用潛力,無論是專業工作室還是 C 端創作者,都能根據自身硬件條件選擇合適的模型進行更高效的創作。
對于目前 3D AIGC 的生成速度較慢,交互場景速度受限來說,全新的高質量、高速模型有利于推動交互式 3D 創作工具的發展,并為社區和用戶提供了二次開發的基礎。
盡管騰訊混元 3D 模型在實用性和靈活性方面表現出色,可滿足不同場景下對 3D 模型細節的嚴苛要求,但也需要認識到,在創意和細節程度方面,人工建模仍然具有不可替代的優勢。
正如他們在開源日直播中所表達的那樣,“一花獨放不是春,百花齊放春滿園”,只有通過技術的不斷迭代與生態的共建,才能推動 3D 生成技術的全面發展。DeepTech 將持續關注其后續更新,期待帶來更多實用功能和性能優化。
參考資料:
https://mp.weixin.qq.com/s/-9pKh5yO3FVOCE_qaIDY-g
https://3d.hunyuan.tencent.com/
https://huggingface.co/spaces/tencent/Hunyuan3D-2mv
https://github.com/Tencent/Hunyuan3D-2
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.