- 量子位 | 公眾號 QbitAI
- 夢晨 發自 凹非寺
隨著3D Gaussian Splatting(3DGS)成為新一代高效三維建模技術,它的自適應特性卻悄然埋下了安全隱患。在本篇 ICLR 2025 Spotlight 論文中,研究者們提出首個專門針對3DGS的攻擊方法——Poison-Splat,通過對輸入圖像加入擾動,即可顯著拖慢訓練速度、暴漲顯存占用,甚至導致系統宕機。這一攻擊不僅隱蔽、可遷移,還在現實平臺中具備可行性,揭示了當前主流3D重建系統中一個未被重視的安全盲區。
引言:3D視覺的新時代與未設防的后門隱患
過去兩年,3D視覺技術經歷了飛躍式發展,尤其是由 Kerbi等人在2023年提出的3D Gaussian Splatting (3DGS),以其超高的渲染效率和擬真度,一躍成為替代NeRF的3D視覺主力軍
你是否用過 LumaAI、Spline 或者 Polycam 之類的應用上傳圖片生成三維模型?它們背后很多就用到了3DGS技術。3D高斯潑濺無需繁重的神經網絡,僅靠一團團顯式的、不固定數量的3D高斯點即可構建逼真的三維世界。
但你知道嗎?這個看起來高效又靈活的“新王者”,居然隱藏著一個巨大的安全隱患——只要改動圖片的細節,就能讓系統在訓練階段直接崩潰!
來自新加坡國立大學和昆侖萬維的研究者在 ICLR 2025上的Spotlight論文《Poison-Splat: Computation Cost Attack on 3D Gaussian Splatting》中,首次揭示了這一致命漏洞,并提出了首個針對3DGS計算復雜度的攻擊算法:Poison-Splat
圖一:干凈(左)與Poison-Splat攻擊后(右)的輸入圖像、三維高斯點云,以及GPU顯存、訓練時間和渲染速度的顯著變化。這里的每張圖片由像素表征(左上)和3DGS高斯點的可視化(右下)拼接而成,更好地展示其二維像素空間和三維高斯空間的變化。
問題背景:強大的模型“適應性”是優點,還是漏洞?
圖二:NeRF (左) 和 3D Gaussian Splatting (右) 分別引領了3D視覺的一個時代,但它們的核心思想卻截然不同。NeRF (圖a) 使用神經網絡對三維場景隱式建模,其復雜度和計算成本由訓練者通過超參數人為指定;而 3DGS (圖b) 使用不固定數量的三維高斯對場景顯式建模,其復雜度和計算成本會根據需要建模的三維內容進行自適應調整。
3D Gaussian Splatting 相比于NeRF最大的區別之一,就是它擁有自適應的模型復雜度:
- 訓練過程中,模型會根據圖像復雜度自動增加或減少高斯點(3D Gaussian)
- 圖像越復雜,模型訓練過程就會產生越多的高斯點 → 占用更多顯存、需要更長訓練時間
本質上,3DGS會智能地根據建模場景“細節多不多”來決定要分配多少計算資源。
圖三:計算成本(GPU顯存占用、訓練效率)、高斯點數量、數據集圖像復雜度之間的強正相關關系。對于不同的數據集場景,(a) GPU顯存占用和高斯點數量的關系;(b)訓練耗時和高斯點數量的關系;(c) 高斯點數量和圖片復雜程度(以Total Variation Score衡量)的關系。
這原本是一個很聰明的設計, 3DGS依靠其強大的適應性,可以讓每一個參與訓練的高斯點都“物盡其用”。
但問題來了,如果有人故意上傳“帶毒的復雜圖像”,會發生什么?
揭秘3DGS的復雜度漏洞:Poison-Splat攻擊算法
攻擊目標:GPU占用率和訓練時間
設計一種擾動輸入圖像的方法,將經過擾動的圖像作為3DGS的輸入后,能夠大幅增加訓練成本(GPU顯存和訓練時長)。
問題建模:max-min雙層優化問題
我們可以將整個攻擊建模成一個 max-min雙層優化(bi-level optimization)問題:
- 內層(min):3DGS 嘗試還原三維場景,擬合各視角的輸入圖像。(正常訓練)
- 外層(max):攻擊者試圖找到最“消耗資源”的圖像擾動方式。(攻擊目標)
這類雙層優化問題通常都極難直接求解。為此,研究者們提出了三大創新策略:
核心技術1:引入“代理模型”(proxy model) 作為內層近似器
- 為了降低計算成本,我們訓練一個輕量的代理 3DGS 模型,用于快速模擬 victim 的行為
- 每次攻擊迭代時,從代理模型生成視圖,再進行優化更新
- 保證多視角一致性(multi-view consistency),避免圖像之間相互矛盾
核心技術2:利用圖像“非光滑性”誘導高斯密度增長
- 觀察發現,3DGS 會在細節豐富/邊緣突出的圖像區域生成更多高斯點
- Total Variation(TV)值是對圖像“非光滑度”的一個很好的度量。因此我們最大化圖像的 Total Variation(TV)值,從而誘導3DGS模型過度復雜。
核心技術3:約束擾動強度,提升攻擊隱蔽性
- 攻擊圖像若改動過大,容易被檢測
- 借鑒對抗攻擊領域的經典設定,攻擊者可引入 L-∞球約束(?-ball)控制每個像素最大擾動,確保圖像語義完整、肉眼難以分辨
- 如果沒有隱蔽性要求,攻擊者可以無限制擾動輸入圖像,最大化攻擊效果
圖四:在約束條件下,攻擊者的代理模型產生的變化被限制在像素擾動預算內,可以隱蔽地增加三維重建需要的計算消耗。
圖五:無約束攻擊中,攻擊者使用的代理模型的三維表征不受限制地復雜化,使三維重建所需的計算成本大大增加。
實驗結果:最高讓訓練時間翻倍、顯存飆升20倍
研究者在多個公開3D數據集(NeRF-Synthetic、Mip-NeRF360、Tanks and Temples)上評估了攻擊效果。實驗結果證實,對于危害最大的無限制攻擊,其攻擊效果令人震驚。在被攻擊的最差3D場景下:
- GPU顯存:從原本不到4GB飆升到80GB(直接擊穿主流顯卡)
- 訓練時間:最長可達接近5倍增長
- 高斯數量:最高可增加至原來的20倍+
- 渲染速度:最壞可降至原來的1/10
圖六:當攻擊者可以無限制地對輸入圖像進行改動,可以帶來極高的額外計算開銷,對服務提供商造成重大的資源浪費。
就算對輸入圖片做了隱蔽性約束,當圖片中每個像素的擾動都不得和干凈圖片偏離16個像素值時,其攻擊效果仍然不容小覷,且隱蔽性更高,更加難以識別和檢測:
圖七:在像素值擾動不超過16/255的約束下,部分場景能使顯存消耗增高超過8倍,以至超過常見24GB顯卡的顯上限。
此外,攻擊對黑盒模型同樣有效(如 Scaffold-GS),表明它不僅“殺傷力強”,還具備“跨平臺傳染性”。
圖八:即使攻擊者無法事先知道服務商具體的模型和參數,黑盒攻擊也能產生效果。當攻擊者針對原始3DGS算法進行Poison-splat攻擊,產生的投毒數據對于Scaffold-GS這樣的變體模型仍然有很好的攻擊效果。
實際風險:這不是學術游戲,而是真實威脅
現實中,很多3D服務商(如 Polycam、Kiri)都支持用戶自由上傳圖像或視頻進行建模。
這意味著:
- 攻擊者可以偽裝成普通用戶提交“毒圖”
- 在高峰時段導致系統“忙不過來”
- 若GPU資源被“毒圖”霸占,其他用戶任務將被拒絕執行,導致服務癱瘓(DoS)
圖九:原始圖像、約束攻擊、無約束攻擊作為輸入時的計算代價對比。橫坐標是3DGS模型擬合輸入圖片需要的訓練時長,縱坐標是訓練過程中GPU實時顯存消耗。相比于原始圖像,poison-splat攻擊會大幅增加GPU顯存占用和訓練時長,讓系統負載飆升。
意義與貢獻:為何要“攻擊”3DGS?
提出風險不是在“搗亂”,而是在為AI系統打預防針。這項工作是:
- 首次系統性地揭示3DGS訓練階段的資源安全漏洞
- 首個在三維視覺中將“數據投毒”擴展到“訓練資源消耗”這一維度
- 提出一套通用且具備可遷移性的攻擊框架,推動 3D 安全領域發展
與此同時,研究者們也揭示了簡單的防御(如限制高斯數量)無法有效應對攻擊,且會嚴重降低模型重建精度,導致模型“學不好”,服務方依然無法交付高質量 3D 場景。
圖十:簡單限制高斯點總量并不是理想的防御。雖然能限制資源消耗,但會嚴重影響3D重建的服務質量。如何設計更加智能的防御仍然是一個開放問題。
這些結果預示著,如果 3D 重建廠商沒有相應防護,一旦有人“惡意上傳”或“篡改”用戶數據,系統很可能出現顯存不足或訓練無效。
目前該研究已將全部代碼、數據處理流程、可復現實驗開源,感興趣的小伙伴可以在Github上查看
在空間智能、世界模型更加需要依賴三維視覺的今天,討論其算法的安全性也變得越來越重要。
在通往更強大AI的道路上,我們需要的不僅是性能的飛躍,還有安全的護欄。希望這篇工作能喚起大家對3D AI系統安全性的重視。
歡迎在留言區分享你的觀點、疑問或補充!
論文鏈接:https://arxiv.org/pdf/2410.08190
GitHub:https://github.com/jiahaolu97/poison-splat
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.