99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

動態場景,開放文本查詢!清華哈佛聯合建模4D語言場 | CVPR 2025

0
分享至


新智元報道

編輯:LRST

【新智元導讀】4D LangSplat通過結合多模態大語言模型和動態三維高斯潑濺技術,成功構建了動態語義場,能夠高效且精準地完成動態場景下的開放文本查詢任務。該方法利用多模態大模型生成物體級的語言描述,并通過狀態變化網絡實現語義特征的平滑建模,顯著提升了動態語義場的建模能力。

構建支持開放詞匯查詢的語言場在機器人導航、3D場景編輯和交互式虛擬環境等眾多應用領域展現出巨大的潛力。

盡管現有方法在靜態語義場重建方面已取得顯著成果,但如何建模4D語言場(4D language fields)以實現動態場景中時間敏感且開放式的語言查詢,仍面臨諸多挑戰,動態世界的語義建模對于推動許多實際應用的落地至關重要。

近日,來自清華大學、哈佛大學等機構的研究團隊提出了一種創新方法4D LangSplat,基于動態三維高斯潑濺技術,成功重建了動態語義場,能夠高效且精準地完成動態場景下的開放文本查詢任務。這一突破為相關領域的研究與應用提供了新的可能性, 該工作目前已經被CVPR2025接收。


Project Page:https://4d-langsplat.github.io/

Paper:https://arxiv.org/pdf/2503.10437

Video:https://www.youtube.com/watch?v=L2OzQ91eRG4

Code: https://github.com/zrporz/4DLangSplat

Data:https://drive.google.com/drive/folders/1C-ciHn38vVd47TMkx2-93EUpI0z4ZdZW?usp=sharing

將現有靜態語義場重建方法直接遷移到動態場景中,一種直觀的思路是沿用CLIP提取靜態的、物體級語義特征,并借鑒4D-GS等工作的思路,通過訓練變形高斯場來建模隨時間變化的語義。

然而,這種簡單的遷移存在兩個關鍵問題:首先,CLIP最初是為圖-文對齊任務設計的,其在動態語義場中的感知和理解能力存在局限性;其次,基于輸入時間信息預測特征變化量的方法缺乏對特征變化的有效約束,導致動態語義場建模的學習成本顯著增加。

針對上述問題,4D LangSplat框架核心創新在于:利用視頻分割模型和多模態大模型生成物體級的語言描述,并通過大語言模型提取高質量的句子特征(sentence feature),以替代傳統靜態語義場重建方法(如LERF、LangSplat)中直接使用CLIP提取的語義特征。在動態語義特征建模方面,4D LangSplat引入了狀態變化網絡(Status Deformable Network),通過先驗壓縮語義特征的學習空間,實現了更加穩定和準確的語義特征建模,同時確保了特征隨時間的平滑變化。

4D LangSplat的提出顯著拓展了語義高斯場建模的應用場景,為動態語義場的實際落地提供了一種極具前景的解決方案。目前,該工作已在X(Twitter)平臺上引發廣泛關注,并得到AK、MrNeRF等大V轉載,論文的代碼和數據已全面開源。



方法論



多模態對象級視頻提示技術(流程圖中上半部分的紅色區域)

研究人員結合了SAM(Segment Anything Model)和DEVA tracking技術,對物體進行分割,并在時間維度上保持物體身份的一致性。

為了使多模態大模型能夠更專注于已有物體的描述,首先為目標物體生成視覺提示。具體而言,視覺提示包括輪廓線(Contour)、背景虛化(Blur)和單色調整(Gray)。這一過程可以形式化地定義為:


在加入視覺提示后,首先利用多模態大模型(Qwen-Instrution-7B)生成視頻級的語言描述,隨后逐幀將圖片和視頻描述再次輸入到大模型中,提示其生成特定時間步驟下的物體狀態變化的自然語言描述。生成視頻-物體級語言描述和圖片-物體級語言描述的過程可以形式化地定義為:

對于每一條生成的圖片-物體級描述,使用在sentence-embedding任務上經過微調的LLM模型(e5-mistral-7b)將其轉化為語義特征,并通過分割掩碼生成最終的語義特征圖。

此外,參考LangSplat的做法,研究人員訓練了一個自動編碼器,將高維特征壓縮到低維空間,從而降低高斯場訓練的復雜度和計算成本。


狀態變化場(流程圖中下半部分的綠區域)

通過對語義特征的觀察,可以發現現實中的大部分變形和運動都可以分解為一系列狀態及其之間的過渡。

例如,人的運動可以分解為站立、行走、跑步等狀態的組合。在特定時間點,物體要么處于某種狀態,要么處于從一個狀態到另一個狀態的過渡中。

基于這一觀察,研究人員提出了狀態變化網絡(Status Deformable Network),將特定時間步下的變化狀態分解為若干狀態的線性組合,網絡以Hexplane提取的時空特征作為輸入,專注于預測指定時間步下的線性組合系數。數學上,其建模方式如下:


其中,w代表模型預測的系數,S代表狀態特征。在訓練過程中,狀態特征和預測系數的狀態變化網絡聯合優化,以確保對變化語義特征的準確和平滑建模。


4D開放詞匯查詢

研究人員將4D開放詞匯查詢任務定義為兩個子任務:時間無關的查詢和時間敏感的查詢。時間無關的查詢主要考驗語義場的靜態語義建模能力,目標是根據指定的查詢詞,給出物體在每一幀的查詢結果掩碼,類似于物體追蹤檢測任務。

而時間敏感查詢則更注重動態語義建模能力,不僅需要給出查詢物體的掩碼,還需要精確到具體的時間步(例如動作發生的幀范圍)。

為了完成這兩個子任務,研究人員同時渲染了時間無關的語義場和時間敏感的語義場,前者基于CLIP提取語義特征,且不對語義特征的變化進行建模;后者則采用該方法提取時間敏感語義,并利用狀態變化網絡對語義特征進行建模。

在進行時間敏感查詢時,首先通過時間無關場生成對應物體的查詢掩碼,然后計算掩碼內時間敏感場的平均相關系數,并給出預測幀的結果。

通過結合這兩個場,該方法能夠同時勝任時間敏感查詢和時間無關查詢任務。

實驗

實驗設置

由于目前缺乏針對4D語義查詢的標注數據,研究人員在HyperNeRF和Neu3D這兩個數據集上進行了手工標注,構建了一個專門用于4D語義查詢的數據集。

在評估指標方面,針對不同的查詢任務設計了相應的衡量標準:

  • 時間無關查詢:使用平均準確率(mACC)和平均交并比(mIoU)作為查詢結果的評估指標。

  • 時間敏感查詢:使用幀級別的預測準確率(ACC)和像素級別的平均交并比(vIoU)作為評估指標

結果:該方法在時間敏感和時間無關查詢兩個子任務上都顯著優于最先進的方法。在時間敏感查詢上,與基于CLIP特征的方法相比,該方法在幀級別準確率(ACC)和像素級別平均交并比(vIoU)上分別提升了29.03%和27.54%。

時間無關查詢方面,在HyperNeRF和Neu3D兩個場景中,該方法在平均交并比(mIoU)上分別比基線方法提升了7.56%和23.62%



消融實驗

為了驗證該方法中各個組件的有效性,研究人員在論文中進行了詳細的消融實驗。實驗結果表明,每個組件都對最終性能的提升起到了重要作用。

貢獻

  1. 使用MLLM生成的對象文本描述構建4D語言特征。

  2. 為了對4D場景中對象的狀態間平滑過渡進行建模,進一步提出了一個狀態可變形網絡來捕捉連續的時間變化。

  3. 實驗結果表明,該方法在時間無關和時間敏感的開放詞匯查詢中都達到了最先進的性能。

  4. 通過人工標注,研究人員構建了一個用于4D開放詞匯查詢的數據集,為未來相關方向的研究提供了定量化的指標。

參考資料:

https://4d-langsplat.github.io/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
抵制日本AV就是保家衛國!

抵制日本AV就是保家衛國!

成都姑娘帶你看世界
2025-04-07 14:42:39
24小時內,特朗普連收2份警告,美高官承認:沒準備好對付中國

24小時內,特朗普連收2份警告,美高官承認:沒準備好對付中國

空天力量
2025-04-07 17:17:11
“甲亢哥”長沙直播,誤食路人給的檳榔,在車上捂喉嚨難受大叫!

“甲亢哥”長沙直播,誤食路人給的檳榔,在車上捂喉嚨難受大叫!

小蘿卜絲
2025-04-07 17:31:53
與美國硬剛,結局只有兩個

與美國硬剛,結局只有兩個

大國紀錄
2025-04-07 09:35:14
奢侈品生意也難做?曾一天賺十億,中國最頂級商場SKP要被賣了

奢侈品生意也難做?曾一天賺十億,中國最頂級商場SKP要被賣了

派大星紀錄片
2025-04-07 19:23:03
陳奕迅連發11個感嘆號!熱搜第一,真的不得了

陳奕迅連發11個感嘆號!熱搜第一,真的不得了

大象新聞
2025-04-07 07:53:05
極氪009起火夫妻全進ICU,女方懷孕4個月,家屬維權要500萬醫療費

極氪009起火夫妻全進ICU,女方懷孕4個月,家屬維權要500萬醫療費

阿矗論古今
2025-04-07 23:26:24
全世界還在睡覺,俄羅斯公布重要消息:80萬烏軍只剩下17個月生命

全世界還在睡覺,俄羅斯公布重要消息:80萬烏軍只剩下17個月生命

二向箔
2025-04-07 20:45:33
雷軍親自交車創始版SU7車主賣車!

雷軍親自交車創始版SU7車主賣車!

電動知家
2025-04-07 10:50:22
人民日報深夜發文,隨時降準降息,房貸又降了,每月有能少還了!

人民日報深夜發文,隨時降準降息,房貸又降了,每月有能少還了!

明月聊史
2025-04-07 20:52:41
重慶特斯拉失控后續:監控曝光連壓5輛車無人員傷亡,口碑爆了!

重慶特斯拉失控后續:監控曝光連壓5輛車無人員傷亡,口碑爆了!

鋭娛之樂
2025-04-07 16:06:10
網友:真是慶幸當初這120萬元,沒有買房,而是存了個定期存款…

網友:真是慶幸當初這120萬元,沒有買房,而是存了個定期存款…

火山詩話
2025-04-07 18:48:11
中國出口占GDP比重“前所未見”?美財長專業水平遭吐槽

中國出口占GDP比重“前所未見”?美財長專業水平遭吐槽

環球網資訊
2025-04-07 22:15:15
為什么總是外國人先知道 國內多少大事兒 都是外媒走在前

為什么總是外國人先知道 國內多少大事兒 都是外媒走在前

混沌錄
2025-04-07 18:25:23
悲劇了!越南主動"求饒",對美關稅降至0,卻遭特朗普"下狠手"!

悲劇了!越南主動"求饒",對美關稅降至0,卻遭特朗普"下狠手"!

西西弗說
2025-04-07 14:08:28
胖東來告網紅后續:網紅回應來了,稱于東來心胸狹隘,要死磕到底

胖東來告網紅后續:網紅回應來了,稱于東來心胸狹隘,要死磕到底

追風小狗
2025-04-07 23:54:41
證監會決心保護投資者!4月8日,凌晨的三大重要消息沖擊來襲!

證監會決心保護投資者!4月8日,凌晨的三大重要消息沖擊來襲!

風口招財豬
2025-04-08 00:35:29
中共中央、國務院:加強農村宅基地規范管理 允許農戶合法擁有的住房通過出租、入股、合作等方式盤活利用

中共中央、國務院:加強農村宅基地規范管理 允許農戶合法擁有的住房通過出租、入股、合作等方式盤活利用

每日經濟新聞
2025-04-07 19:33:31
納指跌幅擴大至5% 特斯拉跌超10%

納指跌幅擴大至5% 特斯拉跌超10%

財聯社
2025-04-07 21:46:11
貝萊德CEO:市場或迎長期抄底機會,但不排除再跌20%,懷疑美聯儲今年能多次降息

貝萊德CEO:市場或迎長期抄底機會,但不排除再跌20%,懷疑美聯儲今年能多次降息

華爾街見聞官方
2025-04-08 02:20:03
2025-04-08 08:03:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12486文章數 66006關注度
往期回顧 全部

科技要聞

特朗普堅持征收關稅 周一美科技股劇烈震蕩

頭條要聞

特朗普再對歐盟施壓:必須從美國購入能源

頭條要聞

特朗普再對歐盟施壓:必須從美國購入能源

體育要聞

刷屏中文互聯網,甲亢哥是怎么火的?

娛樂要聞

汪小菲身旁的朋友,對馬筱梅的評價

財經要聞

看好中國資本市場 "國家隊"增持

汽車要聞

途昂Pro的五套組合拳打完 看清油車的自我救贖

態度原創

房產
親子
本地
健康
公開課

房產要聞

生猛!三亞開始巨量拆遷!

親子要聞

您會走路嗎?

本地新聞

我在新昌當女主|大佛寺氛圍感拉滿 古偶頂流機位GET

在中國,到底哪些人在吃“偉哥”?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 桃园市| 丽水市| 常宁市| 稻城县| 呼图壁县| 卓资县| 宣城市| 尚志市| 和顺县| 潼南县| 洪泽县| 岳西县| 扎兰屯市| 神农架林区| 会昌县| 高州市| 于田县| 淮安市| 凤城市| 湾仔区| 广元市| 南部县| 葵青区| 东平县| 文水县| 弥渡县| 星子县| 灵石县| 延长县| 平舆县| 化德县| 綦江县| 泽库县| 确山县| 凉山| 平昌县| 赣榆县| 民县| 沙雅县| 中阳县| 绥滨县|