99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

鉸鏈物體的通用世界模型,超越擴散方法,入選CVPR 2025

0
分享至




基于當前觀察,預測鉸鏈物體的的運動,尤其是 part-level 級別的運動,是實現世界模型的關鍵一步。盡管現在基于 diffusion 的方法取得了很多進展,但是這些方法存在處理效率低,同時缺乏三維感知等問題,難以投入真實環境中使用。

清華大學聯合北京大學提出了第一個基于重建模型的 part-level 運動的建模——PartRM。用戶給定單張輸入圖像和對應的 drag ,PartRM 能生成觀測物體未來狀態的三維表征,使得生成數據能夠真正服務于機器人操縱等任務。實驗證明 PartRM 在生成結果上都取得了顯著的提升。該研究已入選CVPR 2025。



  • 論文題目:PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model
  • 論文主頁:https://partrm.c7w.tech/
  • 論文鏈接:https://arxiv.org/abs/2503.19913
  • 代碼鏈接:https://github.com/GasaiYU/PartRM

研究動機

世界模型是一種基于當前觀察和動作來預測未來狀態的函數。該模型的研發使得計算機能夠理解物理世界中的復雜規律,在機器人等領域得到了廣泛應用。近期,對 part-level 的動態建模的興趣日益增長,給定當前時刻的觀察并給與用戶給定的拖拽,預測下一時刻的鉸鏈物體各個部件的運動受到越來越多的關注,這種類型的世界模型對于需要高精度的任務,例如機器人的操縱任務等,具有重要的意義。

然而,我們對這個充滿前景的領域的調研表明,目前的前沿研究(如 Puppet-Master)通過對預訓練的 大規模視頻擴散模型進行微調,以實現增加拖拽控制的功能。盡管這種方法有效地利用了預訓練過程中 學習到的豐富運動模式,但在實際應用中仍顯不足。其中一個主要局限是它僅輸出單視角視頻作為表示,而模擬器需要三維表示來從多個視角渲染場景。此外,擴散去噪過程可能需要幾分鐘來模擬單個拖 拽交互,這與為操作策略(Manipulation Policies)提供快速試錯反饋的目標相悖。

因此,我們需要采用三維表征,為了實現從輸入單視角圖像的快速三維重建,我們利用基于三維高斯潑濺(3DGS)的大規模重建模型,這些模型能以前饋方式從輸入圖像預測三維高斯潑濺,使重建時間從傳 統優化方法所需的幾分鐘減少到僅需幾秒鐘。同時,通過將用戶指定的拖拽信息加入到大規模三維重建 網絡中,我們實現了部件級別的動態建模。在這個問題中,我們認為聯合建模運動和幾何是至關重要的,因為部件級運動本質上與每個部件的幾何特性相關聯(例如,抽屜在打開時通常沿其法線方向滑動)。這種集成使我們能夠實現更真實和可解釋的部件級動態表示。

同時,由于我們是第一個做這個任務的,在這個任務上缺少相關的數據集,因此我們基于 PartNet- Mobility 構建了PartDrag-4D數據集,并在這個數據集上建立了衡量對部件級別動態建模的基準(Benchmark),實驗結果表明,我們的方法在定量和定性上都取得了最好的效果。



PartDrag-4D 數據集的構建



PartRM 方法

方法概覽





圖像和拖拽的預處理

圖像預處理:由于我們的主網絡是基于 LGM 設計的, LGM 需要多視角的圖像作為輸入,所以我們需要將 輸入的單視角圖像變成多視角,我們利用多視角圖像生成網絡 Zero123++,為了使得 Zero123++ 生成的 圖像質量更高,我們會在訓練集上對其進行微調。



拖拽傳播:如果用戶只輸入一個拖拽,后續網絡可能會對拖拽的區域產生幻覺從而出錯,因此我們需要 對拖拽進行傳播到需要被拖拽部分的各個區域,使得后續網絡感知到需要被拖拽的區域,為此我們設計了一個拖拽傳播策略。如圖所示,我們首先拿用戶給定的拖拽的起始點輸入進 Segment Anything 模型中得到對應的被拖拽區域的掩碼,然后在這個掩碼區域內采樣一些點作為被傳播拖拽的起始點,這些被傳播的拖拽的強度和用戶給定的拖拽的強度一樣。盡管在拖動強度大小的估計上可能存在不準確性,我們后續的模型仍然足夠穩健,能夠以數據驅動的方式學習生成預期的輸出。

拖拽嵌入







實驗結果

實驗設置

我們在兩個數據集上來衡量我們提出的 PartRM 方法,這兩個數據集包括我們提出的 PartDrag-4D 數據集 以及通用數據集 Objaverse-Animation-HQ。因為 Objaverse-Animation-HQ 數據量比較大,我們只從其中采樣 15000 條數據,然后手動拆分訓練集和測試集。驗證時,我們對輸出的 3D 高斯渲染 8 個不同的視角,在這 8 個視角上算 PSNR ,SSIM 和 LPIPS 指標。

我們選用 DragAPart , DiffEditor 和 Puppet-Master 作為我們的 baseline。對于不需要訓練的 DiffEditor 方法,我們直接拿它官方的訓練權重進行推理。對于需要訓練的 DragAPart 和 Puppet-Master,我們在訓練 集上對他們進行微調。

由于現有的方法只能輸出 2D 圖像,不能輸出 3D 表征,為了和我們的任務對齊,我們設計了兩種方法。第一種稱為NVS-First,即我們首先對輸入的單視角圖像利用 Zero123++ 生成多視角圖像,再分別對每個視角結合每個視角對應的拖拽進行推理,生成對應的圖像后再進行 3D 高斯重建;第二種稱為 Drag-First,

即我們首先先對輸入視角進行拖拽,然后對生成的結果利用 Zero123++ 進行多視角生成,最后進行 3D 高斯重建。我們采用了兩種 3D 高斯重建方法,第一種為直接用 LGM (下圖中兩個時間的第一個)進行重建,第二種利用基于優化的 3D 高斯潑濺進行重建(下圖中兩個時間的第二個)。

定性比較





在視覺效果方面, PartRM 通過對外觀,幾何和運動的聯合建模,能夠在抽屜開合等場景中生成物理合理的三維表征。相比之下, DiffEditor 由于缺乏三維感知,導致部件形變錯位; DragAPart 雖然能夠處理簡 單的關節運動,但在生成微波門板時出現了明顯的偽影等問題,同時在通用數據集上表現不佳;Puppet- Master 在外觀的時間連續性和運動部分的建模方面表現不佳。



在 in the wild 質量方面,我們從互聯網上采了一些數據,手動設置拖拽,利用我們在 PartDrag-4D 上訓練 好的 PartRM 進行推理。圖中可以看到,我們的方法在一些和訓練數據分布差別不大的數據上可以取得較 好的效果;但是在一些分布差別較大的數據上效果欠佳。

定量比較



定量評估中, PartRM 在 PSNR、SSIM、 LPIPS 指標上較基線模型均有提升;同時大幅提升了生成效率, PartRM 僅需 4 秒即可完成單次生成,而傳統方案需分步執行 2D 形變與三維重建。

總結

本文介紹了 PartRM ,一種同時建模外觀、幾何和部件級運動的新方法。為了解決 4D 部件級運動學習中的數據稀缺問題,我們提出了 PartDrag-4D 數據集,提供了部件級動態的多視角圖像。實驗結果表明,我們的方法在部件運動學習上優于以往的方法,并且可應用于具身 AI 任務。然而,對于與訓練分布差異較大的關節數據,可能會遇到挑戰。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女網紅自稱遭寺廟老方丈性騷擾,卻不肯透露事發地,最終被網友挖出真相

女網紅自稱遭寺廟老方丈性騷擾,卻不肯透露事發地,最終被網友挖出真相

可達鴨面面觀
2025-04-08 17:53:09
特朗普輸定了!若對中國關稅再加征50%,統一臺灣時間將加速到來

特朗普輸定了!若對中國關稅再加征50%,統一臺灣時間將加速到來

說天說地說實事
2025-04-08 05:35:40
64歲好萊塢巨星被爆收受5名模特在套房享用,前妻曾控訴其性癮大

64歲好萊塢巨星被爆收受5名模特在套房享用,前妻曾控訴其性癮大

烏娛子醬
2025-04-07 21:50:56
突發!Shams:掘金解雇主帥邁克-馬龍!

突發!Shams:掘金解雇主帥邁克-馬龍!

直播吧
2025-04-09 01:33:09
川普威脅加關稅到104%后,中方強硬回應,美媒:連談都不打算談了

川普威脅加關稅到104%后,中方強硬回應,美媒:連談都不打算談了

頭條爆料007
2025-04-08 14:44:42
美國加關稅后對我們到底有啥影響?很多人都不敢說,我來說說吧!

美國加關稅后對我們到底有啥影響?很多人都不敢說,我來說說吧!

翻開歷史和現實
2025-04-08 22:34:02
強勢!因槍手戰勝皇馬,英超提前確定獲得下賽季額外歐冠名額

強勢!因槍手戰勝皇馬,英超提前確定獲得下賽季額外歐冠名額

直播吧
2025-04-09 05:17:13
美國54%關稅下,我國這5大行業深受打擊,中國老百姓的錢包要癟?

美國54%關稅下,我國這5大行業深受打擊,中國老百姓的錢包要癟?

振華觀史
2025-04-08 17:57:15
沒想到“甲亢哥”的中國行“爛尾”了,網友:很真實,意料之中

沒想到“甲亢哥”的中國行“爛尾”了,網友:很真實,意料之中

娛樂故事
2025-04-08 13:41:41
倫敦、巴黎、柏林 全球抗議大爆發!

倫敦、巴黎、柏林 全球抗議大爆發!

每日經濟新聞
2025-04-08 14:33:14
反擊了,但可能只是開始……

反擊了,但可能只是開始……

新浪財經
2025-04-04 20:57:17
曝江西上饒市監局,3個工作人員2個看視頻1個睡覺!官方回應

曝江西上饒市監局,3個工作人員2個看視頻1個睡覺!官方回應

小人物看盡人間百態
2025-04-08 21:58:26
炸裂!山東威海一小區6層陽臺整體垮塌墜落!居民:交付僅4年!

炸裂!山東威海一小區6層陽臺整體垮塌墜落!居民:交付僅4年!

小人物看盡人間百態
2025-04-08 16:53:55
靴子即將“落地”!4月9日,今日凌晨的三大消息正式出爐

靴子即將“落地”!4月9日,今日凌晨的三大消息正式出爐

風口招財豬
2025-04-09 02:21:18
志田千陽:在中國每次比賽都受到跟蹤狂傷害,已經持續一年半

志田千陽:在中國每次比賽都受到跟蹤狂傷害,已經持續一年半

懂球帝
2025-04-08 14:33:15
記者:邁克-馬龍不會回到國王,可能會去馬刺繼任波波維奇

記者:邁克-馬龍不會回到國王,可能會去馬刺繼任波波維奇

懂球帝
2025-04-09 08:20:21
億萬富豪損失慘重,各界批評聲音四起,美媒警告關稅戰或面臨“丑陋終局”

億萬富豪損失慘重,各界批評聲音四起,美媒警告關稅戰或面臨“丑陋終局”

環球網資訊
2025-04-09 07:12:16
美股大幅高開 博通漲逾9%

美股大幅高開 博通漲逾9%

財聯社
2025-04-08 21:32:07
62歲孫興三度離婚,復合不到半年!如今淪落工地開挖掘機畫面曝光

62歲孫興三度離婚,復合不到半年!如今淪落工地開挖掘機畫面曝光

烏娛子醬
2025-04-08 15:50:35
新疆大巴扎干果9800元事件后續!老板退錢當事人再發聲,這下火了

新疆大巴扎干果9800元事件后續!老板退錢當事人再發聲,這下火了

奇思妙想草葉君
2025-04-08 23:32:17
2025-04-09 08:35:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10332文章數 142286關注度
往期回顧 全部

科技要聞

馬斯克財富跌破3000億美元 怨特朗普?

頭條要聞

媒體:特朗普威脅對華再加稅50% 北京發出明確信號

頭條要聞

媒體:特朗普威脅對華再加稅50% 北京發出明確信號

體育要聞

100%當選狀元,但弗拉格不想進NBA?

娛樂要聞

金子涵正式宣布退圈,想回歸自己的生活

財經要聞

央地國資聯手護盤 國家隊領銜千億增持潮

汽車要聞

插混純電雙修 寶駿享境預售13.28萬起

態度原創

本地
數碼
健康
房產
親子

本地新聞

云游中國|更好濰坊,更好的家

數碼要聞

中國特供 RTX 5090D游戲性能普遍強于5090,影馳HOF顯卡新品曝光

在中國,到底哪些人在吃“偉哥”?

房產要聞

廣州樓市迎來小陽春!一二手市場全線飄紅,釋放哪些信號?

親子要聞

還在受傷不想去上學,歪理一大堆,這娃娃嘴可太會說了

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 陇西县| 仪陇县| 夏河县| 晋城| 石林| 崇义县| 平塘县| 宁武县| 晋中市| 彭水| 洛阳市| 台南县| 农安县| 治多县| 苍梧县| 崇阳县| 祁东县| 红安县| 新野县| 东方市| 潮州市| 南澳县| 阳江市| 商城县| 淮阳县| 开鲁县| 盐池县| 通城县| 二手房| 堆龙德庆县| 怀集县| 砚山县| 买车| 沅陵县| 颍上县| 洱源县| 高雄市| 公主岭市| 巴马| 蕉岭县| 鞍山市|