MetaSpatial團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
在三維空間理解任務(wù)中,讓視覺(jué)語(yǔ)言模型(VLM)生成結(jié)構(gòu)合理、物理一致的場(chǎng)景布局仍是一項(xiàng)挑戰(zhàn)。以“請(qǐng)將這些家具合理擺放在房間中”為例,現(xiàn)有模型盡管能夠識(shí)別圖像中的物體,甚至給出語(yǔ)義連貫的布局描述,但通常缺乏對(duì)三維空間結(jié)構(gòu)的真實(shí)建模,難以滿足基本的物理約束與功能合理性。
為了解決這一問(wèn)題,已有研究嘗試采用多智能體交互(multi-agent interaction)方法,通過(guò)多個(gè)語(yǔ)言模型或代理之間的迭代協(xié)商與驗(yàn)證優(yōu)化布局結(jié)果。然而,這類方法不僅計(jì)算成本高,而且在迭代過(guò)程中容易陷入死鎖,導(dǎo)致無(wú)法收斂至有效解。
另一類方法則通過(guò)構(gòu)建大規(guī)模真實(shí)房間布局的描述語(yǔ)料,結(jié)合監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)對(duì)模型進(jìn)行訓(xùn)練。這種方式可以在一定程度上提升模型基礎(chǔ)能力,但受到空間任務(wù)本身的限制:空間布局任務(wù)不存在唯一的標(biāo)準(zhǔn)答案。對(duì)于同一個(gè)輸入,合理的三維布局可以有多種形式,因此以單一ground truth為監(jiān)督信號(hào)的SFT方法無(wú)法全面覆蓋可能的合理解空間,限制了模型的泛化能力與生成多樣性。
針對(duì)這一挑戰(zhàn),西北大學(xué)計(jì)算機(jī)系與基礎(chǔ)模型與生成式AI中心的研究人員潘震宇 (Zhenyu Pan) 以及其導(dǎo)師劉晗 (Han Liu) 提出了核心問(wèn)題:是否可以通過(guò)規(guī)則驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)策略,為視覺(jué)語(yǔ)言模型注入空間推理能力?
三維布局任務(wù)具備強(qiáng)化學(xué)習(xí)適用的若干關(guān)鍵特性:
- 不存在標(biāo)準(zhǔn)解,目標(biāo)是生成符合約束的多樣性解;
- 缺乏精確標(biāo)注,導(dǎo)致監(jiān)督信號(hào)稀缺;
- 存在可程序化檢測(cè)的目標(biāo)函數(shù),如物體重疊、越界、功能邏輯合理性等。
強(qiáng)化學(xué)習(xí)(Reinforcement Learning)通過(guò)獎(jiǎng)勵(lì)函數(shù)(reward function)而非依賴人工標(biāo)注,引導(dǎo)模型在與環(huán)境交互中不斷優(yōu)化策略。這使其天然適用于空間布局這類缺乏唯一標(biāo)準(zhǔn)答案、解空間復(fù)雜多樣的任務(wù)。近年來(lái),結(jié)合規(guī)則獎(jiǎng)勵(lì)機(jī)制的強(qiáng)化微調(diào)范式(Reinforcement Fine-Tuning, RFT)已在結(jié)構(gòu)化任務(wù)中取得顯著成果,如文本生成、數(shù)學(xué)推理、代碼理解等,典型代表包括DeepSeek-R1和OpenAI o1。
然而,在三維空間推理這一融合視覺(jué)、語(yǔ)言與結(jié)構(gòu)理解的多模態(tài)任務(wù)中,這一策略仍未被充分探索。
為此,他們提出了MetaSpatial框架。該方法首次將基于規(guī)則獎(jiǎng)勵(lì)的RFT策略成功遷移至視覺(jué)語(yǔ)言模型(VLMs)的空間布局場(chǎng)景中,在僅使用約50條無(wú)ground truth數(shù)據(jù)的條件下,即可顯著提升模型的空間推理能力與布局生成質(zhì)量。
具體而言,MetaSpatial構(gòu)建了一套可程序化評(píng)估的獎(jiǎng)勵(lì)函數(shù),衡量布局結(jié)構(gòu)是否合理、是否滿足物理約束,以及是否符合用戶偏好。同時(shí)引入多輪布局 refinement 機(jī)制,引導(dǎo)模型在訓(xùn)練過(guò)程中逐步優(yōu)化空間決策。借助這一策略,模型無(wú)需依賴大規(guī)模標(biāo)注數(shù)據(jù),即可學(xué)習(xí)到具備泛化能力與結(jié)構(gòu)適應(yīng)性的空間推理策略。
實(shí)驗(yàn)結(jié)果顯示,MetaSpatial在多個(gè)空間生成指標(biāo)上顯著優(yōu)于傳統(tǒng)SFT方法,充分驗(yàn)證了基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)在三維空間智能建模中的有效性與通用性。
MetaSpatial:引入R1突破3D空間推理壁壘
MetaSpatial 將訓(xùn)練3D空間推理過(guò)程建模為一個(gè)多輪決策過(guò)程,其基本形式是:給定一組多模態(tài)輸入,模型通過(guò)一系列推理步驟生成結(jié)構(gòu)化布局輸出,并基于可程序化評(píng)估的獎(jiǎng)勵(lì)信號(hào)進(jìn)行策略優(yōu)化。
輸入與輸出形式
在每一輪交互中,MetaSpatial的輸入包括:
- 場(chǎng)景圖像或房間結(jié)構(gòu)圖;
- 房間的幾何尺寸信息(長(zhǎng)、寬、高);
- 用戶提供的偏好描述(如功能用途、風(fēng)格要求等);
- 需要布局的目標(biāo)物體列表(包含物體類型、狀態(tài)等)。
模型輸出為兩個(gè)部分:
- 語(yǔ)言化的推理過(guò)程:記錄模型在布局時(shí)的決策理由;
- 結(jié)構(gòu)化布局 JSON:每個(gè)物體的三維坐標(biāo)位置(x, y, z)和名稱等,作為布局結(jié)果。
The goal is to arrange the objects in a dinning room setting that includes a ,..., and respect the spatial constraints and user preferences. Here's how we can approach this:1. **Kitchen Island**: Place it centrally ...2. **Hanging Pot Rack**: Hang it above ......Let's compute the positions:- **Kitchen Island**: (3, 2.5, 0.45)- **Hanging Pot Rack**: (3, 2.5, 0.65)...Now, let's generate the JSON output.[{"new_object_id": "kitchen_island_1", "x": 3.0, "y": 2.5, "z": 0.45}, ......]
該布局JSON文件既作為最終輸出,也作為強(qiáng)化學(xué)習(xí)中的環(huán)境狀態(tài),用于評(píng)估和反饋。
獎(jiǎng)勵(lì)函數(shù)與懲罰機(jī)制設(shè)計(jì)
為了衡量布局結(jié)果的好壞,MetaSpatial構(gòu)建了三級(jí)獎(jiǎng)勵(lì)信號(hào),分別從結(jié)構(gòu)合法性、物理合理性和主觀偏好三個(gè)維度評(píng)價(jià)模型輸出:
1. 格式獎(jiǎng)勵(lì)(Format Reward)
- 檢查輸出的 JSON 是否完整;
- 所有目標(biāo)物體是否都被覆蓋;
- 每個(gè)物體是否都包含完整的空間參數(shù)(x/y/z 坐標(biāo)、尺寸、方向等)。
2. 物理獎(jiǎng)勵(lì)(Physics Reward)
- 利用輸出中的幾何信息重建場(chǎng)景;
- 計(jì)算是否存在物體之間的重疊(collision);
- 檢查物體是否越界、浮空或違反場(chǎng)景邊界;
- 對(duì)不滿足物理約束的比例部分施加懲罰。
3. 物理獎(jiǎng)勵(lì)(Physics Reward)
- 將輸出布局通過(guò)腳本用Blender渲染為三維場(chǎng)景圖;
- 輸入至 GPT-4o 進(jìn)行審美評(píng)分;
- 綜合評(píng)分其物理一致性、美學(xué)質(zhì)量與用戶偏好匹配度。
{'realism_and_3d_geometric_consistency': {'mean': 5.0, 'std': 0.0}, 'functionality_and_activity_based_alignment': {'mean': 6.0, 'std': 0.0}, 'layout_and_furniture': {'mean': 5.0, 'std': 0.0}, 'color_scheme_and_material_choices': {'mean': 4.0, 'std': 0.0}, 'overall_aesthetic_and_atmosphere': {'mean': 4.0, 'std': 0.0}}
最終獎(jiǎng)勵(lì)為三者的加權(quán)組合,提供連續(xù)型反饋信號(hào),以供強(qiáng)化學(xué)習(xí)優(yōu)化使用。
Trajectory 生成與多輪布局優(yōu)化
與傳統(tǒng)一次性生成不同,MetaSpatial 在訓(xùn)練階段采用multi-turn rollout策略,允許模型對(duì)布局結(jié)果進(jìn)行多輪 refinement:
- 初始布局生成后,模型可查看自己生成的坐標(biāo)結(jié)構(gòu)與得分;
- 根據(jù)獎(jiǎng)勵(lì)反饋進(jìn)行布局更新并重復(fù)多輪;
- 每一輪的輸入、輸出、獎(jiǎng)勵(lì)構(gòu)成一條布局軌跡(trajectory);
- 多輪優(yōu)化后選取最終布局作為當(dāng)前 episode 的最終結(jié)果。
這種機(jī)制不僅提高了模型的布局能力,也為策略訓(xùn)練提供了更多的高質(zhì)量決策路徑。
策略優(yōu)化:基于 GRPO 的強(qiáng)化學(xué)習(xí)訓(xùn)練
為實(shí)現(xiàn)穩(wěn)定、高效的策略更新,MetaSpatial引入了Group Relative Policy Optimization(GRPO)。與常規(guī)的策略梯度方法不同,GRPO 不依賴于單條軌跡進(jìn)行更新,而是利用同一輸入樣本生成的多條trajectory作為一個(gè)group進(jìn)行比較性學(xué)習(xí)。
具體過(guò)程如下:
- 對(duì)于每組輸入,執(zhí)行多次layout generation,得到若干個(gè)軌跡;
- 比較這些候選軌跡的獎(jiǎng)勵(lì)得分,計(jì)算相對(duì)優(yōu)勢(shì);
- 根據(jù)組內(nèi)得分排序結(jié)果,優(yōu)化策略網(wǎng)絡(luò),使高獎(jiǎng)勵(lì)軌跡的概率增加,低獎(jiǎng)勵(lì)軌跡的概率下降;
- 避免了對(duì)某一“絕對(duì)最優(yōu)”解的依賴,提升了學(xué)習(xí)過(guò)程的穩(wěn)定性與策略的泛化能力。
借助GRPO,MetaSpatial能夠在樣本極少(如僅50條無(wú)標(biāo)注數(shù)據(jù))的情況下,穩(wěn)定學(xué)得適應(yīng)性強(qiáng)的空間決策能力。
MetaSpatial實(shí)驗(yàn)結(jié)果
1. Qwen2.5 的 7B 和 3B 兩個(gè)視覺(jué)語(yǔ)言模型(VLM)都從 MetaSpatial 框架中受益,但其中 7B 模型的性能提升更加顯著。相比之下,3B 模型仍然在輸出格式的生成方面存在困難,比如無(wú)法始終保持與輸入一致的物體數(shù)量和名稱,或是未能為所有物體持續(xù)穩(wěn)定地提供完整的三維坐標(biāo)(x, y, z)。
2. 實(shí)驗(yàn)結(jié)果表明,MetaSpatial 能夠有效提升Qwen2.5-VL的3B和7B 模型的空間布局能力,但其中7B模型的提升更加明顯。具體表現(xiàn)為:隨著訓(xùn)練的進(jìn)行,7B模型能夠生成更長(zhǎng)、更穩(wěn)定、結(jié)構(gòu)更清晰的響應(yīng),而3B模型的輸出則表現(xiàn)出較大的不一致性,其響應(yīng)長(zhǎng)度波動(dòng)較大,最小值和最大值之間頻繁跳變,顯示出在保持輸出格式一致性方面的困難(例如:物體數(shù)量正確、結(jié)構(gòu)化空間坐標(biāo)完整等)。相比之下,7B模型的響應(yīng)更加穩(wěn)定,這也進(jìn)一步印證了一個(gè)趨勢(shì):規(guī)模更大的模型在強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的空間推理任務(wù)中更具適應(yīng)能力。
3. 在“RL-Before vs RL-After”的對(duì)比實(shí)驗(yàn)中,MetaSpatial 框架在提升模型三維空間推理能力方面的效果得到了清晰體現(xiàn)。強(qiáng)化學(xué)習(xí)訓(xùn)練前,模型生成的物體布局普遍混亂、錯(cuò)位,且常出現(xiàn)物體漂浮、重疊或放置在不符合物理規(guī)律的位置等問(wèn)題。訓(xùn)練后,生成的布局則變得更加結(jié)構(gòu)化、逼真,并且在語(yǔ)義上更加連貫,表現(xiàn)出更強(qiáng)的空間感知能力、物體對(duì)齊能力以及功能合理性。
這些結(jié)果進(jìn)一步強(qiáng)化了一個(gè)核心結(jié)論:強(qiáng)化學(xué)習(xí)能夠有效優(yōu)化視覺(jué)語(yǔ)言模型的空間推理策略,使其具備更自然、更實(shí)用的三維場(chǎng)景生成能力,可廣泛應(yīng)用于如元宇宙、AR/VR 以及游戲開(kāi)發(fā)等多種現(xiàn)實(shí)場(chǎng)景中。
總結(jié)
總的來(lái)說(shuō),MetaSpatial的貢獻(xiàn)主要有下面四部分:
- 提出 MetaSpatial 框架:提出了 MetaSpatial,第一個(gè)基于強(qiáng)化學(xué)習(xí)(RL)的三維空間推理框架,使視覺(jué)語(yǔ)言模型(VLMs)能夠在無(wú)需復(fù)雜后處理的情況下直接生成結(jié)構(gòu)合理的三維場(chǎng)景。
- 引入多輪布局優(yōu)化機(jī)制與 GRPO 策略:設(shè)計(jì)了一種多輪布局 refinement 機(jī)制,結(jié)合 Group Relative Policy Optimization(GRPO)方法,使模型能通過(guò)多次調(diào)整與推理路徑,學(xué)習(xí)更具泛化性與適應(yīng)性的空間推理能力。
- 構(gòu)建三重獎(jiǎng)勵(lì)體系:設(shè)計(jì)了一套結(jié)構(gòu)化評(píng)估體系,涵蓋格式檢測(cè)、物理合理性檢測(cè)與基于渲染的視覺(jué)評(píng)價(jià),為強(qiáng)化學(xué)習(xí)提供自適應(yīng)、可擴(kuò)展的獎(jiǎng)勵(lì)信號(hào)。
- 驗(yàn)證方法有效性:在多種模型和空間場(chǎng)景上進(jìn)行的實(shí)驗(yàn)證明,MetaSpatial 能顯著提升模型在三維場(chǎng)景生成中的布局連貫性、物理一致性和整體質(zhì)量。
目前,項(xiàng)目已全面開(kāi)源,包含訓(xùn)練代碼、評(píng)測(cè)流程、數(shù)據(jù)集生成腳本以及完整的數(shù)據(jù)集。
項(xiàng)目地址: https://github.com/PzySeere/MetaSpatial
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.