網易首頁 > 網易號 > 正文申請入駐

車企首秀CVPR 2025：郎咸朋署名，理想汽車聯合北大浙大攻克4D仿真難題

2025-03-07 11:38:09　來源: 智駕網

北京舉報

分享至

全民智駕的元年到來，AI正成為車企競爭的新賽場。

文丨智駕網王欣
編輯 | 雨來

全民智駕的元年到來，AI已成為車企競爭的新賽場。

3月5日，CVPR 2025成績單出來了，其中，理想汽車上榜了4篇。

CVPR國際計算機視覺與模式識別會議是IEEE（電氣和電子工程師協會）主辦的一年一度的國際會議，被公認為計算機視覺領域的頂級會議之一，和ICCV、ECCV并稱計算機視覺三大頂級會議，近年來也不斷有自動駕駛領域的前沿研究獲獎。

對于理想汽車的意義在于，這不僅是其首次以車企身份躋身全球頂級AI會議，更標志著其從“造車新勢力”向真正發展為AI公司的戰略轉型有了一個階段性的成果。

當天，理想汽車創始人、董事長、CEO李想在社交媒體上發文稱：自從特斯拉的全自動駕駛（FSD）功能入華后，經過對比，理想AD Max V13的接管次數明顯少于特斯拉FSD，表現更好。李想還提到，理想AD Max V13基于1000萬條數據進行訓練，并于2月27日全面推送，得到了用戶的好評。

這次入選的四篇論文背后的署名作者是理想汽車副總裁、智駕負責人朗咸朋及其團隊的多名工程師。在不久前的理想汽車AI Talk中，朗咸朋曾在直播中表示，預計2025年理想汽車能夠實現L3級的智能駕駛。

此次入選的StreetCrafter、DrivingSphere、DriveDreamer4D與ReconDreamer四篇論文，主要是理想汽車在自動駕駛模擬仿真方向做的創新，同時直面回答自動駕駛研發的核心痛點難題：數據成本高企與極端場景覆蓋不足。

下面我們分別解析這四篇論文：

01.

StreetCrafter：基于LiDAR與視頻擴散模型的街景合成技術

StreetCrafter是作為理想汽車聯合浙江大學、康奈爾大學提出的自動駕駛仿真技術，其核心目標是通過LiDAR點云與視頻擴散模型的融合，解決傳統方法（如NeRF、3D高斯散射）在視角偏離訓練軌跡時渲染模糊或偽影的難題。

其核心技術包含兩部分：

可控視頻擴散模型：通過多幀LiDAR點云聚合生成全局點云，并渲染為像素級條件圖像，作為擴散模型的輸入。在推理階段，根據新視角的相機軌跡生成高保真視頻幀，支持實時渲染和場景編輯（如對象平移、替換和刪除）。

動態3D高斯表示蒸餾：利用生成的新視角圖像作為監督信號，優化3D高斯的幾何與紋理，結合混合損失函數（L1、SSIM、LPIPS）和漸進優化策略，提升視角外推能力，同時保持80-113 FPS的實時渲染速度。

實驗結果顯示，在Waymo數據集上，StreetCrafter在3米視角偏移下的FID為71.40，顯著優于Street Gaussians的93.38，且在復雜區域（如車道線和移動車輛）的細節清晰度更高。

StreetCrafter其應用價值在于降低自動駕駛訓練對真實數據的依賴。例如，在訓練車輛變道算法時，可通過調整相機軌跡生成多角度變道場景視頻，模擬不同光照、天氣條件下的數據，以及應對極端場景下的仿真測試。

在應對突發障礙物（如行人橫穿、車輛逆行）時，利用場景編輯功能，在LiDAR點云中插入虛擬障礙物（如刪除道路上的車輛并替換為行人），生成測試視頻。例如，模擬行人突然闖入車道，驗證系統緊急制動能力。

但局限性包括對LiDAR標注的高成本依賴（數據采集成本提升）、生成速度僅0.2FPS，以及對形變物體（如行人）的建模精度不足。

也許正是意識到這些不足，日前理想汽車宣布：今年推出的所有車型都將標配激光雷達傳感器。

02.

DrivingSphere：生成式閉環仿真框架與4D高保真環境建模

DrivingSphere旨在構建一個支持動態閉環交互的4D（3D空間+時間）仿真環境，以克服傳統開環仿真數據多樣性不足、閉環仿真視覺保真度低的問題。

框架主要通過兩大模塊和一個機制，為智能體構建了高保真4D世界，評估自動駕駛算法。

動態環境組合（DEC模塊）：基于OccDreamer（3D占用擴散模型）生成靜態場景，并結合“Actor Bank”動態管理交通參與者（如車輛、行人），通過語義相似性或隨機采樣選擇參與者，實現城市場景的無限擴展。

該模塊采用OccDreamer，一個基于鳥瞰圖（BEV）和文本條件控制的3D占用擴散模型，用于生成靜態場景。它通過VQ-VAE將3D占用數據壓縮為潛在表示，并結合ControlNet分支注入BEV地圖和文本提示，逐步生成城市級連續靜態場景。

視覺場景合成（VSS模塊）：利用雙路徑條件編碼（全局幾何特征與局部語義圖）和視頻擴散模型（VideoDreamer），生成多視角時空一致的高保真視頻，并通過ID感知編碼綁定參與者外觀與位置，解決外觀漂移問題。

閉環反饋機制：通過Ego Agent（被測算法）與環境Agent（交通流引擎）的交互，實現“感知-決策-環境響應”的動態閉環測試，驗證算法在復雜場景中的魯棒性。

在實驗與結果方面，DrivingSphere在視覺保真度評估中表現出色。

在nuScenes數據集上，DrivingSphere的OccDreamer模塊生成的場景FID顯著優于SemCity，視頻生成結果在3D目標檢測和BEV分割指標上超越MagicDrive與DriveArena。

總的來看，DrivingSphere其核心貢獻在于將幾何建模與生成式技術結合，但論文也指出，需進一步優化動態行為的復雜性（如極端場景覆蓋不足）和計算成本。

03.

DriveDreamer4D：基于世界模型的4D駕駛場景重建與軌跡生成

DriveDreamer4D的目標是通過世界模型（World Model）增強4D駕駛場景重建的時空一致性與生成質量，解決傳統傳感器仿真方法（如NeRF、3DGS）在復雜動作（如變道、加速）下的局限性。

比如，現有傳感器仿真技術（如NeRF、3D高斯散射）依賴與訓練數據分布緊密匹配的條件，僅能渲染前向駕駛場景，難以處理復雜動作（如變道、急剎）導致的視角偏移或動態交互問題，常出現“鬼影”“拖影”等偽影。

亦或是開環仿真數據多樣性不足，閉環仿真則面臨視覺保真度低、動態交互不真實等挑戰。

那么世界模型通過預測未來狀態生成多樣化駕駛視頻，但其此前局限于二維輸出，缺乏時空連貫性，無法滿足4D場景重建需求。

DriveDreamer4D的核心架構分為兩大部分：

新軌跡生成模塊（NTGM）：支持文本描述或自定義設計生成軌跡（如變道、加減速），并通過仿真環境（如CARLA）進行碰撞檢測與安全性評估，生成控制信號以驅動視頻合成。

正則化訓練策略（CDTS）：引入感知一致性損失，優化合成數據與真實數據的分布對齊，并通過誤差反饋迭代提升軌跡生成質量。

實驗表明，DriveDreamer4D在時空一致性和視覺真實性上優于PVG、S3Gaussian等基線模型。用戶調研中，其在常規場景（如單車道變道）的生成效果獲好評，但在跨車道等極端動作下仍存在重建失效問題。

該研究的應用價值在于降低數據采集成本并增強算法魯棒性，但需進一步結合時序建模與多模態輸入（如高精地圖）以提升復雜場景的適應性。

04.
ReconDreamer：動態駕駛場景在線修復與漸進式數據更新

ReconDreamer聚焦于解決動態場景重建中大幅動作導致的偽影問題（如遠景（參數丨圖片）扭曲、車輛遮擋）。

針對這一類問題，ReconDreamer依然是利用世界模型的知識，通過在線修復(DriveRestore)和漸進數據更新策略( Progressive Data Update Strategy以下簡稱PDUS)兩大手段，解決復雜動作的渲染質量問題。

在線修復技術（DriveRestorer）：構建退化幀與正常幀的修復數據集，通過擴散模型去噪策略修復偽影，并采用脫敏策略優先處理問題嚴重區域（如天空與遠景）。

漸進式數據更新策略（PDUS）：分階段生成更大跨度的軌跡數據（如1.5米→3米→6米），逐步擴展模型對復雜動作的適應能力，直至收斂。

ReconDreamer的創新點在于首次將世界模型與動態重建結合，實現了實時修復渲染缺陷，并通過漸進式訓練策略解決了大動作渲染中的數據分布偏移問題。

這為自動駕駛閉環仿真提供了高保真傳感器數據生成方案，支持復雜場景（如緊急變道和多車交互）的可靠測試。

當然局限性也包括，比如在線修復機制增加了訓練時間，且目前僅在Waymo數據集上進行了驗證，未來需要擴展至更多復雜環境（如雨天和夜間）。

定量分析結果顯示，ReconDreamer在NTA-IoU（車輛檢測框重合度）上相較于基線方法（如Street Gaussians和DriveDreamer4D）提升了24.87%，在NTL-IoU（車道線重合度）上提升了6.72%，同時FID（圖像質量評估）降低了29.97%。用戶研究表明，96.88%的用戶認為ReconDreamer在大動作渲染中優于DriveDreamer4D。

定性分析結果顯示，ReconDreamer有效消除了遠景模糊和天空噪點，保持了車輛位置和形狀的一致性，并確保車道線在大偏移下的平滑無斷裂。

此外，消融實驗結果表明，DriveRestorer的主干網絡基于DriveDreamer-2的掩碼版本效果最佳，而PDUS的步長設定為1.5米時性能最優，過大的步長會導致噪聲累積。

【關注智能駕駛，關注智駕視頻號】

關注汽車的智駕時代上智駕網（http://autor.com.cn）
合作or新聞線索提供，聯系郵箱：editor@autor.com.cn
聯系作者，添加微信：xinwell0709

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.