網易首頁 > 網易號 > 正文申請入駐

極佳科技毛繼明詳解：世界模型究竟是什么？有啥用？怎么用？

2025-02-13 15:40:38　來源: RoboX

北京舉報

分享至

毛繼明簡介：極佳科技合伙人&副總裁，擁有超過16年的工程研發與架構經驗，專注于大規模分布式系統和自動駕駛仿真技術。曾任百度Apollo仿真和工程負責人，以及百度、贏徹T10級別架構師。

毛繼明在極佳科技推動了DriveDreamer系列等世界模型相關技術的研發與商業化落地，服務了數十家自動駕駛及機器人客戶。

如今，世界模型已經成為具身智能實現突破的關鍵所在，但業界對于世界模型仍未形成統一的標準，也存在不同的觀點。

去年，極佳科技提出了一種名為DriveDreamer4D的框架，旨在利用世界模型的先驗知識來提升4D駕駛場景的重建效果。日前，極佳科技合伙人&副總裁——毛繼明，在由智猩猩、車東西主辦的「第四屆自動駕駛峰會」上，詳細介紹了世界模型的特點、作用及發展趨勢。

世界模型的發展背景

“每一代的智駕算法，對于數據數量及質量的需求，都是在瘋狂提升的，這導致行業也在面臨數據缺口的困境。”

他指出，從2023年下半年開始，大家開始嘗試通過生成數據來去輔助算法性能的提升，但當時還對此存在疑慮。可從2024年下半年開始，世界模型開始收獲更多的信任。

未來，智能駕駛的用戶對于算法的需求會更高，甚至需要其超越人類。毛繼明指出，去年年底，小馬智行CTO樓天城曾在采訪中提出一個觀點：人天然是「雙標」的——由于對機器缺乏信任，所以機器必須要比人表現得更好才能獲得人類的信任。所以樓天成提出了一種非常形象的解決思路——Learn by practice。

“這里所說的Practice，必須在可交互的環境中進行，這樣才能確保安全和高效。那么要生成這樣的環境，仍然需要依賴世界模型。”

不管是生成可供訓練的數據，還是生成可交互場景，世界模型都扮演著非常重要的角色。可以說，世界模型是智駕算法進入新一代的鑰匙。

毛繼明介紹稱，去年，世界模型的概念被提起的頻率非常高，包括李飛飛的world labs，Google的DeepMind，還有1x和Covariant這兩家具身智能公司，他們機器人的Foundation model也是用的世界模型的技術。更別提Tesla和Wayve，他們的智駕方案從2023年就開始應用世界模型。

再看國內，三大造車新勢力，蔚小理從去年下半年開始，也都紛紛提出要基于世界模型去構建算法研發體系。此時，世界模型已經不再是一個只存在于實驗室的預研課題，而是成為了產業界的共識，已經到了應用的爆發期。

2023年9月，極佳科技首次將世界模型與智駕進行了結合，然后發表了一系列的論文——也就是DriveDreamer系列。

世界模型的三大功能

「世界模型究竟是什么？」這是許多人都會問到的問題，但其實，世界模型至今還沒有一個業界公認的標準化定義。而毛繼明通過對很多不同的世界模型的認知，對其中一些內核功能進行了匯總：?

首先，從宏觀上來看，世界模型可被認為是真實世界的投影，至少是一個局部的投影。所以要想建設一個世界模型，第一步就是要對真實世界建模。所以，建模和關系抽象，是世界模型的第一個核心功能。

另外，若想讓世界模型發揮真正的價值，就需要與智能體去進行交互，因為前者需要為智能體去提供想象的能力。在這一過程中，智能體會給世界模型提供一個有缺失的觀測，而世界模型會補齊缺失的部分，返回給智能體一個完整的想象。

同時，世界模型也會為智能體提供“What-if”能力，也就是推理和預測能力。之后，世界模型還會返回一個對結果的好壞判定。

總結來看，世界模型一共有三大功能：建模、想象，預測。這就是傳統的世界模型應該具有的能力。

如何搭建世界模型？

極佳提出了一種基于分層的搭建方式，將視頻生成、空間幾何生成和物理引擎：

最底層：視頻生成

2024年上半年之前，幾乎所有的世界模型都是基于視頻生成來構建的，其中最經典的例子就是Sora。根據OpenAI發布的論文，他們認為Sora就是一個World Simulator。

毛繼明認為，視頻生成有兩個好處：

1、視覺是人們觀測世界最重要的Signal。

2、視頻生成的機制，天然就具有想象力和推測力。它能夠基于一張圖片去想象出其中的信息，同時又可以將圖片作為起始幀，去推理后邊會發生什么。也就是說，基于視頻生成模型，可以同時實現實際建模場景的想象和預測。

第二層：空間幾何生成

在去年下半年，新的觀點產生了——由于世界是具備物理空間的，而視頻生成的基本結構都是基于像素的，所以業界發現后者對世界的建模是有缺失的。因此，大家開始集中式地引入了「空間幾何生成」的新維度。

毛繼明表示，在引入空間幾何后，再配合原有的視頻生成，可以說基本能解決世界appearance層面的問題，但其實這仍然不夠。“因為這個世界，最終還是由一些物理規律所驅動的。而以當下的技術，很難單純地從Observation中學到物理規律。

第三層：物理引擎層

所以極佳通過引入新的一層——「物理引擎層」，來驅動模型在時間緯度上進行一些合理的變換。我們稱之為「世界模型中的基礎模型層」，它代表了世界中物質的確定性部分。”

例如，黃仁勛在演示Cosmos時，經常和Omniverse放在一起去講，后者正是物理引擎與空間幾何這兩層的內容。

更進一步，毛繼明指出：“除了物質的確定性部分，世界模型還應該包含不確定性的部分，也就是有人參與的部分。”，這部分可以被稱之為「世界知識層」。

他介紹稱，「世界知識層」的構成首先是一些領域約束，例如交規——大家開車遵守交規，但也有可能不遵守交規。所以領域約束其實是一種「弱約束」，它并不像物理規律。其次，是Reward function，世界模型想要呈現它的判定能力的話，就必須由reward function去進行評分。第三就是Distributions，它代表人類宏觀傾向性的數學化的表達。

另外，很多世界模型也引入了大語言模型，這是因為模型很難通過Observation完全地重建出來，很多時候還需要輔以大語言模型中的知識。如此，有了Distribution、Reward function和領域約束，世界模型中的世界知識，最終應該固化在Long-term memory中，在世界模型架構中產生作用。

如何真正落地？

毛繼明稱，要想將世界模型真正落地在具體場景中，還需要一系列對外的組件：包括知識更新的接口、Condition的Adapter，以及Internal的Agents。

他介紹稱，在實際場景中落地時，世界模型最經典的一個用法就是「數據泛化應用」了，也就是通過世界模型的想象能力，在給定一些簡單條件的前提下，就可以還原出世界應有的樣子。

“數據泛化，激活的是condition和視覺生成這兩層。這也是極佳科技一開始切入到世界模型賽道時，所做的起始工作。包括DriveDreamer和DriveDreamer-2。”

毛繼明表示，在傳統的視頻生成模型基礎上，極佳著重優化了「多視角一致」的能力，這也是智駕領域必要的一個Feature。

同時，為了滿足不同客戶的個性化需求，極佳也優化了Condition Adapter，這有助于生成可泛化的多樣性數據，去進一步優化感知算法的魯棒性。

毛繼明展示了一個案例：給世界模型的一個Condition，即僅僅告訴世界模型車道在哪里，車在哪里，世界模型即可發揮出想象力，想象出來一個完整的世界。更進一步，如果需要更充分的想象力，可以使用文字作為輸入，然后利用它的想象力去生成一個復雜場景，這就是在DriveDreamer-2中實現的功能。

另外一個業務場景，是4D場景重建。這會新增兩個功能區：1、是幾何生成，2、Internal agents。極佳有兩篇論文與之對應——Drive Dreamer 4D和Reckon Dreamer，這也是極佳和理想汽車的合作項目。

“它的應用場景更適用于數字孿生，也就是說可以對Identical case進行重建，并且在重建的三維世界中完成可交互的反饋式事件。”

根據極佳重建場景的具體實踐來看，如果接入了自動駕駛算法和控制器，可以實現在這個世界里自由移動，滿足閉環仿真的需求，實現Learn by practice。

世界模型將會如何發展？

“我們希望未來的Agent能夠像人一樣思考，所以它應該擁有人類大腦中的各種組件，其中最核心的組件就是世界模型。它最終會部署到車端或者是機器人端，被點亮所有功能。”

毛繼明認為，世界模型是現實世界的投影，但是現實世界是非常復雜的。它被多維度、多類型的規律共同驅動、共同影響。

例如：視頻生成，代表的是平面像素級別的變化，它是由真實世界中廣泛存在的在物體上的光的漫反射、鏡面反射等等光學規律所驅動的；

空間幾何，表達了真實世界中具體存在的宏觀物體，應該具有明確的體積屬性、位置屬性；

而物理引擎指的是說物體應該具有材質屬性，以及物體之間相互運動的動力學表達。這三種表達都是在不同的層級上，必須用不同的規律去驅動。

“我們如果要去建設一個完備的、至少局部完備的世界模型，需要對多種領域有深刻的認知，我們需要找到一種辦法，把不同領域的不同規律融合到一起，這是非常大的挑戰。”

接下來他指出，之所以要為世界模型分層，其中一個原因，是能夠注入先驗知識，這樣可以不使用那么多數據就可以完成世界模型的建設。

毛繼明還認為，世界模型的這種構建邏輯和自動駕駛的發展類似——伴隨著真實數據的積累，以及生成數據的反哺，一定會發生跨層級融合。

就像自動駕駛多模塊架構終究會演進到單模型端到端架構一樣。“我們堅信世界模型會變成一個end toend one model，也就是說世界模型最終會把多層次變成更少的層次，最后融合成為一個統一大模型。”

進一步，他表示，在商業化實踐中，客戶通常要求是，在當前的已有客戶數據質量基礎上，以最低的計算成本、時間成本、GPU資源成本以及存儲成本，達到世界模型的精度要求。

這需要在：數據質量、模型精度、成本接受度這三方面，針對每個客戶，滿足他們不同的三維度平衡需求。所以他認為，幾乎不太可能有「一種模型包打天下」的情況，而是要構建世界模型的分層框架。

“在多個商業項目落地過程中，一定會沉淀下來很多不同的做法和不同的組件。當不同場景的研發成果沉淀為可部署的組件后，就可以面對多樣化的客戶需求靈活地組織，以最快的方式來達到要求。”

不過毛繼明也直言，目前，世界模型的性能提升，是個「老大難問題」。如果類比人類大腦的直覺感知來看，現在世界模型的運行方式需要通過非常復雜的推理機制，能耗非常高，速度也很慢。

“如果以現在這樣的效率，那世界模型是不可能實現高效部署的。所以我覺得「端側的世界模型」就是終局，我們終究要探索一些新的世界模型算法范式，這是全行業共同去探討的一個話題。”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.