毛繼明簡介 :極佳科技合伙人&副總裁,擁有超過16年的工程研發與架構經驗,專注于大規模分布式系統和自動駕駛仿真技術。曾任百度Apollo仿真和工程負責人,以及百度、贏徹T10級別架構師。
毛繼明在極佳科技推動了DriveDreamer系列等世界模型相關技術的研發與商業化落地,服務了數十家自動駕駛及機器人客戶。
如今,世界模型已經成為具身智能實現突破的關鍵所在,但業界對于世界模型仍未形成統一的標準,也存在不同的觀點。
去年,極佳科技提出了一種名為DriveDreamer4D的框架,旨在利用世界模型的先驗知識來提升4D駕駛場景的重建效果。日前,極佳科技合伙人&副總裁——毛繼明,在由智猩猩、車東西主辦的「第四屆自動駕駛峰會」上,詳細介紹了世界模型的特點、作用及發展趨勢。
世界模型的發展背景
“每一代的智駕算法,對于數據數量及質量的需求,都是在瘋狂提升的,這導致行業也在面臨數據缺口的困境。”
他指出,從2023年下半年開始,大家開始嘗試通過生成數據來去輔助算法性能的提升,但當時還對此存在疑慮。可從2024年下半年開始,世界模型開始收獲更多的信任。
未來,智能駕駛的用戶對于算法的需求會更高,甚至需要其超越人類。毛繼明指出,去年年底,小馬智行CTO樓天城曾在采訪中提出一個觀點:人天然是「雙標」的——由于對機器缺乏信任,所以機器必須要比人表現得更好才能獲得人類的信任。所以樓天成提出了一種非常形象的解決思路——Learn by practice。
“這里所說的Practice,必須在可交互的環境中進行,這樣才能確保安全和高效。那么要生成這樣的環境,仍然需要依賴世界模型。”
不管是生成可供訓練的數據,還是生成可交互場景,世界模型都扮演著非常重要的角色。可以說,世界模型是智駕算法進入新一代的鑰匙。
毛繼明介紹稱,去年,世界模型的概念被提起的頻率非常高,包括李飛飛的world labs,Google的DeepMind,還有1x和Covariant這兩家具身智能公司,他們機器人的Foundation model也是用的世界模型的技術。更別提Tesla和Wayve,他們的智駕方案從2023年就開始應用世界模型。
再看國內,三大造車新勢力,蔚小理從去年下半年開始,也都紛紛提出要基于世界模型去構建算法研發體系。此時,世界模型已經不再是一個只存在于實驗室的預研課題,而是成為了產業界的共識,已經到了應用的爆發期。
2023年9月,極佳科技首次將世界模型與智駕進行了結合,然后發表了一系列的論文——也就是DriveDreamer系列。
世界模型的三大功能
「世界模型究竟是什么?」這是許多人都會問到的問題,但其實,世界模型至今還沒有一個業界公認的標準化定義。而毛繼明通過對很多不同的世界模型的認知,對其中一些內核功能進行了匯總:?
首先,從宏觀上來看,世界模型可被認為是真實世界的投影,至少是一個局部的投影。所以要想建設一個世界模型,第一步就是要對真實世界建模。所以,建模和關系抽象,是世界模型的第一個核心功能。
另外,若想讓世界模型發揮真正的價值,就需要與智能體去進行交互,因為前者需要為智能體去提供想象的能力。在這一過程中,智能體會給世界模型提供一個有缺失的觀測,而世界模型會補齊缺失的部分,返回給智能體一個完整的想象。
同時,世界模型也會為智能體提供“What-if”能力,也就是推理和預測能力。之后,世界模型還會返回一個對結果的好壞判定。
總結來看,世界模型一共有三大功能:建模、想象,預測。這就是傳統的世界模型應該具有的能力。
如何搭建世界模型?
極佳提出了一種基于分層的搭建方式,將視頻生成、空間幾何生成和物理引擎:
最底層:視頻生成
2024年上半年之前,幾乎所有的世界模型都是基于視頻生成來構建的,其中最經典的例子就是Sora。根據OpenAI發布的論文,他們認為Sora就是一個World Simulator。
毛繼明認為,視頻生成有兩個好處:
1、視覺是人們觀測世界最重要的Signal。
2、視頻生成的機制,天然就具有想象力和推測力。它能夠基于一張圖片去想象出其中的信息,同時又可以將圖片作為起始幀,去推理后邊會發生什么。也就是說,基于視頻生成模型,可以同時實現實際建模場景的想象和預測。
第二層:空間幾何生成
在去年下半年,新的觀點產生了——由于世界是具備物理空間的,而視頻生成的基本結構都是基于像素的,所以業界發現后者對世界的建模是有缺失的。因此,大家開始集中式地引入了「空間幾何生成」的新維度。
毛繼明表示,在引入空間幾何后,再配合原有的視頻生成,可以說基本能解決世界appearance層面的問題,但其實這仍然不夠。“因為這個世界,最終還是由一些物理規律所驅動的。而以當下的技術,很難單純地從Observation中學到物理規律。
第三層:物理引擎層
所以極佳通過引入新的一層——「物理引擎層」,來驅動模型在時間緯度上進行一些合理的變換。我們稱之為「世界模型中的基礎模型層」,它代表了世界中物質的確定性部分。”
例如,黃仁勛在演示Cosmos時,經常和Omniverse放在一起去講,后者正是物理引擎與空間幾何這兩層的內容。
更進一步,毛繼明指出:“除了物質的確定性部分,世界模型還應該包含不確定性的部分,也就是有人參與的部分。”,這部分可以被稱之為「世界知識層」。
他介紹稱,「世界知識層」的構成首先是一些領域約束,例如交規——大家開車遵守交規,但也有可能不遵守交規。所以領域約束其實是一種「弱約束」,它并不像物理規律。其次,是Reward function,世界模型想要呈現它的判定能力的話,就必須由reward function去進行評分。第三就是Distributions,它代表人類宏觀傾向性的數學化的表達。
另外,很多世界模型也引入了大語言模型,這是因為模型很難通過Observation完全地重建出來,很多時候還需要輔以大語言模型中的知識。如此,有了Distribution、Reward function和領域約束,世界模型中的世界知識,最終應該固化在Long-term memory中,在世界模型架構中產生作用。
如何真正落地?
毛繼明稱,要想將世界模型真正落地在具體場景中,還需要一系列對外的組件:包括知識更新的接口、Condition的Adapter,以及Internal的Agents。
他介紹稱,在實際場景中落地時,世界模型最經典的一個用法就是「數據泛化應用」了,也就是通過世界模型的想象能力,在給定一些簡單條件的前提下,就可以還原出世界應有的樣子。
“數據泛化,激活的是condition和視覺生成這兩層。這也是極佳科技一開始切入到世界模型賽道時,所做的起始工作。包括DriveDreamer和DriveDreamer-2。”
毛繼明表示,在傳統的視頻生成模型基礎上,極佳著重優化了「多視角一致」的能力,這也是智駕領域必要的一個Feature。
同時,為了滿足不同客戶的個性化需求,極佳也優化了Condition Adapter,這有助于生成可泛化的多樣性數據,去進一步優化感知算法的魯棒性。
毛繼明展示了一個案例:給世界模型的一個Condition,即僅僅告訴世界模型車道在哪里,車在哪里,世界模型即可發揮出想象力,想象出來一個完整的世界。更進一步,如果需要更充分的想象力,可以使用文字作為輸入,然后利用它的想象力去生成一個復雜場景,這就是在DriveDreamer-2中實現的功能。
另外一個業務場景,是4D場景重建。這會新增兩個功能區:1、是幾何生成,2、Internal agents。極佳有兩篇論文與之對應——Drive Dreamer 4D和Reckon Dreamer,這也是極佳和理想汽車的合作項目。
“它的應用場景更適用于數字孿生,也就是說可以對Identical case進行重建,并且在重建的三維世界中完成可交互的反饋式事件。”
根據極佳重建場景的具體實踐來看,如果接入了自動駕駛算法和控制器,可以實現在這個世界里自由移動,滿足閉環仿真的需求,實現Learn by practice。
世界模型將會如何發展?
“我們希望未來的Agent能夠像人一樣思考,所以它應該擁有人類大腦中的各種組件,其中最核心的組件就是世界模型。它最終會部署到車端或者是機器人端,被點亮所有功能。”
毛繼明認為,世界模型是現實世界的投影,但是現實世界是非常復雜的。它被多維度、多類型的規律共同驅動、共同影響。
例如:視頻生成,代表的是平面像素級別的變化,它是由真實世界中廣泛存在的在物體上的光的漫反射、鏡面反射等等光學規律所驅動的;
空間幾何,表達了真實世界中具體存在的宏觀物體,應該具有明確的體積屬性、位置屬性;
而物理引擎指的是說物體應該具有材質屬性,以及物體之間相互運動的動力學表達。這三種表達都是在不同的層級上,必須用不同的規律去驅動。
“我們如果要去建設一個完備的、至少局部完備的世界模型,需要對多種領域有深刻的認知,我們需要找到一種辦法,把不同領域的不同規律融合到一起,這是非常大的挑戰。”
接下來他指出,之所以要為世界模型分層,其中一個原因,是能夠注入先驗知識,這樣可以不使用那么多數據就可以完成世界模型的建設。
毛繼明還認為,世界模型的這種構建邏輯和自動駕駛的發展類似——伴隨著真實數據的積累,以及生成數據的反哺,一定會發生跨層級融合。
就像自動駕駛多模塊架構終究會演進到單模型端到端架構一樣。“我們堅信世界模型會變成一個end toend one model,也就是說世界模型最終會把多層次變成更少的層次,最后融合成為一個統一大模型。”
進一步,他表示,在商業化實踐中,客戶通常要求是,在當前的已有客戶數據質量基礎上,以最低的計算成本、時間成本、GPU資源成本以及存儲成本,達到世界模型的精度要求。
這需要在:數據質量、模型精度、成本接受度這三方面,針對每個客戶,滿足他們不同的三維度平衡需求。所以他認為,幾乎不太可能有「一種模型包打天下」的情況,而是要構建世界模型的分層框架。
“在多個商業項目落地過程中,一定會沉淀下來很多不同的做法和不同的組件。當不同場景的研發成果沉淀為可部署的組件后,就可以面對多樣化的客戶需求靈活地組織,以最快的方式來達到要求。”
不過毛繼明也直言,目前,世界模型的性能提升,是個「老大難問題」。如果類比人類大腦的直覺感知來看,現在世界模型的運行方式需要通過非常復雜的推理機制,能耗非常高,速度也很慢。
“如果以現在這樣的效率,那世界模型是不可能實現高效部署的。所以我覺得「端側的世界模型」就是終局,我們終究要探索一些新的世界模型算法范式,這是全行業共同去探討的一個話題。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.