網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

5年內(nèi)實(shí)現(xiàn)自動(dòng)駕駛，世界模型是唯一解

2024-12-20 17:05:17　來(lái)源: 圓周智行

四川舉報(bào)

分享至

之前的文章我們提到，端到端讓行業(yè)看到了通往自動(dòng)駕駛的捷徑，但光有端到端還不夠。蔚小理華VS地絕元魔，誰(shuí)是端到端大模型執(zhí)牛耳者。端到端的“黑盒”特性使得它無(wú)法直接約束系統(tǒng)的安全邊界；并且無(wú)法復(fù)現(xiàn)復(fù)雜的、偶發(fā)的corner case，考驗(yàn)可解釋性和泛用性能力，把上限提高的同時(shí)拉低了下限，存在“蹺蹺板效應(yīng)”。

如何解決這些問(wèn)題？

于是，世界模型被引入自動(dòng)駕駛。圓周智行粗略統(tǒng)計(jì)，目前已經(jīng)有超過(guò)10個(gè)車企和自動(dòng)駕駛公司提出了世界模型。包括特斯拉，英偉達(dá)，蔚來(lái)，理想，地平線，商湯，元戎啟行，Momenta。還有很多企業(yè)雖然并未對(duì)外傳播世界模型，但其實(shí)內(nèi)部也一直在推進(jìn)此事。

那么，到底什么是世界模型？它是如何生成的？又是如何工作的？

在回答這些問(wèn)題之前，我們先看一個(gè)案例，蔚來(lái)汽車是如何思考世界模型的？

2023年NIO day上，蔚來(lái)就公布了其正在自研世界模型的計(jì)劃。2024年7月的科技日上，蔚來(lái)智駕負(fù)責(zé)人任少卿釋放了更多技術(shù)細(xì)節(jié)。

在蔚來(lái)的理解里，人類大腦具備兩個(gè)能力。首先是空間理解能力，也叫想象重建能力。大白話說(shuō)就是憑空想象能力，你可能沒(méi)有見(jiàn)過(guò)一棵長(zhǎng)了100年的大樹(shù)，但是你可以通過(guò)大腦想象它的樣子。其次是時(shí)間理解能力，或者叫想象推演能力。大白話說(shuō)就是在大腦里進(jìn)行時(shí)空推演，想象一棵樹(shù)春夏秋冬的樣子。二者共同組成的能力就叫時(shí)空認(rèn)知能力。這是人在三維世界生存的基本技能。這就是人腦構(gòu)建的世界模型。

這個(gè)理解和權(quán)威機(jī)構(gòu)對(duì)世界模型的定義完全吻合。“World Models”（世界模型）最早出現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域。2018年，機(jī)器學(xué)習(xí)頂會(huì)NeurIPS收錄了一篇《Recurrent World Models Facilitate Policy Evolution》論文，以認(rèn)知科學(xué)中人腦mental model來(lái)類比世界模型，認(rèn)為mental model參與了人類的認(rèn)知、推理、決策過(guò)程，其中最核心的能力在于反事實(shí)推理（Counterfactual reasoning），這是一種人類天然具備的能力。

回到自動(dòng)駕駛，蔚來(lái)提出了一個(gè)很核心的觀點(diǎn)，自動(dòng)駕駛?cè)绻麑?shí)現(xiàn)也必須具備這樣的能力。自動(dòng)駕駛有很多不常見(jiàn)長(zhǎng)尾場(chǎng)景，也就是大家常說(shuō)的corner case，這樣的長(zhǎng)尾場(chǎng)景數(shù)據(jù)獲取非常艱難。業(yè)內(nèi)比較常規(guī)的做法有兩個(gè)：一個(gè)是3D重建，但是這樣的做法成本高，效率低，并不實(shí)用；另一個(gè)就是仿真，但是仿真的數(shù)據(jù)根本無(wú)法“還原”真實(shí)數(shù)據(jù)，對(duì)自動(dòng)駕駛的幫助有限。于是，自動(dòng)駕駛的“大殺招”世界模型出現(xiàn)了，它可以根據(jù)視頻，圖片，甚至文本描述自動(dòng)生成視頻數(shù)據(jù)，給自動(dòng)駕駛提供源源不斷的“燃料”。

在自動(dòng)駕駛里，世界模型如何發(fā)揮作用，地平線對(duì)此給出了更細(xì)致的解釋，世界模型的作用：一是通過(guò)生成式大模型生成帶有預(yù)測(cè)性質(zhì)的視頻數(shù)據(jù)，實(shí)現(xiàn)corner case多樣化訓(xùn)練；二是采用強(qiáng)化學(xué)習(xí)的方法認(rèn)識(shí)復(fù)雜駕駛環(huán)境，從視頻輸出駕駛決策。

那么，如何來(lái)構(gòu)建世界模型，辦法有兩個(gè)：一個(gè)是憑空想象，“無(wú)中生有”；另一個(gè)是根據(jù)現(xiàn)有信息完善信息，比如輸入文本，圖片，視頻，生成更多更豐富的視頻。

對(duì)于第一個(gè)環(huán)節(jié)，我們需要插入一個(gè)容易混淆的概念。很多人認(rèn)為世界模型就是仿真，二者確實(shí)有相似之處，世界模型包含了仿真的部分內(nèi)容，但是又完全高于仿真。

任少卿提出了一個(gè)很有意思的觀點(diǎn)，自動(dòng)駕駛發(fā)展了這么多年，本質(zhì)上都是在做空間理解的升級(jí)，就是讓系統(tǒng)更理解周圍的世界。最早是通過(guò)提升傳感器硬件能力，后來(lái)是算法升級(jí)，BEV視角轉(zhuǎn)換，OCC 2D變3D，到現(xiàn)在軟硬件能力都已經(jīng)出現(xiàn)瓶頸，但是極端場(chǎng)景數(shù)據(jù)的獲取卻成了大難題。于是，技術(shù)人員就想到了自己“造數(shù)據(jù)”的方式。

當(dāng)然，必須承認(rèn)的是，這項(xiàng)技術(shù)的發(fā)展并不始于自動(dòng)駕駛領(lǐng)域，世界模型的概念最早在2018年被引入人工智能領(lǐng)域。2022年，Yann LeCun在機(jī)器智能里提出了雙系統(tǒng)的概念，其中的系統(tǒng)二就提到了要用世界模型構(gòu)建未來(lái)場(chǎng)景的辦法。但是真正讓這項(xiàng)技術(shù)被更多人熟知的時(shí)間要推到2024年，其中的最大功臣自然是Open AI。

2024年2月16日清晨，Open AI公司發(fā)布了一款震驚全世界的視頻生成大模型Sora，它可以根據(jù)文本自動(dòng)生成一段60秒的視頻。這是世界模型的一個(gè)具象體現(xiàn)。

在人工智能領(lǐng)域，世界模型的影響力遠(yuǎn)遠(yuǎn)超過(guò)自動(dòng)駕駛，包括李飛飛的world Labs，谷歌DeepMind等企業(yè)都發(fā)布了世界模型。Yann LeCun的Mate FAIR團(tuán)隊(duì)還發(fā)布了導(dǎo)航世界模型，根據(jù)前一秒的導(dǎo)航信息實(shí)時(shí)生成下一秒的軌跡。想象一下這個(gè)技術(shù)一旦成熟，將會(huì)給自動(dòng)駕駛帶來(lái)多大的幫助。

這里插一句題外話，如果我們梳理自動(dòng)駕駛技術(shù)的發(fā)展路線會(huì)發(fā)現(xiàn)一個(gè)非常有意思的事情。這幾年所有對(duì)自動(dòng)駕駛發(fā)展產(chǎn)生推動(dòng)的技術(shù)都不源于自動(dòng)駕駛，而是人工智能，包括transformer，BEV，OCC，到今天的端到端，世界模型。正應(yīng)了那句話，自動(dòng)駕駛本質(zhì)上是人工智能的一個(gè)具身智能體現(xiàn)。所以技術(shù)人員很喜歡說(shuō)一句話，搞自動(dòng)駕駛不能只盯著自動(dòng)駕駛，這樣永遠(yuǎn)搞不好自動(dòng)駕駛。

在自動(dòng)駕駛，特斯拉毫無(wú)疑問(wèn)是那個(gè)探路者。就像喬布斯帶領(lǐng)蘋(píng)果科技惠民一樣，雖然蘋(píng)果并不是技術(shù)發(fā)明者，但它確實(shí)是將技術(shù)融入產(chǎn)品的最佳實(shí)踐者。

世界模型幫助所有智駕玩家打開(kāi)了一個(gè)全新的世界。2023 年，特斯拉自動(dòng)駕駛負(fù)責(zé)人在 CVPR 上介紹了其正在打造的 “通用世界模型”。該模型可以通過(guò)過(guò)往的視頻片段和行動(dòng)提示，生成 “可能的未來(lái)” 的全新視頻，其基礎(chǔ)架構(gòu)由多臺(tái)攝像機(jī)的視頻流輸入，匯集到一個(gè)大型 Transformer 塊中，通過(guò)空間注意力和幾何模型等形成特征并進(jìn)行預(yù)測(cè)，可用于預(yù)測(cè)占用率、體素未來(lái)的流動(dòng)情況以及車道等駕駛所需的任務(wù)。

與此同時(shí)，Wayve也在2023 年發(fā)布了 GAIA-1 模型，它可以依靠視頻、文本和動(dòng)作的輸入生成逼真的視頻，能夠生成分鐘級(jí)的視頻以及多種合理的未來(lái)場(chǎng)景，幫助自動(dòng)駕駛模型的訓(xùn)練和仿真。

2024 年 GTC 大會(huì)上，英偉達(dá)也展示了其在世界模型領(lǐng)域的新進(jìn)展，通過(guò)將多模態(tài)數(shù)據(jù)輸入模型訓(xùn)練并讓模型預(yù)測(cè)未來(lái)駕駛場(chǎng)景，自動(dòng)駕駛基礎(chǔ)模型可以穩(wěn)定生成多個(gè)攝像頭拍攝到的逼真的駕駛場(chǎng)景演變，并且通過(guò)語(yǔ)言提示詞也可以使得模型呈現(xiàn)的場(chǎng)景靈活變化。

在國(guó)內(nèi)傳播層面，蔚來(lái)汽車是國(guó)內(nèi)最早提世界模型的車企。其在2023就表示正在研發(fā)世界模型，2024 年 7 月 27 日，蔚來(lái)發(fā)布了中國(guó)首個(gè)智能駕駛世界模型 NWM 。

華為則是把自動(dòng)駕駛的視頻生成板塊放在了盤(pán)古大模型中，叫做場(chǎng)景生產(chǎn)大模型。華為在2020年開(kāi)始啟動(dòng)盤(pán)古大模型研發(fā)，并于2021年4月正式發(fā)布，到2022年聚焦行業(yè)應(yīng)用落地。

華為對(duì)世界模型的使用更加多元。它從實(shí)車數(shù)據(jù)學(xué)習(xí)如何生成新視頻，同時(shí)處理重建和渲染，生成數(shù)據(jù)可用于感知算法訓(xùn)練；重建各類障礙物構(gòu)建素材庫(kù)，根據(jù)需要構(gòu)造corner case，增強(qiáng)數(shù)據(jù)完備性；針對(duì)天氣、晝夜、季節(jié)等環(huán)節(jié)因素對(duì)已有場(chǎng)景進(jìn)行變換，構(gòu)造corner case。它基于神經(jīng)網(wǎng)絡(luò)做實(shí)車場(chǎng)景，并進(jìn)行重建跟渲染。

有意思的是，在自動(dòng)駕駛上一直以先鋒自居的小鵬汽車在世界模型上并沒(méi)有任何資料流出，不知是在憋大招還是覺(jué)得不重要。推測(cè)來(lái)看，前者的可能性居多。

世界模型的價(jià)值如何評(píng)估

就在世界模型被瘋狂追捧的同時(shí)，一個(gè)更深的問(wèn)題擺在行業(yè)面前：世界模型到底應(yīng)該凌駕于真實(shí)數(shù)據(jù)之上，還是僅僅作為真實(shí)數(shù)據(jù)的補(bǔ)充。

特斯拉和元戎啟行的思路是用一套系統(tǒng)覆蓋兩種商業(yè)模型，輔助駕駛和Robotaxi。然后用數(shù)據(jù)訓(xùn)練的方式不斷提升系統(tǒng)的能力上限，這種邏輯下世界模型更像是現(xiàn)實(shí)世界數(shù)據(jù)的補(bǔ)充。但這似乎低估了世界模型的價(jià)值。

“世界模型是最重要的事情，沒(méi)有之一。”

小馬智行CTO樓天城給了世界模型極高的評(píng)價(jià)，他認(rèn)為世界模型是自動(dòng)駕駛當(dāng)前最重要的事情。依靠現(xiàn)有的真實(shí)數(shù)據(jù)只能讓智駕系統(tǒng)無(wú)限接近人，只有世界模型數(shù)據(jù)才能構(gòu)建出更復(fù)雜的世界，最終讓訓(xùn)練出來(lái)的系統(tǒng)超越人。理由很簡(jiǎn)單，自動(dòng)駕駛是對(duì)人類駕駛行為的學(xué)習(xí)，因?yàn)槿说鸟{駛能力有上限，所有自動(dòng)駕駛的安全邊界也有上限，但樓天城認(rèn)為，自動(dòng)駕駛的安全必須高于人類才有意義，尤其是L4級(jí)自動(dòng)駕駛。所以必須要有高于人類駕駛行為的世界模型數(shù)據(jù)訓(xùn)練出來(lái)的系統(tǒng)才能優(yōu)于人類。按照這個(gè)表述，世界模型應(yīng)該凌駕于真實(shí)數(shù)據(jù)之上。

這里我們來(lái)看看地平線的實(shí)踐案例，傳統(tǒng)基于規(guī)則的CNN（卷積神經(jīng)網(wǎng)絡(luò)）學(xué)習(xí)方式，沒(méi)有泛化和理解能力。地平線提出了“交互式博弈”，核心在于通過(guò)生成數(shù)據(jù)驅(qū)動(dòng)實(shí)現(xiàn)模擬學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。為了避免機(jī)器對(duì)數(shù)據(jù)的重復(fù)模仿，它必須要學(xué)會(huì)主動(dòng)理解數(shù)據(jù)。這時(shí)候世界模型就承擔(dān)了「駕駛世界觀」的作用。這里我的理解是，地平線已經(jīng)實(shí)現(xiàn)了樓天城說(shuō)的，讓世界模型擔(dān)當(dāng)系統(tǒng)教練的角色，指導(dǎo)系統(tǒng)到底該怎么開(kāi)。

此外，世界模型還可以作為額外的信息源，為預(yù)測(cè)環(huán)節(jié)服務(wù)。當(dāng)?shù)貓D信息和傳感器信息輸入World Model，機(jī)器經(jīng)過(guò)處理輸出仿真、想象、演繹甚至腦補(bǔ)過(guò)程，支撐系統(tǒng)的交互博弈，為系統(tǒng)兜底。

那么，世界模型的好壞又該如何評(píng)估。如果單純從理論層面，很難。世界模型的能力就好像語(yǔ)文作文，很難通過(guò)一個(gè)量化的指標(biāo)去評(píng)估好壞。目前雖然很多車企發(fā)布了世界模型，但是對(duì)具體細(xì)節(jié)數(shù)據(jù)展示的不多。這里我們來(lái)看看蔚來(lái)和商湯的案例。

蔚來(lái)對(duì)其世界模型的介紹如下：

“能夠在 100 毫秒內(nèi)推演出 216 種可能發(fā)生的場(chǎng)景，并可基于 3 秒的駕駛視頻生成 120 秒的想象視頻，還具備閉環(huán)仿真測(cè)試能力。”

商湯絕影對(duì) “開(kāi)悟”世界模型的介紹如下：

“（視頻生成）時(shí)間最長(zhǎng)為150秒、分辨率可達(dá)1080P、視角可以實(shí)現(xiàn)11V”。

絕影認(rèn)為這個(gè)難度很大，行業(yè)普遍都是生成1V或6V視角的視頻，開(kāi)悟直接干到11V，而且同時(shí)生成的視角畫(huà)面越多，要保持時(shí)空一致性就更難，還要克服魚(yú)眼視角的畸變。

雖然沒(méi)有準(zhǔn)確的評(píng)估辦法，但是他們都強(qiáng)調(diào)了世界模型的幾項(xiàng)能力：準(zhǔn)確性，多樣性，可控性和泛化能力。

目前看來(lái)，世界模型的能力還遠(yuǎn)遠(yuǎn)沒(méi)有開(kāi)發(fā)出來(lái)。

樓天城提出了一個(gè)設(shè)想，世界模型還可以充當(dāng)一個(gè)評(píng)分體系，對(duì)自動(dòng)駕駛系統(tǒng)的表現(xiàn)做出評(píng)價(jià)，不斷提升系統(tǒng)的能力。

地平線提出了世界模型的兩個(gè)長(zhǎng)遠(yuǎn)價(jià)值：首先是更準(zhǔn)確的世界理解，幫助減少智駕系統(tǒng)的代碼量，延遲，網(wǎng)絡(luò)負(fù)載，錯(cuò)誤率等；然后是泛化能力，世界模型可以讓高階智駕形成對(duì)復(fù)雜駕駛環(huán)境的通用理解，而非對(duì)輸入的重復(fù)依賴。大白話說(shuō)就是舉一反三。

最近地平線創(chuàng)始人余凱在接受采訪時(shí)表示，大規(guī)模L4、L5將會(huì)在5年左右實(shí)現(xiàn)。而目前行業(yè)形成的一個(gè)共識(shí)是，自動(dòng)駕駛實(shí)現(xiàn)的一個(gè)大前提不僅僅是像人，而是要超越人。真實(shí)世界的數(shù)據(jù)只能是無(wú)限接近人，要超越人，世界模型是目前技術(shù)人員探索出來(lái)的通往自動(dòng)駕駛的唯一解。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.