之前的文章我們提到,端到端讓行業(yè)看到了通往自動(dòng)駕駛的捷徑,但光有端到端還不夠。蔚小理華VS地絕元魔,誰(shuí)是端到端大模型執(zhí)牛耳者。端到端的“黑盒”特性使得它無(wú)法直接約束系統(tǒng)的安全邊界;并且無(wú)法復(fù)現(xiàn)復(fù)雜的、偶發(fā)的corner case,考驗(yàn)可解釋性和泛用性能力,把上限提高的同時(shí)拉低了下限,存在“蹺蹺板效應(yīng)”。
如何解決這些問(wèn)題?
于是,世界模型被引入自動(dòng)駕駛。圓周智行粗略統(tǒng)計(jì),目前已經(jīng)有超過(guò)10個(gè)車企和自動(dòng)駕駛公司提出了世界模型。包括特斯拉,英偉達(dá),蔚來(lái),理想,地平線,商湯,元戎啟行,Momenta。還有很多企業(yè)雖然并未對(duì)外傳播世界模型,但其實(shí)內(nèi)部也一直在推進(jìn)此事。
那么,到底什么是世界模型?它是如何生成的?又是如何工作的?
在回答這些問(wèn)題之前,我們先看一個(gè)案例,蔚來(lái)汽車是如何思考世界模型的?
2023年NIO day上,蔚來(lái)就公布了其正在自研世界模型的計(jì)劃。2024年7月的科技日上,蔚來(lái)智駕負(fù)責(zé)人任少卿釋放了更多技術(shù)細(xì)節(jié)。
在蔚來(lái)的理解里,人類大腦具備兩個(gè)能力。首先是空間理解能力,也叫想象重建能力。大白話說(shuō)就是憑空想象能力,你可能沒(méi)有見(jiàn)過(guò)一棵長(zhǎng)了100年的大樹(shù),但是你可以通過(guò)大腦想象它的樣子。其次是時(shí)間理解能力,或者叫想象推演能力。大白話說(shuō)就是在大腦里進(jìn)行時(shí)空推演,想象一棵樹(shù)春夏秋冬的樣子。二者共同組成的能力就叫時(shí)空認(rèn)知能力。這是人在三維世界生存的基本技能。這就是人腦構(gòu)建的世界模型。
這個(gè)理解和權(quán)威機(jī)構(gòu)對(duì)世界模型的定義完全吻合。“World Models”(世界模型)最早出現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域。2018年,機(jī)器學(xué)習(xí)頂會(huì)NeurIPS收錄了一篇《Recurrent World Models Facilitate Policy Evolution》論文,以認(rèn)知科學(xué)中人腦mental model來(lái)類比世界模型,認(rèn)為mental model參與了人類的認(rèn)知、推理、決策過(guò)程,其中最核心的能力在于反事實(shí)推理(Counterfactual reasoning),這是一種人類天然具備的能力。
回到自動(dòng)駕駛,蔚來(lái)提出了一個(gè)很核心的觀點(diǎn),自動(dòng)駕駛?cè)绻麑?shí)現(xiàn)也必須具備這樣的能力。自動(dòng)駕駛有很多不常見(jiàn)長(zhǎng)尾場(chǎng)景,也就是大家常說(shuō)的corner case,這樣的長(zhǎng)尾場(chǎng)景數(shù)據(jù)獲取非常艱難。業(yè)內(nèi)比較常規(guī)的做法有兩個(gè):一個(gè)是3D重建,但是這樣的做法成本高,效率低,并不實(shí)用;另一個(gè)就是仿真,但是仿真的數(shù)據(jù)根本無(wú)法“還原”真實(shí)數(shù)據(jù),對(duì)自動(dòng)駕駛的幫助有限。于是,自動(dòng)駕駛的“大殺招”世界模型出現(xiàn)了,它可以根據(jù)視頻,圖片,甚至文本描述自動(dòng)生成視頻數(shù)據(jù),給自動(dòng)駕駛提供源源不斷的“燃料”。
在自動(dòng)駕駛里,世界模型如何發(fā)揮作用,地平線對(duì)此給出了更細(xì)致的解釋,世界模型的作用:一是通過(guò)生成式大模型生成帶有預(yù)測(cè)性質(zhì)的視頻數(shù)據(jù),實(shí)現(xiàn)corner case多樣化訓(xùn)練;二是采用強(qiáng)化學(xué)習(xí)的方法認(rèn)識(shí)復(fù)雜駕駛環(huán)境,從視頻輸出駕駛決策。
那么,如何來(lái)構(gòu)建世界模型,辦法有兩個(gè):一個(gè)是憑空想象,“無(wú)中生有”;另一個(gè)是根據(jù)現(xiàn)有信息完善信息,比如輸入文本,圖片,視頻,生成更多更豐富的視頻。
對(duì)于第一個(gè)環(huán)節(jié),我們需要插入一個(gè)容易混淆的概念。很多人認(rèn)為世界模型就是仿真,二者確實(shí)有相似之處,世界模型包含了仿真的部分內(nèi)容,但是又完全高于仿真。
任少卿提出了一個(gè)很有意思的觀點(diǎn),自動(dòng)駕駛發(fā)展了這么多年,本質(zhì)上都是在做空間理解的升級(jí),就是讓系統(tǒng)更理解周圍的世界。最早是通過(guò)提升傳感器硬件能力,后來(lái)是算法升級(jí),BEV視角轉(zhuǎn)換,OCC 2D變3D,到現(xiàn)在軟硬件能力都已經(jīng)出現(xiàn)瓶頸,但是極端場(chǎng)景數(shù)據(jù)的獲取卻成了大難題。于是,技術(shù)人員就想到了自己“造數(shù)據(jù)”的方式。
當(dāng)然,必須承認(rèn)的是,這項(xiàng)技術(shù)的發(fā)展并不始于自動(dòng)駕駛領(lǐng)域,世界模型的概念最早在2018年被引入人工智能領(lǐng)域。2022年,Yann LeCun在機(jī)器智能里提出了雙系統(tǒng)的概念,其中的系統(tǒng)二就提到了要用世界模型構(gòu)建未來(lái)場(chǎng)景的辦法。但是真正讓這項(xiàng)技術(shù)被更多人熟知的時(shí)間要推到2024年,其中的最大功臣自然是Open AI。
2024年2月16日清晨,Open AI公司發(fā)布了一款震驚全世界的視頻生成大模型Sora,它可以根據(jù)文本自動(dòng)生成一段60秒的視頻。這是世界模型的一個(gè)具象體現(xiàn)。
在人工智能領(lǐng)域,世界模型的影響力遠(yuǎn)遠(yuǎn)超過(guò)自動(dòng)駕駛,包括李飛飛的world Labs,谷歌DeepMind等企業(yè)都發(fā)布了世界模型。Yann LeCun的Mate FAIR團(tuán)隊(duì)還發(fā)布了導(dǎo)航世界模型,根據(jù)前一秒的導(dǎo)航信息實(shí)時(shí)生成下一秒的軌跡。想象一下這個(gè)技術(shù)一旦成熟,將會(huì)給自動(dòng)駕駛帶來(lái)多大的幫助。
這里插一句題外話,如果我們梳理自動(dòng)駕駛技術(shù)的發(fā)展路線會(huì)發(fā)現(xiàn)一個(gè)非常有意思的事情。這幾年所有對(duì)自動(dòng)駕駛發(fā)展產(chǎn)生推動(dòng)的技術(shù)都不源于自動(dòng)駕駛,而是人工智能,包括transformer,BEV,OCC,到今天的端到端,世界模型。正應(yīng)了那句話,自動(dòng)駕駛本質(zhì)上是人工智能的一個(gè)具身智能體現(xiàn)。所以技術(shù)人員很喜歡說(shuō)一句話,搞自動(dòng)駕駛不能只盯著自動(dòng)駕駛,這樣永遠(yuǎn)搞不好自動(dòng)駕駛。
在自動(dòng)駕駛,特斯拉毫無(wú)疑問(wèn)是那個(gè)探路者。就像喬布斯帶領(lǐng)蘋(píng)果科技惠民一樣,雖然蘋(píng)果并不是技術(shù)發(fā)明者,但它確實(shí)是將技術(shù)融入產(chǎn)品的最佳實(shí)踐者。
世界模型幫助所有智駕玩家打開(kāi)了一個(gè)全新的世界。2023 年,特斯拉自動(dòng)駕駛負(fù)責(zé)人在 CVPR 上介紹了其正在打造的 “通用世界模型”。該模型可以通過(guò)過(guò)往的視頻片段和行動(dòng)提示,生成 “可能的未來(lái)” 的全新視頻,其基礎(chǔ)架構(gòu)由多臺(tái)攝像機(jī)的視頻流輸入,匯集到一個(gè)大型 Transformer 塊中,通過(guò)空間注意力和幾何模型等形成特征并進(jìn)行預(yù)測(cè),可用于預(yù)測(cè)占用率、體素未來(lái)的流動(dòng)情況以及車道等駕駛所需的任務(wù)。
與此同時(shí),Wayve也在2023 年發(fā)布了 GAIA-1 模型,它可以依靠視頻、文本和動(dòng)作的輸入生成逼真的視頻,能夠生成分鐘級(jí)的視頻以及多種合理的未來(lái)場(chǎng)景,幫助自動(dòng)駕駛模型的訓(xùn)練和仿真。
2024 年 GTC 大會(huì)上,英偉達(dá)也展示了其在世界模型領(lǐng)域的新進(jìn)展,通過(guò)將多模態(tài)數(shù)據(jù)輸入模型訓(xùn)練并讓模型預(yù)測(cè)未來(lái)駕駛場(chǎng)景,自動(dòng)駕駛基礎(chǔ)模型可以穩(wěn)定生成多個(gè)攝像頭拍攝到的逼真的駕駛場(chǎng)景演變,并且通過(guò)語(yǔ)言提示詞也可以使得模型呈現(xiàn)的場(chǎng)景靈活變化。
在國(guó)內(nèi)傳播層面,蔚來(lái)汽車是國(guó)內(nèi)最早提世界模型的車企。其在2023就表示正在研發(fā)世界模型,2024 年 7 月 27 日,蔚來(lái)發(fā)布了中國(guó)首個(gè)智能駕駛世界模型 NWM 。
華為則是把自動(dòng)駕駛的視頻生成板塊放在了盤(pán)古大模型中,叫做場(chǎng)景生產(chǎn)大模型。華為在2020年開(kāi)始啟動(dòng)盤(pán)古大模型研發(fā),并于2021年4月正式發(fā)布,到2022年聚焦行業(yè)應(yīng)用落地。
華為對(duì)世界模型的使用更加多元。它從實(shí)車數(shù)據(jù)學(xué)習(xí)如何生成新視頻,同時(shí)處理重建和渲染,生成數(shù)據(jù)可用于感知算法訓(xùn)練;重建各類障礙物構(gòu)建素材庫(kù),根據(jù)需要構(gòu)造corner case,增強(qiáng)數(shù)據(jù)完備性;針對(duì)天氣、晝夜、季節(jié)等環(huán)節(jié)因素對(duì)已有場(chǎng)景進(jìn)行變換,構(gòu)造corner case。它基于神經(jīng)網(wǎng)絡(luò)做實(shí)車場(chǎng)景,并進(jìn)行重建跟渲染。
有意思的是,在自動(dòng)駕駛上一直以先鋒自居的小鵬汽車在世界模型上并沒(méi)有任何資料流出,不知是在憋大招還是覺(jué)得不重要。推測(cè)來(lái)看,前者的可能性居多。
世界模型的價(jià)值如何評(píng)估
就在世界模型被瘋狂追捧的同時(shí),一個(gè)更深的問(wèn)題擺在行業(yè)面前:世界模型到底應(yīng)該凌駕于真實(shí)數(shù)據(jù)之上,還是僅僅作為真實(shí)數(shù)據(jù)的補(bǔ)充。
特斯拉和元戎啟行的思路是用一套系統(tǒng)覆蓋兩種商業(yè)模型,輔助駕駛和Robotaxi。然后用數(shù)據(jù)訓(xùn)練的方式不斷提升系統(tǒng)的能力上限,這種邏輯下世界模型更像是現(xiàn)實(shí)世界數(shù)據(jù)的補(bǔ)充。但這似乎低估了世界模型的價(jià)值。
“世界模型是最重要的事情,沒(méi)有之一。”
小馬智行CTO樓天城給了世界模型極高的評(píng)價(jià),他認(rèn)為世界模型是自動(dòng)駕駛當(dāng)前最重要的事情。依靠現(xiàn)有的真實(shí)數(shù)據(jù)只能讓智駕系統(tǒng)無(wú)限接近人,只有世界模型數(shù)據(jù)才能構(gòu)建出更復(fù)雜的世界,最終讓訓(xùn)練出來(lái)的系統(tǒng)超越人。理由很簡(jiǎn)單,自動(dòng)駕駛是對(duì)人類駕駛行為的學(xué)習(xí),因?yàn)槿说鸟{駛能力有上限,所有自動(dòng)駕駛的安全邊界也有上限,但樓天城認(rèn)為,自動(dòng)駕駛的安全必須高于人類才有意義,尤其是L4級(jí)自動(dòng)駕駛。所以必須要有高于人類駕駛行為的世界模型數(shù)據(jù)訓(xùn)練出來(lái)的系統(tǒng)才能優(yōu)于人類。按照這個(gè)表述,世界模型應(yīng)該凌駕于真實(shí)數(shù)據(jù)之上。
這里我們來(lái)看看地平線的實(shí)踐案例,傳統(tǒng)基于規(guī)則的CNN(卷積神經(jīng)網(wǎng)絡(luò))學(xué)習(xí)方式,沒(méi)有泛化和理解能力。地平線提出了“交互式博弈”,核心在于通過(guò)生成數(shù)據(jù)驅(qū)動(dòng)實(shí)現(xiàn)模擬學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。為了避免機(jī)器對(duì)數(shù)據(jù)的重復(fù)模仿,它必須要學(xué)會(huì)主動(dòng)理解數(shù)據(jù)。這時(shí)候世界模型就承擔(dān)了「駕駛世界觀」的作用。這里我的理解是,地平線已經(jīng)實(shí)現(xiàn)了樓天城說(shuō)的,讓世界模型擔(dān)當(dāng)系統(tǒng)教練的角色,指導(dǎo)系統(tǒng)到底該怎么開(kāi)。
此外,世界模型還可以作為額外的信息源,為預(yù)測(cè)環(huán)節(jié)服務(wù)。當(dāng)?shù)貓D信息和傳感器信息輸入World Model,機(jī)器經(jīng)過(guò)處理輸出仿真、想象、演繹甚至腦補(bǔ)過(guò)程,支撐系統(tǒng)的交互博弈,為系統(tǒng)兜底。
那么,世界模型的好壞又該如何評(píng)估。如果單純從理論層面,很難。世界模型的能力就好像語(yǔ)文作文,很難通過(guò)一個(gè)量化的指標(biāo)去評(píng)估好壞。目前雖然很多車企發(fā)布了世界模型,但是對(duì)具體細(xì)節(jié)數(shù)據(jù)展示的不多。這里我們來(lái)看看蔚來(lái)和商湯的案例。
蔚來(lái)對(duì)其世界模型的介紹如下:
“能夠在 100 毫秒內(nèi)推演出 216 種可能發(fā)生的場(chǎng)景,并可基于 3 秒的駕駛視頻生成 120 秒的想象視頻,還具備閉環(huán)仿真測(cè)試能力。”
商湯絕影對(duì) “開(kāi)悟”世界模型的介紹如下:
“(視頻生成)時(shí)間最長(zhǎng)為150秒、分辨率可達(dá)1080P、視角可以實(shí)現(xiàn)11V”。
絕影認(rèn)為這個(gè)難度很大,行業(yè)普遍都是生成1V或6V視角的視頻,開(kāi)悟直接干到11V,而且同時(shí)生成的視角畫(huà)面越多,要保持時(shí)空一致性就更難,還要克服魚(yú)眼視角的畸變。
雖然沒(méi)有準(zhǔn)確的評(píng)估辦法,但是他們都強(qiáng)調(diào)了世界模型的幾項(xiàng)能力:準(zhǔn)確性,多樣性,可控性和泛化能力。
目前看來(lái),世界模型的能力還遠(yuǎn)遠(yuǎn)沒(méi)有開(kāi)發(fā)出來(lái)。
樓天城提出了一個(gè)設(shè)想,世界模型還可以充當(dāng)一個(gè)評(píng)分體系,對(duì)自動(dòng)駕駛系統(tǒng)的表現(xiàn)做出評(píng)價(jià),不斷提升系統(tǒng)的能力。
地平線提出了世界模型的兩個(gè)長(zhǎng)遠(yuǎn)價(jià)值:首先是更準(zhǔn)確的世界理解,幫助減少智駕系統(tǒng)的代碼量,延遲,網(wǎng)絡(luò)負(fù)載,錯(cuò)誤率等;然后是泛化能力,世界模型可以讓高階智駕形成對(duì)復(fù)雜駕駛環(huán)境的通用理解,而非對(duì)輸入的重復(fù)依賴。大白話說(shuō)就是舉一反三。
最近地平線創(chuàng)始人余凱在接受采訪時(shí)表示,大規(guī)模L4、L5將會(huì)在5年左右實(shí)現(xiàn)。而目前行業(yè)形成的一個(gè)共識(shí)是,自動(dòng)駕駛實(shí)現(xiàn)的一個(gè)大前提不僅僅是像人,而是要超越人。真實(shí)世界的數(shù)據(jù)只能是無(wú)限接近人,要超越人,世界模型是目前技術(shù)人員探索出來(lái)的通往自動(dòng)駕駛的唯一解。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.