在將“減少事故”作為第一要務的前提下,蔚來采用端到端架構的增強版AEB率先在Banyan 2.6.5版本實現上車了。現在,是時候對蔚來智能駕駛整體的端到端思路進行披露了。
7月27日,蔚來智能駕駛研發副總裁——任少卿在NIO IN上講解了「蔚來世界模型NWM」的時空認知、想象重構等能力。
模型應有的關鍵能力
任少卿認為,主動安全最大的挑戰,還是在于覆蓋真實而復雜的場景。
但經過統計,法規場景實際只占真實世界場景的10%。就此,蔚來引入了端到端技術。例如,其端到端架構下想增強版AEB,所覆蓋的場景比標準AEB高達6.7倍之多。
不過,有端到端夠了嗎?
在此問題上,任少卿與多位專家一樣,給出了否定的答案。
(相關閱讀:蔚來AI平臺負責人白宇利:「端到端」并非靈丹妙藥)
“人類大腦有兩個非常核心的能力,第一個是空間能力,第二個是理解能力,也叫想象重建的能力。”
任少卿認為,一個智能體要想像人一樣聰明,就需要具備空間認知,和想象推演能力。
“所以端到端是不夠的,因為端到端的模型并不具備這兩個核心能力,而我們希望去構建一個具備這種能力的模型。”
經過一年的開發和訓練,任少卿覺得,已經是時候分享蔚來的世界模型NWM了,因為它已經面臨上車量產了。
空間認知+想象重建
從任少卿的現場展示來看,NWM能夠基于真實視頻進行重構,“想象”出一個平行世界,并且生成各類天氣、各類時段,各類路況的場景。
“NWM相當于看了很多視頻,學習了真實世界的千萬種可能,并且能在腦海里想象重構出來。”
任少卿還稱,從算法端的架構來說,NWM還會帶來額外的好處:
1、既然是直接錄入的過程,所以不太需要數據標注。“當然這也需要有非常多的努力,但是我們可以相對容易地做到千萬Clips,甚至更高的數據量的訓練。”
2、因為需要重建視頻,接入信息也會更多,這使得模型的收斂速度更快,想象的能力也會更強。
3、相比于之前的算法,NWM生成的視頻長度會長很多。從展示的視頻來看,其兩分鐘以上的時長,被認為超過了現在絕大多數的視頻生成軟件。
這就意味著它需要生成非常復雜的變化,同時又要符合動態和靜態的物理規律,對于時空的理解也要更深。
“同時,相比于去年的架構,蔚來的算法架構NADArch2.0有了翻天覆地的變化。基于該架構,我們將產品端的功能收斂到了兩個產品——全域領航輔助2.0,智能安全輔助2.0。其中點到點的領航輔助功能下半年會上車,端到端GOA也會陸續上車。
主要困難點
不過,為了做好這件事,其實有非常多的困難:
1、想象重建能力的精確度,需要依賴數據的真實和數量。
“比如說樹木你每天都能看到,想象的時候它就會非常的具體;但如果是一個一兩年才能看到一次的東西,想象的時候可能就非常的模糊。”
2、比較長的視頻需要加強時間軸上的連貫性,所以蔚來開發了新的時空encoding的方式,使得它的持續連貫性更好。
3、一些工程上的困難,主要在數據訓練和內存上。
對于數據層面,任少卿表示,數據不是簡單堆疊即可,而是需要更精確、更有價值,這是群體智能幫助解決的。這樣一來,從拿到數據和到驗證數據,實際上大幅降低了對數據量的要求,也提高了數據的有效性。
每0.1秒生成216種可能
任少卿還指出,除了開放式的想象,蔚來也希望NWM能接受一些指令:例如左轉右轉、左變道、右變道等,以及任意打方向盤的角度、控制速度等微觀細節,都可以讓模型按照人為的控制,去進行一系列想象的行為。
在某些特殊場景中,例如看不到前因后果的刮蹭事故,也可以讓模型穿回到事故前的三秒鐘,讓它學習如果遇到這種場景可以怎么做。目前看,NWM只是看了視頻,就自然而然地學會了踩急剎車。
當然,除了有時空認知能力之外,模型最終還是要學會開車,也就是輸出規劃軌跡。
他表示,在NWM的腦海中,每0.1秒就會生成216種可能的軌跡,并對每一個軌跡進行評估,選出來最好的。
優勢總結
相比于常規的端到端的模型,NWM有3個優勢:
1、在空間理解上,蔚來通過深層次模型,重構傳感器輸入的方式,更加泛化地抽取了信息,使得模型對于空間的理解更加深入。
2、從時間的角度來說,我們通過指揮部的方式來自動建模常識區的環境,它在推演維度上它有更強的能力。
3、NWM基于自監督模式,無需人工標注,能學得更快。
“我們有大量的量產車,可以把世界模型的版本去分發到10萬輛級的量產車上,去對比人類駕駛的狀態,也可以去對比前面的穩定版本。雖然它還沒有這么聰明,但它更穩定,是會生長得更成熟的智駕方案。”
仿真模型帶來更多可能
至于蔚來的仿真模型,是使用了真實的視頻去重建世界。它可以切換到任意角度,分析細節信息,然后重建三維世界。
仿真的生成結果給NWM提供了更多可能,可以幫助它去想象接下來可能發生的結果。
也就是說,基于蔚來Simulation的仿真,NWM可以想象出千萬種可能。而仿真也可以根據NWM的想象,根據輸出的軌跡,去生成千萬種可能,一一去做對比和驗證。
這樣的結果是,讓萬千世界想象的結果更真,讓它駕駛的輸出更好。
關于組織架構調整
技術的階段性變化,很可能意味著研發團隊架構的大幅調整。對此,任少卿介紹稱,盡管在蔚來研發系統中,各個模塊的模型化各有早晚——比如感知的模型化較早,規劃模型化較晚,但無論如何,每個模塊中都有做模型的人與寫代碼的人。
“現在我們希望模型不再是分散的,而是整合為一個統一的模型,所以團隊也要整合到一起,但團隊規模不會變小。技術架構的更新,是為了迭代更快,效果更好。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.