城市NOA,自動駕駛進化之路上的關鍵節點,也被視為智能汽車下半場的開端。
自2023年上海車展以來,有關城市NOA的路線之爭逐漸明晰,“重感知+輕地圖”、借助純感知和融合感知路線、以及BEV+Transformer模型的智能駕駛解決方案,成為業界共識。
如今,城市NOA邁向商業化落地競爭,如何利用高效的算力支撐、完善的算法模型、大量有效的數據形成閉環,是大規模量產的關鍵。
數據成為高階智駕“稀缺品”
在智能駕駛領域里,數據就是生命之源。沒有數據,那些復雜的算法和模型就如同干涸的河流,無法滋養出智能的果實。
端到端時代讓數據的重要性空前提升。在傳統基于規則的算法時代,工程師將如何執行駕駛行為凝練成為規則寫入自動駕駛算法,當模型出現問題時,修改或添加新的規則即可完成對問題的修復。
而對端到端自動駕駛算法而言,模型只會通過駕駛的視頻片段學習駕駛行為和對環境的理解,因此如何將人類想要讓模型學習到的內容賦予到數據中,并讓模型在訓練中能夠學習這些先驗知識難度較高。因為每個人類駕駛的視頻片段其實都包含豐富的駕駛行為,讓模型理解到這些視頻片段中的某一種抽象化的先驗知識(如左轉讓直行)并不容易。
端到端技術的核心在于通過大量數據訓練模型,使其能夠識別和預測各種駕駛場景。高質量數據的輸入,直接決定了模型輸出的準確性和可靠性。這些數據不僅需要涵蓋各種道路條件、天氣變化和交通情況,還要確保其標注的準確性和多樣性。
傳統模塊化算法需要改變控制策略時,可以找到代碼中具體的幾行參數修改,之后測試1%的案例即可,而端到端的算法中,小的改動需要重新對自動駕駛算法進行訓練,難度可想而知。因此,海量的、多樣化的、優質的數據不可或缺,同時自動化、高水平的數據處理體系亦至關重要。毫不夸張地說,數據會占據端到端自動駕駛開發中80%以上的研發成本。
從數據維度看,海量且優質的數據正成為自動駕駛行業的“稀缺品”。通常,激光雷達的算法要滿足自動駕駛的性能要求,需要至少幾十萬幀的數據訓練。單目攝像頭要求更高,需要百萬幀的訓練數據。不過這兩者和BEV方案比起來,差距仍然十分巨大。
自動駕駛采用的BEV感知方案,需要達到1億幀以上的訓練數據才能滿足車規要求,否則泛化性、準確率和召回率就難以保障。
對于端到端算法而言,數據的需求激增,并且伴隨模型體量的增加而擴大;對質量的要求也顯著提高,多樣性和豐富度不可或缺。
以特斯拉為例,馬斯克曾表示,特斯拉FSD測試里程需要達到60億英里,才能滿足全球監管機構的要求,這也是自動駕駛系統實現質變的一個重要節點。
據《馬斯克傳》中描述,神經網絡至少得進過100萬個視頻片段的訓練才能達到良好的工作狀態,而特斯拉到2023年初已經分析了從特斯拉客戶車輛上收集的1000萬幀視頻畫面,這其中,特斯拉還會挑選出人類優質司機所采取的行為來給模型進行訓練。
2024年5月,在解決了算力瓶頸之后,馬斯克表示更大的難點在于對長尾數據的收集。目前,特斯拉通過不斷擴大FSD功能覆蓋更大規模的用戶數量。2024年第一季度,特斯拉FSD真實路況總里程已達12.5億英里(約20億公里),這一數字遠超其他公司總和。特斯拉方面預計,按照目前的速度,FSD累計行駛里程有望在一年之內達到60億英里總量。
由此可以看出,要想達到特斯拉的自動駕駛水準,海量、多樣化、高質量的數據是首要前提。
“數據閉環”關鍵點
如何獲取大規模數據,獲取之后如何有效回傳、標注以及訓練,并最終OTA反饋到車端,是數據閉環的核心任務,也是大多數車企迫切想要擁有的能力。
數據閉環并非新概念,互聯網時代早期即有廣泛應用。一個比較典型的例子即是各類軟件、App的“用戶體驗改進計劃”。
用戶在初次打開一款軟件時,往往會彈出選項“是否加入用戶體驗改進計劃”。點擊確定后,軟件就會收集用戶的使用信息。在出現崩潰、Bug等場景下,軟件還會彈出信息,詢問“是否允許上傳本次崩潰信息以幫助改進”,比如Windows出現的各種錯誤報告。
點擊提交后,軟件開發商的工程師們會分析錯誤報告,以找出出現崩潰、Bug的原因,進而修改代碼并在下次更新后予以解決。
用戶在使用過程中遇到的所有問題均可以通過此種方式解決,周而復始,不斷優化軟件性能與使用體驗,這就是一種傳統的數據閉環。
自動駕駛系統的研發與優化,與傳統軟件開發存在很多不同。
傳統軟件更多是在代碼端解決各類問題,但自動駕駛系統除代碼以外,還有更為關鍵的AI模型。代碼端的問題可以通過傳統的數據閉環方式予以解決,但模型端的調整則需要重新訓練或優化AI算法模型。
因此,自動駕駛數據閉環需要在傳統數據閉環方式上,引入一些新東西,比如數據標注、模型訓練、算法調試等。
在數據采集環節,收集足夠多的交通數據并非易事。采集數據分為兩種,一種是靠研發采集車。小鵬、華為在起步階段,均是靠這種方式獲取數據。另一種是通過量產車獲取數據,這是在數據規模上來后的主流方式。
早年自動駕駛企業大多依賴采集車采集數據,這種數據是不真實的、分布有偏的、低質量的,只能做個Demo,難以進行大規模端到端訓練。最近幾年,隨著量產車的規模化落地,業界很多公司都開始轉向采用量產車通過影子模式采集數據,但這種模式依然面臨艱巨的挑戰。
這里面包含采集策略的問題,即如何平衡數據的長尾問題(有效性)和數據的規模問題(成本)。如果采集策略比較寬松,往往采集的數據大部分是無價值數據;如果采集策略過于嚴格,又會丟失大量有價值的數據。
其次是數據的質量問題,如何定義數據質量是個艱巨的產品問題,如何精準地挑選出覆蓋足夠多極端情況的高質量數據又是一個復雜的技術問題。
之后是數據分布問題,如何從海量的數據片段中提取有效的特征、如何統計數據的分布、應該考慮哪些維度,都需要大量的工作。
在數據回傳環節,在數據量特別大的時候,數據回傳的成本會非常高。
單車每日回傳的數據量大概為百兆級。在研發階段,車輛總數可能只有幾十輛或者幾百輛,但是到了量產階段,車輛數目的量級可以達到上萬、幾十萬甚至更多。那么,量產階段,整個車隊日產生的數據量就是很大的數字。某造車新勢力每個月僅用來做數據回傳的流量費就高達“大幾千萬”。
另一方面,急劇增加的數據量還給存儲空間以及數據處理的速度都帶來了挑戰。
量產之后,數據處理的延遲需要和研發階段保持在同一個量級。但如果底層的基礎設施跟不上,數據處理的延遲就會隨著數據量的增長而相應地增加,這樣會極大地拖慢研發流程的進度。對于系統迭代來講,這種效率的降低是不可接受的。
在數據標注環節,雖然大模型的應用可以讓高達80%的數據標注可以通過自動化的方式來完成,但還有至少20%涉及復雜場景、多目標、語義復雜的數據需要由人工來完成“精標”。
以往需要標注的數據主要是前視攝像頭數據,2D標注框+3D位置就已經是標注的全部內容了;如今在BEV+Transformer方案下,所有相關的攝像頭看到的所有障礙物、車道線、車輛的運動狀態都需要對應的標注,并且還要統一在同一坐標系下,還有大量的語義信息也需要標注。
多數公司在數據標注環節都會依靠“人海戰術”,依靠人工一個個地對采集回來的數據做場景分類,工作量遠超想象。一般的檢測框,一分鐘的內容,標注需要一小時左右;點云分割,一分鐘的內容,標注需要幾個小時;但對更復雜的任務做4D標注,可能一分鐘的任務需要花超過一天時間才能完成。
后面如果要做端到端的算法訓練,在給這一幀的內容打標簽時,還得考慮該標簽如何跟其他幀的內容做關聯。
總體趨勢是,自動駕駛行業對標注的要求越來越高了,這意味著,投入到一分鐘視頻上的標注成本也隨之水漲船高。如果標注的結果不準確、不完整,那基于這些數據訓練出來的模型的性能就會受到影響。
此外,在數據收集和處理的過程中,隱私保護是一個不容忽視的問題。自動駕駛車輛在運行過程中,可能會捕捉到行人的面貌、車牌號碼等敏感信息。如何保護這些個人隱私,避免數據泄露和濫用,是每個自動駕駛企業都必須嚴肅對待的問題。
對大部分自動駕駛企業,還會面臨嚴重的數據泛化問題,因為不同的車型傳感器配置差異巨大,采集的數據往往難以復用,而國內車企普遍車型眾多,最后很可能是采了一堆數據放在那沒法使用,看起來是數據資產,其實都是存儲成本。
“華山一條路”的技術新路徑
在數據閉環體系中,仿真技術無疑是非常關鍵的一環。仿真的起點是數據,而數據又分為真實數據與合成數據。隨著真實數據“規模小、質量低、使用難度大”等問題日漸暴露,合成數據越來越受重視。
在國內,雖然各家主機廠已經不缺真實數據,但這些數據的利用率究竟有多高,仍然存在很大疑問。同時,如果用真實數據用來做仿真,有個很嚴重的痛點——復用性差。
比如,在做路采的時候,車輛的芯片平臺、傳感器架構及制動系統是怎樣的,在仿真系統里做測試時,車輛的這些硬件配置也必須跟路采時所用的車輛配置一致。一旦傳感器的位置或者型號有變更,這一組數據的價值就降低,甚至會作廢。
事實上,真實數據的最主要問題并不是“太少”,而是質量低,使用難度大、復用性差,而這恰合也就是合成數據的用武之地。
合成數據(Synthetic Data)就是通過計算機技術生成的數據,而不是由真實事件產生的數據。但合成數據又具備“可用性”,能夠在數學上或統計學上反映原始數據的屬性,因此也可以用來訓練、測試并驗證模型。OpenAI的GPT-4,就采用了大量前一代模型GPT-3.5生產的數據來進行訓練。
Gartner 預測,到2024年用于訓練Al的數據中有60%將是合成數據,到2030年AI模型使用的絕大部分數據將由人工智能合成。
合成數據最早于1993年由統計學家唐納德·B·魯賓(Donald B. Rubin)提出,目前被廣泛引用,并在金融保險、醫療制藥、汽車制造、零售、自動駕駛等領域都有或深或淺的應用。
合成數據的產生原理,很大程度上在于模擬真實數據的分布特征和統計特性,再通過生成模型創建新的數據集,用來輔助真實訓練數據樣本不足或使用受限情況下(如數據敏感或隱私保護)的模型訓練、測試和開發。
廣義上,因為合成數據保留了和真實世界數據相同的結構或分布,卻不包含原始信息,所以主要被用來代替原始數據用于模型訓練和下游任務。
不過在實際應用中,出于數據可用性或真實場景數據對強化模型泛化能力的考慮,也有人基于原始數據樣本,通過部分合成的方式(比如利用?數據填補的方法替換原本的敏感和關鍵字段,進行局部數據的合成),生成相應的合成數據。所以,在有些分類中,合成數據又包含全部合成、部分合成、混用多種形態。
目前,合成數據在模型訓練和數據集增強等場景,尤其在對齊階段深度的模型訓練中發揮著重要作用。
隨著合成數據越發受到重視,技術人員也在持續創新數據合成的方法。從實際使用看,目前主要通過以下方式進行合成數據。
隨機采樣生成。根據現實世界數據中觀察到的統計特性(如均值、方差、相關性等),隨機生成數據。這種合成方法比較基礎直接,適合簡單的數據集生成,但面對高維復雜的數據,則存在一定的局限性。
基于特定領域規則生成。基于數據集預定義的規則和約束,手動或半自動生成合成數據。這種方式生成的數據,能保持與現實世界復雜場景的一致性,使得生成的合成數據具有一定可解釋性,但這種方法在具有明顯規律或規則時才較為有效。
利用深度學習方法生成。主要表現在利用生成對抗網絡(GAN)、變分自動編碼器(VAE)等生成合成數據。比如視頻生成模型Sora就采用了生成對抗網絡(GAN)來生成合成數據。在這過程中,生成器負責基于原始數據合成圖像,鑒別器負責將原始圖像和合成圖像分離,當對抗機制達到平衡,就能生成與真實世界圖像特征非常相似但又有所區別的合成圖像數據。
變分自動編碼器(VAE)則是利用無監督算法,通過編碼器(數據降維)和解碼器(數據重構)的協作,在原始數據基礎上生成新的數據。兩者都是合成多模態數據的有效方式。
利用合成數據工具生成。比如利用Python、Scikit-learn、Datagen、Mostly AI等數據合成工具軟件、機器學習庫,針對性生成相應的合成數據。目前也可以直接利用GPT等大語言模型,通過提示詞引導,進行數據增強和虛擬數據的合成。
除此之外,通過對現有數據樣本進行變換、擴充、匿名等生成更多的訓練數據樣本,即采用增強數據、匿名數據等方式合成數據也比較常見。只是這種更多屬于部分合成數據,真實數據特性保留度高,多樣性、豐富性方面也會有一定影響。
合成數據在自動駕駛領域的一大應用是對于極端情況的模擬。大量的極端情況在真正發生前沒有人能預知,屬于“預期功能安全”第三象限里面的“Unknown,Unsafe”一類,所以無法在真實道路上進行模擬。這類情況,無法通過基于人工規則的合成數據(WorldSim)來生成,也沒法通過對真實世界做3D重建的技術(NeRF)來生成,但有望通過基于AIGC的合成數據來獲取。
有些極端情況盡管人們能想象得到“大概會怎樣”,但畢竟太危險,所以也不適合在真實道路上做模擬。這種極端情況無法通過NeRF技術來生成,但可以通過合成數據來生成。有些極端情況,算不上有多么不安全,但也會影響到交通安全,比如雨、霧、雪和極端光線等極端天氣跟某種極端交通流的組合,這些也需要通過合成數據技術來生成。還有許多極端情況,在真實數據中的密度太低,挖掘成本太高,這個時候選擇合成數據便是最佳策略。
有了合成數據,主機廠或自動駕駛公司便可在幾小時內模擬數百萬個極端情況,這些模擬可能涵蓋不同照明條件、目標位置和惡劣環境下的示例,或者可以插入隨機噪聲來模擬臟污的攝像頭、霧水和其他視覺障礙物。
此外,真實數據由于高度受制于采集場景的限制,所以極端情況在樣本的分布上也很難有效滿足算法的需求。而合成數據,可以有針對性地生成分布狀況更滿足訓練需求的極端情況,這更有助于提升算法的性能。
如今,數據對自動駕駛產業的驅動力已經成為每一位玩家繞不開的關鍵。完備的閉環模型需要大規模、高質量、多場景的數據,高算力、高效率、相對低成本的算法模型,趨向自動化的數據標注與處理,高速率、低成本的傳輸速率與存儲模式,再加上安全合規的保駕護航,在數據的喂養下飛輪不斷循環向前,實現自動駕駛的持續進化。
數據閉環的每一步推進都是成本和效率的博弈,每一次博弈都是科技理性與價值理性的融合,每一場融合也將必然需要上下游企業數據共享、技術開源、生態共建。而數據閉環也是實現城市NOA和更高級別智駕的“華山一條路”,在這條路上,可以慢、可以錯,但唯獨不能不上山,否則就會被遺忘在山腳下。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.