99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

無數據不智能,數據閉環重塑高階智駕未來

0
分享至

城市NOA,自動駕駛進化之路上的關鍵節點,也被視為智能汽車下半場的開端。

自2023年上海車展以來,有關城市NOA的路線之爭逐漸明晰,“重感知+輕地圖”、借助純感知和融合感知路線、以及BEV+Transformer模型的智能駕駛解決方案,成為業界共識。

如今,城市NOA邁向商業化落地競爭,如何利用高效的算力支撐、完善的算法模型、大量有效的數據形成閉環,是大規模量產的關鍵。



數據成為高階智駕“稀缺品”

在智能駕駛領域里,數據就是生命之源。沒有數據,那些復雜的算法和模型就如同干涸的河流,無法滋養出智能的果實。

端到端時代讓數據的重要性空前提升。在傳統基于規則的算法時代,工程師將如何執行駕駛行為凝練成為規則寫入自動駕駛算法,當模型出現問題時,修改或添加新的規則即可完成對問題的修復。

而對端到端自動駕駛算法而言,模型只會通過駕駛的視頻片段學習駕駛行為和對環境的理解,因此如何將人類想要讓模型學習到的內容賦予到數據中,并讓模型在訓練中能夠學習這些先驗知識難度較高。因為每個人類駕駛的視頻片段其實都包含豐富的駕駛行為,讓模型理解到這些視頻片段中的某一種抽象化的先驗知識(如左轉讓直行)并不容易。

端到端技術的核心在于通過大量數據訓練模型,使其能夠識別和預測各種駕駛場景。高質量數據的輸入,直接決定了模型輸出的準確性和可靠性。這些數據不僅需要涵蓋各種道路條件、天氣變化和交通情況,還要確保其標注的準確性和多樣性。

傳統模塊化算法需要改變控制策略時,可以找到代碼中具體的幾行參數修改,之后測試1%的案例即可,而端到端的算法中,小的改動需要重新對自動駕駛算法進行訓練,難度可想而知。因此,海量的、多樣化的、優質的數據不可或缺,同時自動化、高水平的數據處理體系亦至關重要。毫不夸張地說,數據會占據端到端自動駕駛開發中80%以上的研發成本。

從數據維度看,海量且優質的數據正成為自動駕駛行業的“稀缺品”。通常,激光雷達的算法要滿足自動駕駛的性能要求,需要至少幾十萬幀的數據訓練。單目攝像頭要求更高,需要百萬幀的訓練數據。不過這兩者和BEV方案比起來,差距仍然十分巨大。

自動駕駛采用的BEV感知方案,需要達到1億幀以上的訓練數據才能滿足車規要求,否則泛化性、準確率和召回率就難以保障。

對于端到端算法而言,數據的需求激增,并且伴隨模型體量的增加而擴大;對質量的要求也顯著提高,多樣性和豐富度不可或缺。

以特斯拉為例,馬斯克曾表示,特斯拉FSD測試里程需要達到60億英里,才能滿足全球監管機構的要求,這也是自動駕駛系統實現質變的一個重要節點。

據《馬斯克傳》中描述,神經網絡至少得進過100萬個視頻片段的訓練才能達到良好的工作狀態,而特斯拉到2023年初已經分析了從特斯拉客戶車輛上收集的1000萬幀視頻畫面,這其中,特斯拉還會挑選出人類優質司機所采取的行為來給模型進行訓練。

2024年5月,在解決了算力瓶頸之后,馬斯克表示更大的難點在于對長尾數據的收集。目前,特斯拉通過不斷擴大FSD功能覆蓋更大規模的用戶數量。2024年第一季度,特斯拉FSD真實路況總里程已達12.5億英里(約20億公里),這一數字遠超其他公司總和。特斯拉方面預計,按照目前的速度,FSD累計行駛里程有望在一年之內達到60億英里總量。

由此可以看出,要想達到特斯拉的自動駕駛水準,海量、多樣化、高質量的數據是首要前提。

“數據閉環”關鍵點

如何獲取大規模數據,獲取之后如何有效回傳、標注以及訓練,并最終OTA反饋到車端,是數據閉環的核心任務,也是大多數車企迫切想要擁有的能力。

數據閉環并非新概念,互聯網時代早期即有廣泛應用。一個比較典型的例子即是各類軟件、App的“用戶體驗改進計劃”。

用戶在初次打開一款軟件時,往往會彈出選項“是否加入用戶體驗改進計劃”。點擊確定后,軟件就會收集用戶的使用信息。在出現崩潰、Bug等場景下,軟件還會彈出信息,詢問“是否允許上傳本次崩潰信息以幫助改進”,比如Windows出現的各種錯誤報告。

點擊提交后,軟件開發商的工程師們會分析錯誤報告,以找出出現崩潰、Bug的原因,進而修改代碼并在下次更新后予以解決。

用戶在使用過程中遇到的所有問題均可以通過此種方式解決,周而復始,不斷優化軟件性能與使用體驗,這就是一種傳統的數據閉環。

自動駕駛系統的研發與優化,與傳統軟件開發存在很多不同。

傳統軟件更多是在代碼端解決各類問題,但自動駕駛系統除代碼以外,還有更為關鍵的AI模型。代碼端的問題可以通過傳統的數據閉環方式予以解決,但模型端的調整則需要重新訓練或優化AI算法模型。

因此,自動駕駛數據閉環需要在傳統數據閉環方式上,引入一些新東西,比如數據標注、模型訓練、算法調試等。



在數據采集環節,收集足夠多的交通數據并非易事。采集數據分為兩種,一種是靠研發采集車。小鵬、華為在起步階段,均是靠這種方式獲取數據。另一種是通過量產車獲取數據,這是在數據規模上來后的主流方式。

早年自動駕駛企業大多依賴采集車采集數據,這種數據是不真實的、分布有偏的、低質量的,只能做個Demo,難以進行大規模端到端訓練。最近幾年,隨著量產車的規模化落地,業界很多公司都開始轉向采用量產車通過影子模式采集數據,但這種模式依然面臨艱巨的挑戰。

這里面包含采集策略的問題,即如何平衡數據的長尾問題(有效性)和數據的規模問題(成本)。如果采集策略比較寬松,往往采集的數據大部分是無價值數據;如果采集策略過于嚴格,又會丟失大量有價值的數據。

其次是數據的質量問題,如何定義數據質量是個艱巨的產品問題,如何精準地挑選出覆蓋足夠多極端情況的高質量數據又是一個復雜的技術問題。

之后是數據分布問題,如何從海量的數據片段中提取有效的特征、如何統計數據的分布、應該考慮哪些維度,都需要大量的工作。

在數據回傳環節,在數據量特別大的時候,數據回傳的成本會非常高。

單車每日回傳的數據量大概為百兆級。在研發階段,車輛總數可能只有幾十輛或者幾百輛,但是到了量產階段,車輛數目的量級可以達到上萬、幾十萬甚至更多。那么,量產階段,整個車隊日產生的數據量就是很大的數字。某造車新勢力每個月僅用來做數據回傳的流量費就高達“大幾千萬”。

另一方面,急劇增加的數據量還給存儲空間以及數據處理的速度都帶來了挑戰。

量產之后,數據處理的延遲需要和研發階段保持在同一個量級。但如果底層的基礎設施跟不上,數據處理的延遲就會隨著數據量的增長而相應地增加,這樣會極大地拖慢研發流程的進度。對于系統迭代來講,這種效率的降低是不可接受的。

在數據標注環節,雖然大模型的應用可以讓高達80%的數據標注可以通過自動化的方式來完成,但還有至少20%涉及復雜場景、多目標、語義復雜的數據需要由人工來完成“精標”。

以往需要標注的數據主要是前視攝像頭數據,2D標注框+3D位置就已經是標注的全部內容了;如今在BEV+Transformer方案下,所有相關的攝像頭看到的所有障礙物、車道線、車輛的運動狀態都需要對應的標注,并且還要統一在同一坐標系下,還有大量的語義信息也需要標注。



多數公司在數據標注環節都會依靠“人海戰術”,依靠人工一個個地對采集回來的數據做場景分類,工作量遠超想象。一般的檢測框,一分鐘的內容,標注需要一小時左右;點云分割,一分鐘的內容,標注需要幾個小時;但對更復雜的任務做4D標注,可能一分鐘的任務需要花超過一天時間才能完成。

后面如果要做端到端的算法訓練,在給這一幀的內容打標簽時,還得考慮該標簽如何跟其他幀的內容做關聯。

總體趨勢是,自動駕駛行業對標注的要求越來越高了,這意味著,投入到一分鐘視頻上的標注成本也隨之水漲船高。如果標注的結果不準確、不完整,那基于這些數據訓練出來的模型的性能就會受到影響。

此外,在數據收集和處理的過程中,隱私保護是一個不容忽視的問題。自動駕駛車輛在運行過程中,可能會捕捉到行人的面貌、車牌號碼等敏感信息。如何保護這些個人隱私,避免數據泄露和濫用,是每個自動駕駛企業都必須嚴肅對待的問題。

對大部分自動駕駛企業,還會面臨嚴重的數據泛化問題,因為不同的車型傳感器配置差異巨大,采集的數據往往難以復用,而國內車企普遍車型眾多,最后很可能是采了一堆數據放在那沒法使用,看起來是數據資產,其實都是存儲成本。

“華山一條路”的技術新路徑

在數據閉環體系中,仿真技術無疑是非常關鍵的一環。仿真的起點是數據,而數據又分為真實數據與合成數據。隨著真實數據“規模小、質量低、使用難度大”等問題日漸暴露,合成數據越來越受重視。

在國內,雖然各家主機廠已經不缺真實數據,但這些數據的利用率究竟有多高,仍然存在很大疑問。同時,如果用真實數據用來做仿真,有個很嚴重的痛點——復用性差。

比如,在做路采的時候,車輛的芯片平臺、傳感器架構及制動系統是怎樣的,在仿真系統里做測試時,車輛的這些硬件配置也必須跟路采時所用的車輛配置一致。一旦傳感器的位置或者型號有變更,這一組數據的價值就降低,甚至會作廢。

事實上,真實數據的最主要問題并不是“太少”,而是質量低,使用難度大、復用性差,而這恰合也就是合成數據的用武之地。

合成數據(Synthetic Data)就是通過計算機技術生成的數據,而不是由真實事件產生的數據。但合成數據又具備“可用性”,能夠在數學上或統計學上反映原始數據的屬性,因此也可以用來訓練、測試并驗證模型。OpenAI的GPT-4,就采用了大量前一代模型GPT-3.5生產的數據來進行訓練。

Gartner 預測,到2024年用于訓練Al的數據中有60%將是合成數據,到2030年AI模型使用的絕大部分數據將由人工智能合成。



合成數據最早于1993年由統計學家唐納德·B·魯賓(Donald B. Rubin)提出,目前被廣泛引用,并在金融保險、醫療制藥、汽車制造、零售、自動駕駛等領域都有或深或淺的應用。

合成數據的產生原理,很大程度上在于模擬真實數據的分布特征和統計特性,再通過生成模型創建新的數據集,用來輔助真實訓練數據樣本不足或使用受限情況下(如數據敏感或隱私保護)的模型訓練、測試和開發。

廣義上,因為合成數據保留了和真實世界數據相同的結構或分布,卻不包含原始信息,所以主要被用來代替原始數據用于模型訓練和下游任務。

不過在實際應用中,出于數據可用性或真實場景數據對強化模型泛化能力的考慮,也有人基于原始數據樣本,通過部分合成的方式(比如利用?數據填補的方法替換原本的敏感和關鍵字段,進行局部數據的合成),生成相應的合成數據。所以,在有些分類中,合成數據又包含全部合成、部分合成、混用多種形態。

目前,合成數據在模型訓練和數據集增強等場景,尤其在對齊階段深度的模型訓練中發揮著重要作用。

隨著合成數據越發受到重視,技術人員也在持續創新數據合成的方法。從實際使用看,目前主要通過以下方式進行合成數據。

隨機采樣生成。根據現實世界數據中觀察到的統計特性(如均值、方差、相關性等),隨機生成數據。這種合成方法比較基礎直接,適合簡單的數據集生成,但面對高維復雜的數據,則存在一定的局限性。

基于特定領域規則生成。基于數據集預定義的規則和約束,手動或半自動生成合成數據。這種方式生成的數據,能保持與現實世界復雜場景的一致性,使得生成的合成數據具有一定可解釋性,但這種方法在具有明顯規律或規則時才較為有效。

利用深度學習方法生成。主要表現在利用生成對抗網絡(GAN)、變分自動編碼器(VAE)等生成合成數據。比如視頻生成模型Sora就采用了生成對抗網絡(GAN)來生成合成數據。在這過程中,生成器負責基于原始數據合成圖像,鑒別器負責將原始圖像和合成圖像分離,當對抗機制達到平衡,就能生成與真實世界圖像特征非常相似但又有所區別的合成圖像數據。

變分自動編碼器(VAE)則是利用無監督算法,通過編碼器(數據降維)和解碼器(數據重構)的協作,在原始數據基礎上生成新的數據。兩者都是合成多模態數據的有效方式。

利用合成數據工具生成。比如利用Python、Scikit-learn、Datagen、Mostly AI等數據合成工具軟件、機器學習庫,針對性生成相應的合成數據。目前也可以直接利用GPT等大語言模型,通過提示詞引導,進行數據增強和虛擬數據的合成。

除此之外,通過對現有數據樣本進行變換、擴充、匿名等生成更多的訓練數據樣本,即采用增強數據、匿名數據等方式合成數據也比較常見。只是這種更多屬于部分合成數據,真實數據特性保留度高,多樣性、豐富性方面也會有一定影響。

合成數據在自動駕駛領域的一大應用是對于極端情況的模擬。大量的極端情況在真正發生前沒有人能預知,屬于“預期功能安全”第三象限里面的“Unknown,Unsafe”一類,所以無法在真實道路上進行模擬。這類情況,無法通過基于人工規則的合成數據(WorldSim)來生成,也沒法通過對真實世界做3D重建的技術(NeRF)來生成,但有望通過基于AIGC的合成數據來獲取。

有些極端情況盡管人們能想象得到“大概會怎樣”,但畢竟太危險,所以也不適合在真實道路上做模擬。這種極端情況無法通過NeRF技術來生成,但可以通過合成數據來生成。有些極端情況,算不上有多么不安全,但也會影響到交通安全,比如雨、霧、雪和極端光線等極端天氣跟某種極端交通流的組合,這些也需要通過合成數據技術來生成。還有許多極端情況,在真實數據中的密度太低,挖掘成本太高,這個時候選擇合成數據便是最佳策略。

有了合成數據,主機廠或自動駕駛公司便可在幾小時內模擬數百萬個極端情況,這些模擬可能涵蓋不同照明條件、目標位置和惡劣環境下的示例,或者可以插入隨機噪聲來模擬臟污的攝像頭、霧水和其他視覺障礙物。

此外,真實數據由于高度受制于采集場景的限制,所以極端情況在樣本的分布上也很難有效滿足算法的需求。而合成數據,可以有針對性地生成分布狀況更滿足訓練需求的極端情況,這更有助于提升算法的性能。

如今,數據對自動駕駛產業的驅動力已經成為每一位玩家繞不開的關鍵。完備的閉環模型需要大規模、高質量、多場景的數據,高算力、高效率、相對低成本的算法模型,趨向自動化的數據標注與處理,高速率、低成本的傳輸速率與存儲模式,再加上安全合規的保駕護航,在數據的喂養下飛輪不斷循環向前,實現自動駕駛的持續進化。

數據閉環的每一步推進都是成本和效率的博弈,每一次博弈都是科技理性與價值理性的融合,每一場融合也將必然需要上下游企業數據共享、技術開源、生態共建。而數據閉環也是實現城市NOA和更高級別智駕的“華山一條路”,在這條路上,可以慢、可以錯,但唯獨不能不上山,否則就會被遺忘在山腳下。

聲明:個人原創,僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
38歲張馨予身材好到炸裂,顏值再升級,美出新高度引驚嘆

38歲張馨予身材好到炸裂,顏值再升級,美出新高度引驚嘆

星辰生肖館
2025-04-24 10:58:05
鄭琴離深去向成謎!謝媽傭金未到手,賺錢謝爸樂開花,鄰居曝原因

鄭琴離深去向成謎!謝媽傭金未到手,賺錢謝爸樂開花,鄰居曝原因

趣文說娛
2025-04-25 09:17:25
鄒市明深夜一個人喝悶酒,被冉瑩穎嫌爹味重,感嘆:沒錢我也焦慮

鄒市明深夜一個人喝悶酒,被冉瑩穎嫌爹味重,感嘆:沒錢我也焦慮

聯友說娛
2025-04-01 14:40:28
老師也高危了!太原一老師教育學生時,因有人視頻曝光而被停職…

老師也高危了!太原一老師教育學生時,因有人視頻曝光而被停職…

火山詩話
2025-04-24 07:31:32
你占過最大的便宜是什么?網友:買的二手房,燃氣表里有1200余額

你占過最大的便宜是什么?網友:買的二手房,燃氣表里有1200余額

解讀熱點事件
2025-04-25 00:20:04
閉月羞花的美女

閉月羞花的美女

手工制作阿殲
2025-04-23 01:29:02
美記:若字母有決定權 雄鹿不會送走米德爾頓&解雇布登和格里芬

美記:若字母有決定權 雄鹿不會送走米德爾頓&解雇布登和格里芬

直播吧
2025-04-26 00:58:08
王勵勤執掌國乒第一把火,孫穎莎會成為最大贏家嗎?

王勵勤執掌國乒第一把火,孫穎莎會成為最大贏家嗎?

鈞哥哥乒乓生活
2025-04-25 12:29:15
劉震云:狗要吃屎,你千萬不要去制止它,不然它以為你要跟它搶

劉震云:狗要吃屎,你千萬不要去制止它,不然它以為你要跟它搶

清風拂心
2025-04-13 09:36:22
30歲小伙娶無手老婆,美得不像話,網友:換我,我也娶

30歲小伙娶無手老婆,美得不像話,網友:換我,我也娶

農村情感故事
2025-04-24 17:51:24
男子酒后騎自行車被查酒駕,反問:我騎自行車喝酒怎么了?

男子酒后騎自行車被查酒駕,反問:我騎自行車喝酒怎么了?

張曉磊
2025-04-22 08:09:55
44歲謝霆鋒時隔20年再開演唱會!80多位明星藝人到場助力!舞臺如夢似幻,科技感爆棚

44歲謝霆鋒時隔20年再開演唱會!80多位明星藝人到場助力!舞臺如夢似幻,科技感爆棚

FM93浙江交通之聲
2025-04-25 00:22:06
烏加特與姆巴佩前女友疑似戀情曝光,球迷發現社交媒體線索

烏加特與姆巴佩前女友疑似戀情曝光,球迷發現社交媒體線索

懂球帝
2025-04-25 18:03:17
勇士傷兵滿營火箭趁勢追擊 庫里獨木難支裁判吹罰再引爭議

勇士傷兵滿營火箭趁勢追擊 庫里獨木難支裁判吹罰再引爭議

棠晴
2025-04-25 06:50:12
美國人評論亞洲街道:日本干凈,印度臟亂,中國只用四個字概括

美國人評論亞洲街道:日本干凈,印度臟亂,中國只用四個字概括

八斗小先生
2025-04-22 09:42:31
和談關鍵時刻巨變!俄羅斯將領被遠程爆炸炸飛數米,現場瞬間畫面曝光

和談關鍵時刻巨變!俄羅斯將領被遠程爆炸炸飛數米,現場瞬間畫面曝光

華人生活網
2025-04-26 02:26:43
約基奇失控!掘金替補空籃脫手,約老師鼓掌嘲諷隊友,忍無可忍了

約基奇失控!掘金替補空籃脫手,約老師鼓掌嘲諷隊友,忍無可忍了

嘴炮體壇
2025-04-25 13:29:49
澤連斯基要倒霉了,他最后的下場,將會跟卡扎菲和薩達姆一樣

澤連斯基要倒霉了,他最后的下場,將會跟卡扎菲和薩達姆一樣

利刃號
2025-04-02 10:40:23
跟隊:國米可能清洗弗拉泰西、阿斯拉尼、塔雷米等6人

跟隊:國米可能清洗弗拉泰西、阿斯拉尼、塔雷米等6人

懂球帝
2025-04-26 02:45:06
菲律賓和廣東同為1億多人口,菲律賓創造3.3萬億,廣東是多少?

菲律賓和廣東同為1億多人口,菲律賓創造3.3萬億,廣東是多少?

跳跳歷史
2025-03-05 14:32:05
2025-04-26 04:51:00
極智GeeTech incentive-icons
極智GeeTech
釋放科技想象,探索數字未來。
47文章數 7關注度
往期回顧 全部

汽車要聞

"下一代純電寶馬"提前體驗 用代碼編譯駕駛樂趣

頭條要聞

美官員:很多美企庫存最多只夠60天 生產完全在中國

頭條要聞

美官員:很多美企庫存最多只夠60天 生產完全在中國

體育要聞

?跑得最快的院長來啦!蘇炳添擔任暨大體育學院院長

娛樂要聞

王菲被諷刺為愚婦 張柏芝最終還是贏了

財經要聞

政治局會議傳遞積極信號 機構熱議6大看點

科技要聞

文心模型再降價80%,李彥宏:我打下了價格

態度原創

家居
藝術
手機
數碼
公開課

家居要聞

清徐現代 有溫度有態度

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

小米16再曝:全系直屏 標準版無緣潛望

數碼要聞

爆料稱iOS 19將加入外接屏幕模式,iPadOS 19聚焦生產力提升

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新闻| 南郑县| 大兴区| 白沙| 兴国县| 敦煌市| 巴彦淖尔市| 华坪县| 手游| 平遥县| 泰来县| 凤城市| 冀州市| 临漳县| 鹤岗市| 宁河县| 巍山| 神池县| 吴旗县| 马尔康县| 开远市| 潮州市| 遂平县| 祁门县| 延边| 青河县| 岚皋县| 合江县| 霸州市| 沐川县| 泰和县| 大化| 灵宝市| 乾安县| 基隆市| 贡觉县| 封丘县| 法库县| 武山县| 芦山县| 长宁区|