隨著滲透率快速上升,2025年智能駕駛只講“端到端”可能不夠用了
編者按:
回望2024年,展望2025年,汽車業此刻正站在一個新的節點上:汽車的樣子會變,造車的企業會變。
為此,《財經》展望這一行業的關鍵變革之年,提出并分析2025年的八大懸念,期待與你一起見證并驗證這一切,和汽車產業一起尋路未來。
本文是“尋路2025”系列的第5篇,第一篇是《新能源汽車增速遭遇天花板?》,第二篇是《價格戰到底要打到什么時候?》,第三篇是《合資品牌能留下幾家?》,第四篇是《汽車出海還能維持高增長嗎?》……
文|包校千
編輯 |王靜儀 施智梁
2025年是不少預言的揭盅之年。
技術創新迎來了躍變。有人預測,智能駕駛將全面進化普及,司機在未來會逐漸消失。
自動駕駛正在加速落地。工信部相關人士曾披露,2024年上半年,中國乘用車L2級及以上自動駕駛的滲透率達55.7%。中國電動汽車百人會副理事長兼秘書長張永偉預計,這一數字到2025年可能會接近65%。
全自動無人駕駛是智能駕駛技術演進的終局。2024年,車企和供應商集體卷入了“端到端”智駕狂熱賽,仿佛“端味兒”的濃和淡代表了技術領先與否。相當一部分人認為,這是通往高階自動駕駛的一條必經之路。
超越人類是智駕價值躍升的拐點。地平線創始人兼CEO余凱認為,高階智駕本質的比較對象是人類:“比不過人的時候,它就是高科技的玩具;當它有一天表現得比人好的時候,價值立刻就會跳上去。”
不過,僅憑 “傳感器數據” 與 “人類駕駛軌跡” 的海量對照,不足以讓智駕向更高階跨越。而“端到端”就是讓所有傳感器的數據以及動力學或地圖信息等,輸入到車端模型,然后輸出合理的駕駛軌跡。但人類司機的駕駛意圖和一些潛移默化的習慣模式,是“端到端”模仿不來的。
最終,一切都指向了智駕安全性的問題上。
靠模仿,當不了老司機
波士頓咨詢曾在一份報告中評價,智能駕駛是“自汽車發明以來影響最為深遠的技術”。之所以如此重要,不僅在于它解放了駕駛員的雙手,更在于能降低交通事故的風險。
雖然該機構指出,智能汽車和Robotaxi未來可以減少90%的道路交通事故,但就目前來說,智駕并非完全如想象中那么可靠。
比如某新勢力品牌的輔助駕駛系統,曾錯誤地將廣告牌上的小貨車圖片識別為障礙物,導致急剎車和后車的追尾;還有某品牌的車主遭遇了智駕系統在事故發生前退出的情況。部分用戶對此表示擔憂,認為不能完全依賴廠商推出的“智能駕駛”功能。
在“端到端”席卷之下,L2+輔助駕駛技術得到了更快普及。滲透率方面,比亞迪的入局是2025年國內智駕行業最大變量,有望推動L2+級別銷量基盤快速從100萬輛提升至1000萬輛級別,帶動L2+滲透率從14%提升到30%,實現翻倍以上增長。
圖源:視覺中國
特別是以理想、小鵬為代表的新勢力品牌,都推送了“車位到車位”的智駕方案(該方案是指從起點車位到終點車位,智駕系統全程可以激活無斷點,包括上下匝道、環島、停車場閘機等一系列難點場景),讓智駕體驗更加好用,但小馬智行副總裁張寧指出,當監管頻次越降越低,越容易讓人產生“虛假的安全感”。
要知道,每個智駕系統迭代的版本之間都有不同程度的差異。也許上一個版本在這個路口能順利通過,下一個版本就回退了。司機在開小差的過程當中,可能就會釀成交通事故。最終牽扯車輛失控后復雜的責任認定問題。
以“車位到車位”功能為例,這一功能雖已具備L3自動駕駛的核心能力,然而車企將其推向市場的過程中,為了避免提及L3后面臨監管壓力和潛在的責任風險,仍以L2+、L2++等命名方式來強調其智能化水平。這種回避L3的宣傳口徑,反映了目前技術落地和商業化過程中存在的謹慎態度。
2024年,是頭部品牌全量推進“端到端”的一年。年初,特斯拉FSD V12上線,實現了從感知到決策的一體化,成為各路玩家競相學習的對象。
對于大多數車企和智駕供應商來說,好的智駕方案應該更像一個老司機,因此各家都在借用“端到端”來模仿、學習人類司機是怎么開車的。
基于“端到端”大模型的智駕系統,各個AI模塊通過transformer鏈接,信息傳遞更加隱秘,減少了信息傳輸過程中的丟失,具有上限很高的優勢,但“端到端”的下限也很低。在常規場景下,它能夠從容駕駛,提供更加舒適的駕駛體驗,但在非常規場景下,這種從容很可能轉成急躁冒進,帶來安全風險。
2024年末,理想、華為、小鵬、蔚來、小米、極氪、智己、長安、長城等公司都加入了“端到端”的競速中。大部分主流車企已實現了無高精度地圖全國都能開,并從以規則為主的算法框架,向神經網絡模型為主的新架構切換,也就是端到端。
小馬智行聯合創始人兼CTO(首席技術官)樓天城透露,當前大部分L2系統的MPCI(Miles Per Critical Intervention,指每干預一次行駛的英里數)最高在300公里左右,駕駛員如果不接管很可能發生危險。
以前,智能駕駛的行駛跟車能力通常是從ACC自適應巡航到高速NOA,再到城市NOA,由易到難逐步培養的。現在,AI去掉準則模型后,很難知道它的下限在哪兒。這就導致智駕系統面對非常復雜的場景也有處理應對的能力,但同時很可能連旁邊的垃圾桶都識別不到。
比如采用“端到端”的特斯拉FSD V12版本,泛化能力提升了不少,不再嚴格按照之前的“準則”進行,智駕系統開起來更像老司機了。但出現的問題也不少,比如之前就有撞到一名摩托車手,這種情況在上一個版本是很難出現的。
余承東此前去美國體驗FSD時就發現,“路上停著靜止不動的白色貨車,特斯拉減都不減速直接撞過去,綠色的貨車不減速也去撞,可能是識別成白云和樹木了,一旦出問題就是車毀人亡。”
端到端2.0如何升級
面對復雜罕見的駕駛場景,“端到端”無法擺脫局限性。2025年,智駕只講“端到端”可能不夠了。
相較而言,“大家開始研究多模態大模型,行業里都在討論VLM、VLA。”余凱表示,視覺語言多模態大模型(Large Vision-Language Models,LVLM)能很好地與端到端模型互為補充,充當駕駛決策的“大腦”,讓智駕“越來越類人”“越來越從感知到認知”。
此前基于大模型的自動駕駛方案,往往將大模型直接作為“端到端”模型,即直接用大模型預測規劃軌跡或者控制信號,但是大模型并不擅長預測精準的數值,因此這種方案并不一定是最優解。
為了彌補“端到端”模型魯棒性差,泛化性弱的問題,VLM(視覺語言模型)、VLA(視覺語言動作模型)、世界模型等概念不斷涌現,代表智駕玩家的技術路線和投入重心。
比如理想采用的“端到端+VLM”雙系統,官方稱VLM具備復雜場景的理解能力、讀懂導航地圖能力,以及交通規則的理解能力。接下來,VLM還將用于識別交警手勢、施工改道等更復雜的場景。
圖源:IC
如果說VLM是端到端的1.0版本,那么VLA則是“端到端2.0”的技術方向。二者最大的不同,在于時間層面的推理能力。“前者在7秒鐘左右,后者能達到幾十秒。”元戎啟行CEO周光表示。
元戎啟行技術副總裁劉軒提到,之前做泛化測試時,團隊遇到過一個特別離譜的路口。直行等紅燈,下面豎了一塊牌子:保持安全的情況下紅燈可以直行。“就算是人類駕駛員,尤其外地人,看到這個路口肯定也懵。這些和駕駛相關的信息,需要世界模型進行理解。”
2024年11月,Waymo推出了基于多模態大語言模型Gemini的EMMA模型,被業內人士稱為VLA模型。該模型在多個關鍵的自動駕駛任務中展現出良好的任務遷移能力,與為每個任務訓練單獨模型相比,EMMA 在路徑預測、物體檢測和道路圖理解等方面的表現顯著提升。
以上,是部分玩家基于“端到端”智駕的探索。李想認為,掌握VLA基礎模型能力是在技術上真正實現L4級智能駕駛的基礎條件之一。樓天城則認為,通過搭建訓練模型的虛擬環境,即 “世界模型”,能確保車輛不再發生由系統錯誤產生的問題和事故。
余凱在前不久的地平線智駕科技暢想日上感慨:“前幾年大家嘴上在喊‘拐點拐點’,實際上大家在找‘賣點’。嘴上說著‘拐了拐了’,心里想其實是‘趕緊賣了趕緊賣了’。”但隨著算法、算力和數據三大要素兼備,他認為2025年是智駕“真拐點”。
從2004年美國國防部高等研究計劃局(DARPA)組織首屆無人駕駛挑戰賽,掀起自動駕駛江湖的波瀾開始,這一領域在過去20年經歷了深度學習技術的大爆發,從而讓汽車行業正在經歷一場深刻的變革。
但作為一套極其復雜的系統,自動駕駛的技術切換并不立竿見影,挑戰難度大到足以讓從業者痛苦絕望。樓天城坦言,“這兩年別說對外,對內都很難展示進展。但我不斷告訴他們,這是正確的,我們應該這么做。”
無獨有偶,前華為智能駕駛負責人蘇箐,前不久首次以地平線副總裁兼首席架構師的身份亮相。他認為,自動駕駛代表了物理世界與人類交互的第一個半規則、半非規則的場景,蘊含著極高的研究與發展價值。但“全世界最聰明的人花了這么多錢干這件事情,到目前為止還沒有一個系統真正達到‘超越人類駕駛水平’的拐點”。
“但是絕望歸絕望,干了這么多年還是能看到希望,因為整個內核技術演進了5-6代以后,你會發現整個系統能看到曙光在前面了,整套數據驅動范式起來以后能看到這點,我覺得這是我們能看到的東西。”蘇箐感嘆。
責編:張生婷
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.