網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

智能駕駛水面之下，“AI推理之爭(zhēng)”暗流涌動(dòng)

2025-04-01 10:21:39　來(lái)源: 極智GeeTech

北京舉報(bào)

分享至

所有的技術(shù)路線都會(huì)殊途同歸。

如果說(shuō)，智能駕駛此前還在圍繞VLM（視覺(jué)-語(yǔ)言模型）與VLA（視覺(jué)-語(yǔ)言-動(dòng)作模型）、一段式與兩段式、無(wú)圖和有圖等維度展開(kāi)競(jìng)爭(zhēng)，那么從今年開(kāi)始，智駕競(jìng)爭(zhēng)已悄然進(jìn)入深水，一場(chǎng)更底層的較量正在算力集群與算法架構(gòu)之間展開(kāi)。

無(wú)論是智能駕駛、大模型還是具身智能，其競(jìng)爭(zhēng)焦點(diǎn)正從快速預(yù)訓(xùn)練響應(yīng)轉(zhuǎn)向慢速深度推理。在這場(chǎng)圍繞推理能力的暗戰(zhàn)中，AI將不再僅僅依賴于快速的模式匹配，而是能夠進(jìn)行深入思考，解決更復(fù)雜的問(wèn)題，這將使AI迎來(lái)突破智能瓶頸的“奇點(diǎn)時(shí)刻”。

讓人工智能學(xué)會(huì)“頓悟”

“推理”被視為人工智能發(fā)展的下半場(chǎng)，這一變化的發(fā)生并不是偶然。

OpenAI的聯(lián)合創(chuàng)始人伊利亞·蘇茨克維爾（Ilya Sutskever）在溫哥華NeurIPS大會(huì)上明確表示，AI的預(yù)訓(xùn)練時(shí)代已接近尾聲。他指出，當(dāng)前的數(shù)據(jù)資源并不再具有指數(shù)級(jí)的增長(zhǎng)，而計(jì)算能力仍在不斷攀升，這意味著我們必須重新評(píng)估和利用現(xiàn)有的數(shù)據(jù)，提高其推理效率。

“推理”這一術(shù)語(yǔ)來(lái)源于邏輯學(xué)，是系統(tǒng)根據(jù)已知前提，通過(guò)規(guī)則來(lái)產(chǎn)生新的結(jié)論或決策的能力。推理反映了AI在模擬人類思維方面的能力，人類的推理是通過(guò)已有知識(shí)（經(jīng)驗(yàn)或教育）對(duì)新情況進(jìn)行分析，例如“如果天空烏云密布，那么可能會(huì)下雨”。

AI運(yùn)行過(guò)程其實(shí)與上述描述特征基本一致，是因?yàn)樗７铝巳祟惡瓦壿嬒到y(tǒng)中“從已知信息得出未知結(jié)論”的過(guò)程。推理強(qiáng)調(diào)模型利用訓(xùn)練獲得的知識(shí)，在不確定的輸入情況下生成合理輸出。

與傳統(tǒng)的數(shù)據(jù)處理和模式識(shí)別有所不同，推理要求系統(tǒng)不僅能夠識(shí)別模式，還能夠理解其背后的原因和邏輯。這是機(jī)器學(xué)習(xí)技術(shù)的漫長(zhǎng)而復(fù)雜的演進(jìn)過(guò)程中的最后一步，就像是人工智能的“頓悟”時(shí)刻。

舉個(gè)例子，學(xué)生學(xué)習(xí)和考試，學(xué)生平時(shí)課堂學(xué)習(xí)、寫(xiě)作業(yè)等，可以看成是AI模型的訓(xùn)練。學(xué)生寫(xiě)作業(yè)，老師批改作業(yè)，以及老師答疑，都是在給學(xué)生反饋哪些是正確的哪些是錯(cuò)誤的，通過(guò)這個(gè)過(guò)程學(xué)生掌握了課本里面的知識(shí)。

到了考試以后，考題多數(shù)情況下是跟平時(shí)做的題目不一樣，學(xué)生需要利用掌握的知識(shí)來(lái)分析解答考試題目，這個(gè)就是推理的過(guò)程。

但是有一點(diǎn)需要說(shuō)明，考試的知識(shí)點(diǎn)肯定要在課本知識(shí)范圍內(nèi)，即考試不能超綱，否則學(xué)生也答不上來(lái)或者答的效果不好。

在AI的下半場(chǎng)，推理之所以變得尤為重要，是因?yàn)殡S著應(yīng)用場(chǎng)景的復(fù)雜化和多樣化，簡(jiǎn)單的數(shù)據(jù)處理和分類已經(jīng)無(wú)法滿足需求。比如在智駕領(lǐng)域，系統(tǒng)不僅需要識(shí)別行人、車輛和交通信號(hào)，還需要理解它們之間的交互關(guān)系，預(yù)測(cè)未來(lái)的行為，并據(jù)此做出安全、合理的駕駛決策，這就需要強(qiáng)大的推理能力來(lái)支撐。

巴克萊的一份報(bào)告預(yù)計(jì)，AI推理計(jì)算需求將快速提升，預(yù)計(jì)其將占通用人工智能總計(jì)算需求的70%以上，推理計(jì)算的需求甚至可以超過(guò)訓(xùn)練計(jì)算需求，達(dá)到后者的4.5倍。

作為AI技術(shù)應(yīng)用的兩大基石，訓(xùn)練（Training）和推理（Inference）決定著AI的智能化水平。

在訓(xùn)練階段，通過(guò)大量數(shù)據(jù)和算法，AI模型學(xué)會(huì)識(shí)別和生成規(guī)律。模型參數(shù)在此過(guò)程中不斷調(diào)整，以最小化預(yù)測(cè)與實(shí)際值之間的誤差，從而使其具備適應(yīng)各種任務(wù)的學(xué)習(xí)能力。

在此過(guò)程中，大模型通過(guò)深度學(xué)習(xí)技術(shù)，通過(guò)多層神經(jīng)網(wǎng)絡(luò)，對(duì)接收輸入的海量數(shù)據(jù)進(jìn)行學(xué)習(xí)和優(yōu)化，并通過(guò)學(xué)習(xí)調(diào)整模型的參數(shù)，以最小化預(yù)測(cè)與實(shí)際值之間的誤差，使其能夠?qū)斎霐?shù)據(jù)進(jìn)行準(zhǔn)確的預(yù)測(cè)。

這通常涉及到使用反向傳播算法和優(yōu)化器來(lái)最小化模型預(yù)測(cè)與實(shí)際標(biāo)簽之間的誤差。為了提高模型的性能，一般需要使用大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練，以確保模型能夠泛化到各種不同的情況。

這種學(xué)習(xí)方式，使得AI模型能夠從數(shù)據(jù)中自動(dòng)提取特征，進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)的自適應(yīng)分析和處理。同時(shí)，AI大模型還采用了遷移學(xué)習(xí)技術(shù)這種學(xué)習(xí)方式，使得AI模型能夠從數(shù)據(jù)中自動(dòng)提取特征，將已經(jīng)在其他任務(wù)上訓(xùn)練好的模型，遷移到新的任務(wù)中，大大提高了訓(xùn)練效率。

推理階段則建立在訓(xùn)練完成的基礎(chǔ)上，將訓(xùn)練好的模型應(yīng)用于新的、未見(jiàn)過(guò)的數(shù)據(jù)。模型利用先前學(xué)到的規(guī)律進(jìn)行預(yù)測(cè)、分類或生成新內(nèi)容，使得AI能夠輸出相應(yīng)的預(yù)測(cè)結(jié)果和具有意義的決策。

從類型看，AI推理可以分為批量推理、在線推理、流式推理三種模式。

批量推理得名于其接收和處理數(shù)據(jù)的方式，以大批量的形式進(jìn)行。這種方法并非實(shí)時(shí)處理推理，而是按批次處理數(shù)據(jù)，有時(shí)按小時(shí)，甚至按天處理，具體取決于數(shù)據(jù)量和AI模型的效率。這些推理也可稱為“離線推理”或“靜態(tài)推理”。

在線推理也稱為“動(dòng)態(tài)”推理，可以實(shí)時(shí)提供響應(yīng)。這類推理需要硬件和軟件的支持，以降低延遲障礙并實(shí)現(xiàn)高速預(yù)測(cè)。在線推理在邊緣場(chǎng)景中很有幫助，即AI在數(shù)據(jù)所在的位置進(jìn)行工作。這也許是手機(jī)上、汽車?yán)铮蛘呔W(wǎng)絡(luò)連接有限的遠(yuǎn)程辦公室中。

OpenAI的ChatGPT便是在線推理的典型范例，它需要大量的前期運(yùn)維支持，才能快速且準(zhǔn)確地作出響應(yīng)。

流式推理未必用于與人類進(jìn)行交互，該模型不是基于提示或請(qǐng)求來(lái)運(yùn)作，而是接收持續(xù)不斷的數(shù)據(jù)流，以便進(jìn)行預(yù)測(cè)并更新其內(nèi)部數(shù)據(jù)庫(kù)。流式推理能夠監(jiān)控變化、保持運(yùn)行規(guī)律，或在問(wèn)題實(shí)際發(fā)生前進(jìn)行預(yù)測(cè)防范。

總的來(lái)看，訓(xùn)練決定模型能力上限，推理決定服務(wù)效能下限。訓(xùn)練環(huán)節(jié)主要存在于算法研發(fā)階段，支撐著模型能力的持續(xù)進(jìn)化。科研機(jī)構(gòu)通過(guò)改進(jìn)訓(xùn)練策略突破技術(shù)邊界，企業(yè)則通過(guò)領(lǐng)域自適應(yīng)訓(xùn)練打造垂直行業(yè)模型。

推理服務(wù)已滲透到各類產(chǎn)業(yè)數(shù)字化場(chǎng)景，比如智駕方面增強(qiáng)長(zhǎng)尾場(chǎng)景的處理能力并提供最優(yōu)路徑規(guī)劃、醫(yī)療領(lǐng)域輔助CT影像分析、金融行業(yè)實(shí)現(xiàn)智能風(fēng)控、教育場(chǎng)景支持個(gè)性化學(xué)習(xí)推薦系統(tǒng)等等，這些應(yīng)用都依賴高效的推理引擎將模型能力轉(zhuǎn)化為實(shí)際價(jià)值。

當(dāng)前AI技術(shù)發(fā)展趨勢(shì)顯示，訓(xùn)練階段正向更高效的稀疏訓(xùn)練、混合專家架構(gòu)（Mixture of Experts，MoE）演進(jìn)，而推理優(yōu)化則聚焦于動(dòng)態(tài)批處理、持續(xù)推理等實(shí)時(shí)化技術(shù)，兩者的協(xié)同進(jìn)步推動(dòng)著AI技術(shù)落地的深化。

智能駕駛的關(guān)鍵跳板

今年，汽車行業(yè)的智駕之戰(zhàn)明顯比往年來(lái)得更加猛烈。比亞迪的天神之眼、吉利的千里浩瀚、奇瑞的獵鷹智駕，以及廣汽的自動(dòng)駕駛計(jì)劃，這些主流車企的動(dòng)向都說(shuō)明了，如今的車圈已經(jīng)是“得智駕者得天下”的時(shí)代了。

自2023年以來(lái)，智駕行業(yè)掀起B(yǎng)EV、端到端技術(shù)浪潮后，車企們正逐步將AI神經(jīng)網(wǎng)絡(luò)融入感知、規(guī)劃、控制等環(huán)節(jié)。比起傳統(tǒng)基于規(guī)則的方案，基于AI、數(shù)據(jù)驅(qū)動(dòng)的“端到端”擁有更高能力天花板。

但在端到端模型之外，車企們還輔以了大語(yǔ)言模型、VLM模型等外掛，提供更強(qiáng)大的環(huán)境理解能力，從而提升智駕能力上限。

與此同時(shí)，智駕另一個(gè)技術(shù)趨勢(shì)正在顯現(xiàn)，融合了視覺(jué)、語(yǔ)言和動(dòng)作的多模態(tài)大模型范式——VLA正在成為重要的一環(huán)。VLA模型擁有更高的場(chǎng)景推理能力與泛化能力，對(duì)于智駕技術(shù)的演進(jìn)意義重大。從長(zhǎng)遠(yuǎn)來(lái)看，在從L2級(jí)輔助駕駛向L4級(jí)自動(dòng)駕駛的技術(shù)躍遷過(guò)程中，VLA有望成為關(guān)鍵跳板。

在提升汽車智能化方面，新勢(shì)力車企最為激進(jìn)。在近期的NVIDIA GTC 2025大會(huì)上，理想汽車發(fā)布了新一代自動(dòng)駕駛架構(gòu)——MindVLA。它通過(guò)整合空間智能、語(yǔ)言智能和行為智能，賦予自動(dòng)駕駛系統(tǒng)以3D空間理解能力、邏輯推理能力和行為生成能力，并計(jì)劃于2026年量產(chǎn)應(yīng)用。

VLA模型最早見(jiàn)于機(jī)器人行業(yè)。2023年7月，谷歌 DeepMind推出了全球首個(gè)控制機(jī)器人的VLA模型——RT-2。

相比傳統(tǒng)的機(jī)器人模型只能支持少數(shù)的特定指令，RT-2借助于大語(yǔ)言模型強(qiáng)大的語(yǔ)言理解能力，可以直接和用戶進(jìn)行語(yǔ)言交互，并在接收攝像頭的原始數(shù)據(jù)和語(yǔ)言指令后，直接輸出控制信號(hào)，完成各種復(fù)雜的操作和各類任務(wù)。

VLA在機(jī)器人領(lǐng)域的成功，很快也應(yīng)用到了智能駕駛領(lǐng)域。2024年10月底，谷歌旗下自動(dòng)駕駛公司W(wǎng)aymo推出了一個(gè)基于端到端的自動(dòng)駕駛多模態(tài)模型——EMMA。

EMMA建立在多模態(tài)大語(yǔ)言模型Gemini之上，將原始攝像頭傳感器數(shù)據(jù)直接映射到各種特定于駕駛的輸出中，包括規(guī)劃者軌跡、感知目標(biāo)和道路圖元素，通過(guò)將所有非傳感器輸入（如導(dǎo)航指令和自車狀態(tài)）和輸出（如軌跡和3D位置）表示為自然語(yǔ)言文本，最大限度地利用了預(yù)訓(xùn)練的大型語(yǔ)言模型中的世界知識(shí)。

從技術(shù)路徑看，VLA模型是在VLM基礎(chǔ)上發(fā)展而來(lái)。VLM是一種能夠處理圖像和自然語(yǔ)言文本的機(jī)器學(xué)習(xí)模型，它可以將一張或多張圖片作為輸入，并生成一系列標(biāo)記來(lái)表示自然語(yǔ)言。

然而，VLA不僅限于此，它還利用了機(jī)器人或汽車運(yùn)動(dòng)軌跡的數(shù)據(jù)，進(jìn)一步訓(xùn)練這些現(xiàn)有的VLM，以輸出可用于機(jī)器人或汽車控制的動(dòng)作序列。通過(guò)這種方式，VLA可以解釋復(fù)雜的指令并在物理世界中執(zhí)行相應(yīng)的動(dòng)作。

在VLA之前，“端到端+VLM”一直是智駕行業(yè)主流技術(shù)方案。

因?yàn)轳{駛時(shí)需要多模態(tài)的感知交互系統(tǒng)，用戶的視覺(jué)、聽(tīng)覺(jué)以及周圍環(huán)境的變化，甚至個(gè)人情感的波動(dòng)，都與駕駛行為密切相關(guān)。所以“端到端+VLM”的技術(shù)架構(gòu)中，端到端系統(tǒng)負(fù)責(zé)處理感知、決策和執(zhí)行的全過(guò)程，而VLM則作為輔助系統(tǒng)，提供對(duì)復(fù)雜交通場(chǎng)景的理解和語(yǔ)義解析，但兩者相對(duì)獨(dú)立。

以理想“端到端+VLM”雙系統(tǒng)架構(gòu)方案為例，其基于丹尼爾·卡尼曼（Daniel Kahneman）在《思考，快與慢》中提出的人類兩套思維系統(tǒng)理論，將端到端系統(tǒng)（相當(dāng)于系統(tǒng)1）與VLM模型（相當(dāng)于系統(tǒng)2）融合應(yīng)用于自動(dòng)駕駛技術(shù)方案中，賦予車端模型更高的性能上限和發(fā)展?jié)摿Α?/p>

其中，系統(tǒng)1即端到端模型，是一種直覺(jué)式、快速反應(yīng)的機(jī)制，它直接從傳感器輸入（如攝像頭和激光雷達(dá)數(shù)據(jù)）映射到行駛軌跡輸出，無(wú)需中間過(guò)程，是One Model一體化的模型。系統(tǒng)2則是由一個(gè)22億參數(shù)的VLM視覺(jué)語(yǔ)言大模型實(shí)現(xiàn)，它的輸出給到系統(tǒng)1綜合形成最終的駕駛決策。

雖然“端到端+VLM”大幅提升了智駕水平，但仍有很多問(wèn)題。比如，端到端和VLM要進(jìn)行聯(lián)合訓(xùn)練比較困難，此外還有對(duì)3D空間理解不夠、駕駛知識(shí)和內(nèi)存帶寬不足、難以處理人類駕駛的多模態(tài)性等問(wèn)題。

而VLA通過(guò)統(tǒng)一的大模型架構(gòu)，將感知、決策、執(zhí)行無(wú)縫串聯(lián)，形成“圖像輸入-語(yǔ)義理解-類人決策-動(dòng)作輸出”的閉環(huán)，可以同步提高智駕的上限和下限，實(shí)現(xiàn)空間、行為和語(yǔ)言的統(tǒng)一。

從VLM到VLA的進(jìn)化，就像是從有人指導(dǎo)的初學(xué)者變成了經(jīng)驗(yàn)豐富的老手直接操作，后者相對(duì)更為先進(jìn)且可靠。

在推理方面，VLA模型的能力要遠(yuǎn)高于“端到端+VLM”。基于規(guī)則可能只能推理未來(lái)1秒鐘內(nèi)即將發(fā)生的情況；現(xiàn)階段的端到端可以推理未來(lái)7秒鐘可能發(fā)生的情況；而基于VLA模型的端到端的推理能力能夠長(zhǎng)達(dá)幾十秒。推理時(shí)間越長(zhǎng)，意味著在應(yīng)對(duì)復(fù)雜、長(zhǎng)尾場(chǎng)景時(shí)表現(xiàn)更好，比如施工現(xiàn)場(chǎng)，潮汐車道、交通指揮手勢(shì)等。

正因如此，VLA被業(yè)界認(rèn)為是端到端2.0的主要技術(shù)形態(tài)。目前，VLA尚處于發(fā)展階段，除DeepMind的RT-2外，還包括OpenVLA模型、Waymo的EMMA、Wayve的LINGO-2、英偉達(dá)NaVILA等。這其中，Waymo的EMMA和Wayve的LINGO-2主要面向的是車載領(lǐng)域，RT-2、OpenVLA和NaVILA則主要面向機(jī)器人領(lǐng)域。

VLA是不是唯一路徑？

技術(shù)層面看，VLA核心在于將VLM的場(chǎng)景理解能力與端到端決策架構(gòu)深度融合，并引入“思維鏈”（Chain of Thought，CoT）技術(shù)，這使得它具備了全局上下文理解與類人推理能力，能夠在面對(duì)復(fù)雜的交通場(chǎng)景時(shí)，像人類駕駛員一樣進(jìn)行思考和判斷。

例如，當(dāng)遇到前方道路施工、交通信號(hào)燈異常或者其他特殊情況時(shí)，VLA模型可以通過(guò)分析視覺(jué)信息和語(yǔ)言指令，快速規(guī)劃出合理的行駛路徑和應(yīng)對(duì)策略。

它還能與乘客或其他車輛進(jìn)行交互，接受并執(zhí)行各種指令。比如，乘客可以直接對(duì)車輛說(shuō)“找最近的加油站”或者“避開(kāi)擁堵路段”，VLA模型就能根據(jù)這些指令自動(dòng)規(guī)劃路線并執(zhí)行駕駛操作。

對(duì)于智駕，VLA模型有相當(dāng)多的優(yōu)勢(shì)，其中最大優(yōu)勢(shì)之一就是與現(xiàn)有的大語(yǔ)言模型范式兼容。VLA模型同樣遵從Scaling Law，隨著模型參數(shù)提升，性能也會(huì)提升。同時(shí)，用預(yù)訓(xùn)練、后訓(xùn)練、持續(xù)訓(xùn)練改進(jìn)模型。同時(shí)還兼容直接偏好優(yōu)化（DPO）、人類反饋強(qiáng)化學(xué)習(xí)（RLHF）、組相對(duì)策略優(yōu)化（GRPO）等技術(shù)。并且，思維鏈可以直接用于推理決策（比如潮汐車道的思考）。

VLA架構(gòu)通過(guò)深度整合視覺(jué)、語(yǔ)言和行為等多模態(tài)信息進(jìn)行端到端訓(xùn)練，從根本上減少了信息傳遞過(guò)程中的損耗，并顯著提升了模型的泛化能力和對(duì)復(fù)雜駕駛場(chǎng)景的理解能力。這種多模態(tài)的融合使得模型能夠?qū)W習(xí)到視覺(jué)輸入與語(yǔ)言描述之間的對(duì)應(yīng)關(guān)系，從而在做出駕駛決策的同時(shí)，也能生成相應(yīng)的自然語(yǔ)言解釋。

例如，模型可能會(huì)解釋“我識(shí)別到前方有行人（視覺(jué)），根據(jù)交通規(guī)則我應(yīng)該減速讓行（語(yǔ)言和行為規(guī)則），因此我執(zhí)行了剎車操作（行為）。”這種將感知、推理和行動(dòng)與語(yǔ)言描述直接關(guān)聯(lián)的能力，使得模型的決策過(guò)程不再是一個(gè)“黑箱”，而是變得可以理解和追溯。

同時(shí)，VLA將基于規(guī)則的偏好注入模型，讓VLA符合人類預(yù)期的駕駛決策。這意味著，VLA模型能夠識(shí)別并優(yōu)先考慮安全的駕駛行為，從而減少現(xiàn)實(shí)世界中的不良習(xí)慣。此外，還能選擇人類偏好的最優(yōu)路徑。

VLA模型另一優(yōu)勢(shì)是跨領(lǐng)域通用性，但其落地對(duì)車載計(jì)算平臺(tái)的算力提出了更高要求。憑借其底層多模態(tài)融合的特性，VLA模型展現(xiàn)出超越汽車領(lǐng)域的潛力，未來(lái)有望應(yīng)用于包括機(jī)器人在內(nèi)的更廣泛的智能設(shè)備，實(shí)現(xiàn)技術(shù)復(fù)用和規(guī)模效應(yīng)。

不過(guò)，VLA要想實(shí)現(xiàn)全面上車，還需要解決數(shù)據(jù)與信息深度融合的問(wèn)題。這要求車企的智駕團(tuán)隊(duì)具備強(qiáng)大的模型框架定義能力和快速迭代能力。然而，在當(dāng)前技術(shù)路線驟然升級(jí)的背景下，許多尚未發(fā)力端到端技術(shù)的車企將面臨更高的門(mén)檻。他們需要在短時(shí)間內(nèi)跨越多個(gè)技術(shù)階段，這無(wú)疑增加了他們的難度和成本。

另一個(gè)對(duì)VLA非常重要的挑戰(zhàn)是數(shù)據(jù)閉環(huán)。雖然大語(yǔ)言模型已經(jīng)基于海量的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練，對(duì)于語(yǔ)言和文本已經(jīng)有了非常強(qiáng)的分析能力，但對(duì)于駕駛相關(guān)的視頻數(shù)據(jù)、激光雷達(dá)點(diǎn)云和車輛狀態(tài)等數(shù)據(jù)，并沒(méi)有公開(kāi)的海量數(shù)據(jù)可用。而且VLA的關(guān)鍵能力——思維鏈（CoT）需要根據(jù)設(shè)計(jì)的邏輯和問(wèn)題建立定制化的數(shù)據(jù)，這就需要車企有非常強(qiáng)的數(shù)據(jù)閉環(huán)能力。

在VLA時(shí)代，數(shù)據(jù)閉環(huán)不僅僅是收集數(shù)據(jù)，收集什么樣的數(shù)據(jù)，如何從海量的量產(chǎn)數(shù)據(jù)中挖掘有用的場(chǎng)景，如何把這些場(chǎng)景用在算法的優(yōu)化上；誰(shuí)能更早把這些問(wèn)題想清楚，誰(shuí)就能在數(shù)據(jù)為王的時(shí)代占得先機(jī)。

此外，VLA還要面臨真實(shí)數(shù)據(jù)與實(shí)時(shí)響應(yīng)的挑戰(zhàn)。真實(shí)世界數(shù)據(jù)涵蓋天氣、光線、行人行為等變量，遠(yuǎn)超合成數(shù)據(jù)的覆蓋能力。例如，閃電或違規(guī)橫穿等關(guān)鍵狀態(tài)難以模擬，需依賴量產(chǎn)車或路側(cè)基站的大規(guī)模部署來(lái)積累。

而實(shí)時(shí)性要求模型在100毫秒內(nèi)響應(yīng)，涉及數(shù)十億參數(shù)的計(jì)算則需強(qiáng)大算力支持。技術(shù)特性決定了VLA的成熟度與落地速度高度依賴數(shù)據(jù)規(guī)模與算力投入。

去年，上車的主流大模型技術(shù)仍以思維鏈CoT及其變種為主（如思維樹(shù)ToT、思維圖GoT、思維森林FoT等），在不同的場(chǎng)景下會(huì)融合生成模型（如擴(kuò)散模型）、知識(shí)圖譜、因果推理模型、累積推理、多模態(tài)推理鏈等技術(shù)。

今年，智駕技術(shù)的重點(diǎn)會(huì)向多模態(tài)推理轉(zhuǎn)移，常用的訓(xùn)練技術(shù)包括指令微調(diào)、多模態(tài)上下文學(xué)習(xí)與多模態(tài)思維鏈（M-CoT）等，通過(guò)多模態(tài)融合對(duì)齊技術(shù)與大模型的推理技術(shù)結(jié)合而成。

在提升汽車智能化方面，也有像MogoMind這類面向真實(shí)物理世界的大模型，其融合多模態(tài)理解、時(shí)空推理、自適應(yīng)進(jìn)化等能力，將交通流量、氣象條件、道路狀況、城市環(huán)境等物理世界實(shí)時(shí)數(shù)據(jù)納入模型訓(xùn)練，通過(guò)整合車輛、道路、云端等多方數(shù)據(jù)，可以進(jìn)行實(shí)時(shí)分析并為精準(zhǔn)決策提供支持，幫助駕駛員和自動(dòng)駕駛車輛即時(shí)優(yōu)化決策。

同時(shí)，通過(guò)大模型對(duì)攝像頭視頻流進(jìn)行實(shí)時(shí)處理，可以為交通管理部門(mén)提供精準(zhǔn)的交通流量分析預(yù)測(cè)與動(dòng)態(tài)優(yōu)化、事故預(yù)警、交通信號(hào)優(yōu)化等服務(wù)。

從CNN到Transformer，再到VLM與VLA，技術(shù)迭代速度令人驚嘆。2025年將成為車端推理與VLA全面進(jìn)擊的元年，各家車企將圍繞算法效率、硬件成本與用戶價(jià)值展開(kāi)“三重博弈”。

可以預(yù)見(jiàn)的是，新一輪智駕格局洗牌正在醞釀，對(duì)于在技術(shù)和數(shù)據(jù)方面具有雙重優(yōu)勢(shì)的車企將進(jìn)一步鞏固市場(chǎng)地位，而未及時(shí)跟進(jìn)的車企則面臨更加嚴(yán)峻的挑戰(zhàn)。無(wú)論是新勢(shì)力的狂飆突進(jìn)，還是傳統(tǒng)巨頭的轉(zhuǎn)型重生，唯有“卷對(duì)方向”的玩家才有可能笑到最后。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.