所有的技術(shù)路線都會(huì)殊途同歸。
如果說(shuō),智能駕駛此前還在圍繞VLM(視覺(jué)-語(yǔ)言模型)與VLA(視覺(jué)-語(yǔ)言-動(dòng)作模型)、一段式與兩段式、無(wú)圖和有圖等維度展開(kāi)競(jìng)爭(zhēng),那么從今年開(kāi)始,智駕競(jìng)爭(zhēng)已悄然進(jìn)入深水,一場(chǎng)更底層的較量正在算力集群與算法架構(gòu)之間展開(kāi)。
無(wú)論是智能駕駛、大模型還是具身智能,其競(jìng)爭(zhēng)焦點(diǎn)正從快速預(yù)訓(xùn)練響應(yīng)轉(zhuǎn)向慢速深度推理。在這場(chǎng)圍繞推理能力的暗戰(zhàn)中,AI將不再僅僅依賴于快速的模式匹配,而是能夠進(jìn)行深入思考,解決更復(fù)雜的問(wèn)題,這將使AI迎來(lái)突破智能瓶頸的“奇點(diǎn)時(shí)刻”。
讓人工智能學(xué)會(huì)“頓悟”
“推理”被視為人工智能發(fā)展的下半場(chǎng),這一變化的發(fā)生并不是偶然。
OpenAI的聯(lián)合創(chuàng)始人伊利亞·蘇茨克維爾(Ilya Sutskever)在溫哥華NeurIPS大會(huì)上明確表示,AI的預(yù)訓(xùn)練時(shí)代已接近尾聲。他指出,當(dāng)前的數(shù)據(jù)資源并不再具有指數(shù)級(jí)的增長(zhǎng),而計(jì)算能力仍在不斷攀升,這意味著我們必須重新評(píng)估和利用現(xiàn)有的數(shù)據(jù),提高其推理效率。
“推理”這一術(shù)語(yǔ)來(lái)源于邏輯學(xué),是系統(tǒng)根據(jù)已知前提,通過(guò)規(guī)則來(lái)產(chǎn)生新的結(jié)論或決策的能力。推理反映了AI在模擬人類思維方面的能力,人類的推理是通過(guò)已有知識(shí)(經(jīng)驗(yàn)或教育)對(duì)新情況進(jìn)行分析,例如“如果天空烏云密布,那么可能會(huì)下雨”。
AI運(yùn)行過(guò)程其實(shí)與上述描述特征基本一致,是因?yàn)樗7铝巳祟惡瓦壿嬒到y(tǒng)中“從已知信息得出未知結(jié)論”的過(guò)程。推理強(qiáng)調(diào)模型利用訓(xùn)練獲得的知識(shí),在不確定的輸入情況下生成合理輸出。
與傳統(tǒng)的數(shù)據(jù)處理和模式識(shí)別有所不同,推理要求系統(tǒng)不僅能夠識(shí)別模式,還能夠理解其背后的原因和邏輯。這是機(jī)器學(xué)習(xí)技術(shù)的漫長(zhǎng)而復(fù)雜的演進(jìn)過(guò)程中的最后一步,就像是人工智能的“頓悟”時(shí)刻。
舉個(gè)例子,學(xué)生學(xué)習(xí)和考試,學(xué)生平時(shí)課堂學(xué)習(xí)、寫(xiě)作業(yè)等,可以看成是AI模型的訓(xùn)練。學(xué)生寫(xiě)作業(yè),老師批改作業(yè),以及老師答疑,都是在給學(xué)生反饋哪些是正確的哪些是錯(cuò)誤的,通過(guò)這個(gè)過(guò)程學(xué)生掌握了課本里面的知識(shí)。
到了考試以后,考題多數(shù)情況下是跟平時(shí)做的題目不一樣,學(xué)生需要利用掌握的知識(shí)來(lái)分析解答考試題目,這個(gè)就是推理的過(guò)程。
但是有一點(diǎn)需要說(shuō)明,考試的知識(shí)點(diǎn)肯定要在課本知識(shí)范圍內(nèi),即考試不能超綱,否則學(xué)生也答不上來(lái)或者答的效果不好。
在AI的下半場(chǎng),推理之所以變得尤為重要,是因?yàn)殡S著應(yīng)用場(chǎng)景的復(fù)雜化和多樣化,簡(jiǎn)單的數(shù)據(jù)處理和分類已經(jīng)無(wú)法滿足需求。比如在智駕領(lǐng)域,系統(tǒng)不僅需要識(shí)別行人、車輛和交通信號(hào),還需要理解它們之間的交互關(guān)系,預(yù)測(cè)未來(lái)的行為,并據(jù)此做出安全、合理的駕駛決策,這就需要強(qiáng)大的推理能力來(lái)支撐。
巴克萊的一份報(bào)告預(yù)計(jì),AI推理計(jì)算需求將快速提升,預(yù)計(jì)其將占通用人工智能總計(jì)算需求的70%以上,推理計(jì)算的需求甚至可以超過(guò)訓(xùn)練計(jì)算需求,達(dá)到后者的4.5倍。
作為AI技術(shù)應(yīng)用的兩大基石,訓(xùn)練(Training)和推理(Inference)決定著AI的智能化水平。
在訓(xùn)練階段,通過(guò)大量數(shù)據(jù)和算法,AI模型學(xué)會(huì)識(shí)別和生成規(guī)律。模型參數(shù)在此過(guò)程中不斷調(diào)整,以最小化預(yù)測(cè)與實(shí)際值之間的誤差,從而使其具備適應(yīng)各種任務(wù)的學(xué)習(xí)能力。
在此過(guò)程中,大模型通過(guò)深度學(xué)習(xí)技術(shù),通過(guò)多層神經(jīng)網(wǎng)絡(luò),對(duì)接收輸入的海量數(shù)據(jù)進(jìn)行學(xué)習(xí)和優(yōu)化,并通過(guò)學(xué)習(xí)調(diào)整模型的參數(shù),以最小化預(yù)測(cè)與實(shí)際值之間的誤差,使其能夠?qū)斎霐?shù)據(jù)進(jìn)行準(zhǔn)確的預(yù)測(cè)。
這通常涉及到使用反向傳播算法和優(yōu)化器來(lái)最小化模型預(yù)測(cè)與實(shí)際標(biāo)簽之間的誤差。為了提高模型的性能,一般需要使用大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練,以確保模型能夠泛化到各種不同的情況。
這種學(xué)習(xí)方式,使得AI模型能夠從數(shù)據(jù)中自動(dòng)提取特征,進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)的自適應(yīng)分析和處理。同時(shí),AI大模型還采用了遷移學(xué)習(xí)技術(shù)這種學(xué)習(xí)方式,使得AI模型能夠從數(shù)據(jù)中自動(dòng)提取特征,將已經(jīng)在其他任務(wù)上訓(xùn)練好的模型,遷移到新的任務(wù)中,大大提高了訓(xùn)練效率。
推理階段則建立在訓(xùn)練完成的基礎(chǔ)上,將訓(xùn)練好的模型應(yīng)用于新的、未見(jiàn)過(guò)的數(shù)據(jù)。模型利用先前學(xué)到的規(guī)律進(jìn)行預(yù)測(cè)、分類或生成新內(nèi)容,使得AI能夠輸出相應(yīng)的預(yù)測(cè)結(jié)果和具有意義的決策。
從類型看,AI推理可以分為批量推理、在線推理、流式推理三種模式。
批量推理得名于其接收和處理數(shù)據(jù)的方式,以大批量的形式進(jìn)行。這種方法并非實(shí)時(shí)處理推理,而是按批次處理數(shù)據(jù),有時(shí)按小時(shí),甚至按天處理,具體取決于數(shù)據(jù)量和AI模型的效率。這些推理也可稱為“離線推理”或“靜態(tài)推理”。
在線推理也稱為“動(dòng)態(tài)”推理,可以實(shí)時(shí)提供響應(yīng)。這類推理需要硬件和軟件的支持,以降低延遲障礙并實(shí)現(xiàn)高速預(yù)測(cè)。在線推理在邊緣場(chǎng)景中很有幫助,即AI在數(shù)據(jù)所在的位置進(jìn)行工作。這也許是手機(jī)上、汽車?yán)铮蛘呔W(wǎng)絡(luò)連接有限的遠(yuǎn)程辦公室中。
OpenAI的ChatGPT便是在線推理的典型范例,它需要大量的前期運(yùn)維支持,才能快速且準(zhǔn)確地作出響應(yīng)。
流式推理未必用于與人類進(jìn)行交互,該模型不是基于提示或請(qǐng)求來(lái)運(yùn)作,而是接收持續(xù)不斷的數(shù)據(jù)流,以便進(jìn)行預(yù)測(cè)并更新其內(nèi)部數(shù)據(jù)庫(kù)。流式推理能夠監(jiān)控變化、保持運(yùn)行規(guī)律,或在問(wèn)題實(shí)際發(fā)生前進(jìn)行預(yù)測(cè)防范。
總的來(lái)看,訓(xùn)練決定模型能力上限,推理決定服務(wù)效能下限。訓(xùn)練環(huán)節(jié)主要存在于算法研發(fā)階段,支撐著模型能力的持續(xù)進(jìn)化。科研機(jī)構(gòu)通過(guò)改進(jìn)訓(xùn)練策略突破技術(shù)邊界,企業(yè)則通過(guò)領(lǐng)域自適應(yīng)訓(xùn)練打造垂直行業(yè)模型。
推理服務(wù)已滲透到各類產(chǎn)業(yè)數(shù)字化場(chǎng)景,比如智駕方面增強(qiáng)長(zhǎng)尾場(chǎng)景的處理能力并提供最優(yōu)路徑規(guī)劃、醫(yī)療領(lǐng)域輔助CT影像分析、金融行業(yè)實(shí)現(xiàn)智能風(fēng)控、教育場(chǎng)景支持個(gè)性化學(xué)習(xí)推薦系統(tǒng)等等,這些應(yīng)用都依賴高效的推理引擎將模型能力轉(zhuǎn)化為實(shí)際價(jià)值。
當(dāng)前AI技術(shù)發(fā)展趨勢(shì)顯示,訓(xùn)練階段正向更高效的稀疏訓(xùn)練、混合專家架構(gòu)(Mixture of Experts,MoE)演進(jìn),而推理優(yōu)化則聚焦于動(dòng)態(tài)批處理、持續(xù)推理等實(shí)時(shí)化技術(shù),兩者的協(xié)同進(jìn)步推動(dòng)著AI技術(shù)落地的深化。
智能駕駛的關(guān)鍵跳板
今年,汽車行業(yè)的智駕之戰(zhàn)明顯比往年來(lái)得更加猛烈。比亞迪的天神之眼、吉利的千里浩瀚、奇瑞的獵鷹智駕,以及廣汽的自動(dòng)駕駛計(jì)劃,這些主流車企的動(dòng)向都說(shuō)明了,如今的車圈已經(jīng)是“得智駕者得天下”的時(shí)代了。
自2023年以來(lái),智駕行業(yè)掀起B(yǎng)EV、端到端技術(shù)浪潮后,車企們正逐步將AI神經(jīng)網(wǎng)絡(luò)融入感知、規(guī)劃、控制等環(huán)節(jié)。比起傳統(tǒng)基于規(guī)則的方案,基于AI、數(shù)據(jù)驅(qū)動(dòng)的“端到端”擁有更高能力天花板。
但在端到端模型之外,車企們還輔以了大語(yǔ)言模型、VLM模型等外掛,提供更強(qiáng)大的環(huán)境理解能力,從而提升智駕能力上限。
與此同時(shí),智駕另一個(gè)技術(shù)趨勢(shì)正在顯現(xiàn),融合了視覺(jué)、語(yǔ)言和動(dòng)作的多模態(tài)大模型范式——VLA正在成為重要的一環(huán)。VLA模型擁有更高的場(chǎng)景推理能力與泛化能力,對(duì)于智駕技術(shù)的演進(jìn)意義重大。從長(zhǎng)遠(yuǎn)來(lái)看,在從L2級(jí)輔助駕駛向L4級(jí)自動(dòng)駕駛的技術(shù)躍遷過(guò)程中,VLA有望成為關(guān)鍵跳板。
在提升汽車智能化方面,新勢(shì)力車企最為激進(jìn)。在近期的NVIDIA GTC 2025大會(huì)上,理想汽車發(fā)布了新一代自動(dòng)駕駛架構(gòu)——MindVLA。它通過(guò)整合空間智能、語(yǔ)言智能和行為智能,賦予自動(dòng)駕駛系統(tǒng)以3D空間理解能力、邏輯推理能力和行為生成能力,并計(jì)劃于2026年量產(chǎn)應(yīng)用。
VLA模型最早見(jiàn)于機(jī)器人行業(yè)。2023年7月,谷歌 DeepMind推出了全球首個(gè)控制機(jī)器人的VLA模型——RT-2。
相比傳統(tǒng)的機(jī)器人模型只能支持少數(shù)的特定指令,RT-2借助于大語(yǔ)言模型強(qiáng)大的語(yǔ)言理解能力,可以直接和用戶進(jìn)行語(yǔ)言交互,并在接收攝像頭的原始數(shù)據(jù)和語(yǔ)言指令后,直接輸出控制信號(hào),完成各種復(fù)雜的操作和各類任務(wù)。
VLA在機(jī)器人領(lǐng)域的成功,很快也應(yīng)用到了智能駕駛領(lǐng)域。2024年10月底,谷歌旗下自動(dòng)駕駛公司W(wǎng)aymo推出了一個(gè)基于端到端的自動(dòng)駕駛多模態(tài)模型——EMMA。
EMMA建立在多模態(tài)大語(yǔ)言模型Gemini之上,將原始攝像頭傳感器數(shù)據(jù)直接映射到各種特定于駕駛的輸出中,包括規(guī)劃者軌跡、感知目標(biāo)和道路圖元素,通過(guò)將所有非傳感器輸入(如導(dǎo)航指令和自車狀態(tài))和輸出(如軌跡和3D位置)表示為自然語(yǔ)言文本,最大限度地利用了預(yù)訓(xùn)練的大型語(yǔ)言模型中的世界知識(shí)。
從技術(shù)路徑看,VLA模型是在VLM基礎(chǔ)上發(fā)展而來(lái)。VLM是一種能夠處理圖像和自然語(yǔ)言文本的機(jī)器學(xué)習(xí)模型,它可以將一張或多張圖片作為輸入,并生成一系列標(biāo)記來(lái)表示自然語(yǔ)言。
然而,VLA不僅限于此,它還利用了機(jī)器人或汽車運(yùn)動(dòng)軌跡的數(shù)據(jù),進(jìn)一步訓(xùn)練這些現(xiàn)有的VLM,以輸出可用于機(jī)器人或汽車控制的動(dòng)作序列。通過(guò)這種方式,VLA可以解釋復(fù)雜的指令并在物理世界中執(zhí)行相應(yīng)的動(dòng)作。
在VLA之前,“端到端+VLM”一直是智駕行業(yè)主流技術(shù)方案。
因?yàn)轳{駛時(shí)需要多模態(tài)的感知交互系統(tǒng),用戶的視覺(jué)、聽(tīng)覺(jué)以及周圍環(huán)境的變化,甚至個(gè)人情感的波動(dòng),都與駕駛行為密切相關(guān)。所以“端到端+VLM”的技術(shù)架構(gòu)中,端到端系統(tǒng)負(fù)責(zé)處理感知、決策和執(zhí)行的全過(guò)程,而VLM則作為輔助系統(tǒng),提供對(duì)復(fù)雜交通場(chǎng)景的理解和語(yǔ)義解析,但兩者相對(duì)獨(dú)立。
以理想“端到端+VLM”雙系統(tǒng)架構(gòu)方案為例,其基于丹尼爾·卡尼曼(Daniel Kahneman)在《思考,快與慢》中提出的人類兩套思維系統(tǒng)理論,將端到端系統(tǒng)(相當(dāng)于系統(tǒng)1)與VLM模型(相當(dāng)于系統(tǒng)2)融合應(yīng)用于自動(dòng)駕駛技術(shù)方案中,賦予車端模型更高的性能上限和發(fā)展?jié)摿Α?/p>
其中,系統(tǒng)1即端到端模型,是一種直覺(jué)式、快速反應(yīng)的機(jī)制,它直接從傳感器輸入(如攝像頭和激光雷達(dá)數(shù)據(jù))映射到行駛軌跡輸出,無(wú)需中間過(guò)程,是One Model一體化的模型。系統(tǒng)2則是由一個(gè)22億參數(shù)的VLM視覺(jué)語(yǔ)言大模型實(shí)現(xiàn),它的輸出給到系統(tǒng)1綜合形成最終的駕駛決策。
雖然“端到端+VLM”大幅提升了智駕水平,但仍有很多問(wèn)題。比如,端到端和VLM要進(jìn)行聯(lián)合訓(xùn)練比較困難,此外還有對(duì)3D空間理解不夠、駕駛知識(shí)和內(nèi)存帶寬不足、難以處理人類駕駛的多模態(tài)性等問(wèn)題。
而VLA通過(guò)統(tǒng)一的大模型架構(gòu),將感知、決策、執(zhí)行無(wú)縫串聯(lián),形成“圖像輸入-語(yǔ)義理解-類人決策-動(dòng)作輸出”的閉環(huán),可以同步提高智駕的上限和下限,實(shí)現(xiàn)空間、行為和語(yǔ)言的統(tǒng)一。
從VLM到VLA的進(jìn)化,就像是從有人指導(dǎo)的初學(xué)者變成了經(jīng)驗(yàn)豐富的老手直接操作,后者相對(duì)更為先進(jìn)且可靠。
在推理方面,VLA模型的能力要遠(yuǎn)高于“端到端+VLM”。基于規(guī)則可能只能推理未來(lái)1秒鐘內(nèi)即將發(fā)生的情況;現(xiàn)階段的端到端可以推理未來(lái)7秒鐘可能發(fā)生的情況;而基于VLA模型的端到端的推理能力能夠長(zhǎng)達(dá)幾十秒。推理時(shí)間越長(zhǎng),意味著在應(yīng)對(duì)復(fù)雜、長(zhǎng)尾場(chǎng)景時(shí)表現(xiàn)更好,比如施工現(xiàn)場(chǎng),潮汐車道、交通指揮手勢(shì)等。
正因如此,VLA被業(yè)界認(rèn)為是端到端2.0的主要技術(shù)形態(tài)。目前,VLA尚處于發(fā)展階段,除DeepMind的RT-2外,還包括OpenVLA模型、Waymo的EMMA、Wayve的LINGO-2、英偉達(dá)NaVILA等。這其中,Waymo的EMMA和Wayve的LINGO-2主要面向的是車載領(lǐng)域,RT-2、OpenVLA和NaVILA則主要面向機(jī)器人領(lǐng)域。
VLA是不是唯一路徑?
技術(shù)層面看,VLA核心在于將VLM的場(chǎng)景理解能力與端到端決策架構(gòu)深度融合,并引入“思維鏈”(Chain of Thought,CoT)技術(shù),這使得它具備了全局上下文理解與類人推理能力,能夠在面對(duì)復(fù)雜的交通場(chǎng)景時(shí),像人類駕駛員一樣進(jìn)行思考和判斷。
例如,當(dāng)遇到前方道路施工、交通信號(hào)燈異常或者其他特殊情況時(shí),VLA模型可以通過(guò)分析視覺(jué)信息和語(yǔ)言指令,快速規(guī)劃出合理的行駛路徑和應(yīng)對(duì)策略。
它還能與乘客或其他車輛進(jìn)行交互,接受并執(zhí)行各種指令。比如,乘客可以直接對(duì)車輛說(shuō)“找最近的加油站”或者“避開(kāi)擁堵路段”,VLA模型就能根據(jù)這些指令自動(dòng)規(guī)劃路線并執(zhí)行駕駛操作。
對(duì)于智駕,VLA模型有相當(dāng)多的優(yōu)勢(shì),其中最大優(yōu)勢(shì)之一就是與現(xiàn)有的大語(yǔ)言模型范式兼容。VLA模型同樣遵從Scaling Law,隨著模型參數(shù)提升,性能也會(huì)提升。同時(shí),用預(yù)訓(xùn)練、后訓(xùn)練、持續(xù)訓(xùn)練改進(jìn)模型。同時(shí)還兼容直接偏好優(yōu)化(DPO)、人類反饋強(qiáng)化學(xué)習(xí)(RLHF)、組相對(duì)策略優(yōu)化(GRPO)等技術(shù)。并且,思維鏈可以直接用于推理決策(比如潮汐車道的思考)。
VLA架構(gòu)通過(guò)深度整合視覺(jué)、語(yǔ)言和行為等多模態(tài)信息進(jìn)行端到端訓(xùn)練,從根本上減少了信息傳遞過(guò)程中的損耗,并顯著提升了模型的泛化能力和對(duì)復(fù)雜駕駛場(chǎng)景的理解能力。這種多模態(tài)的融合使得模型能夠?qū)W習(xí)到視覺(jué)輸入與語(yǔ)言描述之間的對(duì)應(yīng)關(guān)系,從而在做出駕駛決策的同時(shí),也能生成相應(yīng)的自然語(yǔ)言解釋。
例如,模型可能會(huì)解釋“我識(shí)別到前方有行人(視覺(jué)),根據(jù)交通規(guī)則我應(yīng)該減速讓行(語(yǔ)言和行為規(guī)則),因此我執(zhí)行了剎車操作(行為)。”這種將感知、推理和行動(dòng)與語(yǔ)言描述直接關(guān)聯(lián)的能力,使得模型的決策過(guò)程不再是一個(gè)“黑箱”,而是變得可以理解和追溯。
同時(shí),VLA將基于規(guī)則的偏好注入模型,讓VLA符合人類預(yù)期的駕駛決策。這意味著,VLA模型能夠識(shí)別并優(yōu)先考慮安全的駕駛行為,從而減少現(xiàn)實(shí)世界中的不良習(xí)慣。此外,還能選擇人類偏好的最優(yōu)路徑。
VLA模型另一優(yōu)勢(shì)是跨領(lǐng)域通用性,但其落地對(duì)車載計(jì)算平臺(tái)的算力提出了更高要求。 憑借其底層多模態(tài)融合的特性,VLA模型展現(xiàn)出超越汽車領(lǐng)域的潛力,未來(lái)有望應(yīng)用于包括機(jī)器人在內(nèi)的更廣泛的智能設(shè)備,實(shí)現(xiàn)技術(shù)復(fù)用和規(guī)模效應(yīng)。
不過(guò),VLA要想實(shí)現(xiàn)全面上車,還需要解決數(shù)據(jù)與信息深度融合的問(wèn)題。這要求車企的智駕團(tuán)隊(duì)具備強(qiáng)大的模型框架定義能力和快速迭代能力。然而,在當(dāng)前技術(shù)路線驟然升級(jí)的背景下,許多尚未發(fā)力端到端技術(shù)的車企將面臨更高的門(mén)檻。他們需要在短時(shí)間內(nèi)跨越多個(gè)技術(shù)階段,這無(wú)疑增加了他們的難度和成本。
另一個(gè)對(duì)VLA非常重要的挑戰(zhàn)是數(shù)據(jù)閉環(huán)。雖然大語(yǔ)言模型已經(jīng)基于海量的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練,對(duì)于語(yǔ)言和文本已經(jīng)有了非常強(qiáng)的分析能力,但對(duì)于駕駛相關(guān)的視頻數(shù)據(jù)、激光雷達(dá)點(diǎn)云和車輛狀態(tài)等數(shù)據(jù),并沒(méi)有公開(kāi)的海量數(shù)據(jù)可用。而且VLA的關(guān)鍵能力——思維鏈(CoT)需要根據(jù)設(shè)計(jì)的邏輯和問(wèn)題建立定制化的數(shù)據(jù),這就需要車企有非常強(qiáng)的數(shù)據(jù)閉環(huán)能力。
在VLA時(shí)代,數(shù)據(jù)閉環(huán)不僅僅是收集數(shù)據(jù),收集什么樣的數(shù)據(jù),如何從海量的量產(chǎn)數(shù)據(jù)中挖掘有用的場(chǎng)景,如何把這些場(chǎng)景用在算法的優(yōu)化上;誰(shuí)能更早把這些問(wèn)題想清楚,誰(shuí)就能在數(shù)據(jù)為王的時(shí)代占得先機(jī)。
此外,VLA還要面臨真實(shí)數(shù)據(jù)與實(shí)時(shí)響應(yīng)的挑戰(zhàn)。真實(shí)世界數(shù)據(jù)涵蓋天氣、光線、行人行為等變量,遠(yuǎn)超合成數(shù)據(jù)的覆蓋能力。例如,閃電或違規(guī)橫穿等關(guān)鍵狀態(tài)難以模擬,需依賴量產(chǎn)車或路側(cè)基站的大規(guī)模部署來(lái)積累。
而實(shí)時(shí)性要求模型在100毫秒內(nèi)響應(yīng),涉及數(shù)十億參數(shù)的計(jì)算則需強(qiáng)大算力支持。技術(shù)特性決定了VLA的成熟度與落地速度高度依賴數(shù)據(jù)規(guī)模與算力投入。
去年,上車的主流大模型技術(shù)仍以思維鏈CoT及其變種為主(如思維樹(shù)ToT、思維圖GoT、思維森林FoT等),在不同的場(chǎng)景下會(huì)融合生成模型(如擴(kuò)散模型)、知識(shí)圖譜、因果推理模型、累積推理、多模態(tài)推理鏈等技術(shù)。
今年,智駕技術(shù)的重點(diǎn)會(huì)向多模態(tài)推理轉(zhuǎn)移,常用的訓(xùn)練技術(shù)包括指令微調(diào)、多模態(tài)上下文學(xué)習(xí)與多模態(tài)思維鏈(M-CoT)等,通過(guò)多模態(tài)融合對(duì)齊技術(shù)與大模型的推理技術(shù)結(jié)合而成。
在提升汽車智能化方面,也有像MogoMind這類面向真實(shí)物理世界的大模型,其融合多模態(tài)理解、時(shí)空推理、自適應(yīng)進(jìn)化等能力,將交通流量、氣象條件、道路狀況、城市環(huán)境等物理世界實(shí)時(shí)數(shù)據(jù)納入模型訓(xùn)練,通過(guò)整合車輛、道路、云端等多方數(shù)據(jù),可以進(jìn)行實(shí)時(shí)分析并為精準(zhǔn)決策提供支持,幫助駕駛員和自動(dòng)駕駛車輛即時(shí)優(yōu)化決策。
同時(shí),通過(guò)大模型對(duì)攝像頭視頻流進(jìn)行實(shí)時(shí)處理,可以為交通管理部門(mén)提供精準(zhǔn)的交通流量分析預(yù)測(cè)與動(dòng)態(tài)優(yōu)化、事故預(yù)警、交通信號(hào)優(yōu)化等服務(wù)。
從CNN到Transformer,再到VLM與VLA,技術(shù)迭代速度令人驚嘆。2025年將成為車端推理與VLA全面進(jìn)擊的元年,各家車企將圍繞算法效率、硬件成本與用戶價(jià)值展開(kāi)“三重博弈”。
可以預(yù)見(jiàn)的是,新一輪智駕格局洗牌正在醞釀,對(duì)于在技術(shù)和數(shù)據(jù)方面具有雙重優(yōu)勢(shì)的車企將進(jìn)一步鞏固市場(chǎng)地位,而未及時(shí)跟進(jìn)的車企則面臨更加嚴(yán)峻的挑戰(zhàn)。無(wú)論是新勢(shì)力的狂飆突進(jìn),還是傳統(tǒng)巨頭的轉(zhuǎn)型重生,唯有“卷對(duì)方向”的玩家才有可能笑到最后。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.