撰文 | 張祥威 編輯|馬青竹
2024年中,理想汽車發(fā)布名為“端到端+VLM”的雙系統(tǒng)架構(gòu),端到端跑在一顆Orin X芯片上,VLM(視覺語言模型)跑在另一顆Orin X上。
有玩家很快叫陣。
“(雙系統(tǒng))是一個落后的架構(gòu),可能比新手司機(jī)會強(qiáng)一點。打個比方,VLM像是讓車上坐了一個教練。”
元戎啟行CEO周光在一次分享中稱。并提出另一個自認(rèn)更好的模型——VLA,可以讓教練直接開車的模型。
“我們現(xiàn)在沒上VLM,預(yù)計明年推出VLA。”一名元戎啟行內(nèi)部人士告訴我們,元戎啟行的智駕方案搭載在魏牌藍(lán)山上,當(dāng)前僅需一顆Orin X芯片。
商湯絕影CEO王曉剛則告訴我們,不否認(rèn)VLA是端到端的下一代技術(shù)方向,只是不會那么快。
“端到端的發(fā)展還是要經(jīng)歷一個過程,包括基礎(chǔ)設(shè)施、數(shù)據(jù)積累、數(shù)據(jù)仿真。要真正發(fā)揮它的威力,這不是一蹴而就的。”
上個月,商湯絕影拋出名為“開悟”的世界模型,可生成仿真數(shù)據(jù),與量產(chǎn)實車采集的真實數(shù)據(jù)結(jié)合,共同重建物理世界。
VLM、VLA、世界模型……,概念不斷涌現(xiàn),代表智駕玩家的技術(shù)路線和投入重心。
據(jù)《出行百人會/AutocarMax》了解,以VLA為代表的技術(shù)路線,側(cè)重車端模型,而以世界模型為代表的技術(shù)路線,側(cè)重云端模型。
概念的另一方面,是用戶購車的隱形成本。
比如,如果單顆Orin X可以搞定端到端1.0模型,那么,那些搭載兩顆Orin X芯片的車,是否存在算力浪費?
隨著下一代端到端到來,算力需求更大,各方再次爭奪智駕話語權(quán)。誰在真正做事,誰又在蹭概念?車端和云端,當(dāng)下與長遠(yuǎn),究竟如何權(quán)衡?
車端,還是云端?
“未來競爭的核心在云端。”
代表是小鵬汽車。大致思路:車端算力有限,所以先在云端探究更強(qiáng)的能力,然后在車端實現(xiàn)降維。
根據(jù)小鵬的架構(gòu),云端大模型通過知識蒸餾,形成車端的端到端大模型。云端大模型還被用于世界模型和數(shù)據(jù)的清洗和挖掘。
對云端的重視,也讓世界模型的智駕方案供應(yīng)商有了用武之地。
按照商湯絕影的“開悟”世界模型,基于商湯20 EFLOPS的云端算力,將能夠用“實車道路采集+世界模型生成”雙輪驅(qū)動,實現(xiàn)Corner Case數(shù)據(jù)生成。
云端頭部智駕玩家,近一兩年展開云端算力競賽。
數(shù)據(jù)顯示,去年9月問界 M7 改款發(fā)布會時,余承東披露華為云端算力為1.8 EFLOPS。最新數(shù)字已經(jīng)到了7.5 EFLOPS。
今年7月,理想汽車公布云端算力2.4 EFLOPS,最新數(shù)字是5.39 EFLOPS。小鵬汽車當(dāng)前云端算力2.3 EFLOPS,預(yù)計明年達(dá)到10 EFLOPS。
不同于重云端一派,另一派認(rèn)為,應(yīng)該發(fā)力車端模型。
一個代表是理想。除大力加快云端算力儲備,理想已對車端模型進(jìn)行布局。
今年7月,理想詳細(xì)解釋了自家端到端的做法,也就是那套“端到端+VLM”的雙系統(tǒng)。其中,VLM模型的參數(shù)規(guī)模為2.2B,部署在車端芯片也就是一顆Orin X上,用來指導(dǎo)另一顆Orin X上的端到端模型。
理想的VLM模型,具備復(fù)雜場景的理解能力、讀懂導(dǎo)航地圖能力,以及交通規(guī)則的理解能力。接下來,VLM還將用于識別交警手勢、施工改道等更復(fù)雜的場景。
這套雙系統(tǒng)架構(gòu),讓車輛初步具備對周圍物理世界的理解能力。如今,端到端+VLM的技術(shù)路線,已經(jīng)有了跟隨者。
“我們明年上VLM。Corner Case和語義信息的解讀,如可變車道這種信息,得調(diào)用VLM看路上信息。”一名極氪內(nèi)部人士告訴《出行百人會/AutocarMax》。
在浩瀚智駕2.0 端到端PLUS架構(gòu)中,赫然可見“多模態(tài)大語言模型”,也正是上述極氪人士口中的VLM,極氪采用與理想相同的雙Orin X芯片方案。
不過,將VLM用于指導(dǎo)端到端,尤其是與端到端模型分開跑在兩顆芯片上,這一做法或許并非終點。
“兩個模型,資源占用方面不是最高效的方式,會降低模型效果。本質(zhì)上,兩個模型能夠融合在一起,只不過,現(xiàn)在的數(shù)據(jù)還不能支撐一個模型訓(xùn)練好。”一名智駕供應(yīng)商高管表示,“這是一個過渡階段,將來還是會融合。”
理想智駕人士則告訴我們,“端到端的下一代,有幾個方向我們都在看,VLA、世界模型以及類似特斯拉的做法,通過擴(kuò)大端到端模型的體量,訓(xùn)練出VLM的早期認(rèn)知能力。”
元戎啟行則更加堅定看好車端模型。
其大致思路:自動駕駛端到端相當(dāng)于進(jìn)入GPT2時代,關(guān)鍵點在于車端模型的能力。
“車端的端到端VLA,跟真正的大語言模型比起來是個小網(wǎng)絡(luò)。”到了GPT 3時代,Scaling law非常重要,前提依然是要有正確的架構(gòu)。
2019 年, OpenAI 發(fā)布 GPT2 ,基于 transformer 的大型語言模型,包含 15 億參數(shù)。次年, GPT3 問世,參數(shù)規(guī)模達(dá)到 1750 億。
在周光看來,VLM像端到端1.0,VLA和VLM最大的不同,在于時間層面的推理能力。“基于Rule-Base,可能是1秒鐘的推理能力。端到端1.0(VLM)可能是7秒鐘,VLA可能達(dá)到幾十秒。”
“VLA部分結(jié)合了世界模型,具體多少不好描述,可以理解為跟駕駛相關(guān)的世界模型。”元戎啟行技術(shù)副總裁劉軒告訴我們。
“之前做泛化測試時,遇到過一個特別離譜的路口。直行等紅燈,下面豎了一塊牌子:‘保持安全的情況下紅燈可以直行’。就算是人類駕駛員,尤其外地人,看到這個路口肯定也懵。這些和駕駛相關(guān)的信息,需要世界模型進(jìn)行理解。”
劉軒不看好重云端一派的部分做法。
“為什么不直接放在車端,難道要在云端做實時訓(xùn)練嗎?在云端訓(xùn)練好的模型,不能裁剪然后塞到車上。總要測試吧,如果最終要在車端測試,為什么不直接放在車端?”
至于擴(kuò)大端到端模型的體量,劉軒認(rèn)為,“特斯拉具體怎么做,我們不清楚。不過對通過擴(kuò)大端到端模型體量擴(kuò)展出VLM認(rèn)知這一方向表示懷疑。這有點像一個人一直練開車,有一天突然能寫好文章的感覺。當(dāng)然,不排除有人能做到。”
下一代端到端,影響重重
端到端向下一代進(jìn)化,會帶來多層沖擊。
以O(shè)rin X為例,支持VLM模型已經(jīng)接近極限。下一代端到端模型,適合采用更大算力的芯片,比如英偉達(dá)Thor芯片,其它如地平線J6P等國內(nèi)大算力芯片,均需接受檢驗。
能用好更大算力芯片的智駕供應(yīng)商,會在端到端之戰(zhàn)后留在牌桌。
造車新勢力如蔚來、小鵬自研的神璣NX031、圖靈AI芯片,也將很快接受檢驗。以小鵬圖靈AI芯片為例,最高可運行30B大模型參數(shù),更方便下一代端到端大模型的部署,云端模型的下放,理論上更加便捷。
提升車輛交付規(guī)模,也是角逐下一代端到端的要求。
周光認(rèn)為,“端到端1.0,萬臺規(guī)模級的車就有挺好的效果。真正做VLA,10萬臺可能是一個入門券。”
所以,下一代端到端的競爭,也要看誰能更快達(dá)到10萬臺交付規(guī)模。
Robotaxi也會被下一代端到端影響。
上個月,Waymo宣布最新研究成果,基于多模態(tài)大語言模型Gemini推出的EMMA模型,又稱端到端多模態(tài)自動捷駕駛模型。
本質(zhì)上,EMMA被業(yè)內(nèi)人士稱為VLA模型,也是對傳統(tǒng)L4的革新。基于這類下一代端到端模型,Robotaxi完成商業(yè)閉環(huán),或能早日實現(xiàn)。
大算力芯片也會讓艙駕一體方案到來。這對于自動駕駛算法、座艙方案供應(yīng)商的融合,提出了新挑戰(zhàn)。
眼下,一些重云端的玩家并不能放松。
目前智駕方案中,元戎啟行、Momenta等玩家基于單顆Orin X芯片,小鵬、理想等則以采用雙Orin X方案為主。
在車端,由于一個自動駕駛大模型大多只能在一顆芯片上運行,所以,那些目前在兩顆Orin X上跑“端到端”的玩家,模型是如何部署的,是否存在算力浪費?
長遠(yuǎn)來看,元戎啟行等注重車端模型的玩家,也要面臨檢驗,即,基于VLA的模型部署,在數(shù)據(jù)質(zhì)量、迭代效率上,能否追得上那些動輒10E FLOPS的重云端玩家。
總之明年,大概率又將是概念滿天飛。
“小心VLA的偷換概念,就像現(xiàn)在的端到端一樣。”一名造車新勢力智駕人士笑道。
—THE END—
出行百人會 | AutocarMax
追蹤汽?出行產(chǎn)業(yè)鏈進(jìn)化,關(guān)注新產(chǎn)品、新科技、商業(yè)邏輯與商業(yè)人物,影響圈層中有影響力的人。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.