「自動駕駛已經浪費了太多時間。」
在今年3月的GTC上,Wayve的CEOAlex Kendall指出,自動駕駛行業過去一直聚焦在復雜解法上,比如人工編碼規則和高精地圖。而只有端到端模型,才能真正解決長尾和規模化的問題。
回顧當時的智駕行業,還有不少聲音對他的說法提出質疑。可如今,對于每家相關企業來說,端到端無疑已是「箭在弦上」。
可以說,「拋棄規則,AI競技」,是全行業前所未有的統一局面——雖然還存在細節差異,也有觀望和糾結,但Diss端到端的聲音,幾乎已銷聲匿跡。
在這種「全員端到端」的大一統下,智駕圈加速洗牌,競爭格局更清晰。贏得競賽的條件變得前所未有的清晰,企業之間的差距,也正在被迅速拉開。
有人推翻重來
有人即將「上岸」
在自動駕駛領域,比Kendall更早讓大家發現大模型潛力的,是那篇現象級的論文——
2023年6月,上海人工智能實驗室、武漢大學、商湯科技聯合發表的《Planning-oriented Autonomous Driving》(以路徑規劃為導向的自動駕駛),獲得了該年度的CVPR最佳論文獎。
這篇論文掀起了業內開始對UniAD這種感知決策一體化框架的思路展開了激烈探討;今年,種種爭議已然成為共識,相關企業開始扎堆推出兩段式、N段式、「外掛」VLM、甚至類腦模型等等形形色色的方案。
例如,某車企在今年5月還在強調高精地圖超視距信息的重要性,可到了7月就急忙推出了端到端無圖方案。
當行業還在糾結時,商湯絕影UniAD一段式端到端方案在北京車展就實現了實車部署。如今,他們的端到端智駕量產方案已經與車企開展了量產合作,預計明年即將落地。相比之下,目前大多數企業的方案,都還是感知+規控雙模型,或者索性就在傳統的感知和執行模塊之間,加一個推理大模型作為過渡。
可以看到的是,在端到端「大一統」之下,不同的觀點仍然存在,而同時,企業之間差距也正在拉開。
一段式的挑戰
與兩段式的爭議
可以看到,大家為自家方案站臺的時候,都有著各自的理由。
例如,不止一位專家指出了「兩段式端到端」才更加現實,「一段式端到端」會面臨諸如可解釋性弱、下限太低、不夠成熟等問題;但同時,也會有多家頭部公司堅定不移地認為,只有「一段式」才能救自動駕駛。
例如,Momenta創始人曹旭東曾指出,感知端到端對于墜石、水坑等不好定義的障礙物,容易產生誤判。而一段式端到端可以將感知和規控緊密聯系在一起,學習未定義的物體。
理想汽車智能駕駛副總裁郎咸朋也曾表示,盡管大家都在做端到端,但其中又存在著極大的區別:「串聯式端到端本質上還是傳統思路,而如果是One Model的端到端,其中沒有任何規則,依靠的就是高質量數據。」
由此看來,其實,「一段式端到端」已是大勢所趨,只是其過程充滿挑戰,這也正是快速拉開各家企業差距的過程。
從時間維度來看,馬斯克等最早認識到AI重要性的人,他不止一次表示,只有從早期就All in AI的公司,才能做好自動駕駛。特斯拉、小鵬、商湯絕影、Momenta,乃至蔚來現在都早已經是「強AI屬性」公司。
其中,「原生型AI公司」似乎更是成為了更強的黑馬。例如,亞洲最大的人工智能軟件公司——商湯科技,自2021年成立「絕影」品牌,加速布局智能汽車領域后,迅速率先提出端到端方案,甚至比特斯拉還早。
至于上述的種種爭論點,商湯絕影CEO王曉剛也早已進行了解讀:兩段式方案很容易實現,但它存在大量感知過濾后的信息損失;而且端到端大模型也不會弱化可解釋性——基于Drive AGI多模態大模型,絕影的系統可以讓系統在做出決策時,不僅是輸出軌跡,還可以通過自然語言輸出決策理由。
更重要的是,一段式的UniAD,能直接由傳感器輸入信息,就如同ChatGPT在理解文本后預測出下一個token。它能確保信息無損傳遞,決策更為精準,上限也更高。
在王曉剛看來,如果用一條曲線來表達兩種端到端方案的話,具備推理預測能力的一段式方案是一條通向AGI的上揚曲線,而兩段式方案則只是一條直線,永遠無法觸及ChatGPT時刻。
至于端到端的下限問題,需要從多個維度來考量和優化:其中一方面是規則兜底機制,還有一方面是打造足夠強悍的世界模型來訓練端到端。這也能夠解釋為何今年行業都在大力布局世界模型。
世界模型
可能是最終的數據解法
數據的局限性,至今還在被反復提及,甚至可以說,它是扼住端到端喉嚨的一只手。
清華大學的李克強院士曾表示,現在做大模型,最大的挑戰就是無法保證訓練數據的海量性和完備性。
王曉剛也曾直言:「100萬的數據,99%的數據都是比較簡單的,剩下的1%是很難找的。」
在此背景下,世界模型將在端到端時代發揮巨大的作用,但前提還得是「靠譜」的世界模型。
今天,商湯絕影在「實力AI DAY」上,全新升級了「開悟」世界模型。它基于全棧自研模型體系,理解真實世界的物理規則和交通規則,可生成11v時空一致、1080P高清、10FPS幀率、150s時長的視頻,同時支持文本、圖像/視頻、3D Layout、HDMap、Action等多模態輸入,并依據這些精細化控制條件生成目標場景數據。
世界模型的另一個重要能力,就是場景預測生成。在這方面,「開悟」能通過對多種可能性預測,產生多樣的自動駕駛場景及Corner case,使訓練數據分布更均勻,且單卡(A100)每天能生成2w bundle。
可以說,這代表著目前自動駕駛最尖端高效的世界模型水平。類似「開悟」這樣的世界模型,無疑可以成為車企端到端模型開發與驗證工具。
今年Wayve、英偉達等都紛紛發布了其世界模型的進展,蔚來也表示其世界模型NWM能夠「想象出一個平行世界」。
其實,商湯絕影早在2023年底就已推出自動駕駛世界模型,該模型能夠生成人車混行、環島路口等復雜城市場景,甚至可以復刻8D城市構造。
如今經過迭代升級,「開悟」生成的虛擬場景和交通流等數據更加逼真。而且這些數據不僅可用于訓練和優化智能駕駛系統,還可用于系統診斷和性能評估,從而形成一個端到端的數據閉環。
算力資源競賽
EFLOPS前的「個位數」還能掛多久?
如果說,數據是端到端面臨的最大挑戰,那算力問題則緊隨其后。算力資源是現在必須的「軍備競賽」,也是自動駕駛研發者快速迭代、可持續發展的根基。
與特斯拉100EFLOPS的算力水平相比,早早與阿里合作成立智算中心的小鵬,宣布其算力將會達到4.2 EFLOPS,蔚來為1.5 EFLOPS,理想是5.39 EFLOPS,華為有7.5 EFLOPS,百度的極越,則是5.5 EFLOPS……(基于網絡公開信息)如此看來,國內企業的算力水平還有極大的提升空間,如何快速提升「軍備」,也是贏得競賽的關鍵。
相比起來,依托于SenseCore商湯大裝置的絕影,在算力儲備上有著天然優勢。由此,絕影目前可以利用超過5.4萬塊GPU,總算力規模高達20 EFLOPS!
商湯這種「萬卡超大集群」,直接決定了其「日日新」大模型體系的迭代速度——目前,經過五個大版本迭代,全新升級的「日日新SenseNova 5.5」大模型體系更是推出了行業首個「云、端、邊」全棧大模型產品矩陣。
直觀一點來看的話,「商湯大裝置」能夠保持90%的加速效率,在訓練穩定性上可實現超30天不間斷訓練,診斷恢復時長優化到半小時。
為了保持這種「軍備競賽」的領先性,商湯絕影還宣布其算力會持續增長——預計到今年年底,其運營算力規模將增長25%,達到25,000 P。
數據、算力,保住下限,無限拉高上限……聽起來很難,但卻已經成為端到端時代的必備能力。
今年,我們聽過了許多華麗的演講,以及各色方案邏輯。但其實,現在是智駕競爭力最容易被量化的時代。
當然,另一個量化指標,還是量產落地。這不僅是最直接的技術實力衡量標準,也是商業化可持續運轉的標志。
從一些主流智駕公司公布的數字來看,其裝車量產數量從2萬臺、10萬臺到50萬臺不等。如今,「是否拿到主力車型定點」「能否奪得市場份額」已是當下內卷時代對技術供應商的關鍵參考。
在云端,無論是世界模型能力還是算力儲備,商湯絕影是絕對的第一梯隊;在車端,王曉剛帶領團隊也在向智駕第一梯隊加速沖刺。
在絕影實力AI DAY上,王曉剛不僅宣布了UniAD已簽署多項戰略合作協議,明年將實現系列產品量產交付,還公布了幾個數字:
目前,商湯絕影已經有了大量量產落地的案例,預計到今年年底,累計交付車輛數將超350萬輛,覆蓋100多個車型。
這些數字令人意識到,除了圈內盛傳的「地大華魔」之外,一個強勁的對手同樣沖在了前方——無論是技術維度還是市場維度。
如今看來,在行業標桿級「開悟」世界模型的支持下,UniAD將憑借其無限高的上限,成為商湯絕影下一輪競爭中的殺手锏。根據視頻演示可以看到,應用UniAD的車輛僅依靠純視覺,就可在復雜城市道路和無中線的鄉村道路上完成一系列擬人操作,這種效果一旦得到量產驗證,或許甚至能改變整個行業的競爭格局。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.