「今天智能駕駛整體上離盈利還有一定的距離,在交付過程當中,如果大家各方面資源和數據工具鏈沒有對齊,往往會造成重復的投入,誰將來能夠提升我的效率,有高性價比的交付,誰就能夠走得更遠,所以我們跟大卓的合作就是基于這樣的認知,也是按這種方式進行推進的。」商湯絕影王曉剛表示其有意推動車企與AI企業建立一種新模式的合作。
文丨智駕網 王欣
編輯 | 雨來
端到端不夠,世界模型也正成為智駕大戰的基礎設施。
11月28日,商湯絕影舉辦了自己的第一個 AI DAY,全面展示了其「駕-艙-云」三位一體的AGI產品體系與戰略布局。
在此次活動中,商湯絕影首次推出了智能座艙大模型創新產品「A New Member For U」,以及「車云一體」的產品矩陣,涵蓋了高速、城區以及泊車等全場景的高階智駕和端到端智駕產品體系,并全新升級了「開悟」世界模型,以強化數據基礎設施。
熟悉商湯絕影的人都知道,CVPR那篇現象級論文《Planning-oriented Autonomous Driving》讓它上了岸。
自此,業界掀起了一場對UniAD這種感知決策一體化框架思路的激烈探討,于是,各種監督式智駕、直覺智駕、兩段式等華麗辭藻不斷賦予端到端技術本身。
但做產品和發論文,到底是不同的。
01.
世界模型開悟來了
悄然間,世界模型已經站在智駕高地,被視為衡量一家車企智駕能力的新風向標。
商湯絕影在這次AI DAY發布的世界模型——開悟,便是最大看點之一。
而一個世界模型其最基礎、最核心的能力是升級高質量視頻數據。
通過模擬人類的認知過程,使機器系統能夠理解和預測復雜環境中的未來情景,從而實現自主決策和行動。
其原理在于,人為地創造一個像大腦一樣具備思考能力的智能體。
它可以理解真實世界中的物理法則和交通規則,在這個基礎上準確的生成場景。
在真實的基礎上,「開悟」生成的場景視頻時間最長為 150 秒、分辨率可達 1080P、視角可以實現 11V,生成的數據可以做到更加逼真。
在發布會現場,「開悟」展示了一段生成視頻案例,視頻畫面中晴朗天氣下,汽車、路燈都是有影子的,而在雨天,積水的路面能夠顯示出卡車的倒影。
晴天下周邊環境的投影、夜間車輛遠近近光的投射,都是符合物理法則的真實呈現。
那么,有人問了,理解真實世界的物理法則,很容易嗎?
其實很難。
此前,圖靈獎得主Yann LeCun曾明確表示,基于文本提示生成的逼真視頻并不代表模型真正理解了物理世界。之后他更是直言,像Sora這樣通過生成像素來建模世界的方式注定要失敗。
現在,依靠采集車、量產車等所提供的數據,越來越難以滿足端到端智駕持續成長和迭代的需求,通過大模型生成仿真數據,用「真實數據+仿真數據」的合成數據訓練是必然趨勢。
商湯絕影正在構建一套量產智駕產品體系和世界模型深度融合的車云一體智駕新范式。
智能座艙層面,商湯絕影發布了「A New Member For U」(你的家庭新成員),號稱讓汽車擁有有趣的靈魂。
其背后的技術底座是商湯絕影的原生流式多模態大模型、車載類人記憶框架和持續運行框架。
絕影的「記憶框架」分為臨時記憶、場景記憶和長期記憶三部分。
臨時記憶能夠快速捕捉車內外環境中的瞬時信息,比如車速、溫度、光線變化等;場景記憶則動態管理用戶當前的交互內容,比如導航歷史、音樂偏好等;長期記憶則是一種自我迭代的能力,能從用戶的長期使用中總結規律并不斷優化。
這三者組成的記憶框架,支持毫秒級的動態記憶檢索,覆蓋人、車、物、環境四大類別,并涉及 100 多個記憶維度。
此外,商湯絕影還打造了能夠持續推理的Always-on運行框架,能夠將多模態感知到的信息與各種記憶相結合,進行高效的處理和反饋,做到時刻感知需求,主動為用戶服務。
技術只是路徑,商業化落地和量產才是所有工程師努力達到的結果。
02.
商湯絕影的商業化落地和量產智駕
商湯絕影透露的商業化進展顯示:智駕、智艙產品上車數量超過350萬輛,覆蓋超過30家車企100多款車型。同時已經與超 30 家車企合作,覆蓋 100 多款車型。
絕影的座艙大模型,已經上車小米SU7(參數丨圖片)、智己、LEVC 380等車型;智駕產品的量產方案上,已落地3個品牌、6款車型,基于 CVPR 最佳論文 UniAD 打造的一段式端到端量產方案預計將在明年量產交付。
絕影目前公開的智駕量產方案上,有6款車,覆蓋3個車企。
在本屆AI DAY上,絕影展示了基于不同算力平臺(如J6E、J6M、Orin)打造的全場景高階智駕和端到端智駕產品體系;
分為3 個版本——
AD Pro:基于征程 6E 芯片打造,算力 80 TOPS。感知系統包括 7 個攝像頭、多個雷達。
AD Max:基于征程 6M 芯片打造,算力 128 TOPS。感知系統包括 11 攝像頭、多個雷達。
AD Ultra:采用一段式端到端技術,基于英偉達 Orin / Thor 芯片打造,算力超過 200 TOPS。感知系統包括 11 攝像頭、多個雷達,支持激光雷達,支持點到點智駕、L3 級高速領航,最高支持端到端城區領航。
商湯絕影 200+TOPS的這套無圖純視覺的端到端方案,已經與大卓智能、東風汽車等達成戰略合作,量產交付也正在推進中。而絕影的量產端到端智駕方案,預計明年四季度能夠交付落地。
在通往AGI未來的路上 ,商湯科技聯合創始人、首席科學家,商湯絕影CEO王 曉剛也在探索一條全新的合作模式。
因為在AGI時代,用王曉剛的話說——單打獨斗的車企和AI公司都很難脫穎而出。
絕影對于新合作模式的構想是,不再是一個簡單的智艙或智駕模塊化的供應商,而是和主機廠深度合作,成為一家分享商湯積累已久的AI大算力裝置、云服務、工具鏈等能力的六邊形戰士。
「今天我們可以看到智能駕駛整體上離盈利還有一定的距離,也就是說,在交付過程當中,如果大家各方面資源和數據工具鏈沒有對齊,往往會造成重復的投入,誰將來能夠提升我的效率,有高性價比的交付,誰就能夠走得更遠,所以我們跟大卓的合作就是基于這樣的認知,也是按這種方式進行推進的。」王曉剛說。
03.
「端到端的難點」攪動智駕市場格局
王曉剛曾用偵探小說比喻商湯絕影乃至整個行業面臨和攻克的智駕端到端大模型難題。
往往,Who、How and Why,是一本偵探推理小說最大的樂趣,小說末尾,作者會問兇手到底是誰,預測兇手,并最終確認兇手。
這和智駕大模型的邏輯有相似之處:推理兇手,需要對整本書有完整的理解,兇手判斷難度越大,故事越精彩,正如預測下一個Token,內容越豐富,信息越多,難度越大,需要上千億參數的大規模模型去完成。
王曉剛曾言,端到端大模型是智能駕駛領域的「ChatGPT時刻」,通用能力和涌現能力極強。但真正的「端到端」大模型,實現難度很大。
更具體一點,可以說是難在實現一段式的端到端。
理想汽車智能駕駛副總裁郎咸朋也曾表示,盡管大家都在做端到端,但其中又存在著極大的區別:串聯式端到端本質上還是傳統思路,而如果是One Model的端到端,其中沒有任何規則,依靠的就是高質量數據。
Momenta創始人曹旭東曾指出,感知端到端對于墜石、水坑等不好定義的障礙物,容易產生誤判。而一段式端到端可以將感知和規控緊密聯系在一起,學習未定義的物體。
從感知端到端、兩段式端到端、模塊化端到端到單一神經網絡模型的One Model端到端,難度逐級遞增,不同的企業,選擇從不同的階段切入,雖然都號稱「端到端」,但做到單一端到端的玩家卻極少。
因為,這足夠考驗企業是否具備足夠的算力、實際的工程化能力和落地能力,這三道難題也是智駕供應商們闖關端到端的三重門。
邁過去了就是門,沒邁過去就是檻兒。
端到端的確給了所有玩家上牌桌的機會,但每一項技術的進步也通常代表需要犧牲掉一批「不幸者」來繼續推動。
這是快速拉開各個企業差距的催化劑,也是打開市場新格局的一次契機。
在回答媒體提問的所謂「地大華魔」(地平線、大疆車載、華為、Momonta)這樣量產智駕頭部玩家的格局時,絕影回應稱:這樣的評價體系已經成為過去式。
在行業推進量產的路上,研發范式已從規則驅動轉變為數據驅動,所以商湯提出的觀點是決勝不在車,不在端到端算法本身,而在云端的世界模型,通過實車采集和仿真生成「雙輪驅動」的數據閉環,形成雙輪驅動的車云一體。
當足夠強悍的世界模型來訓練端到端時,端到端的下限問題就解決了一半,這也是今年行業著重大力布局世界模型的根本所在。
王曉剛此前曾透露,商湯2019年的算力規模為700 PFLOPS,今年年底原計劃18000 PFLOPS,但從現階段的實際部署看,最終可以達到20000 PFLOPS。
「100萬的數據,99%的數據都是比較簡單的,剩下的1%是很難找的。」這是王曉剛的語錄之一。
作為Call Back,王曉剛給出了具體的數據最新進展:
目前絕影智駕研發中20%的數據,都是由開悟世界模型生成。世界模型的另一個重要能力,就是場景預測生成。
在一塊A100 GPU上,「開悟」平均每天可以生產大約2萬個bundle,相當于100臺路測車的數據采集能力,能通過對多種可能性預測,產生多樣的自動駕駛場景及 Corner case,使訓練數據分布更均勻。
而這樣的GPU,商湯擁有超過5.4萬塊。
基于龐大的算力部署,商湯絕影能夠以云側、端云結合、端側等全棧方式靈活部署多模態大模型,讓商湯原生多模態能力快速落地智能汽車。
最后,商湯絕影還強調一點:「我們是走完全To B,沒有任何主導C端整車意愿的產品策略。」
這些現象給行業的一番啟示是,未來的車載大模型,車端的工程化會逐漸減弱,而后臺的基礎設施則會變得更重要。
【關注智能駕駛,關注智駕視頻號】
關注汽車的智駕時代上智駕網(http://autor.com.cn)
合 作or新聞線索提供,聯系郵箱:editor@autor.com.cn
聯絡交流,文章轉載,添加作者微信:xinwell0709
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.