“一場(chǎng)暴雨讓我們(商湯)正式結(jié)緣汽車(chē)。”
11月27日,2024“絕影實(shí)力AI DAY”發(fā)布會(huì)上,商湯絕影CEO王曉剛對(duì)外分享了絕影進(jìn)入智能汽車(chē)領(lǐng)域的故事。
那是2017年3月的一天,日本自動(dòng)駕駛測(cè)試場(chǎng)地下起了瓢潑大雨。
“當(dāng)時(shí)基于激光雷達(dá)、慣導(dǎo)等一系列昂貴且復(fù)雜的硬件自動(dòng)駕駛系統(tǒng)甚至完全無(wú)法正常啟動(dòng)。而絕影的純視覺(jué)方案僅靠?jī)蓚€(gè)攝像頭,就順利完成了整個(gè)自動(dòng)駕駛的測(cè)試。”王曉剛稱(chēng),正是這次暴雨讓商湯正式結(jié)緣汽車(chē),同時(shí)純視覺(jué)的智駕方案也是其端到端研究的起點(diǎn)。
由此,商湯絕影與本田建立起了長(zhǎng)期戰(zhàn)略合作。
隨后幾年時(shí)間,伴隨著人工智能領(lǐng)域的進(jìn)步,商湯也加速了在智能汽車(chē)領(lǐng)域布局,并開(kāi)始逐步上車(chē)。
2020年,商湯量產(chǎn)首發(fā)了“人臉識(shí)別解鎖車(chē)門(mén)”;2021年,商湯絕影智能汽車(chē)平臺(tái)獨(dú)立新品牌發(fā)布;2022年,絕影提出了行業(yè)首個(gè)端到端自動(dòng)駕駛的解決方案;2024年,絕影大模型全面助力小愛(ài)同學(xué)在車(chē)載語(yǔ)音場(chǎng)景應(yīng)用……
商湯絕影在汽車(chē)圈布局
截至今年年底,絕影服務(wù)的車(chē)企超過(guò)30家,覆蓋車(chē)型超過(guò)100款,交付總量累計(jì)將超過(guò)350萬(wàn)輛。
在王曉剛看來(lái),絕影能夠快速落地,很大程度得益于商湯的大裝置:54000塊GPU,運(yùn)營(yíng)總算力規(guī)模達(dá)到2萬(wàn)P的算力支持。
而依托于強(qiáng)大的算力基礎(chǔ)設(shè)施,絕影構(gòu)建了駕艙云三位一體的產(chǎn)品體系,并且還在持續(xù)帶來(lái)新的產(chǎn)品:智能座艙大模型產(chǎn)品“A New Member For U”、量產(chǎn)智駕產(chǎn)品體系,以及“開(kāi)悟”世界模型。
01
智能座艙擁有了“類(lèi)人”記憶
智能座艙是商湯智能汽車(chē)業(yè)務(wù)的先頭兵,也是當(dāng)下商業(yè)化落地最快的業(yè)務(wù)。
第三方調(diào)研數(shù)據(jù)顯示,商湯絕影在座艙視覺(jué)AI軟件市場(chǎng)的份額連續(xù)五年蟬聯(lián)第一。此外座艙AI大模型產(chǎn)品已上車(chē)小米SU7(參數(shù)丨圖片)、智己、LEVC L380等車(chē)型。
A New Member For U具有三大特性
此次發(fā)布會(huì)上,商湯絕影又帶來(lái)了智能座艙新產(chǎn)品:A New Member For U(你的家庭新成員)。
在王曉剛看來(lái),New Member具備三大特性,察言觀色、無(wú)時(shí)不在、與你心有靈犀。
例如,在旅途中,后排的孩子睡著了,New Member會(huì)主動(dòng)把空調(diào)溫度升高、音樂(lè)的聲量調(diào)低,底盤(pán)和駕駛模式都調(diào)整為舒適模式,給小朋友一個(gè)舒適安心的睡眠環(huán)境。這不需要用戶(hù)下指令,而是它觀察到了,思考和推理之后,主動(dòng)的服務(wù)。
上述特性的實(shí)現(xiàn),背后依靠的是三大技術(shù)的支撐,分別對(duì)應(yīng)的是原生流式多模態(tài)大模型、車(chē)載類(lèi)人記憶框架和持續(xù)運(yùn)行框架。
其中,原生流式多模態(tài)大模型,具備全場(chǎng)景多模感知能力,無(wú)論是文字、圖像、音頻還是視頻,它都能以端到端優(yōu)化的方式,實(shí)現(xiàn)對(duì)這些信息的全面感知和理解,并擁有強(qiáng)大的理解和推理能力。
同時(shí),商湯絕影還針對(duì)車(chē)載場(chǎng)景進(jìn)行了定制訓(xùn)練,使其更適應(yīng)車(chē)輛內(nèi)外的特定場(chǎng)景。當(dāng)汽車(chē)能看見(jiàn)、聽(tīng)見(jiàn)、感受到,它便有了理解世界、理解人類(lèi)的能力。
車(chē)載類(lèi)人記憶框架
“有了車(chē)載類(lèi)人記憶框架,New Member才能夠更懂你,為你提供專(zhuān)屬服務(wù)”。王曉剛介紹,絕影的“記憶框架”分為臨時(shí)記憶、場(chǎng)景記憶和長(zhǎng)期記憶三部分。
臨時(shí)記憶能夠快速捕捉車(chē)內(nèi)外環(huán)境中的瞬時(shí)信息,比如車(chē)速、溫度、光線變化等;場(chǎng)景記憶則動(dòng)態(tài)管理用戶(hù)當(dāng)前的交互內(nèi)容,比如導(dǎo)航歷史、音樂(lè)偏好等;長(zhǎng)期記憶則是一種自我迭代的能力,能從用戶(hù)的長(zhǎng)期使用中總結(jié)規(guī)律并不斷優(yōu)化。
這三者組成的記憶框架,支持毫秒級(jí)的動(dòng)態(tài)記憶檢索,覆蓋人、車(chē)、物、環(huán)境四大類(lèi)別,并涉及100多個(gè)記憶維度。例如,它能在用戶(hù)第二次使用時(shí)記住其第一次提出的偏好建議。
此外,它不僅能夠記住用戶(hù)的喜好,還能基于場(chǎng)景和需求進(jìn)行總結(jié)、增強(qiáng)和反思,甚至遺忘不必要的信息。
持續(xù)運(yùn)行框架則是端云協(xié)同的,它的場(chǎng)景任務(wù)有80%是在端側(cè)完成的。
據(jù)王曉剛介紹,這一框架有多項(xiàng)核心技術(shù)的亮點(diǎn)。它可以持續(xù)的推理,有基于記憶反饋的閉環(huán);零拷貝傳輸,數(shù)據(jù)延時(shí)可以控制在1毫秒以下,確保所有感知模塊能夠協(xié)同工作;推理速度可以達(dá)到40Token每秒,首包延時(shí)60毫秒,同時(shí)還覆蓋了英偉達(dá)、高通、聯(lián)發(fā)科等平臺(tái),絕大部分的車(chē)型都可以快速落地應(yīng)用。。
“聽(tīng)到這里,可能有人會(huì)擔(dān)心數(shù)據(jù)隱私怎么辦?”王曉剛稱(chēng),這一切都是在商湯絕影打造的隱私保護(hù)體系之下,包括語(yǔ)料安全、安全對(duì)齊訓(xùn)練、安全測(cè)評(píng)、上線確認(rèn)等環(huán)節(jié),保障“數(shù)據(jù)跟人走”,“隱私數(shù)據(jù)不出車(chē)”等數(shù)據(jù)安全,實(shí)現(xiàn)敏感場(chǎng)景識(shí)別、價(jià)值觀對(duì)齊等場(chǎng)景安全。
商湯絕影隱私保護(hù)體系
不止國(guó)內(nèi),面向海外市場(chǎng),商湯絕影也進(jìn)行了座艙視覺(jué)AI產(chǎn)品矩陣的升級(jí)。
E-NCAP(歐盟新車(chē)安全評(píng)鑒協(xié)會(huì))測(cè)試一向難度頗高。此前,商湯絕影已經(jīng)助力極氪X的DMS系統(tǒng)拿到E-NCAP歷史最高分。
2026年,E-NCAP將在歐洲實(shí)現(xiàn)智能座艙的全面普及,要求車(chē)輛能夠?qū)Τ藙?wù)員的坐姿以及成員的身材進(jìn)行檢測(cè)。
為此,此次發(fā)布會(huì)上,商湯絕影又并在首發(fā)ENCAP2026 OOP離位檢測(cè)、身材檢測(cè)功能,主要服務(wù)于海外市場(chǎng)。
02
端到端智駕方案AD Ultra明年底交付
如果說(shuō)A New Member For U給智艙以溫度。那么,王曉剛希望,智能駕駛能實(shí)現(xiàn)出行更加自由。
截至目前,商湯絕影的智駕量產(chǎn)方案已經(jīng)在三家車(chē)廠六款車(chē)型上車(chē),包括哪吒GT、哪吒S、昊鉑GT、廣汽埃安LX Plus、紅旗金葵花國(guó)雅和一汽紅旗EH7。
此次AI DAY上,商湯絕影介紹了三大量產(chǎn)智駕解決方案,包括基礎(chǔ)智駕方案、覆蓋全場(chǎng)景的高階智駕,以及基于UniAD打造的端到端量產(chǎn)智駕方案。
基于J6E和J6M兩個(gè)平臺(tái),商湯絕影打造了AD Pro和AD Max兩個(gè)量產(chǎn)智駕方案,其中AD Max能夠?qū)崿F(xiàn)城區(qū)無(wú)圖NOP。J6平臺(tái)的智駕方案預(yù)計(jì)明年2季度量產(chǎn)交付。
商湯絕影發(fā)布智駕方案AD Ultra
同時(shí),商湯絕影也發(fā)布基于UniAD打造的絕影量產(chǎn)端到端智駕方案AD Ultra。
UniAD,Unified Autonomous Driving,?是一個(gè)完全端到端自動(dòng)駕駛框架。
早在2023年CVPR大賽評(píng)選中,商湯共有兩篇論文登上最佳論文候選名單(Award Candidate),其中自動(dòng)駕駛研究論文《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛)斬獲本屆CVPR最佳論文獎(jiǎng)(Best Paper Award)。
這是以UniAD為技術(shù)核心的端到端方案的重要理論基礎(chǔ)。
今年4月,北京車(chē)展首日,商湯絕影又對(duì)外公布了面向量產(chǎn)的端到端自動(dòng)駕駛解決方案UniAD的道路測(cè)試表現(xiàn)。
在商湯絕影看來(lái),如果說(shuō)傳統(tǒng)的智駕方案每個(gè)功能都“自行其是”,那么端到端就是一個(gè)功能棧做所有事,其中UniAD是一種漸進(jìn)的端到端方案,把原本分開(kāi)的感知和決策功能模塊按照靈活的方式連接在一起。
此次活動(dòng)上,王曉剛進(jìn)一步介紹了基于UniAD打造的AD Ultra。
該方案無(wú)圖、無(wú)激光雷達(dá),僅需1個(gè)毫米波雷達(dá)和11個(gè)攝像頭,只要200+TOPS的車(chē)載算力平臺(tái),就能夠上車(chē)一段式端到端智駕,實(shí)現(xiàn)“類(lèi)人”駕駛體驗(yàn)。
商湯絕影官宣新合作
商湯絕影已經(jīng)與大卓智能、東風(fēng)汽車(chē)等達(dá)成戰(zhàn)略合作,量產(chǎn)交付也正在推進(jìn)中。而絕影的量產(chǎn)端到端智駕方案,預(yù)計(jì)明年四季度能夠交付落地。
據(jù)介紹,商湯絕影與大卓、東風(fēng)和絕影的合作,超越了傳統(tǒng)模式,絕影不僅支持白盒交付,還愿意把基礎(chǔ)設(shè)施、底層工具直接等部署到主機(jī)廠,合作開(kāi)發(fā)。
03
絕影智駕研發(fā)中20%數(shù)據(jù)由“開(kāi)悟”生成
面對(duì)智駕市場(chǎng)激烈的競(jìng)爭(zhēng),“后來(lái)者”商湯絕影如何打動(dòng)更多的車(chē)企,帶來(lái)更好的體驗(yàn)?
王曉剛的回答是:數(shù)據(jù)。
在他看來(lái),傳統(tǒng)的智駕是靠堆砌人力,手寫(xiě)規(guī)則來(lái)推動(dòng)的,難以解決海量Corner Case的場(chǎng)景,而端到端的智駕由大量的實(shí)車(chē)采集的數(shù)據(jù)來(lái)推動(dòng)模型的能力升級(jí)。
而當(dāng)下,行業(yè)研發(fā)范式正在從規(guī)則驅(qū)動(dòng)轉(zhuǎn)為數(shù)據(jù)驅(qū)動(dòng),龐大的數(shù)據(jù)需求取代了大量的工程人力投入。數(shù)據(jù)驅(qū)動(dòng)的模式需要有完善的數(shù)據(jù)閉環(huán)體系支撐,數(shù)據(jù)基礎(chǔ)設(shè)施便成為競(jìng)爭(zhēng)的核心。
商湯絕影提出車(chē)端、云端雙輪驅(qū)動(dòng)
特斯拉目前有700萬(wàn)輛高階智駕量產(chǎn)車(chē)收集數(shù)據(jù),有成熟的數(shù)據(jù)基礎(chǔ)設(shè)施和10萬(wàn)P的超大算力。
據(jù)第三方統(tǒng)計(jì),我們國(guó)內(nèi)車(chē)企支持城區(qū)輔助駕駛高階智駕的車(chē)的數(shù)量約為數(shù)十萬(wàn)輛,并且不同的車(chē)型,數(shù)據(jù)的基礎(chǔ)設(shè)施也不統(tǒng)一。再考慮到云端算力與特斯拉有兩個(gè)數(shù)量級(jí)的差距,國(guó)內(nèi)車(chē)廠要想追趕上,必須要通過(guò)新的模式來(lái)革新數(shù)據(jù)基礎(chǔ)設(shè)施。
王曉剛認(rèn)為,智駕高端局的競(jìng)爭(zhēng)不只是車(chē)端模型的比拼。端到端的決戰(zhàn)戰(zhàn)場(chǎng)在云端。
“更大的戰(zhàn)場(chǎng)也代表著更多的機(jī)遇和更廣闊的市場(chǎng)的空間。想要贏得這場(chǎng)戰(zhàn)爭(zhēng),我們需要一個(gè)強(qiáng)大的世界模型”。為此,商湯絕影帶來(lái)了:世界模型“開(kāi)悟”。
基于行人車(chē)輛3D框和時(shí)空軌跡的信號(hào)輸入,開(kāi)悟生成的11V時(shí)空一致視
“開(kāi)悟世界模型可以理解真實(shí)世界中的物理法則和交通規(guī)則。在這個(gè)基礎(chǔ)上能夠準(zhǔn)確地生成場(chǎng)景。”王曉剛進(jìn)一步表示,我們生成的視頻是11個(gè)攝像頭(包含了四個(gè)魚(yú)眼攝像頭),11V時(shí)空一致。時(shí)間最長(zhǎng)可以達(dá)到150秒,分辨率能夠達(dá)到1080P。
同時(shí),開(kāi)悟生成的場(chǎng)景也是可控的,能夠細(xì)微到元素級(jí)別。生成的場(chǎng)景非常精細(xì),依靠多模態(tài)能力開(kāi)悟?qū)?huì)打造1024類(lèi)場(chǎng)景以及千萬(wàn)個(gè)場(chǎng)景庫(kù),實(shí)現(xiàn)泛化平行世界,滿(mǎn)足端到端模型訓(xùn)練和仿真對(duì)于數(shù)據(jù)質(zhì)量的高要求。
據(jù)王曉剛介紹,憑借開(kāi)悟世界模型的泛化能力,商湯絕影打造了端到端智駕場(chǎng)景庫(kù),將覆蓋1024類(lèi)場(chǎng)景,包括了50多類(lèi)天氣、光照等條件的基礎(chǔ)場(chǎng)景,以及200多類(lèi)不同的交通標(biāo)志、300多類(lèi)道路的連接場(chǎng)景,比如說(shuō)路口、環(huán)島,還有隧道等等。在這個(gè)基礎(chǔ)上就可以構(gòu)建千萬(wàn)級(jí)別的場(chǎng)景庫(kù)。預(yù)計(jì)2025年會(huì)向全行業(yè)開(kāi)放。
目前,開(kāi)悟已經(jīng)支持絕影的數(shù)據(jù)生產(chǎn)工作,智駕研發(fā)中20%的數(shù)據(jù),都是由開(kāi)悟世界模型生成,未來(lái)這個(gè)比例期望能夠達(dá)到88%。
開(kāi)悟的核心能力
此外,開(kāi)悟還能夠支持端到端智駕系統(tǒng)迭代的數(shù)據(jù)閉環(huán),構(gòu)建與自車(chē)實(shí)時(shí)互動(dòng)的閉環(huán)仿真環(huán)境。
具體的方案,第一步是路測(cè),新問(wèn)題的發(fā)現(xiàn);第二步,針對(duì)于失效的案例生成端到端的訓(xùn)練數(shù)據(jù);第三步是進(jìn)行端到端仿真迭代的驗(yàn)證。
根據(jù)商湯絕影的測(cè)算,基于一張A100的GPU開(kāi)悟的世界模型,平均每天可以生產(chǎn)大約2萬(wàn)個(gè)bundle,相當(dāng)于10臺(tái)真實(shí)車(chē)或者是100臺(tái)路測(cè)車(chē)的數(shù)據(jù)采集能力,比得上500臺(tái)量產(chǎn)車(chē)的效率。
“開(kāi)悟具備強(qiáng)大的全棧技術(shù)能力,可以在標(biāo)注數(shù)據(jù)的泛化、Corner Case的生成、車(chē)型級(jí)傳感器遷移、閉環(huán)仿真場(chǎng)景當(dāng)中進(jìn)行應(yīng)用”。王曉剛稱(chēng),絕影以大裝置為支撐,已經(jīng)與車(chē)廠成功聯(lián)合打造實(shí)車(chē)數(shù)據(jù)閉環(huán)引擎,覆蓋智駕端到端訓(xùn)練的全環(huán)節(jié)。
商湯絕影對(duì)比開(kāi)悟與其他模型
從智能座艙、到智能駕駛,再到如今的世界模型,商湯絕影在汽車(chē)領(lǐng)域的布局越來(lái)越深、投入越來(lái)越大。當(dāng)然,它也希望能有更多的回報(bào)。
在王曉剛看來(lái),自動(dòng)駕駛實(shí)現(xiàn)盈虧平衡可能還需要有三年左右的時(shí)間,這取決于自動(dòng)駕駛車(chē)輛的數(shù)量,需要百萬(wàn)級(jí)的量去支撐業(yè)務(wù)的發(fā)展。
“單打獨(dú)斗難以在AGI(通用人工智能)時(shí)代脫穎而出,我們將共享大算力集群和大模型的能力,共建數(shù)據(jù)基礎(chǔ)設(shè)施,共創(chuàng)智能汽車(chē)AI的應(yīng)用生態(tài)。”王曉剛表示,絕影是曹操的坐騎,跟著曹操四處征戰(zhàn),打了很多的勝仗。以絕影命名,也寓意著我們的團(tuán)隊(duì)將如同千里馬一樣,忠誠(chéng)可靠、敏捷迅速,全面助力合作伙伴在競(jìng)爭(zhēng)當(dāng)中領(lǐng)先卓越。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.