去年,Scaling law和端到端自動駕駛,都遇到了瓶頸。
隨著互聯(lián)網(wǎng)的數(shù)據(jù)價值被榨干,自動駕駛模型千萬級clips的「數(shù)據(jù)黑洞」難以被填補。
此時,DeepSeek出現(xiàn)了。它采用的強化學(xué)習(xí),帶來了長思維鏈的涌現(xiàn),大幅降低數(shù)據(jù)需求。隨之,商湯絕影也推出了R-UniAD,同樣應(yīng)用了強化學(xué)習(xí),以此突破數(shù)據(jù)瓶頸,并有望優(yōu)于人類駕駛水平。
昨日(2月25日),商湯絕影CEO、商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家——王曉剛,對RoboX進一步解釋了R-UniAD誕生的背景和思路,以及該公司下一步的規(guī)劃。
什么是R-UniAD?
“從中國的實際情況來看,我們很難像特斯拉那樣,擁有700萬臺量產(chǎn)車的數(shù)據(jù)回流,而且高質(zhì)量數(shù)據(jù)占比極少...目前端到端只是模仿學(xué)習(xí),難以突破人類上限?!?/p>
王曉剛介紹稱,DeepSeek通過強化學(xué)習(xí)的框架,可以生成多條的思維鏈,讓模型產(chǎn)生更多的解法,突破了人類知識庫的限制,也產(chǎn)生了更多的數(shù)據(jù),以此大幅降低數(shù)據(jù)門檻。
在這一啟發(fā)下,商湯絕影在UniAD的基礎(chǔ)上,推出了強化學(xué)習(xí)的新范式——Reinforced-UniAD(R- UniAD)。
其具體訓(xùn)練方法如下:
1、基于冷啟動數(shù)據(jù),讓端到端自動駕駛大模型達到基礎(chǔ)水平,通過模仿學(xué)習(xí)進行云端訓(xùn)練;
2、再基于強化學(xué)習(xí),讓該模型與世界模型協(xié)同交互,持續(xù)提升其性能;
3、從云端大模型通過高效蒸餾的方式,實現(xiàn)端到端小模型的車端部署。
王曉剛表示,在初始階段,通過千臺規(guī)模量產(chǎn)車形成的數(shù)據(jù),即可讓端到端模型達到較好的水準,之后就不再需要這些「冷啟動數(shù)據(jù)」了。
“端到端的模型可以預(yù)測很多種軌跡,世界模型也可以模擬仿真出各種周邊環(huán)境的這樣的變化。同時,仿真器可通過Reward的方式,為這些軌跡和環(huán)境變化打分,找到最佳的駕駛行為。”
DeepSeek帶來的「利好」
在王曉剛看來,DeepSeek的長思維鏈、慢推理方式,能夠產(chǎn)生更高層次的認知,達到情感上的支持。這對于絕影的「New Member」產(chǎn)品來說,是很大的利好。
王曉剛認為,商湯絕影去年推出的「A New Member For U」產(chǎn)品,同樣是端云協(xié)同的方案。從前,此類方案落地時,對端側(cè)芯片有一定要求。而DeepSeek的MoE(混合專家模型)的架構(gòu),使其能部署在低成本芯片上,該方式也有利于「A New Member For U」的推廣。
“以蒸餾手段,可以通過強大的云端模型,產(chǎn)生高性能的端側(cè)模型,這是給端側(cè)模型的一個機會。同時,MoE只需要激活部分參數(shù),使用部分算力,肯定要比傳統(tǒng)模型更加節(jié)省算力?!?/p>
不過他也表示,目前各車企接入的DeepSeek應(yīng)用,還是比較簡單的。而且,DeepSeek能支撐的訪問量是有限的,延時也較長,現(xiàn)在還不能算是好的體驗。
“如果只是進行DeepSeek原始模型的接入,這在汽車產(chǎn)品上的體驗還是有差距的。這對于商湯絕影來說,也是一個利好?!?/p>
王曉剛用「做幾何題」來描述自動駕駛仿真:在解題過程中,每解一步都需要加一些輔助線,幾何圖像本身也在演變,這就類似于自動駕駛的世界模型仿真——不但要預(yù)測物體軌跡,還要讓環(huán)境里的視頻圖像得到演進,能夠預(yù)見出來,這是DeepSeek所欠缺的。
“DeepSeek一直致力于語言模型,對于圖像、視頻的精準生成還是比較欠缺的,但這正是我們的強項。”
視頻生成的嚴格標準
“「開悟」世界模型的視頻生成,其實和Sora等標準還是有區(qū)別的。我們需要更加精準的可控性,要符合物理規(guī)律,還有交通法則。我們生成的視頻輸入,實際上是物體的運動軌跡和3D的框,由這些輸入精準地控制視頻的生成。”
為了準確模擬各種極端場景,「開悟」必須做到結(jié)合11個攝像頭輸入的時空一致性。同時,絕影本身也儲備了大量真值數(shù)據(jù)測試集,可以通過視頻反向提取其中的物體位置,進行軌跡驗證,保障視頻的真實和有效性。
“其實從去年開始,就已經(jīng)有20%的生成視頻,應(yīng)用在了模型訓(xùn)練中。希望將來這一數(shù)字能超過50%,乃至80%?!?/p>
通俗一點來比喻的話,「強化學(xué)習(xí)」就是針對一個復(fù)雜場景,通過模擬仿真反復(fù)測試,并給出多條不同的駕駛行為和路徑。
接下來,就像DeepSeek一樣,可以針對一個問題找到10條乃至100條的思維鏈,去解決問題。
“我們之前所說的高質(zhì)量數(shù)據(jù),指的是人類的高質(zhì)量駕駛行為。而如今高質(zhì)量數(shù)據(jù)的生成,不一定再需要人類的駕駛行為,而是將圖片或者視頻片段作為一個場景起點,接下來由世界模型通過強化學(xué)習(xí)去生成即可。”王曉剛說道。
R-UniAD的3大挑戰(zhàn)
為實現(xiàn)云端大模型和世界模型的在線交互,絕影克服了3個關(guān)鍵難題:
1、模擬仿真能力:必須精準、可控。
2、預(yù)測能力:對于周圍環(huán)境視頻的生成,除了準確,還要有多樣性?!叭绻傻臇|西都是單一的,就沒法模擬出不同的場景和駕駛行為。”
3、Reward:也就是評價出哪些視頻和軌跡的序列,它是一個好的駕駛行為,那么有的產(chǎn)生了碰撞,那么有的給人家不舒適的這樣的一些這樣的一些感覺。
R- UniAD的重要一環(huán),在于世界模型的環(huán)境生成,以及對其的精準控制,達成這一能力,才能體現(xiàn)強化學(xué)習(xí)的效果。
王曉剛指出,未來的發(fā)展,一定是基礎(chǔ)設(shè)施和云端研發(fā)占的比重越來越高,而端側(cè)則變得更加簡單:各種數(shù)據(jù)蒸餾、工程優(yōu)化,能夠使得越來越多的功能被部署在更加便宜的低算力芯片上,但這一前提都依賴于強悍的云端模型。
被高估的激光雷達魯棒性
近期,「純視覺」風(fēng)頭漸弱,多家車企都表示,會在高階智駕上繼續(xù)使用激光雷達。
但王曉剛認為,激光雷達有著自己的天花板,其本身具有的信息量是偏少的,達不到非常魯棒的狀態(tài)。只不過,當下由于沒有海量數(shù)據(jù)支撐,智駕的視覺能力偏弱,因此還需要用激光雷達作為輔助。
從成本層面考慮,「全民智駕」的趨勢下,智駕需要下探到10萬元級別以下,硬件成本也需要進一步降低。
“視覺能力的上限更高。在硬件固定的前提下,通過大數(shù)據(jù)去更新的模型,會不斷提升軟件的性能?!彼f道。
先布局中低算力平臺
從去年開始,商湯已開始在智駕市場中布局:“從市場份額上考慮,要先下探到價格較低的中低算力車型,所以我們?nèi)ツ?strong>主要布局了地平線J6E、J6M等平臺的方案,也與廣汽、奇瑞還有東風(fēng)形成了戰(zhàn)略合作?!?/p>
王曉剛透露稱,到今年3月,商湯絕影和車企合作開發(fā)的基于J6M的自動駕駛產(chǎn)品,就能實現(xiàn)量產(chǎn),4月還會在上海車展發(fā)布。
除了智駕產(chǎn)品本身,絕影還在大模型、數(shù)據(jù)基礎(chǔ)設(shè)施等方面,協(xié)同車企進行規(guī)劃和布局,包括建設(shè)數(shù)據(jù)的生產(chǎn)管線,共建研發(fā)體系等等。
需要注意的是,即便有了強化學(xué)習(xí)的世界模型,要想覆蓋更多的復(fù)雜場景,真值數(shù)據(jù)還是非常重要的,而這些數(shù)據(jù)還是在車企,這也是絕影與車企形成深度合作的意義之一。
特斯拉FSD的挑戰(zhàn)
訪問當天,正值特斯拉FSD突然在華推送,王曉剛對此也發(fā)表了自己的看法。
他認為,特斯拉FSD在中國的應(yīng)用,還是會受到數(shù)據(jù)的限制。首先,中國的交通場景與美國存在很大差異;其次,特斯拉在在中國采集的數(shù)據(jù)也會受到管控,無法跨境。
“如果是做端到端的話,F(xiàn)SD會面臨這些自動駕駛場景數(shù)據(jù)方面的問題。它也不太可能用它在美國所擁有的數(shù)據(jù)在本地訓(xùn)練,因為數(shù)據(jù)不能夠跨境,也沒有強大的基礎(chǔ)設(shè)施。所以絕影R-UniAD的新型技術(shù)路線,即便對于特斯拉的FSD,也有著現(xiàn)實意義。”
同時他表示,特斯拉FSD目前還是模仿學(xué)習(xí)的范式,而R-UniAD技術(shù)路線訓(xùn)練出來的端到端智駕模型,很有希望超越人類駕駛表現(xiàn),實現(xiàn)彎道超車。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.