本文基于近日對理想汽車智能駕駛副總裁-郎咸朋、理想汽車智能駕駛技術研發負責人-賈鵬的對話所撰,其中關鍵話題包括:理想的端到端系統思路、技術路線變化及反思、智駕人員優化、對L3及L4的看法等等。
“你們后悔嘗試通勤NOA模式嗎?”
“不后悔,研發就是‘蹚坑‘的過程。一旦發現是坑,就要趕緊往外爬。”
面對友商各式各樣的「端到端」智駕方案,郎咸朋和賈鵬看出,其中還有人并不舍得拋棄曾經的積累。但通過理想前幾代的研發教訓,他們意識到,不舍得扔掉過去的方案,就會在坑里越陷越深。
“不能猶豫,也不要再去糾結自己為啥掉到坑里,趕緊往上爬就對了。”
在他們看來,每次試錯付出的代價是不容回首的,因為AI和自動駕駛的飛速發展,不允許任何人回頭看。因此,理想在“百城計劃“之后,迅速與過去方案“斷舍離“,部署了全新的解法。
為何必須“出坑”?
去年9月,李想在戰略會上明確,將智能駕駛定為公司的主要戰略,這也是通向未來AI最重要的工作。
在此之前,理想用一年時間,做了三代技術研發——NPN(神經先驗網絡),無圖方案(BEV+OCC),以及端到端。
在“蹚坑”的過程中,他們意識到,如果想做到L3-L4級自動駕駛的話,傳統方案存在著非常大的缺陷——難以應對未知。
“在規則時代,只有已知場景或者訓練過的數據,才能讓系統執行得比較好。可如果要讓系統完全替代人來開車,那就必須讓它像人一樣,有應對未知場景的能力。”郎咸朋表示,端到端可以讓系統擁有對場景的理解,以及對知識的邏輯推理能力。
在他看來,理想采用的「雙系統」,正是對人類認知機制的一種闡述——「快系統」進行實時處理響應,「慢系統」VLM應對復雜邏輯判斷。
未來能否合二為一?
實際上,VLM也是每時每刻都在做決策,而并非只為應急。它輸出的價值包括兩個層面:1、決策:例如決定是讓行減速還是避讓;2、參考軌跡:例如車道選擇。
“VLM最大的特點是具備思維鏈(CoT)的過程——它可以進行多輪問答,例如行車動作的原因、結果,合理性等等。”
據賈鵬介紹,系統一的端到端模型需要高頻實時控車,大概有3-4億參數量;而VLM模型有22億參數。而由于算力限制,目前系統二有0.3秒的延時(這兩套系統各采用一顆Orin-X。)
“如果未來算力足夠,VLM也有望跑進10-20赫茲,達到實時。但就目前來說,我們基本把所有招都用上了,300ms延時這一結果也算是做到極致了。”賈鵬將希望寄托于未來應用的Thor平臺上,它不僅擁有大算力,還具備專門針對Transformer的加速器,屆時VLM也有望做到實時。
同理,之所以「慢系統」VLM還需要獨立出來,也是因為車端算力受限。
“Orin-X本身不是大算力的芯片,隨著Thor等大算力芯片的到來,兩個系統最終肯定會合成一個統一的模型。而且兜底策略可能也會被VLM消化掉,因為它本身就有邏輯思維的能力。”
賈鵬介紹稱,目前預研團隊已經在做相關研發——當模型的規模和容量變得更大,且幀率變得更高,模型就有可能合二為一。
One Model才叫端到端
在郎咸朋看來,盡管大家都在談端到端,但其中又存在著極大的區別。
“之前的「串聯式端到端端」,還是分小模塊的方式,它本質上還是傳統的產品研發思路,即先定義需求,再將需求場景拆解成很多研發模塊,然后利用規則去實現。而如果是One Model的端到端,其中沒有任何規則,我們能做的就是提供高質量的數據。”
實際上,理想走的也是「漸進式端到端」路線——上一代的無圖NOA,其實就是分段式端到端——由感知+規控+決策模型組成。
不過最終,理想還是采用了一段式端到端+VLM的形式,并采用了Dense(全連接層)的數據傳輸方式,最大限度減少中間數據及信息的損失。
數據“煉丹爐”
在研發過程中,郎咸朋及其團隊得以驗證馬斯克的一種觀點——100萬量級參數可以使模型開始工作,300萬可以工作得挺比較好,達到1,000萬時,模型就能有很好的表現了。但這一觀點的前提是,數據價值要高。
“我們現在基本上做到300萬的量級了,而且理想對數據的選擇是非常有講究的。首先產品團隊和主觀評價團隊會篩選出優秀的老司機,記錄他們的片段。”
從12億公里的數據中,理想篩出來了1000萬公里的老司機數據,并運用了自己的一套工具鏈,進行數據配比。
“為什么小鵬的智駕在廣州表現尤其好,華為在上海也是如此?包括特斯拉也是在網紅路線和西海岸線開的好,東海岸就比較差。”郎咸朋認為,這與數據分布有直接關系。“理想的一大優勢在于增程車的出行范圍,其數據的區域分布和場景分布肯定高于純電動車。”
郎咸朋及賈鵬表示,數據配比的均衡對于端到端至關重要。未來,車端模型會越來越大,算力還是會受限。因此必須按照場景去精準配置數據,而不是因為某個地域的用戶多,就多加當地的數據。
“例如新疆放多少,北京放多少,雨天放多少,雪天放多少…我們花了大量的工夫去進行配置,這有點類似煉丹或者調倉的感覺,同時這也是端到端時代大家面臨的一個最大的挑戰。”郎咸朋說道。
生成式模型,仍不能直接用于仿真
近日,世界模型和生成式模型的仿真能力也備受關注,其一大特點是可以通過學習,重建、生成仿真數據。但是在郎咸朋和賈鵬看來,這種類似SORA的DIT模型,生成的視頻仍存在幻覺。
“我們也考慮過利用純生成式的世界模型來做仿真,但后來發現并不可行。仔細看會發現,這些生成視頻的車道線等元素不怎么符合世界規律,顯得很詭異。”
賈鵬介紹稱,理想的世界模型只是考試系統,并非完全基于生成的,而是先用3D GS (3D Gaussian Splatting)進行重建,提供一個基本符合現實規律的物理結構,再延伸出一些泛化場景。
“這可以利用世界規律的這套先驗,去約束生成的結果。自動駕駛還是比較嚴肅的,我們不可能直接用SORA生成的東西。”
小目標:量產L3/L4
理想采用端到端新路線的主要目標,是要讓技術迭代可持續至L3乃至L4。其中,系統一在L3階段可以發揮主要作用,但一旦步入L4,那系統二就會起到關鍵作用。
“我們必須在L3階段去做雙系統的驗證和迭代,才能讓系統二在L4階段發揮非常重要的決策和判斷作用。總體看來,在一些未知場景下,系統二的能力決定了能否達到L4,但系統一的技術能力是L3的必要保障。”
未來,理想希望走向量產級的L4,而不是只在特定區域內運營的L4。而至于L3的量產,或許最快今年就會有消息了。
走過的彎路
在去年推進城市NOA的過程中,理想曾認為主要的障礙就是高精地圖,所以智駕團隊首先考慮的是只在復雜道路用圖。
但后來大家發現,即便采用輕圖方案,也解決不了“全國都能開”的問題:“無論輕圖還是重圖,只要你用圖,就擴展不到全國。就算一時做到全國,迭代速度也會有問題。”郎咸朋說道。
直到做完百城,理想才從NPN切換到無圖方案。
因為如果只看北上廣深等大城市,還會誤以為NPN方案表現可行。但只有做到百城規模之后,才會發現它確實解決不了問題。
而無圖方案的問題,則在于規則:“規則中還是有一些不符合人類駕駛習慣風格的問題,可用戶需要的是擬人的駕駛體驗,這使得接管率無法成為單一評判標準。如果我不摒棄現在無圖的這套技術的話,就永遠做不到擬人。于是就有了端到端。”
郎咸朋表示,端到端基于AI驅動,可以完全按照人類的思路去學習。雖然切換路線需要付出成本,也要付出組織管理上的一些代價,但都是值得的。
對人員調整的解釋
無圖方案帶來的問題,不僅在于能力上限,還有資源的耗費。因為它需要大量人員來設計、實現和測試各種各樣的場景。去年年底,理想發布的“2000人”的團隊規劃,正是按照這個思路去設計的。
出于能力和資源兩方面的考慮,理想決定轉向預研中的端到端路線。隨即,就有了后來的智駕團隊裁員消息。
“一旦轉向這個方案,我們確實用不了這么多人,因為端到端的研發流程主要在于挑選數據和訓練模型,評估模型的話也可以使用世界模型(系統3,針對系統1和系統2的考試系統),不需要人工執行,這會大大減少人力使用。”
所以,理想今年的人員調整,其實正是基于這一業務變化。“從特斯拉的智駕團隊來看,它只需要約200人就能維護所有的軟件和算法。”
不過同時,郎咸朋和賈鵬還在大量招聘AI和通用大模型行業的人才,而校招生更是只看QS Top 100院校的畢業生。“這是我們團隊保持活力和技術先進性的一個前提。”
“10億美元/年“是個檻
郎咸朋認為,在端到端的新起跑線上,友商之間的差距一定會被拉大。這其中主要拼的就是兩件事:數據和算力。在他看來,這兩點同時代表著車型保有量和資金儲備。
“現在理想每年投在訓練上的資金是10億人民幣,但我們預估將來花費要達到每年10億美金。這只是訓練的算力,還不包括其他的人員等其他成本……所以說如果你一年拿不出10億美元去做訓練的話,就可能面臨淘汰。”
(理想汽車智能駕駛副總裁:郎咸朋)
他認為,之所以馬斯克之前不在乎公開自己的方案,是因為他篤定其他人無法像他那樣買七八萬張卡,或者賣那么多車。
“不可能每家車企都像特斯拉似的賣那么多卡,同時也不是每家企業都能做自動駕駛。如果缺失數據或算力資源,要么迭代速度慢,要么競爭力不足,終究會面臨淘汰。”
對此,賈鵬介紹稱,理想目前有15,000張卡,但日常用起來還是很緊張。未來,模型的參數量至少會再提升3-4倍,理想會照著“10萬張A100(或A800)”這個小目標去努力,也就是要對應30 EFlops的算力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.