撰文 | 張祥威 編輯|馬青竹
2019年,公司成立的第三年,小馬智行聯合創始人兼CTO樓天城在團隊一直采用的learning by watching技術路線身上看到了兩個字:
“絕望”。
learning by watching,又稱模仿學習,在自動駕駛領域,是指通過采集數據,讓系統模仿人類優秀司機開車。而過去一年大熱的端到端,就是模仿學習的一種。
樓天城說,它有三個局限:
只能模仿人類開車,無法學習人類駕駛過程中的意圖;
人們可以接受人類司機因為嚴重身體問題失去駕駛能力,但不能接受機器失效;
模仿學習屬于開環訓練,系統無法自己判斷學習結果的好與差。
他認為,有了這些局限,就無法實現L4。
樓天城和團隊開始重構技術,轉向learning by Practicing,也就是強化學習。為了讓模型自我學習,團隊搭建了虛擬學習環境——世界模型。
小馬智行的技術重構花了五年時間。
如今,隨著蘿卜快跑和馬斯克在2024讓Robotaxi和 L4 概念回暖,樓天城和小馬智行高管開始頻頻露面,批評“端到端”,圍繞“世界模型”制造聲量,說明L4的技術可行性,以及闡述接下來的商業化路徑。
還要回應,面對特斯拉為代表的漸進式玩家,小馬智行等還在堅守的L4玩家有沒有護城河?
尋到“世界模型”救命藥
樓天城的觀點是:
漸進式L2+玩家采用learning by watching技術路線完全沒問題,但做得越好,距離L4越遠,做Robotaxi,最終會發現行不通;L4做Robotaxi,除了選擇強化學習,別無他法。
沉默許久的小馬智行,讓人們看到L4玩家生存狀態,和接下來要走的路。與L4公司最初創業時一樣,這條路也因為更換技術路線,再次有了懸念。
去年,特斯拉FSD V12推送部分用戶后,端到端風暴席卷國內自動駕駛圈。這提高了系統能力上限,解決corner case步子加快。華為、小鵬、理想、Momenta、元戎啟行等,均走在這條路上。
小馬智行副總裁、北京研發中心負責人張寧告訴《出行百人會/AutocarMax》,小馬智行根據對市場和技術的觀察,很快就做了相應嘗試,在2023年做了端到端。
但是,他補充,端到端不能解決所有問題,“助推無人駕駛大規模落地的很重要一點,是世界模型?!?/p>
樓天城此前接受媒體采訪時解釋,端到端屬于模仿學習,通過模仿學習做不到L4,而是需要采用強化學習,像AlphaGo一樣進行自我訓練。
自我訓練需要的世界模型,由四部分組成:數據生成器生成的場景數據;駕駛行為好壞的評估體系;高真實性的仿真;以及數據挖掘工具和引擎。
“一個錯覺是,相比實際收集的數據,生成數據會不會覆蓋不了常規場景或corner case,其實那都是沒做好。如果做得好,生成數據的覆蓋率和一致性遠超實際路采數據?!睒翘斐钦f。
這也是他眼中的技術核心,“世界模型是車端模型的工廠,自動駕駛技術的真正差別在于工廠的精度,就像一個模具的精度決定了它生產出來的零件的上限?!?/p>
其實,漸進式玩家也開始采用強化學習。
去年7月,理想汽車智能駕駛技術負責人賈鵬闡述理想的算法原型時表示:
“端到端模型的目的是學習行駛軌跡,但行駛軌跡是不確定的,即使同一個司機,在不同的場景、不同的時間,駕駛行為也不太一樣。如果只是一味地通過模仿學習人,只能模仿對的,不知道什么是錯的,會出現很多詭異的駕駛行為。”
理想在訓練過程中引入強化學習,讓系統知道對與錯,從而得出一個駕駛技巧、價值觀均正確的模型。
漸進式玩家還意識到,端到端僅僅是開始,無法實現L4。理想汽車CEO李想不久前表示,端到端只能解決L3,無法解決L4。
“端到端+VLM可以解決L3,比如實現500公里到1000公里一次接管,讓你在車上相對輕松。但它想L4,泛化能力是遠遠不夠的。要實現L4,必須使用VLA。
小鵬汽車自動駕駛副總裁李力耘持同樣觀點:
“無論是云端大模型,還是世界模型,或者生成式仿真、強化學習,這些都是最終做成Robotaxi的必由之路。端到端的AI大模型也許不是最終做成無人駕駛的充分條件,但會是一個必要條件。”
筆者注意到,在小鵬汽車的“端到端四部曲”中,提到“類L3”“部分場景下的無人駕駛”,但并未沒出現嚴格意義上的L4。
目前,國內明確提出要做VLA的公司有兩家,理想之外,另一家是元戎啟行。元戎啟行技術副總裁劉軒此前向我們表示,“VLA可以理解為跟駕駛相關的世界模型。”
除了要在明年將VLA架構模型量產上車,元戎啟行同樣有涉足Robotaxi的計劃。元戎啟行CEO周光認為,用傳統的L4技術路線做Robotaxi,過去幾年證明走不通,但VLA有可能將這條路走通。
“我們的世界模型和VLA相比,差別還是很大的。大部分VLM/VLA展示出來的是看圖說話的進階版能力,小馬智行的世界模型,與其說更接近VLM或者VLA,不如說更接近Alpha Zero。”張寧向我們表示。
半前裝量產,逐步投放
近幾年,L4玩家在Robotaxi上多番探索,除重構技術外,另一主線是降本。以百度Apollo為例,通過前裝量產,將第六代無人車RT6的成本下探到25萬元。
與百度不同,小馬智行的量產策略相對謹慎。
《出行百人會/AutocarMax》了解到,目前小馬智行路上投放的Robotaxi采用第六代車型,明年將發布第七代車型。
第七代車型為半前裝量產?!白屢粋€完全為你打造的產線去生產幾千臺車,不經濟。”張寧說。
據悉,第七代車型目前有三款:一款基于豐田鉑智4X車型打造;一款基于北汽極狐阿爾法T5車型打造;一款基于廣汽埃安的車型打造。
新車型將全面搭載車規級設備,比如,車規級芯片英偉達Orin X等,且可以滿足60萬公里以上的營運里程要求。
至于真正的前裝量產,張寧認為,當從萬到十萬爬坡,全生命周期有10萬臺車時,適合向主機廠做深度定制,從頭開始做定向研發車型。
“10萬臺車的量級之下,攤銷下來是經濟的狀態。在那之前,我們更愿意和主機廠已有的能力相結合?!?/p>
據悉,小馬智行在產線上完成所有ADK自動駕駛軟硬件的加裝,下線時就是一臺完整的Robotaxi,以能保證產線上的一致性、可靠性。
張寧算了一筆賬:
收入端,小馬智行希望每臺車一年達到10多萬元。
成本端,主要包括車輛和自動駕駛ADK套件、遠程協助人員等。一輛新能源車大概15萬元,小馬智行的ADK套件大概10-15萬元。
作為對比,張寧說,“Waymo的ADK價格是20萬美金,搭載機械旋轉式激光雷達。而小馬智行已采用半固態激光雷達,單顆激光雷達成本接近3000元人民幣?!?/p>
當下,一個出租車司機人工成本每年大概10萬元,小馬智行的單車毛利轉正,至少在汽車運營生命周期內可見。
據小馬智行測算,相比六代車型,第七代車型成本會下降60%-70%。
按照計劃,小馬智行接下來要在2025年投放五六百臺車,2026年初破千,年底達到兩三千臺。2025年下半年到2026年初,公司的Robotaxi業務將實現毛利轉正。
小馬智行聯合創始人、CEO彭軍曾表示,在技術不成熟之前,投放100臺、500臺到1000臺,并沒有本質區別。
目前,小馬智行投放Robotaxi規模為200臺左右,百度的蘿卜快跑約2000臺。
如今開啟規模投放,或許說明,那條花了五年時間重構的強化學習技術路線,以及小馬智行心目中的唯一解“世界模型”,讓其看到了技術成熟的希望。
2024年最后幾個月,特斯拉、小鵬紛紛宣布Robotaxi計劃,特斯拉的Cybercab計劃2026年投產,小鵬的Robotaxi車型也將在明年推出。元戎啟行也透露,將用VLA架構支持運營Robotaxi。
兜兜轉轉,小馬智行依舊堅持以世界模型為抓手,漸進式玩家也追上來,終局的懸念再次浮現。
—THE END—
出行百人會 | AutocarMax
追蹤汽?出行產業鏈進化,關注新產品、新科技、商業邏輯與商業人物,影響圈層中有影響力的人。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.