不知道,最近大家有沒有關注到一個現象,悄然間「世界模型」已經站在智駕的高地,成為衡量一家車企智駕能力的「新」風向標。
有人說,這是在智能駕駛領域繼「BEV&Transformer」、「占用網絡OCC」、「端到端」等技術后,又一次跨越式進步。
更有行業大佬,募集十幾億,致力于構建「大型世界模型」。更像一些頭部公司,諸如谷歌旗下人工智能企業DeepMind,花費重金聘請了OpenAI視頻生成器Sora的聯合負責人蒂姆·布魯克斯來開發世界模型。
世界模型的準確定義是這樣的:
通過模擬人類的認知過程,使機器系統能夠理解和預測復雜環境中的未來情景,從而實現自主決策和行動。
說人話就是,人為地創造一個像大腦一樣具備思考能力的智能體。
它可以理解真實世界的物理法則,還能對事物的關系、規律、原因和結果進行理解和預測,從而做出決策判斷。
關于理解真實世界的物理法則,其實并沒有大家想象得那么容易。
比如說,現在讓大家去想象手掌時,幾乎所有人都能準確且毫不費力地想象出來,但是在目前的AI制作中,卻會經常會出現多根手指或連指的現象。
此前,圖靈獎得主Yann LeCun就明確表示,基于文本提示生成的逼真視頻并不代表模型真正理解了物理世界。之后更是直言,像Sora這樣通過生成像素來建模世界的方式注定要失敗。
表象尚且不準,至于對事物的關系、規律、原因和結果的理解就更難了,以我們最為熟悉的ChatGPT舉例,目前還存在「幻覺問題」。
就是用一種可以令人信服但完全編造的方式來表達自己,也就是一本正經地已讀亂回。
比如:問模型第一個在月球上行走的人是誰?模型回復,Charles Lindbergh在1951年的月球先驅任務中第一個登上月球。
實際上,第一個登上月球的人是Neil Armstrong。
這也在一定程度上限制了ChatGPT在金融、法律等知識鑒別門檻極高的行業里應用。
而理解只是路徑,決策才是最終想要達到的結果。
通常來說,當大腦內部進行預測時,可以根據我們當前的運動動作,預測未來的感官數據。
我們能夠本能地按照這種預測采取行動,并在面臨危險時做出快速的反應,而無需有意識地規劃行動方案。
以棒球為例,棒球擊球手只有幾毫秒的時間來決定如何揮棒,甚至比我們眼睛的視覺信號到達大腦所需的時間還要短。
而擊球員能夠擊出時速100英里的快速球,是因為他能夠本能地預測球會在何時何地飛去哪里。
對于職業球員來說,這一切都是潛意識發生的。他們的肌肉會根據大腦的預測,在正確的時間和地點反射性地揮棒,無需有意識地推出可能的未來情景來制定計劃。
帶入這個視角,你會發現,一些車企的智駕技術就很好理解了。
比如,智已說的邁入「直覺」智駕新時代。
這套系統就在強調一個“下意識”的決策動作,無需經過常規的識別與處理,就像老司機遇到緊急情況那樣,不需要復雜思考,就能夠給出一個正確的反應。
說了這么多世界模型,大家或許發現了,世界模型是一個覆蓋面很大的詞匯,可以應用在機器人、智能汽車等多個領域。
僅對于智能駕駛來說,世界模型具體有什么用呢?
答案是成本。
智能駕駛發展至今,數據的重要性越發凸顯。然而,實車采集、人工標注的費用卻在水漲船高,況且,能夠滿足訓練要求的數據還少之又少,更不必說一些非常罕見的corner case。
自動駕駛應用了世界模型,就可以借助視頻生成技術,創建駕駛場景,從而降低成本。
比如說,有一天,路測人員在測試中發現了測試車輛的問題,后續可以通過世界模型,生成多條軌跡和這些軌跡實時交互的多場景視角,滿足訓練模型的需求,從而提升系統的迭代效率。
例如,按照官方的說法,NWM(即蔚來世界模型)能夠在0.1秒內推演出216種可能發生的軌跡,尋找最佳決策。
然后在接下來的0.1秒內,根據外界的信息輸入,重復更新內在時空的模型,再去預測216種可能性。以此循環,跟隨駕駛軌跡持續預測,得到駕駛的最優解。
也就是說,后續我們完全可以借助世界模型仿真模擬出極端的駕駛場景,來訓練提升車輛的智駕能力。
這也是世界模型在自動駕駛的兩大應用:生成能力、仿真能力。
但是,目前的世界模型缺陷也有很多。比如生成長視頻的能力,目前公開的、最長的視頻時間,也不過幾分鐘而已。
還有視頻的清晰程度,即使是國外領先的自動駕駛公司WAYVE旗下的世界模型GAIA,它所生成的視頻也很模糊。同時,時間和空間一致性的問題也不能忽略。
這些背后都指向了算力需求,而算力成本是非常高昂的。
可以說,世界模型還是一項非常新興的技術,需要大量的資金,大量的人力鋪在上面。當然,資本市場對大模型技術也是非常看好的。
根據國際數據公司(IDC)最新發布的《中國模型即服務(MaaS)及AI大模型解決方案市場追蹤(2024H1)》報告顯示,2024上半年,中國AI大模型解決方案市場的規模為13.8億元人民幣。
預計在2024-2028年期間也將持續高速長,年均復合增長率為56.2%,到2028年整體市場規模將達到211億元人民幣。
燃油車時代,仿佛一切都比較簡單,沒有那么多技術名詞。來到了智能化時代,層出不窮的技術名詞,不僅令消費者感到困惑,包括多數業內人士也是一頭霧水。
但對于智能化的宏大主題來說,行進道路確實非常艱難。有時目標足夠沉,問題足夠多,才有這么多的技術被發明、被創造,而每個技術名詞的背后,都是成長的印記,也是試錯的痕跡。
合抱之木,生于毫末,九層之臺,起于累土。正是一段段的技術死磕,才讓智能化逐漸有了一個更明朗的未來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.