99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

極佳科技毛繼明詳解:世界模型究竟是什么?有啥用?怎么用?

0
分享至

毛繼明簡介 :極佳科技合伙人&副總裁,擁有超過16年的工程研發與架構經驗,專注于大規模分布式系統和自動駕駛仿真技術。曾任百度Apollo仿真和工程負責人,以及百度、贏徹T10級別架構師。

毛繼明在極佳科技推動了DriveDreamer系列等世界模型相關技術的研發與商業化落地,服務了數十家自動駕駛及機器人客戶。



如今,世界模型已經成為具身智能實現突破的關鍵所在,但業界對于世界模型仍未形成統一的標準,也存在不同的觀點。

去年,極佳科技提出了一種名為DriveDreamer4D的框架,旨在利用世界模型的先驗知識來提升4D駕駛場景的重建效果。日前,極佳科技合伙人&副總裁——毛繼明,在由智猩猩、車東西主辦的「第四屆自動駕駛峰會」上,詳細介紹了世界模型的特點、作用及發展趨勢。

世界模型的發展背景

“每一代的智駕算法,對于數據數量及質量的需求,都是在瘋狂提升的,這導致行業也在面臨數據缺口的困境。”

他指出,從2023年下半年開始,大家開始嘗試通過生成數據來去輔助算法性能的提升,但當時還對此存在疑慮。可從2024年下半年開始,世界模型開始收獲更多的信任。

未來,智能駕駛的用戶對于算法的需求會更高,甚至需要其超越人類。毛繼明指出,去年年底,小馬智行CTO樓天城曾在采訪中提出一個觀點:人天然是「雙標」的——由于對機器缺乏信任,所以機器必須要比人表現得更好才能獲得人類的信任。所以樓天成提出了一種非常形象的解決思路——Learn by practice。



“這里所說的Practice,必須在可交互的環境中進行,這樣才能確保安全和高效。那么要生成這樣的環境,仍然需要依賴世界模型。”

不管是生成可供訓練的數據,還是生成可交互場景,世界模型都扮演著非常重要的角色。可以說,世界模型是智駕算法進入新一代的鑰匙。

毛繼明介紹稱,去年,世界模型的概念被提起的頻率非常高,包括李飛飛的world labs,Google的DeepMind,還有1x和Covariant這兩家具身智能公司,他們機器人的Foundation model也是用的世界模型的技術。更別提Tesla和Wayve,他們的智駕方案從2023年就開始應用世界模型。



再看國內,三大造車新勢力,蔚小理從去年下半年開始,也都紛紛提出要基于世界模型去構建算法研發體系。此時,世界模型已經不再是一個只存在于實驗室的預研課題,而是成為了產業界的共識,已經到了應用的爆發期。

2023年9月,極佳科技首次將世界模型與智駕進行了結合,然后發表了一系列的論文——也就是DriveDreamer系列。

世界模型的三大功能

「世界模型究竟是什么?」這是許多人都會問到的問題,但其實,世界模型至今還沒有一個業界公認的標準化定義。而毛繼明通過對很多不同的世界模型的認知,對其中一些內核功能進行了匯總:?

首先,從宏觀上來看,世界模型可被認為是真實世界的投影,至少是一個局部的投影。所以要想建設一個世界模型,第一步就是要對真實世界建模。所以,建模和關系抽象,是世界模型的第一個核心功能。



另外,若想讓世界模型發揮真正的價值,就需要與智能體去進行交互,因為前者需要為智能體去提供想象的能力。在這一過程中,智能體會給世界模型提供一個有缺失的觀測,而世界模型會補齊缺失的部分,返回給智能體一個完整的想象。

同時,世界模型也會為智能體提供“What-if”能力,也就是推理和預測能力。之后,世界模型還會返回一個對結果的好壞判定。

總結來看,世界模型一共有三大功能:建模、想象,預測。這就是傳統的世界模型應該具有的能力。

如何搭建世界模型?

極佳提出了一種基于分層的搭建方式,將視頻生成、空間幾何生成和物理引擎:

最底層:視頻生成

2024年上半年之前,幾乎所有的世界模型都是基于視頻生成來構建的,其中最經典的例子就是Sora。根據OpenAI發布的論文,他們認為Sora就是一個World Simulator。

毛繼明認為,視頻生成有兩個好處:

1、視覺是人們觀測世界最重要的Signal。

2、視頻生成的機制,天然就具有想象力和推測力。它能夠基于一張圖片去想象出其中的信息,同時又可以將圖片作為起始幀,去推理后邊會發生什么。也就是說,基于視頻生成模型,可以同時實現實際建模場景的想象和預測。

第二層:空間幾何生成

在去年下半年,新的觀點產生了——由于世界是具備物理空間的,而視頻生成的基本結構都是基于像素的,所以業界發現后者對世界的建模是有缺失的。因此,大家開始集中式地引入了「空間幾何生成」的新維度。

毛繼明表示,在引入空間幾何后,再配合原有的視頻生成,可以說基本能解決世界appearance層面的問題,但其實這仍然不夠。“因為這個世界,最終還是由一些物理規律所驅動的。而以當下的技術,很難單純地從Observation中學到物理規律。

第三層:物理引擎層

所以極佳通過引入新的一層——「物理引擎層」,來驅動模型在時間緯度上進行一些合理的變換。我們稱之為「世界模型中的基礎模型層」,它代表了世界中物質的確定性部分。”

例如,黃仁勛在演示Cosmos時,經常和Omniverse放在一起去講,后者正是物理引擎與空間幾何這兩層的內容。

更進一步,毛繼明指出:“除了物質的確定性部分,世界模型還應該包含不確定性的部分,也就是有人參與的部分。”,這部分可以被稱之為「世界知識層」。



他介紹稱,「世界知識層」的構成首先是一些領域約束,例如交規——大家開車遵守交規,但也有可能不遵守交規。所以領域約束其實是一種「弱約束」,它并不像物理規律。其次,是Reward function,世界模型想要呈現它的判定能力的話,就必須由reward function去進行評分。第三就是Distributions,它代表人類宏觀傾向性的數學化的表達。

另外,很多世界模型也引入了大語言模型,這是因為模型很難通過Observation完全地重建出來,很多時候還需要輔以大語言模型中的知識。如此,有了Distribution、Reward function和領域約束,世界模型中的世界知識,最終應該固化在Long-term memory中,在世界模型架構中產生作用。

如何真正落地?

毛繼明稱,要想將世界模型真正落地在具體場景中,還需要一系列對外的組件:包括知識更新的接口、Condition的Adapter,以及Internal的Agents。

他介紹稱,在實際場景中落地時,世界模型最經典的一個用法就是「數據泛化應用」了,也就是通過世界模型的想象能力,在給定一些簡單條件的前提下,就可以還原出世界應有的樣子。

“數據泛化,激活的是condition和視覺生成這兩層。這也是極佳科技一開始切入到世界模型賽道時,所做的起始工作。包括DriveDreamer和DriveDreamer-2。”

毛繼明表示,在傳統的視頻生成模型基礎上,極佳著重優化了「多視角一致」的能力,這也是智駕領域必要的一個Feature。

同時,為了滿足不同客戶的個性化需求,極佳也優化了Condition Adapter,這有助于生成可泛化的多樣性數據,去進一步優化感知算法的魯棒性。

毛繼明展示了一個案例:給世界模型的一個Condition,即僅僅告訴世界模型車道在哪里,車在哪里,世界模型即可發揮出想象力,想象出來一個完整的世界。更進一步,如果需要更充分的想象力,可以使用文字作為輸入,然后利用它的想象力去生成一個復雜場景,這就是在DriveDreamer-2中實現的功能。



另外一個業務場景,是4D場景重建。這會新增兩個功能區:1、是幾何生成,2、Internal agents。極佳有兩篇論文與之對應——Drive Dreamer 4D和Reckon Dreamer,這也是極佳和理想汽車的合作項目。

“它的應用場景更適用于數字孿生,也就是說可以對Identical case進行重建,并且在重建的三維世界中完成可交互的反饋式事件。”

根據極佳重建場景的具體實踐來看,如果接入了自動駕駛算法和控制器,可以實現在這個世界里自由移動,滿足閉環仿真的需求,實現Learn by practice。

世界模型將會如何發展?

“我們希望未來的Agent能夠像人一樣思考,所以它應該擁有人類大腦中的各種組件,其中最核心的組件就是世界模型。它最終會部署到車端或者是機器人端,被點亮所有功能。”

毛繼明認為,世界模型是現實世界的投影,但是現實世界是非常復雜的。它被多維度、多類型的規律共同驅動、共同影響。

例如:視頻生成,代表的是平面像素級別的變化,它是由真實世界中廣泛存在的在物體上的光的漫反射、鏡面反射等等光學規律所驅動的;

空間幾何,表達了真實世界中具體存在的宏觀物體,應該具有明確的體積屬性、位置屬性;

物理引擎指的是說物體應該具有材質屬性,以及物體之間相互運動的動力學表達。這三種表達都是在不同的層級上,必須用不同的規律去驅動。

“我們如果要去建設一個完備的、至少局部完備的世界模型,需要對多種領域有深刻的認知,我們需要找到一種辦法,把不同領域的不同規律融合到一起,這是非常大的挑戰。

接下來他指出,之所以要為世界模型分層,其中一個原因,是能夠注入先驗知識,這樣可以不使用那么多數據就可以完成世界模型的建設。

毛繼明還認為,世界模型的這種構建邏輯和自動駕駛的發展類似——伴隨著真實數據的積累,以及生成數據的反哺,一定會發生跨層級融合。

就像自動駕駛多模塊架構終究會演進到單模型端到端架構一樣。“我們堅信世界模型會變成一個end toend one model,也就是說世界模型最終會把多層次變成更少的層次,最后融合成為一個統一大模型。”

進一步,他表示,在商業化實踐中,客戶通常要求是,在當前的已有客戶數據質量基礎上,以最低的計算成本、時間成本、GPU資源成本以及存儲成本,達到世界模型的精度要求。

這需要在:數據質量、模型精度、成本接受度這三方面,針對每個客戶,滿足他們不同的三維度平衡需求。所以他認為,幾乎不太可能有「一種模型包打天下」的情況,而是要構建世界模型的分層框架。

“在多個商業項目落地過程中,一定會沉淀下來很多不同的做法和不同的組件。當不同場景的研發成果沉淀為可部署的組件后,就可以面對多樣化的客戶需求靈活地組織,以最快的方式來達到要求。”



不過毛繼明也直言,目前,世界模型的性能提升,是個「老大難問題」。如果類比人類大腦的直覺感知來看,現在世界模型的運行方式需要通過非常復雜的推理機制,能耗非常高,速度也很慢。

“如果以現在這樣的效率,那世界模型是不可能實現高效部署的。所以我覺得「端側的世界模型」就是終局,我們終究要探索一些新的世界模型算法范式,這是全行業共同去探討的一個話題。”

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黃一鳴再曬聊天記錄討說法,王思聰對私生女態度曝光:要生隨便你

黃一鳴再曬聊天記錄討說法,王思聰對私生女態度曝光:要生隨便你

素衣讀史
2025-04-22 18:08:14
日本世博會驚現游客強迫保安“下跪”!日本人集體大破防:好丟人!

日本世博會驚現游客強迫保安“下跪”!日本人集體大破防:好丟人!

東京新青年
2025-04-24 18:47:50
謝霆鋒演唱會 半個港圈來助陣 親媽拉姑激動跟唱 后爸坐在后面不

謝霆鋒演唱會 半個港圈來助陣 親媽拉姑激動跟唱 后爸坐在后面不

山山視角
2025-04-25 07:49:52
威少由于左腳發炎,本場對陣快船不會回歸

威少由于左腳發炎,本場對陣快船不會回歸

雷速體育
2025-04-25 12:17:52
現在全世界基本上除了中美自己,很多國家都盼著中美趕緊開戰。

現在全世界基本上除了中美自己,很多國家都盼著中美趕緊開戰。

瀘沽湖
2025-04-19 11:40:37
貴州退休夫妻跳樓身亡,賬戶流水400萬,留遺言:沒有活著的希望

貴州退休夫妻跳樓身亡,賬戶流水400萬,留遺言:沒有活著的希望

曉艾故事匯
2025-04-09 20:44:14
“兩岸統一”一夜響徹!沒等解放軍出手,美國突然傳來重磅消息

“兩岸統一”一夜響徹!沒等解放軍出手,美國突然傳來重磅消息

傲氣經說
2025-04-24 09:33:39
潛伏我國30年美國辣醬巨頭,年賺300億打敗老干媽,被誤認是國貨

潛伏我國30年美國辣醬巨頭,年賺300億打敗老干媽,被誤認是國貨

素衣讀史
2024-12-19 14:16:46
故事:男按摩師親述:多數女客戶需要的不只是按摩,更重要的是我

故事:男按摩師親述:多數女客戶需要的不只是按摩,更重要的是我

紅豆講堂
2025-02-24 21:00:11
特朗普再次首訪中東要收兩萬多億美元,國王們為何總給美國出血?

特朗普再次首訪中東要收兩萬多億美元,國王們為何總給美國出血?

邵旭峰域
2025-04-24 08:27:57
4月24日CBA青島隊重磅!劉維偉楊瀚森王睿澤最新動態

4月24日CBA青島隊重磅!劉維偉楊瀚森王睿澤最新動態

格斗聯盟有話說
2025-04-24 10:11:45
政府敗訴! 新冠疫苗引發13種嚴重副作用, 損傷心臟和神經!

政府敗訴! 新冠疫苗引發13種嚴重副作用, 損傷心臟和神經!

灰產圈
2025-04-23 12:06:00
女生偶遇國旗護衛隊趕緊跟上 迅速墊步換步調整步姿

女生偶遇國旗護衛隊趕緊跟上 迅速墊步換步調整步姿

大象新聞
2025-04-24 12:43:44
村支書禹作敏:想當副總理只接待正部級,93年使400警察不敢進村

村支書禹作敏:想當副總理只接待正部級,93年使400警察不敢進村

百年歷史老號
2024-04-04 21:46:50
楊瀚森將加盟湖人!徐杰出席開幕式黃頭發顯眼!吳軻當山東隊助教

楊瀚森將加盟湖人!徐杰出席開幕式黃頭發顯眼!吳軻當山東隊助教

老吳說體育
2025-04-25 00:36:10
因為睡得太熟而錯過了哪些事?網友:趕緊爬起來去上學!

因為睡得太熟而錯過了哪些事?網友:趕緊爬起來去上學!

特約前排觀眾
2025-04-13 00:10:11
G3快船117-83戰勝掘金 球員評價:7人滿分,2人及格

G3快船117-83戰勝掘金 球員評價:7人滿分,2人及格

籃球資訊達人
2025-04-25 12:42:05
中國又試飛新軍機,不同于殲-36和殲-50,體現中國航空業快速發展

中國又試飛新軍機,不同于殲-36和殲-50,體現中國航空業快速發展

國平視野
2025-04-25 10:56:55
歷史一刻 兩個航天員乘組拍下“太空全家福”

歷史一刻 兩個航天員乘組拍下“太空全家福”

國際在線
2025-04-25 02:43:20
消失的彭加木:一場精心策劃的逃亡?隱藏在羅布泊的離奇秘密

消失的彭加木:一場精心策劃的逃亡?隱藏在羅布泊的離奇秘密

小雪的運動之心
2025-04-25 05:09:53
2025-04-25 13:12:49
RoboX
RoboX
關注智能汽車、機器人在內的具身智能前沿科技
124文章數 0關注度
往期回顧 全部

科技要聞

這屆上海車展,沒人靠流量活著

頭條要聞

媒體:中方表態直接戳破特朗普謊言 有一段話值得品味

頭條要聞

媒體:中方表態直接戳破特朗普謊言 有一段話值得品味

體育要聞

名記:梅西將續約2年 近10%股權比肩小貝

娛樂要聞

被網紅丑化 楊坤不再沉默開始了反擊!

財經要聞

王興注定“永無寧日”

汽車要聞

限時優惠價29.98萬元 BJ40增程赤兔版上海車展發布

態度原創

藝術
家居
房產
親子
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

清徐現代 有溫度有態度

房產要聞

灣區最美徒步掀起打卡潮!這座世界莊園,解鎖當代美好生活新密碼!

親子要聞

好可愛的小寶寶

軍事要聞

紹伊古:不排除俄羅斯恢復核試驗的可能

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 夏津县| 鄂伦春自治旗| 玛多县| 新乡市| 托克托县| 宜宾县| 福贡县| 聂拉木县| 长泰县| 大埔区| 广宗县| 嘉荫县| 吉安市| 镇平县| 铁岭县| 呼和浩特市| 青阳县| 临海市| 龙井市| 逊克县| 清徐县| 贵阳市| 淄博市| 如皋市| 高碑店市| 沽源县| 积石山| 高州市| 渑池县| 乌拉特前旗| 曲阳县| 社旗县| 甘德县| 五大连池市| 大方县| 淮南市| 邛崃市| 福清市| 邻水| 乌恰县| 长岭县|