導語
在多模態大模型與世界模型蓬勃發展的當下,具身智能正逐漸成為通往通用人工智能的關鍵路徑。你是否好奇,這一前沿領域如今涌現了哪些新突破?3月23日下午16:00-18:00,集智俱樂部第三期,本次分享主題為“自適應具身智能感知與交互” ,中山大學計算機學院副教授劉陽老師將系統梳理具身智能領域的最新前沿進展,剖析多模態大模型與世界模型的融合,如何重塑具身智能體的認知架構,還會圍繞構建具身感知與交互框架展開深入探討。
背景介紹
隨著多模態大模型(MLMs)與世界模型(WMs)的發展,具身智能(Embodied AI)已成為實現通用人工智能(AGI)的關鍵路徑?,F有的AI系統受限于虛擬空間與物理世界的割裂,而具身智能通過構建感知-推理-交互閉環,推動AI實體在真實場景中的進化。
分享簡介
本次分享將系統梳理具身智能領域的最新前沿進展,重點揭示多模態大模型與世界模型的融合如何重構具身智能體的認知架構。深入探討如何構建符合真實物理世界的具身感知與交互框架,提高具身智能體在復雜環境的適應性、決策可靠性和泛化能力。主要內容包括:(1)雙視覺三維場景感知與問答;(2)長程連續具身導航;(3)面向主動探索的具身問答;(4)大規模具身智能仿真平臺。建立MLMs時代具身AI的技術圖譜,為領域發展提供結構化認知框架,為研究者提供的技術路線。
分享大綱
具身智能發展概述
具身感知(Embodied Perception)
具身交互(Embodied Interaction)
具身智能體(Embodied Agent)
具身模擬器(Embodied Simulators)
主講人介紹
劉陽, 中山大學計算機學院,副教授,人機物智能融合實驗室(HCP-Lab)(https://www.sysu-hcp.net)核心成員。
主要研究方向為智能體與具身智能、魯棒可信多模態表征學習。已累計發表論文40余篇,包括TPAMI,TIP,TMECH, CVPR,ICCV等,2篇論文入選ESI高被引論文。出版專著《多模態大模型:新一代人工智能技術范式》,入選中山大學本科教材系列,并獲得2024電子工業出版社年度優秀作者。主持多模態因果推理開源框架CausalVLR和具身智能資源倉庫。承擔了國家自然科學基金重點、青年等省部級項目十余項,獲得2023中國軟件大會機器人大模型與具身智能挑戰賽優勝獎以及2023廣東省第三屆計算機科學青年學術秀一等獎。擔任廣東省圖象圖形學會計算機視覺專委會副秘書長。
研究領域:
智能體和具身智能:視覺語言導航、具身交互、機器人操縱與控制
多模態表征學習:多模態感知、視覺問答、跨模態視頻理解
因果推理:因果關系發現、因果模型學習、反事實推理
有意加入實驗室的博士生、碩士生或優秀本科生,通過liuy856@mail.sysu.edu.cn聯系(來信請附自我介紹和個人簡歷)
報名參與
參與時間:
2025年3月23日 下午16:00-18:00
報名參與讀書會:
https://pattern.swarma.org/study_group_issue/876?from=wechat
掃碼參與,加入群聊,獲取系列讀書會回看權限,與社區的一線科研工作者溝通交流,共同探索具身智能這一前沿領域的發展。
涉及到的參考文獻
[1] Yang Liu, Weixing Chen, Yongjie Bai, Xiaodan Liang, Guanbin Li, Wen Gao, and Liang Lin. "Aligning cyber space with physical world: A comprehensive survey on embodied ai." arXiv preprint arXiv:2407.06886, 2024.
[2] Luo, Jingzhou, Yang Liu, Weixing Chen, Zhen Li, Yaowei Wang, Guanbin Li, and Liang Lin. "DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering." CVPR, 2025.
[3] Song, Xinshuai, Weixing Chen, Yang Liu, Vincent Chan, Guanbin Li, and Liang Lin. "Towards long-horizon vision-language navigation: Platform, benchmark and method." CVPR. 2025.
[4] Kaixuan Jiang, Yang Liu, Weixing Chen, Jingzhou Luo, Ziliang Chen, Ling Pan, Guanbin Li, Liang Lin, "Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering. " arXiv preprint arXiv:2503.11117, 2025.
[5] Pengzhen Ren, Min Li, Zhen Luo, Xinshuai Song, Ziwei Chen, Weijia Liufu, Yixuan Yang et al. "InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction." arXiv preprint arXiv:2412.05789, 2024.
具身智能讀書會啟動
集智俱樂部聯合上海交通大學助理教授李永露、銀河通用機器人合伙人史雪松、南京大學LAMDA組博士生陳雄輝、香港大學在讀博士生穆堯,共同發起首季。讀書會計劃采用“自下而上”的層級結構,探討四個核心模塊:硬件系統(機器人本體設計),數據、仿真環境與Benchmark,機器人學習,具體場景任務。希望通過重點討論經典、前沿的重要文獻,幫助大家更好地學習機器人與具身智能技術前沿技術,為相關領域的研究和應用提供洞見。
讀書會從2025年1月19日開始,每周日14:00-16:00,持續時間預計 6-8 周左右。每周進行線上會議,與主講人等社區成員當面交流,之后可以獲得視頻回放持續學習。
詳情請見:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.