導語
機器人操作的通用化仍然是一個關鍵挑戰,特別是對于看不見的場景和新任務。當前的Vision-Language-Action(VLA)模型雖然建立在通用Vision-Language模型(VLM)之上,但由于具體數據集中普遍存在的稀缺性和異質性,仍然無法實現穩健的零樣本性能。本次分享從硬件系統,算法和訓練框架三個不同角度出發,介紹如何實現低成本,強魯棒性和泛化性,可實際部署的具身智能應用。
分享簡介
在機器人操控領域,實現對未知場景和全新任務的泛化始終是一個重要挑戰。盡管現有的視覺-語言-行動(Vision-Language-Action, VLA)模型能夠讓機器人理解語言指令,并與現實環境交互執行任務,但其零樣本泛化到新任務和新場景的表現仍不夠理想,同時機器人本體的硬件成本和調試成本高昂,限制了其在現實場景中的進一步落地。本次分享從算法(如何提升VLA在具身場景下的泛化性),硬件系統(滿足家庭場景應用需求的低成本機器人)和訓練框架(開箱即用的決策擴散模型訓練代碼庫)三個部分來探討這個問題。
盡管大部分VLA基于通用視覺-語言模型(VLMs)構建,但由于數據匱乏和異質性問題,其在零樣本任務中的表現仍不夠理想。為了解決這些局限性,我們提出了 FSD(From Seeing to Doing),一種利用層次化空間推理的創新VLM架構,通過生成視覺中間表示,為機器人操控提供細粒度指導。FSD能夠在真實環境下的機器人操控中表現出卓越的零樣本泛化能力。
針對具身智能硬件系統成本高昂的問題,我們提出了AhaRobot,這是一種低成本、完全開源的雙臂移動操作機器人系統,其硬件成本僅為1000美元,不到常見移動機器人成本的1/15。AhaRobot系統由三個部分組成:(1)一種以開箱即用組件為主的創新低成本硬件架構;(2)一種優化的控制解決方案,通過集成雙電機背隙控制和靜摩擦補償來提升操作精度;(3)一種簡單的遠程遙操作方法——RoboPilot,其遙操作過程負擔低且易于操作,就像駕駛一樣RoboPilot專為具身場景中的遠程數據采集而設計。
最后,我們使用CleanDiffuser訓練框架串聯具身算法訓練和實機部署。CleanDiffuser是第一個專為決策算法設計的擴散模型庫,能夠以簡單且靈活的構建模塊實現各種決策擴散模型算法,以便為基于擴散模型的具身智能算法提供定制化和高效的開發支持。
分享大綱
1.背景:開放世界低成本通用具身操作
2.現狀:視覺-語言-動作模型的發展和痛點
3.算法:使用FSD模型實現通用具身操作
4.硬件系統:低成本開源雙臂機器人AhaRobot
5.訓練框架:決策擴散模型訓練代碼庫CleanDiffuser
核心概念
具身智能 Embodied AI
擴散模型 Diffusion Models
視覺-語言-動作模型 Vision-Language-Action Model
主講人簡介
袁逸夫,天津大學智能與計算學部的二年級博士生,導師為郝建業教授,專注于強化學習和具身智能相關前沿理論及應用研究。他曾獲首屆中國電子學會-騰訊博士生科研激勵(全國17人),入選首屆中國科協青年人才托舉工程博士生專項計劃,并入選騰訊犀牛鳥精英人才計劃,獲國家獎學金等榮譽獎項。他在 ICML、NeurIPS、 ICLR、CVPR和WWW 等頂級國際人工智能會議上發表10余篇論文,Github開源累計獲得5K+ Stars。多項工作獲知名人工智能媒體機器之心,DeepTech等報道。他還擔任 ICML,NeurIPS,ICLR,ICCV和TNNLS等多個國際人工智能會議/期刊的程序審稿人。
個人主頁: https://yifu-yuan.github.io/
崔海勤,天津大學智能與計算學部一年級碩士生,導師為郝建業教授。他曾在多項國家級機器人競賽中獲獎。他的研究方向集中在強化學習與具身智能的結合,致力于探索智能體在真實環境中進行學習與決策。他也是多個重要開源項目的貢獻者,深度參與Google Summer of Code項目。
他的個人主頁是https://18kas.com/cv
報名參與
參與時間:
2025年4月2日(周三)晚上19:00-21:00
報名參與讀書會:
https://pattern.swarma.org/study_group_issue/884?from=wechat
掃碼參與,加入群聊,獲取系列讀書會回看權限,與社區的一線科研工作者溝通交流,共同探索具身智能這一前沿領域的發展。
涉及到的參考文獻
[1]Yuan Y, et al. From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation.
[2]Dong Z*, Yuan Y*, Hao J, et al. Cleandiffuser: An easy-to-use modularized library for diffusion models in decision making. NeurIPS 2024.
[3]Cui H*, Yuan Y*, et al. AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI. arXiv preprint arXiv:2503.10070, 2025.
具身智能讀書會啟動
集智俱樂部聯合上海交通大學助理教授李永露、銀河通用機器人合伙人史雪松、南京大學LAMDA組博士生陳雄輝、香港大學在讀博士生穆堯,共同發起首季。讀書會計劃采用“自下而上”的層級結構,探討四個核心模塊:硬件系統(機器人本體設計),數據、仿真環境與Benchmark,機器人學習,具體場景任務。希望通過重點討論經典、前沿的重要文獻,幫助大家更好地學習機器人與具身智能技術前沿技術,為相關領域的研究和應用提供洞見。
讀書會從2025年1月19日開始,每周日14:00-16:00,持續時間預計 6-8 周左右。每周進行線上會議,與主講人等社區成員當面交流,之后可以獲得視頻回放持續學習。
詳情請見:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.