網易首頁 > 網易號 > 正文申請入駐

開放世界低成本通用具身操作：硬件系統和算法丨周三直播·具身智能讀書會

2025-03-30 20:24:38　來源: 集智俱樂部

北京舉報

分享至

導語

機器人操作的通用化仍然是一個關鍵挑戰，特別是對于看不見的場景和新任務。當前的Vision-Language-Action（VLA）模型雖然建立在通用Vision-Language模型（VLM）之上，但由于具體數據集中普遍存在的稀缺性和異質性，仍然無法實現穩健的零樣本性能。本次分享從硬件系統，算法和訓練框架三個不同角度出發，介紹如何實現低成本，強魯棒性和泛化性，可實際部署的具身智能應用。

分享簡介

在機器人操控領域，實現對未知場景和全新任務的泛化始終是一個重要挑戰。盡管現有的視覺-語言-行動（Vision-Language-Action, VLA）模型能夠讓機器人理解語言指令，并與現實環境交互執行任務，但其零樣本泛化到新任務和新場景的表現仍不夠理想，同時機器人本體的硬件成本和調試成本高昂，限制了其在現實場景中的進一步落地。本次分享從算法（如何提升VLA在具身場景下的泛化性），硬件系統（滿足家庭場景應用需求的低成本機器人）和訓練框架（開箱即用的決策擴散模型訓練代碼庫）三個部分來探討這個問題。

盡管大部分VLA基于通用視覺-語言模型（VLMs）構建，但由于數據匱乏和異質性問題，其在零樣本任務中的表現仍不夠理想。為了解決這些局限性，我們提出了 FSD（From Seeing to Doing），一種利用層次化空間推理的創新VLM架構，通過生成視覺中間表示，為機器人操控提供細粒度指導。FSD能夠在真實環境下的機器人操控中表現出卓越的零樣本泛化能力。

針對具身智能硬件系統成本高昂的問題，我們提出了AhaRobot，這是一種低成本、完全開源的雙臂移動操作機器人系統，其硬件成本僅為1000美元，不到常見移動機器人成本的1/15。AhaRobot系統由三個部分組成：（1）一種以開箱即用組件為主的創新低成本硬件架構；（2）一種優化的控制解決方案，通過集成雙電機背隙控制和靜摩擦補償來提升操作精度；（3）一種簡單的遠程遙操作方法——RoboPilot，其遙操作過程負擔低且易于操作，就像駕駛一樣RoboPilot專為具身場景中的遠程數據采集而設計。

最后，我們使用CleanDiffuser訓練框架串聯具身算法訓練和實機部署。CleanDiffuser是第一個專為決策算法設計的擴散模型庫，能夠以簡單且靈活的構建模塊實現各種決策擴散模型算法，以便為基于擴散模型的具身智能算法提供定制化和高效的開發支持。

分享大綱

1.背景：開放世界低成本通用具身操作

2.現狀：視覺-語言-動作模型的發展和痛點

3.算法：使用FSD模型實現通用具身操作

4.硬件系統：低成本開源雙臂機器人AhaRobot

5.訓練框架：決策擴散模型訓練代碼庫CleanDiffuser

核心概念

具身智能 Embodied AI

擴散模型 Diffusion Models

視覺-語言-動作模型 Vision-Language-Action Model

主講人簡介

袁逸夫，天津大學智能與計算學部的二年級博士生，導師為郝建業教授，專注于強化學習和具身智能相關前沿理論及應用研究。他曾獲首屆中國電子學會-騰訊博士生科研激勵（全國17人），入選首屆中國科協青年人才托舉工程博士生專項計劃，并入選騰訊犀牛鳥精英人才計劃，獲國家獎學金等榮譽獎項。他在 ICML、NeurIPS、 ICLR、CVPR和WWW 等頂級國際人工智能會議上發表10余篇論文，Github開源累計獲得5K+ Stars。多項工作獲知名人工智能媒體機器之心，DeepTech等報道。他還擔任 ICML，NeurIPS，ICLR，ICCV和TNNLS等多個國際人工智能會議/期刊的程序審稿人。

個人主頁： https://yifu-yuan.github.io/

崔海勤，天津大學智能與計算學部一年級碩士生，導師為郝建業教授。他曾在多項國家級機器人競賽中獲獎。他的研究方向集中在強化學習與具身智能的結合，致力于探索智能體在真實環境中進行學習與決策。他也是多個重要開源項目的貢獻者，深度參與Google Summer of Code項目。

他的個人主頁是https://18kas.com/cv

報名參與

參與時間：

2025年4月2日（周三）晚上19:00-21:00

報名參與讀書會：

https://pattern.swarma.org/study_group_issue/884?from=wechat

掃碼參與，加入群聊，獲取系列讀書會回看權限，與社區的一線科研工作者溝通交流，共同探索具身智能這一前沿領域的發展。

涉及到的參考文獻

[1]Yuan Y, et al. From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation.

[2]Dong Z*, Yuan Y*, Hao J, et al. Cleandiffuser: An easy-to-use modularized library for diffusion models in decision making. NeurIPS 2024.

[3]Cui H*, Yuan Y*, et al. AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI. arXiv preprint arXiv:2503.10070, 2025.

具身智能讀書會啟動

集智俱樂部聯合上海交通大學助理教授李永露、銀河通用機器人合伙人史雪松、南京大學LAMDA組博士生陳雄輝、香港大學在讀博士生穆堯，共同發起首季。讀書會計劃采用“自下而上”的層級結構，探討四個核心模塊：硬件系統（機器人本體設計），數據、仿真環境與Benchmark，機器人學習，具體場景任務。希望通過重點討論經典、前沿的重要文獻，幫助大家更好地學習機器人與具身智能技術前沿技術，為相關領域的研究和應用提供洞見。

讀書會從2025年1月19日開始，每周日14:00-16:00，持續時間預計 6-8 周左右。每周進行線上會議，與主講人等社區成員當面交流，之后可以獲得視頻回放持續學習。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.