在一汽工廠的某車間內(nèi),夸父人形機器人正執(zhí)行裝箱、搬運及分揀等自動化作業(yè)任務。據(jù)悉,該車間為一汽工廠首條人形機器人自動化驗證作業(yè)產(chǎn)線,多臺夸父機器人在工作區(qū)域內(nèi)協(xié)同作業(yè),秩序井然,這是夸父人形科研訓練場首批驗證試點場景。
本次發(fā)布的人形科研訓練場涵蓋100W+幀具身實機數(shù)據(jù),覆蓋六大場景,二十種常見物體,配合高性能機器人本體、主流開源模型、豐富的訓練解決方案、完善的采集工具鏈。使開發(fā)者有效降低研發(fā)門檻,專注模型算法研究,進一步提升研發(fā)效率。
▍人形科研訓練場四大基礎(chǔ)架構(gòu)核心功能解析
樂聚人形機器人訓練場核心模塊分為訓練層、持久存儲層、數(shù)據(jù)層和設備層四個核心模塊,在訓練層中,系統(tǒng)利用算力GPU資源,通過Torch Cuda進行高效計算。基礎(chǔ)模型算法模塊包含擴散策略、act等。
持久存儲層主要負責數(shù)據(jù)集的管理,包括數(shù)據(jù)集的查詢、修改、重修和聚合,以及數(shù)據(jù)集的描述和模型超參數(shù)的存儲。數(shù)據(jù)存儲在數(shù)據(jù)儲存庫中,提供訪問接口和地址。
數(shù)據(jù)層負責數(shù)據(jù)的采集和保存,包括數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)清洗和數(shù)據(jù)封裝,最終生成*.bag格式的數(shù)據(jù)包。數(shù)據(jù)采集分為遙操作采集和端側(cè)操作采集,遙操作采集在運用時進行,端側(cè)操作采集則包括集中采集、運行采集以及視覺、觸覺和關(guān)節(jié)數(shù)據(jù)的采集。
設備層包括VR動作捕捉設備,用于遙操作數(shù)據(jù)映射、ik/重定向,以及多個機器人組成的端側(cè)操作系統(tǒng),負責模型編排和動作組合。此外,設備層還包含NVIDIA的GPU硬件,提供強大的計算能力支持。整個系統(tǒng)架構(gòu)通過各層的協(xié)同工作,實現(xiàn)了從數(shù)據(jù)采集、模型訓練到實際應用的完整流程。
▍雙平臺x275 Tops算力 支持兩款人形采集本體
在采集本體方面,樂聚支持兩種異構(gòu)機器人形態(tài),分別為Kuavo 4pro Max全尺寸人形機器人和Kuavo LB輪臂式人形機器人。這兩種機器人形態(tài)可覆蓋多個場景,且支持多機器人平臺協(xié)同作業(yè)。同時,機器人配備夾爪或多指靈巧手,以滿足模仿學習、多任務策略訓練等研究需求。
Kuavo 4pro Max 全尺寸人形機器人
Kuavo LB 輪臂式人形機器人
為確保數(shù)據(jù)的高效處理,機器人搭載了NVIDIA Jetson AGX Orin開發(fā)套件。該套件包含Jetson AGX Orin模組,擁有高達275 TOPS的算力,運行于NVIDIA AI軟件堆棧。
配置使機器人能夠在邊緣端執(zhí)行復雜計算任務,如數(shù)據(jù)處理、模型推理等,進而大大提升了數(shù)據(jù)采集和處理的效率,為后續(xù)模型訓練和算法優(yōu)化提供了高質(zhì)量的研究基礎(chǔ)。
▍100W+幀具身實機數(shù)據(jù) 涵蓋六大場景 二十種常見物體
為構(gòu)建人形機器人技術(shù)開放生態(tài),樂聚推出了行業(yè)領(lǐng)先的全棧開源解決方案,該方案涵蓋大規(guī)模多模態(tài)數(shù)據(jù)集、標準化訓練框架與部署工具鏈。
大規(guī)模多模態(tài)開源數(shù)據(jù)集是本次發(fā)布的人形科研訓練場的重要組成部分。此數(shù)據(jù)集聚焦于多場景人形機器人具身智能訓練,提供高精度、多模態(tài)的機器人交互數(shù)據(jù)。
數(shù)據(jù)集覆蓋了兩類機器人平臺、六種任務場景以及二十種常見物體類別,例如工具、箱體、零部件、海綿、餐盤等,包含超過1000000條真實世界的示教軌跡。
這些數(shù)據(jù)通過高精度VR遙操作系統(tǒng)采集,完整記錄了多視角視覺信息、本體感知狀態(tài)以及語言任務描述,可支持模仿學習、視覺語言動作模型(VLA)及世界模型訓練等多種應用場景。
雙臂稱重三視角采集數(shù)據(jù)(頭部與左右腕三視角畫面)
使用扳手擰螺絲(頭部與左右腕三視角畫面)
蔬菜抓取與放置涉及左右手協(xié)同任務(頭部與左右腕三視角畫面)
物體稱重操作(頭部與左右腕三視角畫面)
場景應用方面,科研版數(shù)據(jù)集包含了工業(yè)操作與日常任務中的多種關(guān)鍵任務場景,如掃碼識別、物品稱重、裝箱、搬運、分揀、清潔等。該數(shù)據(jù)集通過標準化流程采集多維度數(shù)據(jù),涵蓋關(guān)節(jié)狀態(tài)數(shù)據(jù)、控制數(shù)據(jù)、左右眼廣角視覺數(shù)據(jù)、左右手局部操作數(shù)據(jù),以及靈巧手和夾爪的狀態(tài)數(shù)據(jù)與控制數(shù)據(jù)等。
目前科研版數(shù)據(jù)集已收集超過100萬幀實機數(shù)據(jù),為模型訓練和算法優(yōu)化提供了豐富的樣本資源。
在標準化方面,該技術(shù)方案采用LeRobotDatasetV2這一標準化數(shù)據(jù)格式,同時配套提供了一系列開源的先進算法訓練框架。這些框架兼容樂聚生態(tài)下的訓練腳本,如Diffusion Policy、ACT等,且已在Kuavo系列人形機器人上完成任務驗證。
需要指出的是,方案提供的Kuavo IL機器人模仿學習框架集成了多種先進模仿學習方法。該框架支持多種數(shù)據(jù)格式轉(zhuǎn)換,以滿足不同的訓練需求,并提供靈活的模型訓練和部署方式,既支持單機訓練,也支持分布式訓練,還能在多種機器人平臺上進行模型部署。此外,部署工具鏈與數(shù)據(jù)采集系統(tǒng)共享統(tǒng)一的代碼庫,從而確保了從策略訓練到硬件部署的無縫銜接。
目前,該方案已支持桌面級的雙手操作任務,例如抓取放置、稱重、容器操作等,同時也能夠處理多物體交互、長時程任務等復雜場景。其應用范圍覆蓋家居、工業(yè)、零售等多個領(lǐng)域中的物品操作。開發(fā)者能夠以低成本的方式擴展訓練數(shù)據(jù),并驗證策略的有效性,這進一步降低了人形機器人具身技術(shù)的研發(fā)門檻。
▍可進行端云協(xié)同大規(guī)模訓練
本次發(fā)布的樂聚人形科研訓練場整合了InsightOS端側(cè)操作系統(tǒng)與云端平臺,方便開發(fā)者進行端云協(xié)同大規(guī)模訓練。
端側(cè)操作系統(tǒng)InsightOS是專為通用人形機器人設計的,著重強調(diào)靈活性與泛化能力。該系統(tǒng)支持語義決策與現(xiàn)場任務自裝配,能夠為機器人的操作提供智能化支持。
云端平臺兼容包括華為云、金山云在內(nèi)的多個AI算力平臺。其基于華為云八爪魚(Octopus)開發(fā)平臺構(gòu)建人形機器人數(shù)據(jù)閉環(huán),提供從數(shù)據(jù)采集、模型訓練到應用部署的全流程支持。該平臺整合了數(shù)據(jù)標注、仿真驗證等模塊,開發(fā)者無需從頭搭建復雜的具身智能開發(fā)體系,即可快速開展算法訓練,專注于模型優(yōu)化與應用創(chuàng)新。
▍結(jié)語與未來:
本次發(fā)布的樂聚人形訓練場科研版以夸父高性能本體為基礎(chǔ),結(jié)合數(shù)據(jù)采集工具鏈,涵蓋從數(shù)據(jù)訓練到模型部署的全流程,為開發(fā)者提供全棧式解決方案。該方案進一步降低了開發(fā)者的準入門檻,使普通開發(fā)者能夠更輕松地開展工作,專注于算法研發(fā),實現(xiàn)真正意義上的開箱即用。樂聚表示,目前科研版操作技能庫與具身智能數(shù)據(jù)集仍在持續(xù)更新,未來訓練場將能夠適配更多落地應用場景,實現(xiàn)從科研到工業(yè)場景的賦能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.