跨維智能日前公布了其在具身智能領域的前沿突破,即“一次示教即會”(You Only Teach Once,YOTO),機器人只需通過單臺跨維智能雙目純視覺空間與具身智能傳感器的一次觀察,就能提取人類手部的精細運動軌跡,之后通過Sim2Real以合成數據在虛擬空間中進行高效的數據增殖與擴展,最后經過智能的雙臂擴散策略(DexBiDP),即可確保雙臂機器人高效準確的執行相似的泛化任務。
YOTO是行業內基于3D VLA,并且無需機器人硬件或遙操設備,就能快速形成雙臂協同、多技能、長程復雜任務泛化能力的工作。相較于傳統需至少數千次標注的機器人訓練模式,YOTO將學習效率提升三個數量級,開創"所見即所得"的具身智能新范式。
▍單次演示,無限可能
如何讓機器人學習人類操作,擁有決策能力,來應對復雜多變的情況,而不是只是機械化的執行預編程操作,是具身智能的本質要求。傳統的機器人學習方法往往需要大量的人工標注和復雜的動作定義,耗時耗力。而YOTO通過單次人類視頻演示學習雙臂操作,極大地提高了學習效率。這種高效的學習方式,使得機器人能夠快速掌握人類的復雜操作模式,為具身智能系統在實際應用中的快速部署和適應提供了可能。
YOTO框架的核心在于其高效的學習能力。它能夠從單次人類視頻演示中提取雙臂操作模式,并將其精準地應用于機器人的動作規劃,進而完成各項任務,這一過程涉及多個關鍵技術模塊:
▍毫米級手部運動提取
YOTO搭載純視覺仿人雙目視覺傳感器,通過多模態特征融合算法,實時捕捉21個手部關節點位姿、接觸狀態與6D運動軌跡,左右手3D網格模型等。創新性引入立體匹配反投影技術,將2D圖像序列升維至毫米級精度的三維運動流。在"堅果酸奶制作"任務中,機器人可精準復刻人類手腕17°傾角與0.3秒抓握時序,動作誤差控制在±1.5mm。
▍基于Sim2Real的高效數據擴展
豐富的訓練數據是提高模型泛化能力和魯棒性的關鍵,也是掣肘具身智能發展應用的最迫切問題,跨維DexVerse?具身智能引擎,作為業內首款商業化落地的高通用性數據生成引擎,以Sim2Real方式,解決了現有技術無法合成形式多樣的高質量三維仿真數據資產問題,彌補了以往因為難以人為介入控制所導致生成數據誤差的缺陷,其具備低成本獲取海量豐富數字資產的能力,為持續低成本生成數據打造了堅實的數據資產基礎。
在“制作酸奶”這個任務中,DexVerse?具身智能引擎可對操作對象的周圍環境,如瓶子、桌面紋理、環境光線等各種參數進行不同配置,進一步泛化其操作任務。
?物理級環境建模:支持材質摩擦系數(μ)、光照反射率(ρ)等200+物理參數動態調整
?幾何語義增殖:基于開放詞匯分割(OVS)技術,實現物體位姿6D擾動與類別替換的自動化擴展
?零成本數據工廠:單次示教可衍生300+高質量訓練軌跡,較傳統遙操作效率提升58倍
▍雙臂擴散策略(DexBiDP)
雙臂協調控制一直是具身智能領域的難題,YOTO的雙臂擴散策略(DexBiDP)有效地解決了這一難題。DexBiDP基于擴散模型進行動作預測,通過簡化觀察輸入,僅關注操作對象的點云數據,減少了模型的計算復雜度和訓練時間。同時,BiDP預測關鍵姿勢而非連續動作,降低了擴散空間的維度,提高了模型的訓練效率和穩定性。此外,DexBiDP通過對雙臂動作進行協調控制,確保雙臂在執行任務時能夠高效地協同工作。
▍重塑雙臂協同作業的新未來
相比于人形機器人完成“走路、跑步、跳躍”等炫技動作,跨維智能始終堅信,雙臂協同作業在現階段更能體現具身智能的實際落地價值。
在工業生產線上,機器人需要執行各種復雜的操作任務,例如裝配、打螺絲等,YOTO框架能夠使機器人快速學習和適應新的操作模式,提高生產效率和質量。通過單次演示,機器人可以掌握復雜的裝配技巧,減少人工干預,實現自動化生產。
家庭服務機器人需要具備靈活的操作能力,以完成各種家務任務。YOTO框架使得機器人能夠通過觀察人類的演示,快速學習如何操作家用電器、整理物品等任務。這種高效的學習能力,將使家庭服務機器人更加智能化和實用化。
在康養領域,機器人在理療及輔助康復訓練具有重要的應用價值。YOTO 框架能夠使機器人精準地模仿理療師的操作。同時,在康復訓練中,機器人可以根據患者的實際情況,靈活調整訓練動作,提供個性化的康復方案。
YOTO框架通過單次人類視頻演示學習雙臂機器人操作,為具身智能的發展開辟了新的道路。其高效的學習方式、創新的數據擴展技術和智能的雙臂協調控制策略,不僅提高了機器人對復雜任務的適應能力和執行效率,還為具身智能系統在實際應用中的推廣和普及奠定了基礎。
我們有理由相信,隨著相關技術的不斷發展和完善,YOTO框架將在更多領域發揮重要作用,引領具身智能邁向更加智能化、自主化的未來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.