機器人前瞻(公眾號:robot_pro)
作者許麗思
編輯漠影
機器人前瞻4月27日報道,今天,靈初智能發布了分層端到端VLA+強化學習算法模型Psi-R1。R1能夠讓機器人基于Chain of Action Thought(CoAT)框架的自主推理系統,在開放環境下進行自主推理決策,完成長程復雜操作。
R1以麻將為場景,展現了機器人在開放環境中的長程靈巧操作能力,達成了30分鐘+持續CoAT超長任務時長,還驗證了三重復合交互能力,即人-機交互、機-機交互、機-環境交互。
機器人要學會打麻將,難在哪?
- 機器人需要理解麻將的規則,確保行為符合游戲規則。
- 機器人還需要制定合理的策略,如根據手牌狀態、牌局演變以及對手行為來完成動態策略生成,決定出牌、吃碰杠等操作,涉及大量人機交互、機機交互等動作。
- 機器人操作需要完成毫米級精度的抓牌、出牌、理牌等靈巧精細動作,這對機器人的長程任務規劃、靈巧操作能力提出了巨大挑戰。
在視頻中,R1讓機器人具備了翻牌、碰杠、算牌、協作等核心能力。可以看到,機器人靈巧手攻克了觸覺-視覺模態對齊難題,實現100%準確翻起麻將牌。
機器人能夠根據牌友的出牌,構建牌局狀態機,自主構建碰、杠等策略鏈,并絲滑地完成碰杠動作。
在長程規劃上,機器人能夠記得所有人打過的所有的牌,并根據牌桌狀況動態規劃要打的牌。
兩臺機器人甚至還會相互配合,不僅僅信息共享,互相“看牌”,還能多機配合遞牌,提升勝率。
不同于Pi,Figure等「動作單向決策」機制的VLA模型(僅能完成視覺-語言層面的CoT),靈初智能的R1模型的慢腦輸入包括行動Token,構建了首個支持「動作感知-環境反饋-動態決策」全閉環的VLA模型,實現機器人操作的視覺-語言-動作多模態協同的CoAT思維鏈,且已首度成功驗證VLA Test-Time Scaling。
快腦S1專注于操作,涵蓋了物體的遮掩抓、物體軌跡約束的操作如拉拉鏈,工作使用技能泛化如掃碼、打電鉆,高動態操作如拋接球等。
慢腦S2專注于推理規劃,S1的操作經過tokenize后,作為S2慢腦的輸入,和語言、視覺模態融合,基于Causal VLM自回歸架構,實現多模態融合的推理和任務規劃。
快慢腦通過Action Tokenizer隱式連接,端到端訓練,協同完成長程任務的靈巧操作。
靈初智能R1可以應用于多個場景中,例如泛工業中來料倉檢測、成品包裝等場景,零售物流中揀選、分撥、補貨、打包等場景,以及家庭服務與協作場景。
目前,該公司已與制造業、商超零售、跨境物流等行業龍頭企業展開合作,梯次布局高價值商業化場景,從泛工業向泛零售物流,再最終邁向家庭應用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.