網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

NUS邵林團(tuán)隊(duì)發(fā)布DexSinGrasp基于強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)物體分離與抓取統(tǒng)一

2025-04-13 14:42:11　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

本文的作者均來(lái)自新加坡國(guó)立大學(xué) LinS Lab。本文的共同第一作者為新加坡國(guó)立大學(xué)實(shí)習(xí)生許立昕和博士生劉子軒，主要研究方向?yàn)闄C(jī)器人學(xué)習(xí)和靈巧操縱，其余作者分別為碩士生桂哲瑋、實(shí)習(xí)生郭京翔、江澤宇以及博士生徐志軒、高崇凱。本文的通訊作者為新加坡國(guó)立大學(xué)助理教授邵林。

在物流倉(cāng)庫(kù)、生產(chǎn)線或家庭場(chǎng)景中，機(jī)器人常常需要在大量雜亂擺放的物體中高效地抓取目標(biāo)。

在這些場(chǎng)景中，如果使用機(jī)械夾爪，由于其自由度有限、靈活性不足，需要多次對(duì)場(chǎng)景進(jìn)行操作；而高自由度的靈巧手雖然具有潛在優(yōu)勢(shì)，但因控制復(fù)雜和訓(xùn)練難度大，在密集遮擋與復(fù)雜排列場(chǎng)景下往往表現(xiàn)不佳。

現(xiàn)有方法常采用先分離、后抓取的策略，存在策略切換不夠靈活，執(zhí)行效率低下的問(wèn)題。

為解決這一挑戰(zhàn)，來(lái)自新加坡國(guó)立大學(xué)的邵林團(tuán)隊(duì)提出了 DexSinGrasp——一種基于強(qiáng)化學(xué)習(xí)的統(tǒng)一策略，通過(guò)整合物體分離與抓取任務(wù)，令靈巧手在雜亂環(huán)境中能夠自適應(yīng)調(diào)整分離與抓取策略，顯著提高抓取成功率和操作效率。該項(xiàng)研究已投稿至 IROS 2025。

論文標(biāo)題：DexSinGrasp: Learning a Unified Policy for Dexterous Object Singulation and Grasping in Cluttered Environments

論文鏈接：https://arxiv.org/abs/2504.04516

項(xiàng)目主頁(yè)：https://nus-lins-lab.github.io/dexsingweb/

代碼鏈接：https://github.com/davidlxu/DexSinGrasp

為了讓機(jī)器人在多變的雜亂環(huán)境中高效分離物體并抓取目標(biāo)，DexSinGrasp 提出了「統(tǒng)一策略」的設(shè)計(jì)。該方法通過(guò)強(qiáng)化學(xué)習(xí)構(gòu)建了一體化的策略框架，實(shí)現(xiàn)了「分離—抓取」動(dòng)作的無(wú)縫銜接。該項(xiàng)研究的主要貢獻(xiàn)有：

統(tǒng)一強(qiáng)化學(xué)習(xí)策略：提出一種統(tǒng)一的強(qiáng)化學(xué)習(xí)策略，實(shí)現(xiàn)靈巧手在雜亂環(huán)境中對(duì)物體的有效分離和抓取。

課程學(xué)習(xí)與策略蒸餾：融入雜亂環(huán)境課程學(xué)習(xí)以提升不同場(chǎng)景下的策略性能，并通過(guò)策略蒸餾獲得適用于實(shí)際部署的視覺(jué)抓取策略。

多難度抓取任務(wù)設(shè)計(jì)：設(shè)計(jì)一系列不同難度與排列的雜亂抓取任務(wù)，通過(guò)大量實(shí)驗(yàn)驗(yàn)證所提方法的高效性與有效性。

方法

統(tǒng)一強(qiáng)化學(xué)習(xí)策略

DexSinGrasp 的核心在于構(gòu)建一個(gè)統(tǒng)一的策略框架，引入分離獎(jiǎng)勵(lì)項(xiàng)，將「分離障礙」、「抓取目標(biāo)」整合為一個(gè)連續(xù)的動(dòng)作決策過(guò)程，充分利用了分離與抓取融合的優(yōu)勢(shì)，避免傳統(tǒng)多階段方法中各模塊間效率低下和動(dòng)作銜接不暢的問(wèn)題。為此，我們?cè)O(shè)計(jì)了一個(gè)分段式獎(jiǎng)勵(lì)函數(shù)，其關(guān)鍵組成包括：

雜亂環(huán)境課程學(xué)習(xí)

在高度雜亂的場(chǎng)景中直接訓(xùn)練機(jī)器人往往容易陷入局部最優(yōu)，導(dǎo)致成功率低下。為此，我們引入了「雜亂環(huán)境課程學(xué)習(xí)」的機(jī)制，具體包括：

任務(wù)分級(jí)設(shè)計(jì)：從最簡(jiǎn)單的單目標(biāo)抓取任務(wù)開(kāi)始，逐步引入障礙物。我們?cè)O(shè)計(jì)了不同難度的任務(wù)，例如：

密集排列任務(wù)：用 D-4、D-6、D-8 表示，不同數(shù)字代表環(huán)境中障礙物數(shù)量的遞增；

隨機(jī)排列任務(wù)：用 R-4、R-6、R-8 表示，以驗(yàn)證策略在非規(guī)則分布場(chǎng)景下的泛化能力。

循序漸進(jìn)訓(xùn)練：先在障礙物較少且排列較規(guī)則的環(huán)境中訓(xùn)練出初步策略，然后逐步過(guò)渡到障礙物數(shù)量更多、排列更隨機(jī)的復(fù)雜場(chǎng)景。這樣的訓(xùn)練策略能顯著提高策略的穩(wěn)定性和泛化性能，確保機(jī)器人在極端密集的環(huán)境下也能有效分離并抓取目標(biāo)。

教師—學(xué)生策略蒸餾

在仿真環(huán)境中，我們能夠利用精確的物體位置、力反饋等特權(quán)信息訓(xùn)練出高性能的教師策略。但在真實(shí)場(chǎng)景中，這些信息難以獲取，為此我們?cè)O(shè)計(jì)了教師—學(xué)生策略蒸餾方案：

教師策略：利用仿真中豐富的特權(quán)信息訓(xùn)練出性能優(yōu)異的策略，能夠精細(xì)地控制物體的分離和抓取動(dòng)作。

數(shù)據(jù)采集與行為克隆：通過(guò)教師策略生成大量示范數(shù)據(jù)（包括視覺(jué)觀測(cè)、點(diǎn)云數(shù)據(jù)以及動(dòng)作指令），并采用行為克隆的方法訓(xùn)練出只依賴攝像頭采集的點(diǎn)云和機(jī)器人自感知數(shù)據(jù)的學(xué)生策略。這樣，在真實(shí)環(huán)境中，機(jī)器人無(wú)需額外傳感器信息也能保持高成功率，完成從仿真到實(shí)機(jī)的平滑遷移。

實(shí)驗(yàn)結(jié)果

為了測(cè)試 DexSinGrasp 策略在分離抓取時(shí)的有效性和泛化性，以及雜亂環(huán)境課程學(xué)習(xí)的有效性，設(shè)計(jì)了三組實(shí)驗(yàn)進(jìn)行測(cè)試，并與兩種基線比較。

基線 1 僅訓(xùn)練了一個(gè)抓取策略，沒(méi)有鼓勵(lì)對(duì)周圍物體進(jìn)行分離。基線 2 將分離和抓取策略分開(kāi)且分階段進(jìn)行。

評(píng)價(jià)指標(biāo)為抓取成功率（SR）和平均步數(shù)（AS）。抓取成功率越高，說(shuō)明策略的有效性越高，平均步數(shù)越少，說(shuō)明策略的效率越高。

實(shí)驗(yàn) 1

對(duì)教師策略和學(xué)生策略在不同數(shù)量障礙的緊密排列進(jìn)行測(cè)試，證明了 DexSinGrasp 的有效性和高效率。圖示是教師策略在密集擺放模式下障礙物數(shù)量為 4、6、8 時(shí)的仿真演示。

實(shí)驗(yàn) 2

對(duì)教師策略和學(xué)生策略在不同數(shù)量障礙的隨機(jī)排列進(jìn)行測(cè)試，結(jié)果證明了 DexSinGrasp 在隨機(jī)物體擺放下也可以實(shí)現(xiàn)成功分離抓取，對(duì)不同的場(chǎng)景有一定泛化性。圖示是教師策略在隨機(jī)擺放模式下障礙物數(shù)量為 4、6、8 時(shí)的仿真演示。

實(shí)驗(yàn) 3

對(duì)雜亂環(huán)境課程學(xué)習(xí)的方式進(jìn)行測(cè)試。我們嘗試了無(wú)課程學(xué)習(xí)、先隨機(jī)排列再緊密排列的課程學(xué)習(xí)，以及先緊密排列再隨機(jī)排列的課程學(xué)習(xí)的訓(xùn)練模式。

我們發(fā)現(xiàn)，無(wú)課程學(xué)習(xí)訓(xùn)練的各個(gè)策略中，隨機(jī)排列的任務(wù)表現(xiàn)不佳；先隨機(jī)排列再緊密排列的課程學(xué)習(xí)獲得的各個(gè)策略中，緊密排列的任務(wù)表現(xiàn)不佳；而先緊密排列再隨機(jī)排列的課程學(xué)習(xí)在不同的任務(wù)上均取得了不錯(cuò)的成功率，證實(shí)了所提出的課程學(xué)習(xí)機(jī)制在不同場(chǎng)景下的有效性。

此外，研究團(tuán)隊(duì)還在實(shí)機(jī)平臺(tái)上進(jìn)行了驗(yàn)證。使用 uFactory xArm6 搭載 LEAP 手，并配備兩臺(tái) Realsense RGB-D 攝像頭以進(jìn)行實(shí)時(shí)點(diǎn)云數(shù)據(jù)融合與濾波處理。圖示為實(shí)機(jī)實(shí)驗(yàn)中對(duì)密集與隨機(jī)擺放的 4、6、8 個(gè)物體場(chǎng)景下成功分離與抓取的演示。實(shí)驗(yàn)表明，經(jīng)過(guò)教師—學(xué)生策略蒸餾后的視覺(jué)策略在實(shí)際操作中也能有效完成雜亂環(huán)境的有效分離與抓取。

總結(jié)

研究團(tuán)隊(duì)所提出的 DexSinGrasp 是一種基于強(qiáng)化學(xué)習(xí)的統(tǒng)一框架，通過(guò)整合物體分離與抓取任務(wù)，實(shí)現(xiàn)了靈巧手在雜亂環(huán)境中的高效操作。

該方法突破以往直接抓取或多階段分割的策略，利用推移、滑動(dòng)等動(dòng)作在抓取過(guò)程中直接調(diào)整障礙物布局，結(jié)合環(huán)境復(fù)雜度遞進(jìn)式的雜亂環(huán)境課程學(xué)習(xí)與教師—學(xué)生策略蒸餾技術(shù)，有效提升視覺(jué)策略的泛化能力與仿真到現(xiàn)實(shí)的遷移效果。

實(shí)驗(yàn)表明，該方法在多種測(cè)試場(chǎng)景中展現(xiàn)出優(yōu)于傳統(tǒng)方法的抓取成功率和操作效率。未來(lái)研究將拓展至動(dòng)態(tài)復(fù)雜場(chǎng)景下的多形態(tài)物體操作，增強(qiáng)抗干擾能力，進(jìn)一步提高系統(tǒng)在非結(jié)構(gòu)化環(huán)境中的泛化性與適應(yīng)性。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.