憑借獨特的適應性和靈活性,四足機器人等腿式機器人一直被視為是在高難度環境中實現復雜任務的理想平臺。隨著技術的進步,從日常生活協助到復雜任務執行,四足機器人等腿式機器人在越來越多場景被廣泛應用。
然而,在執行如滑板運動、拳擊等具有高度動態性和不確定性的接觸任務時,腿式機器人的控制仍面臨諸多挑戰。
▍提出DHAL框架,結合雙重優勢
在基于模型的控制領域,混合自動機框架作為一種強大的工具,被廣泛應用于建模具有離散與連續動態的系統,為腿式機器人行為規劃和足式行走提供了有效解決方案。然而,由于混合動力系統的組合性質,通過基于模型的優化找到最優策略在計算上極具挑戰性,特別是對于具有高維狀態和動作空間的任務。
相比之下,無模型的強化學習(RL)在解決機器人最優控制問題方面展現出了巨大潛力。RL將過渡動態建模為馬爾可夫決策過程(MDP),并通過最大化累積獎勵來求解。然而,RL策略通常由深度神經網絡表示,缺乏可解釋性,且無法顯式建模混合動力系統。此外,接觸引導任務由于接觸事件的稀疏性,對RL提出了額外的挑戰。RL中的采樣效率低下往往導致次優學習,而現有的連續映射策略難以處理混合動力系統特有的突變特性。
面對這些挑戰,來自密歇根大學安娜堡分校和南方科技大學的研究人員攜手合作進行了深入研究,并提出了一種解決接觸引導任務創新策略——離散時間混合自動機學習(DHAL)框架,為四足機器人滑板等接觸任務提供了全新解決方案。
DHAL框架巧妙地結合了離散時間混合自動機和強化學習的優勢,實現了對混合動力系統的顯式建模和在線學習。無需顯式的軌跡分割或事件標記,該框架就能夠在線學習混合動力系統的模式切換。這不僅提高了算法的靈活性和適應性,還大大降低了對先驗知識的依賴。此外,通過引入Beta策略分布和多評論家架構,DHAL框架進一步提升了策略的樣本效率和穩定性,使其在面對稀疏獎勵和復雜環境時仍能表現出色。
為了驗證方法的有效性,研究團隊進行了四足機器人滑板等具有挑戰性實驗。通過模擬和實際測試,研究團隊驗證了DHAL框架的有效性,并展示了其在混合動力系統中的穩健性能。
那么,該研究成果具體是如何實現的呢?接下來,和機器人大講堂一起來深入了解!
▍三大核心部件,實現精確控制
DHAL框架主要由三個核心部分組成:離散時間混合自動機(DHA)、Beta分布策略以及控制器。這三個部分相互協作,共同實現了對混合動力系統的精確控制和模式識別。
- 離散時間混合自動機(DHA)
作為DHAL框架的核心組件之一,DHA負責在每一步確定系統的一個獨熱編碼潛在模式。研究團隊采用β-VAE(變分自編碼器)來建模狀態轉移,以更好地與強化學習的隨機性質對齊。DHA的設計旨在輸出一個獨熱編碼,從而將其視為分類問題。
狀態轉移建模:DHA使用β-VAE來學習狀態轉移的動態特性。β-VAE是一種生成模型,能夠通過學習數據的潛在表示來捕捉數據的復雜分布。在這里,它被用來建模系統在不同模式之間的狀態轉移。
獨熱編碼輸出:DHA的輸出是一個獨熱編碼的潛在模式向量,這個向量指示了當前激活的動力學模塊。獨熱編碼的方式使得每個模式都對應一個唯一的編碼,便于后續的處理和識別。
訓練與優化:DHA通過最小化預測誤差來訓練,同時最小化模式概率的信息熵,以確保模式之間的區分度。這樣,DHA就能更準確地識別系統的當前模式,并為后續的動態學編碼和解碼提供基礎。
- Beta分布策略
在足式行走任務中,主流框架通常假設策略分布為高斯分布。然而,當動作空間有嚴格界限時(如防止碰撞的關節位置限制),高斯分布可能產生超出界限的動作,導致策略優化中的偏差。為此,研究團隊引入了Beta分布作為DHAL框架的策略分布。
Beta分布的優勢:Beta分布是一種在有限區間上的連續概率分布,它能夠有效地利用動作空間,特別是在稀疏獎勵條件下。與高斯分布相比,Beta分布更能適應具有嚴格界限的動作空間,從而避免產生超出界限的動作。
策略優化:通過引入Beta分布,DHAL框架能夠更準確地優化策略,提高樣本效率和穩定性。Beta分布策略能夠在面對稀疏獎勵和復雜環境時仍能保持出色的性能。
- 控制器
控制器是 DHAL 框架的執行部分,它根據當前的觀測和動力學模塊的輸出,計算并輸出機器人的動作指令。控制器結合了強化學習的策略優化方法和動力學模型的預測能力,實現了對機器人動作的精確控制。
觀測與輸出:控制器接收來自環境的觀測信息(如機器人的姿態、速度等)和動力學模塊的輸出(如當前模式、預測狀態等),并根據這些信息計算出機器人的動作指令。
策略優化與動力學預測:控制器結合了強化學習的策略優化方法和動力學模型的預測能力。通過不斷地試錯和學習,控制器能夠逐漸優化策略,提高機器人的運動性能。同時,動力學模型的預測能力也使得控制器能夠更準確地預測機器人的未來狀態,從而做出更合理的決策。
▍多重實驗測試,驗證框架有效
為了驗證DHAL框架的有效性,研究團隊進行了一系列精心設計的實驗,包括混合動力學系統優勢驗證、滑板模式識別驗證以及現實世界滑板運動驗證。
- 混合動力學系統優勢驗證
通過比較不同最大模式間的動態預測損失,研究團隊發現當最大模式數為1(即用一個網絡模擬整個動態)時損失最高;加入混合動力學思想后,通過切換模式引導流體動力學轉換和突變,重建損失較小,且從最大模式數2開始,預測精度提升趨于平穩。這表明在具有突變等特性的系統中,構建混合動力學系統更合理。考慮到滑板兩個主要狀態,確定模式數為3是本系統合理值,對應三種運動模式。
- 滑板模式識別驗證
為驗證方法能否識別滑板模式,研究團收集了機器人滑板真實軌跡及控制器選擇模式進行可視化,用不同RGBLED顏色表示混合自動機選擇的動態模塊。結果顯示,模式選擇和轉換順序流暢,與滑板運動分解一致,且與物理直覺高度相符。此外,研究團隊通過應用t-SNE降低控制器神經網絡隱藏層輸出維數,發現潛在空間在不同模式下分布清晰,這表明控制器能有效處理跨模式運動控制任務,DHAL模塊能準確區分各種模式。
- 現實世界滑板運動驗證
為評估DHAL框架在有干擾的現實世界中實現滑板運動的能力,研究團隊在光滑陶瓷地板、柔軟地毯地板、擾動、斜坡地形、單臺階地形、不平坦地形等多種真實場景中進行了實驗測試,并就成功率進行了統計。
結果表明,DHAL框架在訓練獎勵、模式識別和抗干擾能力方面均表現出色,明顯優于其他對比方法。尤為值得一提的是,在滑板公園的極端地形測試中,DHAL框架同樣展現出了驚人的穩定性和適應性。盡管機器人偶爾會因為地形干擾而偏離滑板,但它總能迅速調整姿態并恢復穩定的滑行狀態,這一結果有力證明了DHAL框架的魯棒性。
參考文章:
https://arxiv.org/html/2503.01842v1#abstract
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.