Modular, Hierarchical Machine Learningfor Sequential Goal Completion
模塊化、分層的機器學習用于順序目標完成
https://arxiv.org/pdf/2404.19060
摘要
假設在一個布滿不同物體的迷宮中,可以給機器人分配一個順序目標完成任務,例如:1)拿起一把鑰匙,然后2)打開門,然后3)打開寶箱。典型的機器學習(ML)解決方案會涉及一個整體訓練的人工神經網絡(ANN)。然而,如果目標的順序或目標本身發生變化,那么ANN必須進行顯著的(或者最壞的情況下,是完全的)重新訓練。與整體ANN不同,一個模塊化的ML組件應該是1)獨立可優化的(與任務無關),并且2)可以任意與其他ML模塊重新配置。本文介紹了一個模塊化、分層的ML框架,通過整合兩種新興的ML技術:1)認知地圖學習者(CML)和2)高維計算(HDC)。CML是由三個單層ANN(矩陣)組成的集合,它們協作訓練以學習抽象圖的拓撲結構。在這里,構建了兩個CML,一個描述二維物理空間中的位置,另一個描述在這個空間中發現的物體的相對分布。每個CML節點狀態被編碼為高維向量,以利用HDC(一種ML代數)來進行這些高維“符號”向量的符號推理。通過這種方式,上述每個子目標都由CML節點狀態的代數方程來描述。多個獨立訓練的CML隨后被組裝在一起,以在迷宮中導航并解決順序目標任務。至關重要的是,對這些目標的更改只需要在CML-HDC架構中進行局部更改,而不是整體ANN重新訓練方案。因此,這個框架使得ML更接近傳統工程方法,類似于數字邏輯設計。
關鍵詞:高維計算、向量符號架構、認知地圖學習者、人工神經網絡、神經工程學、路徑規劃、模塊化機器學習
1. 引言
由于深度神經網絡(DNN)通常是整體地、端到端地訓練以解決一個明確定義的任務;順序目標完成任務是困難的,對于迷宮謎題來說,DNN在從最少的訓練數據中學習、知識遷移、泛化到新環境中以及生成人類可解釋的模型方面存在困難[1]。從經典數學的角度來看,許多規劃任務可以被表述為在抽象圖上找到最短路徑[2]。然而,標準的Dijkstra和A*最短路徑算法必須在決定第一步之前計算整個路線。如果在算法完成之前目標位置發生了變化,那么整個算法必須從頭開始重新運行。這樣的路徑規劃器對于必須迅速響應動態環境的自主探險機器人來說并不理想。
相反,模塊化機器學習(ML)方法可以將知識分割到模塊中,例如運動、空間關系和位置。通過將這些信息和決策空間編碼到一致的信息表示中,多個神經網絡模塊可以獨立地進行準備(學習或計算),然后像數字邏輯一樣整合到一個更大的組件中。本工作展示了根據兩種新興的ML技術實現的模塊化、分層ML框架:1)認知地圖學習者和2)高維計算。
認知地圖學習者(CML)是人工神經網絡(ANN)的一種新方法,它們被訓練以學習抽象圖的拓撲結構[3]。CML的三個獨立但協作訓練的單層ANN(矩陣)分別學習圖的不同方面的內部表示:1)節點狀態,2)邊的動作,以及3)邊的動作可用性。由于這種不尋常的信息分割,CML雖然從未明確地被訓練用于路徑規劃,但可以迭代地計算出任何初始和目標節點狀態之間的近似最優路徑(最少的邊)[3]。
然而,CML沒有機制自行選擇目標節點狀態;相反,必須由外部源指定目標狀態以開始CML計算。CML中信息的分割允許在訓練后進行“大腦手術”以提取這些內部狀態表示。高維計算(HDC),或向量符號架構(VSA)[4, 5],是一種非常適合整合和協調多個CML的數學代數。與學習突觸權重值不同,HDC通過操縱一組高維向量之間的相似性來進行編碼學習[6, 7, 8]。作為一種代數,這種學習明確地以方程的形式表達,既允許人類解釋,也允許人類干預[9]。基于HDC的CML可以接收外部輸入,并計算出對其他基于HDC的模塊在語義上有意義的輸出響應。
本工作考慮了一個通過迷宮沿著任意順序的物體進行路徑規劃的任務(圖1a)。雖然八個物體的數量和相對位置是一致的,但它們的精確位置在每次試驗中都會改變。一個CML學習了一個描述這些物體相對位置的抽象圖(圖1b),而第二個CML學習了如何在二維笛卡爾網格中導航(圖4a)。通過將物體CML、網格CML和機器人觸覺傳感器數據通過HDC整合在一起,一個模擬機器人在所有試驗中都成功地沿著近似最優路徑在迷宮中沿著任意順序的物體進行導航。這項工作提出了一個構建生物合理認知抽象和協調層次結構的模板。
本研究的貢獻如下:
1. 將變量迷宮問題模板化地分解為幾個較小的子任務,即相對物體定位、二維空間導航以及特定試驗中的物體位置。
2. 通過HDC代數將上述每個模塊化的機器學習解決方案整合為一個分層的機器學習解決方案。
3. 展示了基于神經網絡的實時路徑規劃和順序目標完成。
關于數學符號,矩陣用大寫字母表示,向量用小寫字母表示。重要的是,小寫字母表示的向量來源于相同大寫字母的矩陣,例如,表示矩陣 S 的第 i 行/列向量。關鍵符號在附錄的表I中進行了匯總和定義。
2 背景
2.1 認知地圖學習者(Cognitive Map Learner, CML)
2.2 超高維計算(Hyperdimensional Computing, HDC)
3.1 迷宮
模擬機器人始終從家的位置 h開始,并被分配任務:1)移動到鑰匙 k ,然后 2)移動到寶藏 t,最后 3)返回到家 h 。排列算子將需要完成的目標序列編碼為行為策略。
這一策略作為輸入提供給機器人,機器人執行這些指令。隨著機器人完成每個子目標,策略超向量通過排列算子反向操作 1 次,從而揭示下一個目標。
3.2 CML 作為模塊化機器學習單元
3.3 對象和網格位置 CML
3.4 二維網格中的對象地圖
僅擁有對象和網格位置 CML 是不足以解決迷宮任務的。需要一個地圖來確定在特定試驗中八個對象在二維網格上的位置。為了創建地圖,每個對象節點狀態與網格位置節點狀態相乘,然后將它們相加。
在這一點上,還可以更新對象 CML 的門控矩陣 G ,以編碼額外的信息,例如每個迷宮中物體位置之間的歐幾里得距離,從而使 CML 傾向于網格上更短的物理路徑。然而,在實際操作中,處理加權圖通常需要移除先前遍歷過的邊,以防止節點之間出現抖動(dithering);因此,在這些實驗中僅考慮了無權邊。
3.5 模塊化、分層的機器學習框架用于順序目標完成
4. 結果
4.1 網格位置 CML 分析
對于抽象圖 CML,需要一個單獨的動作矩陣 A 的偽逆 ,以計算每條邊動作的效用(公式 5,圖 3b)。相比之下,網格節點狀態超向量 P 的規律性允許簡單地使用 A 的轉置代替。
網格位置 CML 并未針對任何障礙物進行訓練,因此為了使其能夠與迷宮的墻壁交互,提供了觸覺傳感器。在計算狀態更新(公式 6)時,Winner Take All(WTA)函數選擇了具有最大效用值的動作;然而,在某些情況下,可用的動作會將機器人移離目標位置,從而導致動作效用值為負。由于無效動作的門控效用值為 0,WTA 在這些情況下會選擇非法動作。因此需要額外的計算步驟來選擇最大的非零分數,即使它是負值。
毫不意外,當機器人僅使用網格位置 CML 和觸覺傳感器被要求從鑰匙處移動到寶藏處時,機器人僅在部分時間內成功,100 次試驗中的成功率為 ,通常是因為在兩個網格位置之間反復抖動。例如,在圖 7 中,機器人無法發現更南邊有一扇門。要緩解這一失敗情況,需要增加一個路徑跟蹤器以抑制對網格點的重復遍歷。因此,對象 CML 中的對象充當了迷宮中的錨點或已知路徑點。通過地圖將兩個 CML 整合在一起后,機器人能夠訪問不同的位置分辨率(實際位置與相對位置),從而改進路徑規劃。
4.2 順序目標完成
5. 討論
本文描述的模塊化、分層機器學習框架用于順序目標完成,提供了一種神經可解釋的方法來編碼本能和局部環境細節。某些活動(如行走)是基礎性的,一旦學會就不應輕易被修改。在這里,網格 CML 學習了一個二維物理空間,并且從未進行過進一步修改,盡管除了物理存儲限制外,對編碼網格空間的大小沒有固有限制。相反,創建了一個對象 CML 來跟蹤遇到的對象??臻g或語義關系可以動態地編碼為邊權重。此外,超向量地圖的使用使兩個獨立創建的 CML 能夠交互,作為錨點的短期記憶存儲庫。因此,網格 CML 和觸覺傳感器陣列提供了通過迷宮的細粒度導航,而對象 CML 提供了機器人有意導航的錨點。改變目標集或可用對象集的操作僅限于 CML-HDC 框架中的精確位置,無需全局重新訓練。要改變目標序列,只需更改策略超向量;要更改對象相對于二維網格的位置,只需更新地圖超向量中的對應條目;要向對象 CML 添加新對象,則需要更新所有三個神經網絡:節點狀態 O 、邊動作 A 和門控矩陣 G 。但除了門控矩陣中可能的索引變化外,新的狀態和動作向量不會改變這些矩陣中先前創建的任何向量。
一篇描述基于 HDC 解決迷宮問題的類似機器人論文將問題表述為行為優先級選擇,其中機器人可能需要決定遠離隨機分布的障礙物/墻壁(基于觸覺傳感器),最終接近目標位置(基于目標位置傳感器)[12]。該機器人有 7 個傳感器,包括 4 個觸覺傳感器、2 個目標位移傳感器和 1 個動量(先前運動)傳感器;論文評估了幾種布線圖,使用 2 個加法和 1 個乘法運算符將不同傳感器信息組合起來,使機器人能夠解決任意迷宮以到達單一目標。最終的 HDC 行為策略解決方案實際上變成了所有可能傳感器-動作組合的窮盡枚舉之和,成功解決了近 90% 的隨機生成迷宮。盡管其行為策略比圖 6 顯著更簡單,但模擬機器人完全是反應性的,并且沒有地圖,因此失敗案例與之前提到的僅使用網格位置 CML 時的抖動一致(圖 7),并需要單獨的位置跟蹤器以防止回溯。
本研究中使用的結構化迷宮靈感來源于強化學習程序 Minigrid [13] 和 MetaArcade [14] 中的迷宮和順序任務。雖然本研究未實現強化學習,但它得到了 CML 學習規則的支持;因此未來的工作將尋求解決這些環境套件中的全部迷宮和游戲。此外,可以考慮使用有向圖來編碼因果關系(例如,鑰匙解鎖鎖住的門)和相關性(例如,紅鑰匙僅解鎖紅門)的概念。
本研究聚焦于雙極向量用于 HDC 計算以及實值向量用于 CML。然而,復值高維向量也可以同時用于兩者。特別是,相量(或相位向量)是一個復數,對應于相對于本地振蕩器的尖峰時間 ,其中 t 是相對于周期分辨率 r 的整數時間步長。最近有幾篇論文展示了基于共振和放電神經元的脈沖神經網絡(SNN)[15] 以及在該 SNN 框架中直接實現 HDC 操作的方法 [16, 17]。雖然本研究重點在于路徑規劃而非直接的同步定位與建圖(SLAM)算法,但 [18] 確實實現了一個使用復值 HDC 的 SNN SLAM 模型,稱為空間語義指針(SSP)。因此,他們學到的超向量可以直接(或稍作修改后)用于構建本文描述的 CML,以便后續路徑規劃。
最后,本研究隨機生成了對象超向量,但理想情況下,應該有一個基于神經網絡的機制從真實世界傳感器數據中一致地生成超向量符號。通過使用與任務無關的特征提取器(例如 CLIP [19] 或 DINO [20]),可以將原始數據轉換為語義上有意義的超向量。深度神經網絡(DNN)不再是單一的整體解決方案,而是另一個 ML 模塊:一種 ML“模擬到數字轉換器”(A2D)。例如,約束少樣本類增量學習(C-FSCIL)框架使用預訓練(并凍結)的 ResNet-12 特征提取器填充了一個超向量字典 [21]。最后,顯式知識字典的使用預示了協作學習的可能性,多個 ML 代理可以學習不同的事物,但由于它們共享相似的語義字典,它們可以協作構建和共享知識圖 [22]。
6. 結論
通過深度神經網絡(DNN)解決順序目標任務是一項具有挑戰性的工作,特別是當解決方案必須考慮多個相互競爭的子目標時。本文描述了一種模塊化、分層的機器學習(ML)框架,整合了兩種新興的 ML 技術:1)認知地圖學習器(CML)和 2)高維計算(HDC),以按順序導航用戶指定的對象序列,這些對象分布在一個可變迷宮中。CML 用于抽象圖中的路徑規劃,而 HDC 是一種基于高維向量的 ML 代數。通過將每個 CML 節點狀態編碼為高維向量,多個獨立訓練的 CML 被通過 HDC 組裝在一起,以導航迷宮并完成順序目標任務。關鍵的是,對目標或目標序列的更改僅在 CML-HDC 框架中引發了局部變化,而非全局 DNN 重新訓練方案。因此,該框架實現了一種更傳統的工程化方法來構建 ML 解決方案,其組件可以獨立優化并任意配置。
原文鏈接: https://arxiv.org/pdf/2404.19060
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.