Modularizing and Assembling Cognitive MapLearners via Hyperdimensional Computing
通過超維計算實現認知地圖學習器的模塊化與組裝
https://arxiv.org/pdf/2304.04734
摘要
生物體必須學會如何控制自己的身體以實現有目的的運動,即根據當前狀態和選擇的動作預測下一個身體位置。這種學習與最大化(或最小化)環境獎勵(或懲罰)信號的目標無關。認知地圖學習器(CML)由三個獨立但協同訓練的人工神經網絡組成,這些網絡學習構建任意雙向圖的節點狀態和邊動作的表示。通過這種方式,CML 學會了如何遍歷圖節點;然而,CML 并未學習何時以及為何從一個節點狀態轉移到另一個節點狀態。
本研究創建了使用高維向量表達節點狀態的 CML,適用于超維計算(HDC),這是一種符號機器學習(ML)形式。通過這種方式,圖知識(CML)與目標節點選擇(HDC)被分離,使每種 ML 方法可以獨立訓練。第一種方法使用 HDC 構建了任意數量的分層 CML,其中每個圖節點狀態為下一級 CML 指定目標節點狀態以供遍歷。其次,展示了基于 HDC 的刺激-響應經驗模型在每個 CML 中的應用。由于超向量可以疊加在一起,多個經驗模型可以在無需重新訓練的情況下并行運行。最后,CML-HDC ML 單元被模塊化:使用代理符號進行訓練,使得可以操作任意的、特定應用的刺激符號,而無需重新訓練 CML 或 HDC 模型。這些方法為構建異構 ML 系統提供了模板。
關鍵詞——超維計算、認知地圖、模塊化、終身學習、狀態表示學習、神經工程
I. 引言
盡管分類是人工神經網絡(ANN)的流行應用,但大量研究表明,預測是生物神經網絡認知的關鍵組成部分 [1, 2]。例如,當一頭小牛出生時,它會花費數小時學習如何協調腿部肌肉運動以實現移動,即從一個地方到另一個地方的定向運動。通過不斷嘗試,它學會了哪些物理狀態和動作集合是可用的。傳統強化學習旨在最大化(或最小化)環境獎勵(或懲罰)[3],而預測性學習則是任務無關的,其目標是盡量減少以下兩者的誤差:a) 其實際觀察到的下一個狀態,b) 在當前狀態和選擇的動作下預測的下一個狀態。
學習雙向圖的拓撲結構是預測性學習的一種抽象形式,其中每個節點表示一個可觀測狀態,每條邊表示在該狀態下可用的動作。最近引入了一種認知地圖學習器(CML),它使用三個獨立但協同訓練的人工神經網絡來構建 a) 節點狀態、b) 節點特定的邊動作以及 c) 邊動作效用值的內部表示 [4]。值得注意的是,盡管 CML 從未被明確訓練用于路徑規劃,但用戶可以指定一個目標節點狀態,CML 將從當前節點狀態沿著一條近乎最優路徑(最少邊數)遍歷到目標節點狀態(圖 1a)[4]。需要注意的是,CML 并未學習何時以及為何從一個節點狀態轉移到另一個節點狀態;相反,目標節點狀態必須由外部來源提供。
本研究解決了將多個 CML 整合并編排為有限狀態機(FSM)的數學問題(圖 1b, c),這是一個在傳統 ANN 中臭名昭著的難題 [5]。整合的一個關鍵挑戰是接口問題:使輸入和輸出類型保持一致。例如,在數字邏輯 {0,1} 的情況下,一致的信息表示允許獨立優化的邏輯單元被組合在一起,以解決比單個布爾運算更大的問題,例如將 AND、OR 和 XOR 邏輯門排列成一個數字加法器。此外,一致的接口允許組件的互換性,而無需重新設計系統的其余部分。
高維向量(長度 )在此被提議作為一種信息表示方法,適用于根據超維計算(HDC)代數組裝和控制認知地圖學習器(CML),這是一種矢量符號架構(VSA)的形式 [6, 7]。近年來,HDC 已成為最受歡迎的非人工神經網絡(ANN)機器學習方法之一。與學習突觸權重值不同,HDC 通過對一組超向量由 {0, 1} [8]、{-1, +1} [9] 或復數值 [10] 組成)的相似性進行操作來編碼學習。作為一種代數,這種學習可以明確地表示為方程,這些方程可以被編輯和逆向工程,從而實現人類可解釋性和干預能力 [11]。
本研究的貢獻如下:
- 從訓練好的 CML 的節點狀態矩陣中生成詳細的可行超向量,。
- 展示了 CML 可以圍繞用戶指定的節點狀態矩陣進行訓練,允許構建任意高度的 CML 層次結構。
- 實現了一個 HDC 刺激-響應模型,用于學習并決定單個 CML 的目標狀態。
- 演示了將多個這樣的模型整合到一個單一的 HDC 經驗模型中,以并行控制多個 CML,而無需重新訓練 HDC 模型或底層的 CML。
- 開發了一種方法,將預訓練的 CML-HDC 機器學習單元模塊化,接受特定應用的超向量輸入,而無需重新訓練 HDC 模型或 CML。
第 II 節描述了 CML 的構建與訓練,并介紹了 HDC 代數規則。第 III 節描述了從 CML 節點狀態表示生成超向量的方法,從而實現多個獨立訓練的 CML 的后續集成。第 IV 節詳細說明了集成結果,隨后在第 V 節中討論了本研究的未來應用方向。
II. 背景
A. 認知地圖學習器(CML)
認知地圖學習器是由三個獨立但協同訓練的單層人工神經網絡(ANN)組成的系統 [4]。盡管 CML 可以學習其他任務,但本研究聚焦于雙向圖(圖 2)。每條邊表示僅在兩個節點狀態之間允許的動作。雙向性要求每個動作都是可逆的。在本研究中,“節點”和“狀態”將互換使用,“邊”和“動作”亦然。
其次,通過計算目標狀態與當前狀態之間的差異并乘以 矩陣的轉置,來計算每個動作的效用值 [4](圖 2a),公式如下:
B. 超維計算(HDC)
雖然超維計算與大腦神經活動中的信息表示理念有相似之處,但它是一種代數,而不是一類新的人工神經網絡(ANN)。HDC 不依賴人工神經元和突觸,而是通過超向量(長度 的向量)進行符號計算。HDC 的核心度量是相似性,因此主要關注點從不同元素的位置(例如,最高/最低有效位以及糾錯碼)轉移到不匹配的數量上。通過這種方式,每個元素在定義特定符號時變得同等重要(或不重要)。隨著這些隨機生成的向量長度增加,它們實際上可以保證接近偽正交 [6]。因此,如果兩個符號不是偽正交的,則它們之間必然存在某種相關性。在本研究中,根據乘法、加法和置換(MAP)方法 [9],使用由均勻隨機 {-1, +1} 元素組成的密集超向量。
向量之間的相似性通過余弦相似性來衡量,即它們的點積除以各自幅值的乘積:
當捆綁偶數個超向量時,會加入一個隨機超向量 η 以打破平局。由于信息是沿著整個超向量編碼的,因此捆綁操作類似于在 s 上創建每個符號的疊加態。給定復合超向量 s 和由符號 組成的字典 D ,可以識別(并重建)構成 s 的各個向量:
超向量的乘法(或綁定),用符號 ? 表示,將兩個符號綁定在一起,類似于鍵值對的配對。與加法不同,結果超向量與其組成部分的任一向量都不相似。在這里,按元素逐位相乘是綁定操作符,并且該操作是自可逆的。
III. 方法
A. 訓練超向量節點狀態
B.訓練一個HDC經驗模型
為了衡量EXP模型的性能,選擇了噪聲相似性閾值以最小化虛假的CML狀態變化(假陽性),同時接受每個場景中漏檢的CML狀態轉換(假陰性)增加。特異性是通過計算真陰性(TN)與真陰性(TN)和假陽性(FP)總數的比值來衡量的。
靈敏度是通過計算真陽性(TP)與真陽性(TP)和假陰性(FN)總數的比值來衡量的。
IV. 結果
B. 單體HDC體驗模型
然而,層次化的CML只是將初始目標狀態選擇算法進一步推到CML的更高層次。直接使用HDC進行符號機器學習使得學習輸入符號與CML目標狀態之間的關聯成為可能(圖7)。CML A、B和C分別接收輸入x、y和z,每個輸入包含k=1-5個符號。每個EXP模型學習k種場景,將每個輸入與一個目標狀態關聯起來。
該組合 EXP 在總計 3000 個訓練場景上進行了驗證,通過清理過程后對生成的目標狀態進行分類(參考文獻 20, 21)。對于所有的 n 和 d 組合,該組合 EXP 在訓練場景上的靈敏度和特異性均為 1。
為了測試該組合 EXP 方法的魯棒性,每個輸入被擴展為 2000 個可能符號,包括 k 個訓練符號和 k 個新符號。一個測試周期包括使用來自其他兩個輸入中隨機選擇的符號對每一個 3000 個訓練場景進行測試。也就是說,每個測試場景包含三個符號,其組合為 1 到 3 個訓練符號與 0 到 2 個新符號不等。當對 EXP 進行查詢時,該組合場景會產生一個組合響應(見圖 7b)。
相同的響應向量被傳遞給每個 CML,根據其各自的 W q 進行清理。
每個測試周期重復進行 10 次,每次隨機選擇其他輸入符號的索引,因此每次試驗包括 3 萬個場景,共進行了 5 次試驗(3 個輸入、k 個訓練符號、10 個周期)。組合響應的相似性被測量并與每個 CML 的 W q 進行比較。響應與其目標節點狀態的相似性被繪制為 k 的函數(見圖 8 和圖 9),箱線圖依次表示最大值、第三四分位數、均值、第一四分位數和最小值。
如前所述,噪聲底線是可學習場景數量的限制因素。由于三個 CML 中的任意一個在某個場景中可能不會接收到新的目標狀態(參考文獻 31),因此噪聲底線閾值被設定為噪聲下的最大相似性,以避免“恢復”出虛假的目標狀態。不出所料,隨著 k 的增加(即 EXP 中捆綁的 3k 個場景),整體響應相似性下降。對于 d = 10 3 ,當 k = 3 時,無論 n 為何,響應相似性均與噪聲底線重疊(見圖 8)。設定閾值 θ = 0.08 可在兩種 n 情況下維持接近完美的特異性(≥ 0.99),即使靈敏度隨 k 增加而下降(見表 I)。對于 d = 10 4 ,響應相似性在所有 n 下始終高于噪聲底線(見圖 9),因此在閾值 θ = 0.04 下可獲得完美的靈敏度和特異性。測試結果顯示,當 k = 10 時,靈敏度也僅有輕微下降,為 0.99 ± 0.01 。
C. CML 與代理符號的接口
雖然 EXP 對一定程度的冗余傳感器輸入具有魯棒性 [13],但如果訓練過的輸入符號集合發生變化,則需要對 EXP 重新訓練以適應新的符號集合(見圖 1c、10a)。為了避免每次輸入發生變化時都重新學習具體場景,可以使用 HDC 將場景編碼為代理輸入符號,并將應用特定的輸入映射到這些代理符號上。例如,在圖 10a 中,CML A 的輸入為 x 和 sD;然而,HDC 允許使用兩個輸入構建一個通用的 EXP(見圖 10b)。
V. 討論
在CML中,將知識分隔在不同的人工神經網絡(ANNs)中,使得節點狀態表示能夠被精確提取(或定義)。通過將CML節點狀態表示為超向量(hypervectors),可以利用高維計算(HDC)來組裝并同時操作獨立訓練的CML,而無需進行后續的重新訓練。由于這些實驗中的限制因素是噪聲基底(noise floor),采用長度為 d≥103 的超向量確保了能夠充分利用范圍為 [θ,1] 的相似性。
終身學習是指在盡量不損害已有知識的前提下,持續接納新學習或行為的能力 [15]。CML(認知圖學習器)在算法上實現了將圖遍歷與目標節點決策機制的分離,使得更復雜的機器學習系統能夠得以構建。HDC(高維計算)允許輸入場景存在一定變化的情況下仍能得到相同的響應;否則,也可以輕松地將新情景添加到現有的 EXP 模型中。或者,也可以使用更高層級的機器學習算法,根據環境或歷史上下文來判斷應該使用哪個 EXP 模型。
“即插即用”的機器學習是 CML-HDC 模塊預期的一個應用方向。圖中的每個節點可以表示機械臂的一個位置,而整張圖定義了一個特定行為,例如抓取或行走。通過為每個附屬部件(例如機械臂或腿)訓練一個 CML-HDC 的 EXP 輸入-響應模型,就可以將該部件添加(或移除)到一個基礎機器人上,并在不進行任何額外再訓練的情況下運行(前提是目標相似度仍高于噪聲底線)。
然而,像四足行走這樣的任務則需要各個(可能不對稱的)附屬部件之間的協同配合。將四個 CML 的節點狀態捆綁起來是一種簡單的方式,用以構建一個層級化的 CML,其中的節點定義了四條腿各自的狀態。例如,更高層級的 CML 節點可能表示 Eadweard Muybridge 拍攝的動物運動照片中的單個畫面 [16]。
該應用也展示了 CML 與代理符號接口的優勢。即便假設四條腿完全相同,其輸入符號在前后、左右腿配置上也可能不同。可以用一個統一的 CML-HDC 模型覆蓋預期輸入與輸出范圍,再將每條腿唯一地映射到該 EXP 模型中。
或者可以使用算法將實數傳感器數據映射為高維超向量符號 [17, 18]。然而,由于人工神經網絡(ANN)在分類任務中有著豐富的歷史——即將原始傳感器數據映射為任意類別標簽,因此近期的一些工作嘗試將ANN訓練為任務無關的特征提取器 [5, 19],然后再將這些稀疏的特征向量映射為任意的超向量符號,以供后續的HDC計算使用 [20, 21, 22]。這種方法實際上將ANN本身變成了模塊化的機器學習組件,相當于機器學習中的“模擬轉數字”(A2D)轉換器。
最后,CML算法在實數值神經網絡上運行;但前文提到的生物學示例是基于脈沖神經網絡(SNN)。未來的研究將聚焦于基于共振-發放(resonate-and-fire, RF)神經元實現的 CML 的 SNN 版本 [23]。這類SNN通過神經元在周期 τ 內脈沖的時間進行信息編碼,而非通過計數脈沖頻率進行速率編碼。重要的是,某個時間 t 的脈沖相對于周期為 τ 的本地振蕩器可以表示為一個復數值的相位向量(phasor)。因此,RF神經元也便于通過基于復數相位向量的全息壓縮表示(Holographic Reduced Representations, HRR)接口HDC系統 [10]。
VI. 結論
認知圖學習器(CML)由多個獨立但協同訓練的人工神經網絡組成,用于學習在雙向圖中進行遍歷。本研究構建了CML,其圖節點狀態以高維向量表示,具備進行高維計算(HDC)所需的數學特性,HDC 是一種符號機器學習方法。將CML節點狀態表示為超向量,使得HDC可以在無需后續再訓練的情況下組裝并并行運行多個獨立訓練的CML。本研究構建了任意數量的分層CML,其中每個圖節點狀態指定下層CML應遍歷到的目標節點狀態。為每個CML建立了一個基于HDC的刺激-響應經驗模型,并將它們打包以實現并行操作,仍無需重新訓練。最后,開發了一種映射算法,使HDC模型能夠基于代理符號進行訓練,之后再將其映射為具體應用場景的輸入符號,從而構建出可組合的CML-HDC機器學習模塊。
原文鏈接:https://arxiv.org/pdf/2304.04734
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.