https://journals.sagepub.com/doi/pdf/10.3233/NAI-240675
The blessing of dimensionality Perspectives of reasoning and learning on hyperdimensional computing/vector symbolic architectures
超維計算/向量符號架構中維度的“祝福”:推理與學習的展望
摘要:
本文綜述了超維計算和向量符號架構的最新研究。這些研究代表了一種與神經計算不同的替代方法,具有多種優勢和一些有趣的獨特特性,例如透明性、容錯性和可持續性。特別是,研究表明,超維模式非常適合對復雜知識結構進行編碼。因此,相關架構為開發更接近人類大腦認知過程的創新神經符號模型提供了可能性。本文回顧了超維表示的基本原理,并考察了這些方法在類比推理和學習任務中的一些最新應用,特別關注知識圖譜。然后,我們提出了潛在的擴展方向,并勾勒出未來研究的可能途徑。
關鍵詞:超維計算、向量符號架構、類比推理、基于相似性的分類、邏輯公理、知識圖譜、嵌入模型
1. 引言與動機
人工神經網絡(ANNs)在眾多成功的深度學習應用開發中發揮了重要作用。然而,這些系統的復雜性不斷增加,也帶來了一系列挑戰。將它們的內部操作映射到調節人類大腦推理和學習的認知機制上極為困難,尤其是在對象的底層表示、它們的抽象以及它們之間的關系方面。因此,由于難以解釋和證明,這些系統所做出決策的透明性受到阻礙 [42]。此外,運行這些系統所需的大量且不斷增加的計算資源已成為可持續性的一個重大問題 [54,65]。
子符號方法的局限性早已顯而易見。例如,考慮一個訓練用于識別不同形狀物體的ANN,其輸出層的神經元可能每個都表示一種不同的形狀。如果要讓ANN還能辨別物體的顏色,就需要更多的輸出神經元:每種形狀和顏色的組合都需要一個。然而,似乎不太可能人類大腦是按照每種組合對應一個神經元的方式來組織的。相反,神經科學家認為,大腦中的信息是由大量(數千個)神經元的同時活動來表示的,而且同一組神經元可以表示完全不同的概念 [7,26]。
20世紀90年代出現了依賴于非常高維度和隨機性的認知模型 [26,52]。向量符號架構(VSAs)[9] 實際上是一系列關于認知表示的理論,它提供了基于高維向量構建數據結構的操作 [51],并且結合神經網絡,為能夠從數據中學習的符號計算系統指明了一條道路。在超維計算(HDC)[26,28] 中,每一條信息都被表示為一個超維向量,即超向量,也就是一個很大的數字數組,表示高維空間中的一個點。這些數學對象以及用于操作它們的代數足夠靈活且強大,可以解決上述局限性,從而為人工智能(AI)提供了一種新方法:一種新的方法,其中高效且穩健的計算可以做出更透明的決策。HDC/VSA起源于將符號方法在AI中的優勢(如組合性和系統性)與ANNs在AI中的優勢(連接主義)相結合的提議,例如基于向量的表示、學習和基礎(參見 [31,32] 的最新綜合調查)。
向量被用來表示特征(變量)以及可以分配給變量的值。這些向量必須是不同的。這種不同性可以通過它們的正交性來量化:在超維空間中,存在大量的這種相互正交的向量。但如果考慮也包括幾乎正交的向量,那么這種不同的超向量的數量就會呈爆炸式增長:在104維空間中有數百萬個幾乎正交的超向量。因為在這樣的空間中有如此多可能的幾乎正交的向量,所以可以用不同的隨機向量來表示上述項目,這些向量幾乎可以保證是幾乎正交的。
鑒于特征和值的超向量,人們已經構思出使用基本操作來操縱它們的系統,這些操作對應于符號操作實體/概念的方式,并允許構建結構化的表示。基于這些操作,已經設計出了超向量的形式代數,從而允許在結果表示模型上進行符號推理 [28,31]。
這種表示的一個優勢是對錯誤的容忍性:即使一個超向量遭受大量隨機比特翻轉,它仍然接近原始向量。因此,使用這些向量進行推理在面對錯誤時不會受到實質性的影響。這種方法的另一個優勢是透明性:代數清楚地說明了系統為什么選擇了一個特定的答案。這為類比推理鋪平了道路,而類比推理是任何人工智能系統所期望的。
HDC似乎也很適合新一代低功耗硬件,并且與內存計算兼容,即在存儲數據的同一硬件上進行計算,而不是像標準架構那樣低效地在內存和CPU之間來回傳輸數據。其中一些新設備可以是模擬的,在非常低的電壓下運行,這使它們節能,但也容易受到隨機噪聲的干擾。因此,這種解決方案在物聯網和邊緣計算的背景下引起了關注 [65]。
在過去十年中,已經提出了許多HDC/VSA的應用(參見 [32] 的綜合調查)。針對這些表示的特定算法已經被開發出來,以復制(深度)神經模型的典型任務,例如圖像分類。超維計算的優勢在于能夠組合和分解超向量以進行推理。這種優勢最近在解決一個經典的抽象視覺推理問題時得到了證明,即Raven漸進矩陣問題,這個問題對ANNs甚至人類來說都特別具有挑戰性(它曾被用于智力測試)[17]。
復雜的結構,如圖像、場景、事件等,可以被表示為單個超向量,其中包含有關所有涉及對象及其屬性的信息。基本上,一個算法使用某種預定方案分析每個實例的特征,并為每張圖像創建一個超向量。然后,對于每個類別,它可以通過簡單的操作符(例如加法)將該類別中所有實例的超向量聚合起來,創建一個可以存儲在內存中的超向量。給定一個新的未標記案例,為其創建一個超向量,然后將其與存儲的類別超向量進行比較,通過類比確定最相似的類別。我們的想法是采用這種表示方法用于處理更抽象對象的人工智能方法,例如知識圖譜(KGs)[19] 中的個體及其關系,以及相關的模式級知識,如類別和屬性。
在本文的其余部分,第2節回顧了神經表示及其屬性的基礎知識,而第3節介紹了用于向量空間架構的分布式表示。第4節展示了一個簡單的超維(HD)模型,以說明如何從原子符號(超向量)構建復雜結構。然后,在第5節和第6節中,我們分別考察了類比推理和學習方法的應用,并概述了可能的擴展,特別關注知識圖譜(KGs)。最后,第7節總結了本文,并勾勒出進一步研究的潛在方向。
2. 神經表示及其屬性
符號表示 [46] 對人類來說是自然的,并且在人工智能(AI)中被廣泛使用:每個對象都由一個符號表示(我們所說的“對象”是指各種性質和復雜度的項目,例如物理對象、特征、關系、類別等)。更復雜的表示可以由更簡單的表示組合而成,它們天然具有組合結構,可以通過規則/程序產生無限多的符號表達式(自然語言可以被視為這種表示的一個例子)。符號具有明確的0/1相似性:相同的符號具有最大相似性,而不同的符號則沒有相似性,因此被稱為不相似。比較復合符號結構需要沿著底層圖的邊進行追蹤和/或匹配頂點,以揭示整個結構并計算相似性。因此,當模型需要復雜的順序操作時,相似性搜索和推理中會出現可擴展性問題。
連接主義表示主要分為兩種類型:局部化表示和分布式表示 [59]。局部化表示與符號表示類似,因為每個對象在表示中都有一個單一對應的元素(例如,一個單一的神經元/節點或一個單一的向量分量)。可以通過創建元素之間的連接來鏈接局部化表示,這類似于符號表示中的指針。然而,構建包含對象代表組合的結構可能需要分配潛在的無限數量的新附加元素/連接,這在神經生物學上是值得懷疑的。此外,與符號表示類似,局部化表示缺乏足夠的語義基礎,即表示之間的即時和明確的相似性。代表不同對象的不同神經元是不相似的,估計對象的相似性需要額外的計算。
分布式表示 [18,51] 是受到全息表示概念的啟發,全息表示是一種替代性的大腦連接主義模型,其中信息分布在許多神經元中。在分布式表示中,一組有限神經元的狀態被建模為一個向量,其中每個向量分量代表特定神經元的狀態。它們被定義為向量表示,其中每個對象由向量分量的一個子集表示,而每個向量分量可以是許多對象表示的一部分。這適用于各種復雜度的對象表示,從基本特征或原子對象到由(分層)組合結構表示的復雜場景/對象。在不知道其他分量狀態的情況下,無法解釋表示的各個分量的狀態。因此,通常無法單獨定義各個分量的語義。然而,對于工程應用和認知建模來說,相似對象的分布式表示應該根據向量空間上的某種相似性度量而相似。正如 [31] 中指出的,分布式表示應該具備一些理想屬性:
高容量:即它們必須允許表示大量的實體;
明確表示相似性:相似的對象必須具有可以通過向量相似性度量高效比較的相似表示;
豐富的語義基礎:由于直接在對象表示中使用特征,并且可以基于它們的向量定義它們的相似性;
恢復對象原始表示的能力;
應對噪聲、故障和不確定性:從而增強其神經生物學合理性;
直接訪問對象表示:在向量中,組合結構的表示可以直接處理,因為它不需要像符號表示那樣追蹤指針,或者像局部化表示那樣跟隨元素之間的連接;
統一格式:無論是原子對象還是復合對象,每個對象都由一個向量表示,因此實現操作在向量上進行,而無需明確感知相關對象的復雜性。
使用經過良好驗證的數學方法進行向量處理的可能性。
傳統的類腦符號計算實現也需要可靠的硬件 [61],因為任何錯誤都可能導致致命故障 [31]。神經表示受到各種上下文效應的影響,這從我們所犯錯誤的類型中可以明顯看出,因為它們并未針對快速且可靠的算術運算進行優化。這些上下文效應可能反映了大腦為了其基本功能而做出的折衷 [26,28]。
計算機采用二進制表示:單個電路元件有兩種可能的狀態,因為電子元件在雙穩態時最為可靠。表示必須具有區分性。不同事物的二進制模式必須不同。然而,模式的選擇通常是一種折衷,旨在對它們執行高效的操作(例如,數字的位值表示)。神經表示是通過非二進制元件實現的。然而,許多上下文效應可以通過二進制模式和操作來證明。
表示的重要屬性來自于高維度,而不是單個維度的性質。與高維數據處理中的標準做法——降維不同,非常高維度實際上可以促進處理:“高維度不是詛咒,而是祝福” [26]。
超維性 大腦包含大量的神經元和突觸。使用非常長的“單詞”進行計算會導致高維空間和向量;“超維”一詞將用于表示數千維度的維度(因此,超空間/超向量是超維空間/向量的簡寫)。
超空間具有特定的屬性,這些屬性促成了深度學習的成功。然而,通過進一步利用超空間的屬性,可以實現更多。
隨機性 沒有兩顆大腦是相同的:它們高度結構化,但許多細節是由學習決定的,或者留給偶然性。它們在硬件層面是不兼容的:內部模式不能從一個大腦轉移到另一個大腦。每個系統都從超空間中隨機抽取的向量(即隨機模式)構建其對世界的模型。兼容性更應該在每個系統內部模式之間的相互關系中尋找(例如,在語言的情況下,相同的含義可以采用不同的語法和詞匯來表達)。因此,例如,在內部編碼層面,同一個神經系統中,“自行車”和“汽車”的模式應該比“船”和“汽車”的模式更相似,而不同系統中的“自行車”模式則不需要表現出任何相似性。隨機性可以被視為一種最少假設的路徑,使系統易于設計。
整體性 即使是簡單的心理事件也涉及廣泛分散的神經元的同時活動。發現這種活動是如何精確組織的極其困難。在整體表示中,為了實現最大魯棒性,編碼到表示中的信息應該均勻分布在整個超向量上。向量不會被劃分為不重疊的字段。編碼到向量中的任何內容都均勻分布在它的所有分量上。向量的任何一部分都代表與整個向量相同的事物,只是可靠性較低。當比特位失敗時,信息會根據失敗的比特位數量而降級,而與其位置無關(與二進制數字不同,二進制數字中比特位的位置決定了其值)。位置無關性適用于認知的抽象層面的表示,在這些層面中,來自不同感官的信息已經被整合,且一些更一般的機制開始發揮作用。
魯棒性 神經架構對于組件故障具有容錯性,因為存在冗余表示,其中許多模式被認為是等價的,因為它們表示相同的意義。實現冗余的一種簡單方法是復制,但這并不節能,并且偏離了與動物大腦模型的潛在對應關系。電信中使用的糾錯碼可以容忍一定數量的錯誤。允許的錯誤比例隨著維度的增加而增加。在超維表示中,等價模式可以不同的位置數量變得非常大。
3. 超維表示模型
超維表示空間主要由向量分量的域(例如,二進制、實數或復數)和其維度決定,維度決定了原子超向量的集合。它們還由稀疏性特征,即由某個概率分布定義的超向量空間,其分量獨立地從該分布中抽取。實際上,不同的表示空間可以在一個認知系統中共存。例如,考慮一個典型的10?位模式的表示空間,它總共包含個超向量(點)。這個空間本質上包含了10?維單位(超)立方體的所有頂點,然而,其中只有極小一部分會被用來表示有意義的實體。
基本操作 研究表明 [26,28],可以使用全息向量的基本操作——疊加和綁定——來編碼和解碼普通計算中典型的所有數據結構,例如集合、序列、列表以及進一步的擴展。前者用于形成一個代表多個其他向量的超向量(類似于神經模式的同時激活)。后者用于將兩個(或更多)需要綁定在一起的超向量關聯起來(例如,一個變量及其值)。
考慮在人工神經網絡(ANNs)研究中常用的實數向量上的操作,這些基本操作可以定義為:
逐分量加法操作,結果是一個相同維度的向量;通常對求和向量進行歸一化,通過某種形式的加權或其他向量分量的變換 [26] 得到一個均值向量。隨機向量的和(以及均值)與每個輸入向量相似,使其成為它們集合的可能表示。
逐分量乘法操作,產生一個新的向量,具有理想的可逆性屬性,以避免任何信息丟失;對加法的分配性;保持距離;以及與被乘向量的不相似性。這些屬性使得可以將組合結構編碼到超向量中,并分析組合超向量的內容。
置換,即重新排列向量分量,它可以表示為一個函數,或者作為將向量與置換矩陣相乘的結果,即矩陣中除了每行和每列恰好有一個1之外,其余位置都填充0。
進一步相關的操作包括:用常數加權,aX,其中向量X的每個分量都乘以同一個數a,結果是一個向量;減法(差值)通過將第一個向量與第二個向量的補碼相加來實現,補碼是通過將每個分量乘以-1得到的(或者在二進制向量的情況下,只需翻轉比特位);兩個向量可以相乘得到它們的所謂內積,可以用作相似性度量(例如,余弦相似度);它們的外積產生矩陣,這種乘法在擬合人工神經網絡的權重中被廣泛使用。將向量與矩陣相乘是人工神經網絡中另一種常見操作,結果是一個可能需要歸一化的向量。
原子符號的表示選擇以及基本操作的實現方式也決定了在超維空間上定義超向量比較的相似性度量。這些度量的例子包括:點積、余弦相似度、皮爾遜相關系數以及漢明距離 [28,31]。
例如,考慮一個二進制超向量的空間,它們的相似性可以通過漢明距離來衡量,即計算不同的比特位數量。那么最大距離是10?,這個度量可以表示為相對于維度數量的比例。距離的(二項)分布使它們高度集中在5000比特左右的中間位置,均值為5000,標準差為50。因此,以均值距離為中心、半徑有限(例如,550比特)的球體將包含大部分空間。如果我們考慮兩個任意的隨機超向量,它們很可能在大約5000個比特位上不同,對于用于表示的一系列隨機選擇的超向量也是如此。這使得它們彼此無關,并且表示具有魯棒性,因為在一個噪聲向量中必須改變大量比特(超過1/3)才能使其與原始向量無關。從相反的角度來看,我們可以考慮向量之間的相似性關系,這種關系在它們的距離接近0.5(即5000比特)之前一直很強。在3333比特內的鄰域體積相對于整個空間相當有限,而無關的向量在距離接近0.5之后大量出現。任意兩個無關向量的鄰域有共同的點:這些點與任意兩個無關的點都非常相似。向量可以通過變換相關聯,即通過一種方式將一個向量轉換為另一個向量,或者通過將幾個向量組合成一個新的向量。
4. 一種結構化的知識表示模型
給定一個用于超向量的內容尋址存儲器和超維算術,可以設計出一種適用于各種實體的表示模型。這些模型基于原子實體的表示以及用上述基本操作定義的超向量變換。
為了說明,我們將引用基于二進制超向量及其相關操作符和相似性度量的簡單模型。關于HDC/VSA模型的詳細介紹可以參考 [31](第2.3節)。
項目存儲器 一個具有大量地址的理想架構將需要存儲海量的位置。一個模式(超向量)X可以存儲在一個由模式A(或任何與A相似的模式)尋址的位置。這種解決方案被稱為異聯想存儲,與自聯想存儲(autoassociative memory)相對,后者中每個X都存儲為以X自身作為其地址(內容尋址存儲器),這使得檢索更加容易。當用一個帶有噪聲的模式進行搜索時,存儲器會檢索出對應的無噪聲存儲模式(因此得名“清理存儲器”),這類似于在存儲模式中進行最近鄰搜索。對模式進行算術運算會產生近似(帶噪聲)的結果,需要進行清理以恢復原始模式。某些運算會產生彼此非常相似的有意義模式,使得它們難以檢索。例如,求和模式S = A + B與A和B都相似。因此,在存儲S之前對其進行變換是有益的,將其映射到空間的不同區域,前提是這種變換是可逆的。
基本實體的符號 可以從一組基本原子實體構建一個形式化系統。認知代碼的最小有意義單位是一個超向量。因此,原子實體或個體由超空間中的隨機點表示。為了表示系統中尚未表示的某種新事物,可以簡單地隨機抽取一個新的向量,并將其存儲在項目存儲器中以便日后參考。這個新向量將與存儲器中的所有向量無關(它與它們的距離都非常接近0.5),即它將與它們近似正交。例如,在10?維空間中,有10?個正交向量和大量幾乎正交的向量 [26]。
集合與疊加 集合及其元素都可以用超向量表示。最簡單的交換運算(順序無關緊要)是向量加法。一個求和向量(或均值向量)具有與被加向量相似的特性。因此,可以說元素在集合的表示中是“可見”的,并且共享元素的集合由相似的向量表示。為了將表示集合的求和向量與元素的向量區分開來,在將其存儲到存儲器之前,必須將其映射到不同的區域。這種映射應該是可逆的,以便可以檢索到原始的求和向量,并且應該保持距離,以便即使使用部分或帶噪聲的求和向量,也可以在存儲器中進行搜索。通過首先恢復求和(使用逆映射),然后在存儲器中搜索與其最佳匹配的項,可以從存儲的求和向量中恢復元素。其他元素可以從減去前者得到的差向量中檢索出來 [26]。通過累積從恢復的向量中得到的(部分)求和,并從原始求和中減去它們,可以更好地分析大型集合,從而得到各個元素。然而,如果未映射的求和向量已經存儲在項目存儲器中,這種方法將失敗。還可以通過用該元素(及其向量)搜索存儲器來找到包含特定元素的先前存儲的集合(即求和)。然而,在此之前,必須將該元素映射到空間的同一部分,即通過與存儲求和向量時相同的映射。此外,多重集(multiset,即允許重復元素的集合)也可以表示為其元素的求和,并且可以從求和中以相同的方式提取其元素。
乘法及相關映射 不失一般性,將回顧兩種簡單的映射形式,用于(0, 1)二進制向量的超空間(或(1, -1)二進制雙極形式)[26]。第一種是向量的乘法,記作 A?B。在雙極二進制系統中,可以使用普通的乘法。對于二進制向量,可以定義為逐分量的異或(XOR)操作(例如,1010...01 XOR 1001...11 = 0011...10)。這也可以被看作是歐幾里得距離的特殊情況,或者模2求和,通常用 ⊕ 表示。異或是交換的,并且每個 A 都是自身的乘法逆元,因為 A ? A = O,其中 O 是全為0的向量,它是單位元,因為 A ? O = A。很容易看出,兩個向量之間的漢明距離僅僅是它們乘積中1的數量,記作 d(A, B) = |A?B|,其中 |·| 表示計數。這種距離通常相對于維度數量來表示。乘法可以被看作是一種映射:將 X 乘以 A 將其映射到向量 XA = X ? A,它與 X 的距離等于 A 中1的數量(即,d(XA, X) = |A|)。一個典型的隨機向量 A 大約有一半的比特位被設置為1,因此 XA 在空間的那部分中與 X 在距離標準上無關。這表明乘法具有隨機化的作用。此外,它也是保持距離的:
因此,當一組點通過乘以同一個向量進行映射時,相對距離得以保持(這組點的簇只是被移動到了空間的不同部分)。高級認知功能(例如,類比)可以用這些映射來定義,其中實體之間的關系比實體本身更為重要。在前面的例子中,A可以被視為應用于向量X和Y的特定映射。同樣的論證也適用于我們考慮兩個映射A和B,并考察它們對同一個向量X的影響:X將被映射到XA和XB,它們之間的距離與A和B之間的距離相同。因此,相似的向量會導致相似的映射。相似的映射將一個向量映射到相似的向量。
置換是另一種形式的乘法,它重新排列向量的分量。向量A的置換可以用函數表示法ρ(A)來表示,或者作為與相應的置換矩陣A的乘法。或者,它可以被描述為按置換順序排列的整數(位置)列表。作為一種映射,它具有理想的屬性:它是可逆的,它對加法(以及XOR乘法)具有分配性,并且結果與被置換的向量不相似。此外,距離得以保持:
將更多的對(乘積)添加到記錄向量 E 中,會得到一個新的求和向量E' ,它與 E 非常相似,因為它們有四個對是相同的。人們可能有興趣查詢整個記錄數據庫的某些屬性,或者處理其中的一些記錄。例如,如果已知某條記錄中某個角色的填充項(但不知道該角色是什么),就可以獲取另一條記錄中該角色的填充項。結合標準的數據庫操作,可以實現不同類型的計算:這些計算被稱為整體映射或無分解變換 [32],可以用于解決比例類比問題(參見第5節)。
圖 圖 G由一組通過弧(或邊)連接的節點組成。弧可以是無向的,也可以是有向的。在將圖簡單地轉換為超向量的過程中 [10,31],圖中的每個節點都被分配一個隨機向量,而一條弧則被表示為它所連接的節點向量的綁定,例如,節點A和 B 之間的邊表示為 。整個圖僅僅被表示為圖中所有邊的超向量的疊加。
5. 類比推理
類比推理依賴于人類的特定能力:概念抽象的能力以及靈活重組原子組件以描述新的未見情境的能力。
比例類比問題 以往的研究針對了所謂的比例類比問題,并利用結構相對簡單的大型網絡,將兩個實體之間的推斷關系映射到第三個實體上。這些問題被描述為以下形式:A : B :: C : ?,讀作“A 之于 B 如同 C 之于 ?”,其中 A 和 B 表示兩個具有某種關系的實體,而 C 是一個實體,這種關系被應用到它上面以產生解決方案(另一個未知實體)。典型的這類問題涉及圖像領域中的視覺類比問題,已在多篇研究中探討(例如,參見 [56])。
在超維表示中計算這種關系極其簡單,只需從 A 中減去 B 即可。然而,這種計算未能充分理解類比的本質,即嵌入在更大數據結構中的原子組件的替換。這種計算不能簡單地通過減法來完整捕捉。然而,在 HDC/VSA 框架中,如果數據結構是通過綁定構建的,那么在復雜數據結構內部/之間的原子組件替換可以既優雅又非常高效。解綁操作揭示了可以用于各種應用的類比關系,如 [27,52] 中所討論的。
整體變換用于解決這些問題,通常以著名的“墨西哥美元”案例 [27] 為例進行說明,其中考慮了一個簡單的比例類比問題:美國:墨西哥 :: 美元:?。這種類比已知可以通過對相應概念的嵌入向量進行加法和減法來解決 [40,50]。類似地,在 [49] 中,這些類比檢索問題通過淺層人工神經網絡(ANNs)解決,利用句子中術語之間的關系依賴路徑。在傳統的符號操作(利用表示空間的幾何屬性)中,沒有直接對應于這種整體變換的處理方式。超向量的整體變換可以被視為傳統順序搜索的并行替代方案。
在全息降維表示(Holographic Reduced Representation, HRR)模型 [51] 中,從示例中學習系統性變換的研究已在 [44,45] 中進行。通過梯度下降法求解優化問題,迭代所有示例直至收斂,從多個訓練對的超向量中獲得一個變換超向量。經驗表明,這種學習到的變換超向量能夠泛化到新的組合結構中,這些結構的復雜性高于訓練示例中提供的結構。在 [25] 中展示了二進制散斑碼(Binary Spatter Code, BSC)表示的類似能力。這種整體變換的缺點是其雙向性,這是由于在 BSC 中解綁等同于綁定。這種復雜性可以通過使用置換或額外的聯想記憶來解決,類似于綁定操作。學習整體變換方法的一個潛在不足之處在于,假設對象(以及關系)是不相似的。然而,如果用于訓練示例的對象(關系)之間存在某種相似性結構,學習可能無法按預期進行。這是一個值得進一步研究的方向。
類比推理 在認知科學中,類比推理理論 [13] 處理類比事件(或類比)并通常包括(模型中的)一個過程,包含以下四個基本步驟:
1. 描述步驟:涉及事件的表示,可以建模為由實體和不同層次關系組成的層級關系系統。實體通過屬性和事件中元素之間的關系進行描述。關系的參數可以是對象、屬性和其他關系。假設一組(源)基礎事件存儲在記憶中。
2. 檢索步驟:在記憶中搜索與給定查詢事件最接近的事件。
3. 映射步驟:在確定基礎事件后,確定查詢事件與基礎事件元素之間的對應關系。
4. 推理步驟:將知識從基礎類比事件轉移到目標類比事件。例如,可以通過推斷關于目標的知識來解決由查詢事件指定的問題。候選推理必須被視為假設,并進行評估和驗證 [12]。
類比事件的處理涉及兩種類型的相似性。結構相似性反映了事件中各個元素之間的關系。事件還根據表面相似性進行匹配,這種相似性基于事件中的共同元素,或者根據更廣泛的語義相似性概念進行匹配,這可能基于特征向量的相似性或共同屬于分類學類別。
HDC/VSA模型已被用于類比檢索(參見 [52] 及其中的參考文獻)。在這些模型中,結構元素的集合及其排列都影響相應超向量的相似性:相似的事件產生相似的超向量。在 [32] 中描述了多項研究,證明了基于超向量的相似性估計結果與心理學實驗中的經驗結果以及傳統類比檢索的主要模型一致。
關于類比映射任務,提出了使用基于整體變換的技術的映射模型(再次參見 [32])。這些模型的一個限制是可擴展性。可以考慮類比事件的超向量的相似性來進行它們的映射。然而,到目前為止,這種方法僅被證明適用于直接的映射情況。已經提出了幾種替代的映射技術(包括直接相似性映射、通過替換相同的超向量進行再表示,以及使用更高級別的角色并行遍歷結構)。其中一些已經在復雜的類比中得到驗證。然而,這些技術相當復雜且使用順序操作。
有趣的是,用于類比推理的超維向量模型與已有的知識表示格式(如知識圖譜,KGs)兼容。這有助于統一符號和子符號方法,用于認知建模和人工智能。在這方面,一項有趣的研究展示了從RDF-Schema本體到HDC/VSA模型的映射的概念驗證 [39]。
將原始數據轉換為超向量,允許為各種應用領域構建超維模型,同時保留特定應用相關的相似性形式 [32]。這為使用HDC/VSA進行基于相似性的推理提供了工具,包括最簡單的(無監督)相似性索引/搜索和(有監督)分類,以及更高級的類比推理技術。
6. 學習
分類是超維計算(HDC)/向量符號架構(VSA)目前最常見的應用領域之一,尤其是在圖像、信號和生物醫學數據方面的應用(詳細綜述見 [11,32])。基于實例向量表示的相似性分類在機器學習中非常普遍。HDC模型的分類方法分類體系可以根據它們關注的層次來構建:首先(第一層次),我們有將輸入數據轉換為超向量的方法。更高層次的標題則提出了將HDC應用于分類的進一步方向,分別關注輸入數據的類型(第二層次)和領域(第三層次)。
在一種基本的分類方法中 [11],在訓練階段,編碼器使用隨機生成的超向量(存儲在項目存儲器中)將訓練數據映射到超維空間。然后學習并存儲 K 個類別超向量到聯想存儲器中。在推理階段,編碼器為每個測試數據生成查詢超向量。然后,在聯想存儲器中對查詢超向量和每個類別超向量進行相似性比較,以最終預測最相似的類別。
基于質心的簡單模型在泛化能力上已知存在不足 [29]。通過為分配給質心的新實例加權可以實現改進 [16]。觀察到傳統分類器假設輸入向量的分量可以獨立解釋。當分量是有意義解釋的特征時,這是合理的。然而,這并不普遍適用于HDC表示 [32]。稀疏的HDC/VSA表示可能適用于從稀疏性中受益的分類器,例如Winnow [35] 和稀疏支持向量機 [6]。
為好的分類器設計合適的編碼是一個具有挑戰性的任務 [9],值得進行專門的研究:選擇合適的編碼方法對于準確分類至關重要。例如,針對生物信號處理的特定高效編碼在 [54] 中進行了介紹。或者,可以將不同的編碼方法整合在一起以實現更高的準確性 [20]。與單次訓練相比,迭代重新訓練已被證明可以提高分類模型的準確性 [21]。這表明了研究編碼器的集成(分層)模型的方向(例如,參見 [62])。
競爭學習模型是神經方法,其中多個組/單元競爭以獲得代表輸入實例的責任。它們通過神經擴展實現在線聚類算法,例如在線 k-Means 和領導者聚類,如自適應共振理論 [2] 或自組織映射 [33]。這些可以被視為定義輸入密度的局部模型,可以有趣地轉換為HDC表示。概率密度估計(以及其他任務,如核平滑)已被證明可以通過分數冪編碼高效解決 [7]。在這樣的向量空間背景下,一種高效的算法已在 [15] 中提出。
一旦實例被定位,可以在網絡架構中考慮更高層次的單元來執行監督學習,從而定義神經模型,例如徑向基函數網絡 [43] 或專家混合模型 [23]。這一層實現了輸出(分類/回歸)的局部模型。質心已被證明可以輕松地與廣義學習向量量化分類器結合 [5]。此外,從多類別超向量的概念出發,可以針對類別構建析取或混合的分層表示,以更好地表示它們 [11]。
通過采用超維(HD)表示,實例和聚類原型可以用超向量來體現,而上述聚類以及分類/回歸模型可以在HDC/VSA上實現。在可解釋人工智能(AI)的精神下,基于局部模型(基函數)的(概率)規則歸納方法 [60] 也可以在HDC/VSA上實現。
結構化數據通常更難用傳統學習模型處理,因為結構化數據的局部表示可能不適合與向量分類器一起使用,尤其是在涉及層次結構時。HDC/VSA模型可能非常適合處理結構化數據,因為它們允許表示各種結構(包括層次結構)。與這一任務相關的是,我們將在第6.2節中討論關于嵌入模型和知識圖譜的問題。
這類方法的一個應用領域是化學信息學,在該領域中,已提出分類模型用于預測化合物的性質,并展示了最先進的性能(例如,參見 [24])。例如,基于二維分子結構表示的MoleHD [37] 在平均性能上與基線藥物發現方法相當,但計算成本要低得多。更一般地,使用HDC/VSA對圖進行分類是一個值得進一步研究的有前景的方向。在 [48] 中,通過將圖表示為對應于頂點和邊的超向量的疊加,結果表明,該方法在六個圖分類數據集中的四個上能夠達到與標準基線方法相當的結果,同時所需的訓練時間要短得多。
6.1. 從示例中歸納規則
從示例中學習邏輯公理,尤其是以規則的形式,有著悠久的傳統 [41]。通過設計一種將這些陳述應用于具體案例(斷言)的機制,可以進行演繹推理。這些機制可以表示為基于超向量算術的整體映射。
可以將邏輯原子表示為元組。不失一般性,我們將關注以三元組的形式編碼的二元關系 p(h, t) (這在知識圖譜的表示中很常見):。
這種設置可以被視為通過隨機超向量算術進行類比學習的一種形式。
關于認知表示的正向和反向推理過程已在 [34] 中進行了討論。超維(HD)模型已被用于表示包含(命題)子句的知識庫,甚至包括否定,從而允許進行演繹推理 [58]。通過擴展表示以顯式表示變量,可能會導致新的方法用于歸納一階邏輯規則庫或更近期的統計關系模型 [4]。通過設計合適的變換,還可以針對其他類型的數據庫,例如用描述邏輯(DLs)的公理表示的本體和知識圖譜。
6.2. 嵌入模型和知識圖譜
分布語義假設 [14] 認為,分布相似的語言項目具有相似的含義,這一假設是構建上下文向量的基礎。后來,這一假設被擴展到更一般實體(如概念和關系)的語義領域。原則上,只要可以定義對象和上下文,就可以在任何領域中獲得上下文向量。與HDC/VSA相關的上下文向量方法通常將頻率分布轉換為特定的上下文超向量。
基于上下文超向量的成功語義索引方法包括基于謂詞的語義索引(Predication-based Semantic Indexing, PSI)[63]及其擴展——語義謂詞嵌入(Embedding of Semantic Predications)[3],以及BEAGLE [55]。在 [53] 中,作者關注相似性的表示:對于每個單詞,考慮從ConceptNet中借用的最相關的語義特征。一個單詞的上下文超向量被定義為其語義特征超向量的疊加,這些超向量由角色-填充項綁定形成。因此,從單詞擴展到在語義豐富的知識庫(如Web本體)中描述的具體實體(資源),類似的HDC/VSA方法可以從語言學領域轉移到更一般的領域,以實現新的下游應用。源自 [40] 中提出的思想的眾多*2VEC模型是進一步合適轉移的自然候選。
我們已經在第4節中看到,圖是一種可以編碼到超維向量表示中的一般數據結構。圖神經網絡(Graph Neural Networks, GNNs)[57] 是處理圖表示的典型模型,它將常規神經網絡操作擴展到能夠處理圖結構。基于超維表示的特定學習模型已被提出,其中最新的一種是GraphHD [48],與當前的深度神經模型相比,它在較低的計算成本下實現了相當的效果。由于基于圖核的方法已被證明能夠提供相當的結果 [64],因此將這些方法與HDC結合進行研究似乎是值得的。
知識圖譜(KGs)是一種特定類型的多圖,旨在用圖結構數據模型表示知識庫,包括實體、屬性和屬性及其語義,允許涉及相關術語(模式知識)的推理服務,這些術語用描述邏輯(DLs)或相關本體語言 [1] 表示。通過利用知識圖譜自然分解為三元組,已經解決了知識圖譜的構建、細化和推理任務,這促成了許多嵌入模型的出現,這些模型將實體和屬性映射到低維空間,在這些空間中,這些復雜任務可以通過對嵌入向量和矩陣的幾何運算來近似。
鑒于在第6.1節中討論的從三元組到超向量的合適編碼,針對基于超維表示的進一步類似學習模型的發展似乎很有前景,以執行知識圖譜的上述任務。在高維向量中對語義概念(單詞、事實、物理外觀屬性等)進行編碼的向量符號表示已在知識圖譜中發揮了巨大作用(例如,參見 [50])。如 [47] 中提出的,可以從數據中學習到的節點和關系的超向量構建知識圖譜的超向量,其中采用了HRR模型,因為它具有可微性。在 [38] 中進一步研究了知識圖譜的表示,其中使用柯西分布生成原子超向量作為神經網絡的輸入,已被證明在推斷缺失鏈接的任務上取得了最先進的結果。
7. 未來工作的進一步展望
盡管基于向量符號架構(VSAs)的超維計算(HDC)已不再處于初期階段,但它仍然可以提供許多進一步改進的方向。這些方向包括(但不限于):
特征提取和編碼方法:這些是必不可少的活動,因為超維模型如果沒有適當的編碼,無法成功處理復雜數據。關于超向量的密度,應根據應用場景選擇密集型和稀疏型方法:稀疏表示需要較少的內存。非線性是將數據轉換為超向量的另一個重要方面。已認識到缺乏對通過組合方法獲得的超向量的非線性屬性的研究(參見 [32],第4.1.2節)。
相似性評估也與這些目標相關。應開發新的度量方法,以在準確性和復雜性之間進行權衡(還取決于可能的硬件實現)。基于核的機器的核函數選擇也與這一問題相關。核函數與采用的超維變換有關 [7]。該變換可以被視為優化問題中的另一個超參數,可以使用標準統計方法(例如交叉驗證搜索策略)來確定。
學習策略,如重新訓練 [11,22],應進一步探索以提高超維分類模型的準確性。這一目標可以通過混合系統實現,即結合傳統學習方法與HDC模型(例如,參見 [30])。
復雜模型,如與VSAs結合使用的深度神經網絡,需要特定的可解釋人工智能(XAI)方法,以使這些黑箱模型更加透明和可解釋,使決策更加易于理解。
與其他認知任務的結合:包括但不限于其他形式的推理(在不確定性下)、關系表示和語義泛化。例如,溯因推理是一種值得更多關注的推理形式,因為它可以用于各種推理和學習任務,如診斷、假設生成、相關性檢測和解釋。
與不確定性模型和因果模型的相互作用:神經網絡可以與特定的圖形模型相關聯 [4];概率因果模型也可能為研究在不確定性下推理形式向HDC/VSA的轉移提供進一步的研究方向(例如,參見 [8])。
原文鏈接: https://journals.sagepub.com/doi/pdf/10.3233/NAI-240675
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.