https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2024.1371518/full
An encoding framework for binarized images using hyperdimensional computing
一種基于超維計算的二值化圖像編碼框架
引言:超維計算(HDC)是一種受大腦啟發且輕量級的機器學習方法。由于其在可穿戴物聯網、近傳感器人工智能應用和設備端處理中的潛在適用性,HDC在文獻中受到了廣泛關注。與傳統深度學習算法相比,HDC計算復雜度更低,通常能夠達到中等到較好的分類性能。決定HDC性能的一個關鍵方面是將輸入數據編碼到超維(HD)空間。
方法:本文提出了一種新穎的輕量級方法,僅依賴于原生的超維算術向量操作來編碼二值化圖像,通過興趣點選擇和局部線性映射,保留了鄰近位置模式的相似性。
結果:該方法在MNIST數據集的測試集上達到了97.92%的準確率,在Fashion-MNIST數據集上達到了84.62%的準確率。
討論:這些結果優于使用不同編碼方法的原生HDC的其他研究,并與更復雜的混合HDC模型和輕量級二值化神經網絡相當。所提出的編碼方法還顯示出比基線編碼更高的抗噪聲和抗模糊能力。
關鍵詞:超維計算、向量符號架構、圖像編碼、圖像分類、手寫數字識別
1 引言
隨著可穿戴物聯網(IoT)、近傳感器人工智能(AI)應用和設備端處理的興起,對節能算法的需求顯著增加。超維計算(HDC),特別是二進制超維計算,因其受大腦啟發、輕量級和節能的特性而被提出,它具有數據需求少(Rahimi等人,2019)、對噪聲魯棒(Kanerva,2009;Widdows和Cohen,2015;Rahimi等人,2019)、低延遲(Rahimi等人,2019)和快速處理(Rahimi等人,2019)等優勢。HDC將輸入數據映射到超維(HD)空間,在該空間中,信息分布在數千個向量元素中,這受到人腦中大量存儲信息的神經元的啟發。由于HDC使用簡單的超維算術運算,因此其計算復雜度低于傳統的深度學習(DL)。HDC已經在許多應用中得到使用,例如語音識別(Imani等人,2017)、人類活動識別(Kim等人,2018)、手勢識別(Rahimi等人,2016a;Moin等人,2021;Zhou等人,2021)、文本分類(Rachkovskij,2007)、醫學圖像分類(Kleyko等人,2017a;Watkinson等人,2021)、字符識別(Manabat等人,2019)、機器人技術(Neubert等人,2019)和時間序列分類(Schlegel等人,2022)。
決定超維計算(HDC)性能的一個關鍵方面是將輸入數據編碼到超維(HD)空間,這在很大程度上取決于輸入數據的類型。迄今為止,研究已經清晰地定義了如何使用超維算術運算以簡單的方式對文本數據(Rahimi等人,2016b)、數值數據(Imani等人,2017;Kim等人,2018)和時間序列數據(Rahimi等人,2016a)進行編碼。然而,文獻中仍然缺乏一個統一的框架來編碼(二值化)圖像。因此,本文旨在提出一種新穎的輕量級超維方法,僅依賴于原生的超維算術向量操作來編碼二值化圖像。在這方面,本文提出了以下創新點:
1. 引入局部線性映射作為一種新的數值數據映射方法,其中鄰近的數值由相似的超維向量表示,而所有其他值由正交的超維向量表示。特別是,我們展示了其在二維圖像位置編碼中的應用;
2. 定義了一個參數化的框架,用于將二值化圖像編碼為超維向量,該框架使用興趣點(POI)選擇作為一種局部特征提取方法,并統一了現有的圖像原生超維編碼方法;
3. 將所提出的框架應用于基準數據集,在MNIST上達到了97.92%的分類準確率,在Fashion-MNIST上達到了84.62%的準確率。
本文的結構如下:首先簡要介紹用于分類的超維計算模型。隨后,定義了數值數據的局部線性映射,并展示了其在二維位置編碼中的應用。接著是文獻中關于二值化圖像編碼方法的概述,介紹我們提出的參數化統一框架,以及對所提出的編碼框架進行測試的實驗描述。第3節呈現結果,第4節進行討論。最后,最后一節將總結本文的結論。
2 材料與方法
2.1 超維計算
超維計算(HDC)是一個使用超維向量(即維度非常高,通常可達一萬,也稱為超向量,HVs)和簡單超維算術向量操作來表示數據的數學框架。本文關注的是維度為10,000的密集二進制超向量(即元素為0或1,且兩個值出現的概率相等)(Kanerva, 2009; Kleyko等人, 2018)。數據的分析依賴于超向量之間的相似性,通過計算兩個二進制超向量 之間的歸一化漢明距離來實現。
圖1給出了超維計算(HDC)框架的示意圖,其中可以區分出兩個主要構建模塊:編碼器和分類器。編碼器負責將輸入映射到超向量(HV)。通常,它將每個輸入值映射到一個原子超向量,該超向量存儲在(連續的)項目存儲器((C)IM)中。這一過程被稱為映射,將在第2.2節中解釋。然后,使用超維向量操作將不同的原子超向量組合起來,為每個輸入獲得一個樣本超向量。
最后,樣本捆綁(公式7)通過多數規則(公式3)二值化為超向量s = [S] 。
作為第二個主要構建模塊,分類器有兩種工作模式:(1)在訓練期間,使用樣本超向量及其對應的類別標簽,首先將屬于同一類別的所有樣本超向量捆綁在一起,然后通過使用未分類的樣本來更新這些類別捆綁,以生成類別原型;(2)在推理期間,將樣本超向量與每個類別原型進行比較,并通過選擇相似度最高的類別來預測對應的類別標簽(公式1、2)。訓練方法存在不同的變體,感興趣的讀者可以參考我們之前的工作(Smets等人,2023)或補充材料。
由于編碼器是系統的關鍵部分,而文獻中仍然缺乏一個統一的框架來編碼(二值化)圖像,因此我們提出了一個新穎的編碼框架(第2.3.2節)。
2.2 數據映射技術
2.2.1 正交映射
正交映射為數據中出現的每個可能值分配一個隨機選擇的原子超向量(HV)。由于高維度的特性,這些隨機超向量是偽正交的,隨著維度的增加,它們會趨近于完全正交(Kleyko等人,2022)。這種類型的映射適用于名義數據,其中每個值與其他值相互獨立。
2.2.2 線性映射
在處理序數或離散數據時,存在一種自然的層次或值的順序,使得相鄰的層次應該被映射到比距離較遠的層次更相似的超向量上,因此對于這種類型的數據,更傾向于使用保持相似性的超向量。因此,應用了將層次線性映射到原子超向量的方法(Rahimi等人,2016a;Kleyko等人,2018)。具體來說,最低層次被分配一個隨機原子超向量,隨后每個層次的原子超向量是通過翻轉前一層次原子超向量中的 個比特位獲得的,其中 L 是層次的數量(不翻轉之前已經翻轉過的比特位)。同樣,連續數據在被量化為預定義數量的離散層次后,也可以通過線性映射轉換為超向量。
例如,圖3展示了線性映射在一個具有從 -100 到 100 的離散值(步長為10,共21個層次)的特征上的應用。它顯示了值與最低層次(特征值 = -100)的相似性,這種相似性線性下降直至正交(相似性 = 0.5),以及值與特征值等于 -30 的相似性,這種相似性對于更小和更大的特征值呈線性下降。
2.2.3 局部線性映射
2.3 二值化圖像的編碼技術
2.3.1 相關工作
文獻中已經提出了多種使用HDC對二值化圖像進行編碼的方法,可以分為兩大類:(1)原生HDC,即從原始像素到輸出的端到端使用原生超維向量操作;(2)混合HDC,即結合外部特征提取方法與HDC使用。表1概述了不同的編碼方法,將在以下部分中討論。
2.3.1.1 原生HDC
原生HDC編碼方法可以根據是否在編碼位置時保留鄰近位置之間的相似性(即線性映射)進一步分為兩類,或者不保留(即正交映射)。
2.3.1.1.1 正交映射的位置向量
到目前為止提到的編碼方法通過置換的性質(置換后的超向量與其原始超向量不相似)以及正交位置超向量,將鄰近位置的相似像素表示為不相似的超向量。因此,這些編碼方法沒有保留相似性,而這對于解決圖像分類任務可能是至關重要的。
2.3.1.1.2 線性映射的位置向量
Kussul等人(1992)、Gallant和Culliton(2016)以及Weiss等人(2016)應用線性映射,使得鄰近的 x 和 y 位置由相似的超向量(HVs)表示。然后,使用第2.3.1.1.1節(b)中提到的綁定操作對二維圖像進行編碼。
2.3.2 提出的統一框架
圖6展示了對二值化圖像進行編碼的所提方法的概述,該方法可以分為四個步驟:(1)二值化,(2)興趣點(POI)選擇以及圍繞POI創建圖像塊,(3)圖像塊向量編碼,以及(4)圖像向量編碼。
2.3.2.1 二值化
作為第一步,使用預定義的二值化閾值 對輸入圖像 I 的像素值進行二值化:
2.3.2.2 興趣點選擇及圍繞興趣點的塊創建
興趣點(POIs)被選為像素值為 Ibin[x, y] = 1 的像素。此后,圍繞每個興趣點繪制一個預定義尺寸 z 的正方形塊 P(在圖 6 中,z = 3)。
2.3.2.3 塊向量編碼
塊中的每個像素被編碼為三個向量的綁定:表示其二進制值 P[x, y] 的 HV(存儲在 IM 中,值為 0 的一個隨機向量和值為 1 的另一個隨機向量)、對應于塊中 x 位置的 HV 和對應于塊中 y 位置的 HV。x 和 y 位置的 HV 分別存儲在兩個單獨的 CIM 中(CIMx,z 和 CIMy,z),這兩個 CIM 中都包含 z 個向量,并且通過正交映射進行映射。然后,通過將所有像素向量打包,并使用多數規則(公式 3)對得到的打包結果進行二值化,得到位置為 (x, y) 的興趣點的塊向量:
對于所有 。圍繞興趣點的塊向量編碼可以被視為提取圖像的局部特征,類似于 Kussul 和 Baidyk(2004)、Kussul 等人(2006)以及 Curtidor 等人(2021)的研究,但在這里,僅使用了原生的高維(HD)算術運算,而不是依賴于基于神經網絡的特征提取器。
2.3.2.4 圖像向量編碼
在通過公式 9 獲得所有興趣點(POIs)的塊向量之后,每個塊向量會與表示相應興趣點在原始圖像 I 中的 x 和 y 位置的 HV(存儲在中)進行綁定,以捕獲提取到的局部特征的全局位置信息。將所有這些與興趣點位置綁定的塊向量進行二值化捆綁,得到圖像向量:
采用我們提出的局部線性映射(第 2.2.3 節)進行映射,而不是原始的線性映射,以捕捉位置上的小依賴性,同時忽略大的依賴性。
2.4 實驗
上述提出的對二值化圖像進行編碼的方法在兩個已知的、公開可用的數據集上進行了測試:(1) MNIST 數據集(LeCun 等人,1998),其中包含 70,000 張 28×28 的灰度圖像,涵蓋了 10 種不同的手寫數字;(2) Fashion-MNIST 數據集(Xiao 等人,2017),包含 10 個類別中的每個類別 7,000 張 28×28 的灰度圖像,即總共 70,000 張圖像。這兩個數據集都被劃分為一個包含 60,000 張圖像的訓練集(每個類別 6,000 張)和一個包含 10,000 張圖像的測試集(每個類別 1,000 張)。像素值的范圍為 0 到 255。
2.4.1 局部線性映射
首先,使用像素級編碼對整幅圖像進行編碼,而不使用興趣點(POI)編碼,以此來測試局部線性映射的概念。因此,圖像被編碼為:
2.4.2 提出的統一框架
2.4.3 超參數選擇
使用10折交叉驗證(CV)在訓練集上測試不同設置的組合。這意味著60,000張訓練圖像被分成十部分。算法在54,000張圖像上進行訓練,并在剩余的6,000張圖像上進行驗證,這一過程重復十次,每次選擇不同的6,000張驗證圖像。訓練過程以迭代方式進行,最多進行1,000次迭代,同時保存準確率最高的分類器。每經過100次迭代,我們評估最佳訓練準確率是否超過99%的準確率。如果達到這種情況,訓練過程將終止,并使用準確率最高的分類器對驗證集進行評估。對于每種超參數設置組合,HDC分類器的性能以10折交叉驗證的十次驗證準確率的平均值來報告。
2.4.4 測試集上的評估
對于 MNIST 數據集和 Fashion-MNIST 數據集,選擇平均驗證準確率最高的超參數設置組合。使用這些設置對整個訓練集(即所有 60,000 張圖像)進行分類器的訓練。與交叉驗證實驗(第 2.4.3 節)不同,對于 MNIST 數據集,訓練過程僅在最佳訓練準確率超過 99.9% 時終止;而對于 Fashion-MNIST 數據集,訓練過程中的最大迭代次數增加到 2,000 次迭代。之后,將訓練好的分類器在 10,000 張測試圖像上進行測試。這一過程重復進行十次獨立運行,并計算平均測試準確率。
2.4.5 魯棒性分析
為了測試所提出的編碼方法對噪聲和模糊的魯棒性,使用了由 Mu 和 Gilmer(2019)提出的 MNIST-C 數據集,該數據集被用作計算機視覺的魯棒性基準。該數據集包括原始 MNIST 數據集(LeCun 等人,1998)的 60,000 張訓練圖像和 10,000 張測試圖像,并對其應用了多種不同的干擾,包括散粒噪聲、脈沖噪聲、玻璃模糊、運動模糊和飛濺,這些干擾在本文中特別用于測試噪聲和模糊的魯棒性。使用提出的編碼方法的 HDC 模型在原始的 60,000 張訓練圖像上進行訓練(即沒有干擾),分別使用基線超參數設置 S = 1 且不選擇興趣點,公式 10)和通過 10 折交叉驗證(第 2.4.3 節,公式 11)得到的最佳驗證準確率的設置。然后將這兩個訓練好的 HDC 分類器分別在五個選定的 10,000 張受干擾的測試集上進行測試,并計算十次獨立運行的平均測試準確率。
3 結果
3.1 局部線性映射
使用像素級編碼(公式10)測試局部線性映射中分割數量的影響的實驗結果以淺藍色顯示在圖7中(見補充材料表S2)。該圖展示了在MNIST和Fashion-MNIST數據集上,10折交叉驗證的十次驗證準確率的平均值。如前所述,分割數量等于1(S=1)被視為我們的基線,因為這種設置既不使用局部線性映射,也不使用興趣點(POI)編碼。因此,基線的平均驗證準確率對于MNIST為60.78%,對于Fashion-MNIST為62.65%。
當將局部線性映射中使用的分割數量從1增加到9時,性能有所提升。對于MNIST,當(S=9)時,驗證準確率最高,達到93.21%,相比基線提升了32.43%;對于Fashion-MNIST,當(S=28)時,驗證準確率最高,達到80.98%,相比基線提升了18.33%。在MNIST的情況下,使用正交映射(S=28)的分類器達到了略低于最高準確率的準確率,而這種設置對于Fashion-MNIST則產生了最高的準確率。
3.2 提出的統一框架
圖7還展示了我們提出的編碼方法(公式11,見補充材料表S3)中兩個超參數(即局部線性映射中的分割數量 S 和興趣點(POI)編碼中的塊大小 z 的影響結果。該圖再次包括了在MNIST和Fashion-MNIST數據集上10折交叉驗證的十次驗證準確率的平均值。
與前一節類似,隨著局部線性映射中使用的分割數量 S 的增加,驗證準確率呈現出明顯的上升趨勢,直至 S = 9 ,隨后在 S = 28 時略有下降。隨著塊大小 z 的增加,性能也有所提升。有趣的是,對于較大的塊大小 z ,分割數量 S 對性能的影響似乎有所減弱。
對于MNIST,當 ( S = 4 ) 和 ( z = 7 ) 時,驗證準確率最高,達到97.56%;對于Fashion-MNIST,當 ( S = 8 ) 和 ( z = 7 ) 時,驗證準確率最高,達到85.28%。與基線準確率( S = 1) 和像素級編碼,見圖7)相比,MNIST的性能提升了36.78%,Fashion-MNIST的性能提升了22.63%。在下一節中,將使用這兩個超參數的最佳設置來測試HDC分類器在測試集上的表現。
3.3 測試集上的評估
表2展示了在前一節(第3.2節)中獲得最佳驗證準確率的超參數設置下得到的結果。該表列出了在完整訓練集上的準確率、在未見過的測試集上的準確率以及獲得最佳訓練準確率所需的迭代次數,這些數據是基于十次獨立運行的平均值。在MNIST的測試集上達到了97.92%的平均準確率。對于Fashion-MNIST數據集,獲得了84.62%的平均測試準確率。
3.4 魯棒性分析
圖8展示了在對噪聲和模糊的魯棒性分析中獲得的結果。該圖顯示了在原始數據(即無干擾,圖中的紅色線)和五個選定的受干擾測試集上的準確率,這些數據是基于MNIST-C數據集的十次獨立運行的平均值,并且超參數分別設置為基線設置(S = 1)且無興趣點選擇,公式10)和通過10折交叉驗證獲得最佳驗證準確率的設置(S = 4)和(z = 7),公式11和第3.2節)。更詳細的結果可以在補充材料表S4中找到。總之,最佳超參數設置在五個受干擾的測試集上達到了73.20%的平均測試準確率,相比基線設置(平均測試準確率為33.44%),提升了39.77%。
4 討論
4.1 結果分析
圖7中像素級編碼的結果表明,所提出的局部線性映射在位置編碼方面優于線性映射。更具體地說,隨著局部線性映射中使用的分割數量增加,性能有所提升。這一有趣的發現表明,在圖像中更好地區分較小位置差異的重要性,而不是較大的差異。這是由于局部線性映射中的分割用正交的HV(超向量)來表示兩個相距較遠的位置,而只有接近的位置的HV才相似。相比之下,在線性映射中,無論是接近還是遠離的位置,其HV都具有一定程度的相似性。
另一個從結果中突出的發現是,與像素級編碼相比,對興趣點(POI)周圍的塊進行編碼時性能顯著提升,并且隨著塊大小的增加,這種提升變得更加明顯(圖7)。有幾個因素可以解釋這一現象。首先,通過POI編碼忽略了背景像素,從而減少了不必要的信息。其次,圍繞每個POI提取局部特征,使得每個POI的局部鄰域被納入考慮范圍。
此外,使用局部線性映射對圖像中POI的全局位置進行編碼,相比使用線性映射,性能有所提升(圖7)。這一發現與像素級編碼所獲得的結果一致,也可以用類似的方式解釋。
最后,魯棒性分析的結果表明,在超參數選擇之后,所提出的編碼方法比基線HDC編碼方法對噪聲和模糊具有更高的魯棒性(第4.3節和補充材料表S4)。
4.2 與最新技術的比較
4.2.1 MNIST 數據集
圖9A將我們在MNIST數據集上獲得的結果(即97.92%)與其他文獻中發現的研究結果進行了比較(見補充材料表S5)。
我們提出的興趣點(POI)編碼與局部線性映射相結合的方法優于所有歸類為原生HDC(分層數據編碼)的方法。
這包括了應用排列操作對展平圖像中像素位置進行編碼的方法,即Manabat等(2019)報告的準確率為79.87%,Hassan等(2022)報告的準確率為86%。我們對MNIST數據集獲得的結果(97.92%)也優于使用綁定操作對展平圖像進行位置編碼的若干研究。具體來說,Chuang等(2020)、Chang等(2021)、Hernández-Cano等(2021)、Hsieh等(2021)、Kazemi等(2021)、Zou等(2021b)、Bosch等(2022)、Duan等(2022a,b)以及Ma和Jiao(2022)報告的基線準確率在85%到92%之間。此外,Khaleghi等(2022)提出的基于n-gram的編碼方法通過提取局部特征達到94.0%的準確率,而我們通過使用局部線性映射代替正交映射來編碼全局位置信息,超越了這一方法。
Hernández-Cano等(2021)提出的OnlineHD可以將其基線性能從91%提升到97%,但仍然低于我們獲得的準確率。在OnlineHD中,通過根據樣本與現有模型的相似度來更新HDC模型,從而擴展了基線HDC訓練過程。因此,由于涉及浮點乘法,訓練過程變得更加復雜。OnlineHD被歸類為自適應HDC。
其他研究將HDC框架與額外的非HDC方法(混合HDC,第2.3.1.2節)結合使用,例如Karvonen等(2019)使用的元胞自動機(CA),通過該方法得到的高維向量的準確率為74.06%。Zou等(2021a)先使用SNN提取低級特征,再使用HDC,達到90.5%的準確率。Duan等(2022a)和Yan等(2023)將二值神經網絡(BNN)與HDC結合使用,分別達到94.74%和97.25%的準確率。Yu等(2022)使用隨機傅里葉特征(RFF)對圖像進行編碼,達到95.4%的準確率。傳統的神經網絡(NN)也與HDC結合使用,分別達到92.72%(Duan等,2022b)、94.8%(Liang等,2022)和96.71%(Ma和Jiao,2022)的準確率。Zou等(2021b)通過擴展HDC編碼框架加入流形學習,報告了97.5%的準確率。我們提出的僅使用原生HD向量操作的編碼方法優于這些混合HDC方法。盡管如此,其他混合HDC方法獲得了更好的結果。Poduval等(2021)從原始圖像中提取特征并應用基于記錄的編碼,達到了99%的性能。Kussul和Baidyk(2004)以及Kussul等(2006)通過基于神經網絡的局部特征提取,分別達到了99.2%和99.5%的更高準確率。Rachkovskij(2022)提取局部二進制模式(LBP)特征,提出了一個平移等變的保持相似性的位置編碼方案,并使用大間隔感知器進行分類,達到了98.5%的準確率,向量維度為10,000。
一些研究通過使用多位表示(即多位HDC)而不是單比特(即二進制)來增加HDC的復雜性。Imani等(2019)、Chuang等(2020)、Kazemi等(2021)、Kim等(2021)和Yu等(2022)使用具有更復雜元素的向量,分別達到了95.5%、96.6%、98%、98.09%和98.2%的準確率。只有后三種方法的準確率略高于我們,因此我們可以得出結論,我們提出的二進制、原生HDC方法,使用局部線性映射和POI編碼,與這些更復雜的多位HDC方法相比,取得了相當的結果。
盡管本文旨在改進二值化圖像的原生HDC編碼,但我們將提出的編碼方法與輕量級非HDC方法進行了比較。Xiao等(2017)報告了一系列傳統機器學習(ML)方法的結果,包括決策樹、多層感知器和支持向量分類,準確率范圍為52.4%到97.8%,包括Kim等(2017)的AdaBoost分類器。一些研究使用二值神經網絡(BNN)解決MNIST分類任務,準確率范圍為95.7%到99.04%。最后,二值脈沖神經網絡(SNN)達到了97.0%到98.6%的準確率。總之,我們對MNIST數據集獲得的97.92%的結果優于原生HDC方法,并且與更復雜的混合HDC或輕量級非HDC方法相當。
對于Fashion-MNIST數據集的研究相對MNIST數據集較少。Duan等(2022a,b)報告了原生HDC方法的準確率為79.24%和80.26%。使用混合HDC方法,Yu等(2022)通過隨機傅里葉特征(RFF)達到84.0%的準確率,并在高維向量(HV)中使用更復雜的元素后達到87.4%。Duan等(2022a,b)通過將HDC模型映射到等效的(二值)神經網絡,進一步提升了準確率,分別達到85.47%和87.11%。總體來看,我們提出的HDC方法優于原生HDC方法,但在準確率上略低于混合和多位HDC方法。
與MNIST數據集類似,我們也將Fashion-MNIST數據集的結果與輕量級非HDC方法進行了比較。Xiao等(2017)報告了多種傳統機器學習(ML)方法的準確率范圍為51.1%到89.7%。二值脈沖神經網絡(SNN)的性能范圍為87.3%到92.0%。雖然我們未能超越二值SNN,但我們在Fashion-MNIST上獲得的84.62%的準確率與傳統ML方法相當。
4.3 魯棒性分析
在通過10折交叉驗證選擇出最佳驗證準確率的超參數后,與基線編碼方法相比,所提出的編碼方法對受到噪聲和模糊干擾的圖像表現出更高的魯棒性(補充材料表S4)。尤其是在受到散粒噪聲(shot noise)和脈沖噪聲(impulse noise)干擾的情況下,平均測試準確率與在未受干擾圖像上達到的平均測試準確率相當接近。對于飛濺(spatter)干擾,平均測試準確率略有下降,但所提出的方法仍然能夠準確識別大約81.22%的測試圖像。對于玻璃模糊(glass blur)和運動模糊(motion blur)干擾,平均測試準確率下降最為明顯,其中所提出的方法分別能夠正確分類57.63%和39.81%的圖像。即便如此,與基線HDC編碼方法相比,這仍然是一個顯著的提升,分別提高了38.42%(玻璃模糊)和28.32%(運動模糊)。因此,我們可以得出結論,經過超參數選擇后,采用我們所提出的編碼方法的HDC分類器對噪聲和模糊表現出很高的魯棒性,在五種不同受干擾測試集上的平均準確率為73.20%。
4.4 未來研究方向
在未來的工作中,我們計劃評估并擴展所提出的編碼方法,以應用于灰度圖像和彩色圖像,研究在HDC編碼中使用分層(多層)塊的方法,并進一步拓展局部線性映射概念以用于位置編碼。
此外,還可以分析如何使HDC框架對噪聲和干擾(如玻璃模糊和運動模糊)具有更強的魯棒性。
5 結論
我們提出了一種新穎的輕量級方法,用于對二值化圖像進行編碼。該方法僅依賴于原生高維(HD)算術向量操作,而不使用外部特征提取方法,同時能夠保留圖像中鄰近位置模式的相似性。該方法通過興趣點選擇來提取圖像的局部特征,并使用局部線性映射對這些局部特征在圖像中的位置進行編碼。通過10折交叉驗證選擇出兩個引入的超參數的最佳設置后,我們在MNIST數據集的測試集上達到了97.92%的準確率,在Fashion-MNIST數據集上達到了84.62%的準確率。這些結果優于使用不同編碼方法的原生HDC(分層數據編碼)的其他研究,并與更復雜的混合HDC模型和輕量級二值化神經網絡相當。此外,所提出的編碼方法還表現出比基線編碼更高的對噪聲和模糊的魯棒性。
原文鏈接:https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2024.1371518/full
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.