https://www.nature.com/articles/s41598-024-84299-y
A recurrent sigma pi sigma neural network
遞歸 Sigma-Pi-Sigma 神經網絡
摘要
本文提出了一種新型的遞歸 sigma–pi–sigma 神經網絡(RSPSNN),它結合了高階神經網絡與遞歸神經網絡的優點。為了基于最小均方誤差(MSE)尋找最優權重,使用了批量梯度算法對 RSPSNN 進行訓練。為了證明 RSPSNN 具有唯一的平衡狀態,文中證明了其穩定收斂特性,這是衡量網絡有效性并克服訓練中不穩定性問題的最重要指標之一。最后,為了更準確地評估其有效性,本文進行了五個實證實驗。RSPSNN 成功應用于函數逼近問題、預測問題、奇偶性問題、分類問題和圖像模擬問題,從而驗證了其有效性與實用性。
過去幾十年里,神經網絡因其諸多優勢被廣泛應用于多個領域。相比傳統方法,神經網絡的諸多應用與研究已充分展示了人工智能的諸多優點。那么,為什么神經網絡如此廣泛應用且如此具有吸引力?答案在于政府、企業和個人發現它們極具價值且使用方便。然而,一旦其輸入層的元素數量以及訓練樣本數量非常大,訓練速度就會下降。為避免此類問題,高階神經網絡(HONNs)被提出。HONNs 不僅包含傳統的 ∑ 層,還引入了新的 ∏ 層,從而降低了網絡的復雜性。HONNs 結合了求和單元和乘積單元,后者可以對輸入進行乘積處理。相比僅含有加法單元的傳統神經網絡,HONNs 的乘積單元能夠處理非線性信息。
HONNs 在本文所涉及的領域中被廣泛應用。Sigma-pi 神經網絡(SPNN)、sigma-pi-sigma 神經網絡(SPSNN)和 pi-sigma 神經網絡(PSNN)均屬于 HONNs。Sun Kim 將 SPNN 應用于飛機速度/高度控制研究。Fan Q.W. 等人證明了 SPSNN 的收斂性,并將其應用于函數逼近和分類問題。Qian Kang 等人結合平滑 Lasso 正則化與自適應動量分析了 SPSNN 的收斂性,并應用于類似領域。Nayak S.C. 等人使用 PSNN 構建原油價格混沌模型并進行時間序列預測。Zhang Y.Q. 提出一種帶稀疏約束的新型 PSNN,用于克服學習過程中的振蕩現象并提升學習效率。Pan Wei 等人將 PSNN 應用于磁性形狀記憶合金致動器領域。在一本近期出版的著作中,PSNN 被與群體智能元啟發式算法相結合,展示了其在數據分類方面的有效性。未來,預計將構建新的 HONN 網絡,廣泛應用于多個領域,以避免傳統神經網絡在內存需求方面的問題。
對于任何神經網絡結構來說,穩定性與收斂性是衡量其有效性的最重要指標之一。因此,許多研究致力于神經網絡的穩定性與收斂性。Qinwei Fan 等人證明了 SPSNN 的收斂性,得出誤差函數在訓練過程中單調遞減并趨近于零。在另一項研究中,作者研究了梯度神經網絡的收斂性,并推廣了基于梯度神經網絡的動態系統計算的廣義逆方法。為避免耗時的數值解過程,構造的動態系統可生成狀態變量的軌跡,成功反映神經網絡的收斂性。Xiao Lin 等人將零點神經網絡方法擴展至動態四元數數值矩陣的逆問題求解,并通過新型非線性激活函數實現了網絡的收斂加速及定時收斂。Liu Wei 等人基于郊狼優化算法提出了一種新型淺層神經網絡演化方法,展示了該方法在優化和更新 BP 神經網絡的權重與閾值方面的有效性,并在理論上證明網絡模型可快速收斂至最優解。在另一項研究中,作者基于 BP 神經網絡設計了巖石力學參數反演方法,建立了測得應力值與巖石力學參數之間的非線性映射關系并進行了網絡訓練,改進的神經網絡算法易于收斂。2004 年,Chen Bin 從理論上分析了 BP 神經網絡模型的收斂性。2017 年,Wang Jian 在稀疏響應調節場景下分析研究了 BP 神經網絡的收斂性。由此可見,不同場景下對 BP 神經網絡等的收斂性研究已持續近二十年。
因此,本文提出了一種新型神經網絡 RSPSNN,它不僅可以實現靜態映射,還具有徑向基函數網絡的功能,并可能構建為多層神經網絡。RSPSNN 具備與動態脊多項式神經網絡(DRPNN)類似的特性,DRPNN 包含脊多項式的遞歸單元,而RSPSNN 使用自生成的合適函數項來實現過去時間與當前時間之間的信息前饋。憑借其靈活性,RSPSNN 預計將具有更強的建模能力。因此,本文構建了新型網絡 RSPSNN。本文的主要貢獻總結如下:
構建了包含遞歸和高階特性的 RSPSNN 新型網絡結構;
證明了 RSPSNN 的穩定收斂性,這是遞歸網絡最關鍵的性質之一;
在多個領域中驗證了 RSPSNN 的有效性和能力。
本文其余部分組織如下:“新神經網絡結構方法”部分提出了 RSPSNN 的新結構;“新結構的穩定性收斂性”部分介紹了網絡的學習規則與訓練過程;“新結構在不同應用中的評估”部分展示了穩定性收斂性的結果,并提供了詳細證明;“函數逼近問題”部分通過數值實驗驗證 RSPSNN 的有效性;最后,“預測問題”部分給出了簡要結論。引言部分未設標題,主要擴展了該主題的背景,并通常包含文中引用。
新神經網絡結構方法
本節提出了一種新型的遞歸與高階神經網絡,稱為遞歸 sigma-pi-sigma 神經網絡(RSPSNN),它是對普通 sigma-pi-sigma 神經網絡(SPSNN)的前饋函數的擴展,如圖1所示。在圖1中,黑色部分為 SPSNN,通過紅線部分的擴展即可得到 RSPSNN 的整體結構。該網絡同時具有遞歸性和高階特性。在遞歸性方面,當前時刻的輸出被用作下一時刻輸入的一部分;在高階特性方面,該結構包含了 ∑ 神經元與 ∏ 神經元,而傳統神經網絡僅包含 ∑ 神經元。
整個網絡包含六部分:輸入層、∑? 層、∏ 層、∑? 層、輸出層,以及前饋鏈。前五部分為 SPSNN,RSPSNN 在此基礎上引入了最后一部分。SPSNN 的結構可緩解傳統神經網絡在訓練過程中內存需求大和學習難度高的問題。由于所需內存較少,該網絡極具吸引力。因此,RSPSNN 不僅繼承了 SPSNN 的優勢,還引入了新的遞歸特性。就復雜度而言,在相同迭代次數條件下,輸入層僅增加一個新元素,其余部分保持不變,因此對復雜度的影響可忽略不計。
RSPSNN 由多個高階神經元構成。圖1展示了其拓撲結構,包括輸入層、∑? 層、∏ 層、∑? 層、輸出層與遞歸鏈。設 t 為時間步;P+1、N 和 Q 分別為輸入層、∑? 層和 ∏ 層的單元數;fqnp() 為網絡訓練的激活函數;y(t?1) 表示上一個時間步的網絡輸出值。各變量的詳細符號在表1中列出。
新結構穩定性的收斂性
遞歸神經網絡(Recurrent Neural Network, RNN)能夠建模任意的動態系統,這是其最有益的特性之一。因此,RSPSNN 中的遞歸鏈預計會發揮優勢作用。RSPSNN 的屬性中,包括遞歸連接、復雜性以及訓練網絡的難度,這些特點都存在。與普通的 SPSNN 相比,訓練 RSPSNN 更為困難。輸出值與目標值之間的誤差可能不會單調遞減,因此梯度算法與穩定性收斂的狀態可能更加復雜。其次,損失函數 E(w) 對 W0 和 Wn 的兩個偏導數 ?E(w)/?W0 和 ?E(w)/?Wn,可能與輸出和梯度相關。因此,梯度和權重的計算更加困難。
為了解決所提出新網絡中的收斂性問題,推導了 RSPSNN 的穩定性,以說明該網絡具有穩定的收斂性。關于 RSPSNN 在收斂性方面的穩定性,詳述如下。
上述證明的詳細過程見“補充材料”文件中的附錄部分。對于 RSPSNN,其最終目的是通過權重的迭代規則搜索最優權重。期望網絡能達到唯一的平衡狀態,使得實際輸出值盡可能接近理想輸出值。
新結構在不同應用中的評估
為驗證 RSPSNN 的有效性,我們使用 MATLAB 2018a 軟件進行數值實驗。首先,我們構建了 RSPSNN 的一種新型網絡結構,其中輸入神經元、∑? 層神經元、∏ 層神經元和 ∑? 層神經元的數量分別為 50、12、3 和 1。對于 ∑? ~ ∏ 層,∑? 層的 12 個節點被分為三個組(3、4、5),第一組的三個節點與 ∑? 層的第一個節點全連接,第二組的四個節點與 ∑? 層的第二個節點全連接,第三組的五個節點與 ∑? 層的第三個節點全連接。
我們選擇 tanh 函數作為激活函數,學習率 η = 0.01。W? 和 W? 的初始權重從區間 [?0.05, 0.05] 中選取,并從 [?4.0, 4.0] 區間中隨機選取 800 個輸入點。訓練終止條件為迭代次數達到最大值 50,000,或均方誤差 MSE 小于 0.01。
函數逼近問題
為實現函數逼近,我們首先選擇以下正弦函數來驗證所提出 RSPSNN 的逼近能力。
圖2展示了函數逼近過程中均方誤差(MSE)的曲線。當迭代次數達到33924時,MSE值為0.0078,滿足停止迭代的條件。
圖3顯示了RSPSNN的逼近函數(用“*”表示的線)和實際函數(虛線)。從逼近結果來看,這兩條線非常相似:大部分線條重疊,準確率為86.7%。RSPSNN表現出良好的逼近性能。
預測問題
對于預測問題,我們選擇Mackey-Glass(MG)時間序列來說明RSPSNN的有效性,并驗證其能力。因此,本文也使用它來評估RSPSNN的有效性。MG方程如下:
MG方程較為復雜,因為時間延遲τ是一個變量。為了便于表述,將y(0)的初始值記為1.8。圖4展示了MG時間序列的狀態空間分布。目標是對該時間序列進行建模,并預測時間序列在未來某一時刻的值。
在本實驗中,首先實現了一步預測,即通過時間k之前和時間k的值來預測時間k+1的真實值。我們生成了500個訓練數據點和500個測試數據點用于實驗。在圖5中,目標輸出(1000個數據點)以紅線表示,而RSPSNN的預測輸出結果以藍線表示。預測結果非常準確,因為紅線和藍線非常接近,幾乎重合。對于500個測試數據點(從501到1000),預測結果也非常準確。在訓練和測試過程中,誤差變化如圖6所示。當迭代次數達到3033時,均方誤差(MSE)為0.0096。
此外,還進行了長期預測的檢驗。對于這種預測,將輸出值反饋作為輸入值,用于計算RSPSNN的未來值。正如前面所述,1000個點被劃分為800個訓練數據點和200個測試點(見圖7)。圖7展示了誤差情況,當迭代次數達到567時,MSE為0.0085。圖8展示了長期預測的有效性。紅線表示目標輸出(點1到800表示訓練數據的目標輸出,點801到1000表示測試數據的目標輸出),而藍線表示預測輸出(前800個點表示訓練數據,接下來的200個點表示測試數據)。對于點801到1000,當預測結果與目標結果進行比較時,有190個點滿足誤差小于或等于0.01的條件。因此,預測準確率達到了95%。值得注意的是,RSPSNN具有良好的預測能力。
此外,將RSPSNN與其他尖端架構(如長短期記憶(LSTM)網絡)進行比較,以進行全面評估。正如前面所述,整個數據(1000個點)也被劃分為80%和20%。圖9展示了LSTM的預測結果。對于點1到800,紅線表示訓練數據的目標輸出,而藍線表示訓練數據的預測輸出。紅線中的點801到1000表示測試數據的目標輸出,相應的藍線中的200個點表示測試數據的預測輸出。圖10展示了MSE的誤差曲線。結果表明,當迭代次數達到115時,MSE降至0.01以下。與RSPSNN的結果相比,LSTM在處理序列問題方面表現出更好的性能。在相同的誤差精度下,LSTM需要的迭代次數更少。
奇偶校驗問題
對于奇偶校驗問題,我們使用分類基準作為樣本,該樣本位于n維空間中,包含個元素。在本實驗中,以4維奇偶校驗問題為例來評估RSPSNN的模型。4維奇偶校驗函數由個不同的向量組成,表2列出了輸入和目標輸出的16組數據。
對于這個問題,輸出始終為1或0,輸入始終為1或-1。在訓練RSPSNN的過程中,我們需要更小的誤差精度值來展示MSE的細節。因此,在本實驗中,將誤差精度從0.01提高到0.0001。
學習過程中性能的演變特性如圖11和圖12所示。
圖11展示了均方誤差(MSE)的曲線。當迭代次數達到2062時,MSE值為9.9998e-05。
在圖12中,目標輸出是16個紅點,而訓練輸出是16個藍點,兩者緊密重疊。值得注意的是,RSPSNN能夠解決奇偶校驗問題。
分類問題
對于分類問題,具有多層結構的RSPSNN適用于解決此類問題。在本實驗中,我們使用了四個分類器,每個分類器對應兩個5變量函數。這兩個函數是
我們分別在[0,2.0]范圍內隨機選擇1000個值作為x1和x2,并將它們依次組合成1000個點[x1,x2]。隨后,使用RSPSNN對分類問題進行訓練。圖14展示了均方誤差(MSE)的曲線,表3展示了分類準確率。
在圖14中,當迭代次數達到1964時,MSE為0.0100。在表2中,最初的1000個點根據公式(14)和公式(15)被劃分為四個分類器,其中I、II、III和IV類的數據量分別為78、31、111和780。此外,這些分類數據通過RSPSNN進行訓練,相應的訓練結果是:I類正確分類21個,II類正確分類12個,III類正確分類109個,IV類正確分類770個;總共正確分類912個。因此,最終的準確率為91.2%,這表明了RSPSNN的分類能力。
圖像模擬
在圖像模擬過程中,我們使用RSPSNN來模擬圖15中的原始圖像。RSPSNN對圖像模擬的效果如圖16所示。圖16展示了經過50次迭代后的圖像模擬結果,其模擬準確率為62.5%。在迭代次數較少的情況下,貓的圖像已經清晰可見。隨著迭代次數的增加,模擬效果變得更加清晰。
最后,為了說明所提出方法的效率和準確性,表4展示了RSPSNN與SPSNN之間的比較結果。
上表表明,RSPSNN的總體準確率優于SPSNN。對于奇偶校驗問題和圖像模擬,兩者的準確率相似。對于函數逼近和分類問題,RSPSNN與SPSNN之間存在一些優勢。值得注意的是,在預測問題上,RSPSNN的結果比SPSNN高出22.8%。也就是說,新結構的有效性和能力通過其遞歸性質得到了證明。其最有優勢的特性是記憶功能,在預測問題上表現出色。
結論
在本工作中,我們提出了一種新的神經網絡。首先,我們成功地利用SPSNN構建了RSPSNN。隨后,我們證明了這種新網絡結構的收斂穩定性,這是其最重要的優勢特性之一。此外,RSPSNN在四個實驗中均取得了成功:函數逼近問題、預測問題、奇偶校驗問題、分類問題以及圖像模擬。最后,展示了RSPSNN與SPSNN之間的比較結果,驗證了所提出網絡的效率和準確性。在構建RSPSNN時,僅在輸入層新增了一個元素,其他部分保持不變,因此對復雜性的影響可以忽略不計。然而,由于RSPSNN的輸入層比SPSNN多一個元素,計算需要更多的可擴展性來應對潛在的限制。一次迭代需要增加一個單位的可擴展性,N次迭代則需要增加N×1單位的可擴展性。
我們期望RSPSNN將在其他領域的理論分析和改進中得到更廣泛的應用。RSPSNN的卓越應用可以擴展到全球許多實際問題中。
在未來的工作中,我們計劃研究所提出網絡的單調性這一新特性,并與其他現有的神經網絡模型進行更全面的比較,以更清晰地突出RSPSNN的優勢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.