A Recurrent Dynamic Model for Efficient BayesianOptimization
一種用于高效貝葉斯優(yōu)化的循環(huán)動(dòng)態(tài)模型
https://www.researchgate.net/profile/P-Michael-Furlong-2/publication/381356023_A_Recurrent_Dynamic_Model_for_Efficient_Bayesian_Optimization/links/6670393c85a4ee7261caef8f/A-Recurrent-Dynamic-Model-for-Efficient-Bayesian-Optimization.pdf
摘要
貝葉斯優(yōu)化是一種在主動(dòng)學(xué)習(xí)中使用的重要黑箱優(yōu)化方法。一種利用矢量符號(hào)架構(gòu)(VSA)生成的向量嵌入實(shí)現(xiàn)該算法的方法被提出,作為一種高效且神經(jīng)形態(tài)化的解決方案來應(yīng)對(duì)這些實(shí)現(xiàn)問題。然而,通往神經(jīng)實(shí)現(xiàn)的清晰路徑尚未詳細(xì)說明。在本文中,我們探索了一種以遞歸動(dòng)力學(xué)形式表達(dá)的算法實(shí)現(xiàn),這種實(shí)現(xiàn)可以輕松轉(zhuǎn)換為神經(jīng)群體,并在英特爾神經(jīng)形態(tài)計(jì)算機(jī)的 Lava 編程框架中提供了一種實(shí)現(xiàn)。我們比較了使用不同分辨率表示實(shí)值數(shù)據(jù)時(shí)算法的性能,并證明了其尋找最優(yōu)解的能力得以保留。這項(xiàng)工作為在低功耗神經(jīng)形態(tài)計(jì)算機(jī)上實(shí)現(xiàn)貝葉斯優(yōu)化提供了前進(jìn)的方向,使得主動(dòng)學(xué)習(xí)技術(shù)可以在低功耗邊緣計(jì)算應(yīng)用中部署。
關(guān)鍵詞——貝葉斯優(yōu)化,矢量符號(hào)代數(shù),分?jǐn)?shù)冪編碼,遞歸動(dòng)力學(xué)
I. 引言
主動(dòng)學(xué)習(xí)對(duì)于持續(xù)學(xué)習(xí)與其交互系統(tǒng)的代理至關(guān)重要。貝葉斯優(yōu)化(BO)是一種廣泛使用的黑箱優(yōu)化程序,用于在存在噪聲觀測(cè)的情況下進(jìn)行樣本高效的主動(dòng)學(xué)習(xí)。在 BO 中,下一個(gè)待觀測(cè)樣本是通過優(yōu)化一個(gè)基于信息論的獲取函數(shù)選擇的。優(yōu)化問題非常適合神經(jīng)形態(tài)硬件 [1],并且鑒于 BO 的實(shí)用性,將其轉(zhuǎn)化為神經(jīng)形態(tài)計(jì)算值得研究。
基于高斯過程回歸(GPR)的 BO 方法已經(jīng)非常成熟,常用的獲取函數(shù)基于置信上限算法 [2] 或互信息 [3]-[5]。在這些方法中,高斯過程提供了計(jì)算信息論核心量所需的觀測(cè)后驗(yàn)分布。不幸的是,這些算法的樣本選擇內(nèi)存和時(shí)間復(fù)雜度分別隨著收集樣本數(shù)量 t 的平方 (t2) 和立方 (t3) 增長(zhǎng)。這種無界復(fù)雜度增長(zhǎng)與資源受限的應(yīng)用不兼容,例如移動(dòng)機(jī)器人、航空航天或邊緣計(jì)算應(yīng)用。
Furlong 等人 [6] 提出了一種復(fù)雜度恒定的 BO 算法,該算法在由矢量符號(hào)代數(shù)(VSA)[7]-[10] 定義的表示空間中運(yùn)行。效率的提升得益于 VSA 表示與再生核希爾伯特空間之間的聯(lián)系 reproducing kernel Hilbert spaces[11], [12],從而反轉(zhuǎn)核技巧 [13] 并近似觀測(cè)分布。盡管該算法提出了在神經(jīng)可解釋表示空間中的 BO,但當(dāng)時(shí)并未提出該算法的神經(jīng)可解釋實(shí)現(xiàn)。
在本文中,我們將 Furlong 等人的算法實(shí)現(xiàn)為一個(gè)遞歸動(dòng)力系統(tǒng),為神經(jīng)實(shí)現(xiàn)提供了前進(jìn)的方向。此外,我們使用六邊形空間語義指針(Hex-SSP)編碼來表示數(shù)據(jù),這進(jìn)一步將實(shí)現(xiàn)與網(wǎng)格細(xì)胞 [14], [15] 聯(lián)系起來。我們還提供了一個(gè)用 Lava 編寫的優(yōu)化算法實(shí)現(xiàn),Lava 是英特爾 Loihi 神經(jīng)形態(tài)處理器的編程框架 [16], [17]。我們測(cè)試了該實(shí)現(xiàn)使用不同數(shù)值精度時(shí)的性能。
本工作的貢獻(xiàn)包括:
1) 將貝葉斯優(yōu)化建模為遞歸動(dòng)力學(xué);
2) 在六邊形 SSP 表示空間中實(shí)現(xiàn)貝葉斯優(yōu)化;
3) 使用 Lava [16] 框架實(shí)現(xiàn)該算法;
4) 比較算法性能隨數(shù)值精度變化的表現(xiàn);
5) 對(duì)簡(jiǎn)化學(xué)習(xí)規(guī)則并降低神經(jīng)形態(tài)實(shí)現(xiàn)需求的貝葉斯優(yōu)化近似進(jìn)行比較。
在本文的其余部分,我們簡(jiǎn)要介紹了本文使用的表示方法和算法(第 II 節(jié)),然后推導(dǎo)了優(yōu)化算法的遞歸動(dòng)力學(xué)實(shí)現(xiàn)以及基于 Lava 框架的過程實(shí)現(xiàn)(第 III 節(jié)),接著展示了在標(biāo)準(zhǔn)優(yōu)化目標(biāo)函數(shù)上的結(jié)果(第 IV 節(jié)),并在第 V 節(jié)中總結(jié)全文。
II. 背景
在下面(第 II-A 節(jié)),我們簡(jiǎn)要概述了全息簡(jiǎn)化表示(Holographic Reduced Representation, HRR)矢量符號(hào)架構(gòu)(VSA)如何通過原子組件(原子符號(hào)和向量)的表示以及用于構(gòu)建數(shù)據(jù)結(jié)構(gòu)表示的操作來表示和編碼數(shù)據(jù)。對(duì)更多細(xì)節(jié)感興趣的讀者可以參考 [10], [12], [18], [19] 的工作。我們還簡(jiǎn)要描述了 Furlong 等人 [6] 提出的貝葉斯優(yōu)化(BO)公式,這是我們本文中使用的優(yōu)化算法(第 II-B 節(jié))。
A. VSA 數(shù)據(jù)編碼
矢量符號(hào)架構(gòu)(VSAs)是一類代數(shù)體系,可用于實(shí)現(xiàn)可由神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的認(rèn)知模型 [7]-[10], [19]。VSAs 使用有限的代數(shù)操作集對(duì)高維向量進(jìn)行操作,在本文中我們使用了 [9] 中提出的全息簡(jiǎn)化表示(HRR)代數(shù)。
在本文中,我們使用連續(xù)數(shù)據(jù)的表示方法,該方法旨在模擬內(nèi)側(cè)內(nèi)嗅皮層中網(wǎng)格細(xì)胞的活動(dòng) [15],這些表示被稱為六邊形空間語義指針(Hexagonal Spatial Semantic Pointers, Hex-SSPs)[14], [15]。通過 Hex-SSPs 對(duì)數(shù)據(jù)進(jìn)行編碼時(shí),首先取一個(gè)輸入向量 ,然后將其投影到一個(gè) d -維向量空間中:
其中,是一個(gè)編碼矩陣,其被約束為具有共軛對(duì)稱性,是逆離散傅里葉變換。矩陣 A 的設(shè)計(jì)使得編碼值之間的點(diǎn)積近似于一個(gè)核函數(shù),該核函數(shù)是沿 m -單純形排列的 sinc 核的總和(詳見 [15])。除了其生物學(xué)相關(guān)性外,Hex-SSPs 在許多回歸和分類任務(wù)中已被證明是有效的表示方法 [20],因此我們對(duì)其感興趣。這與 [6] 中使用隨機(jī)生成的 A 矩陣的方法不同,但如下文所示,優(yōu)化過程應(yīng)對(duì)編碼方案保持無關(guān)性。
此外,VSA 還可以用于表示離散和分類對(duì)象,并且可以進(jìn)一步組合這些原子表示以創(chuàng)建各種數(shù)據(jù)結(jié)構(gòu)的表示。有關(guān)如何構(gòu)建此類表示的更多細(xì)節(jié)可參考文獻(xiàn) [9], [10], [18], [21]。在更復(fù)雜空間上執(zhí)行貝葉斯優(yōu)化的內(nèi)容將在即將發(fā)表的工作 [22] 中描述。由于此空間中的點(diǎn)積會(huì)引出一個(gè)正定核,我們可以將其用于核技巧以近似高斯過程,從而應(yīng)用于貝葉斯優(yōu)化,我們將在下文中對(duì)此進(jìn)行描述。
B. 貝葉斯優(yōu)化公式
III. 方法
將基于梯度的優(yōu)化編碼為遞歸神經(jīng)動(dòng)力學(xué)是一種成熟的做法。為了將其轉(zhuǎn)化為 Loihi2 處理器的 Lava 編程框架,我們將優(yōu)化流程分解為獨(dú)立的過程,這些過程反映了 [25] 中描述的模型預(yù)測(cè)控制優(yōu)化。以下我們首先推導(dǎo)出神經(jīng)實(shí)現(xiàn)必須執(zhí)行的遞歸動(dòng)力學(xué)(第 III-A 節(jié))。接下來,我們概述了用于實(shí)現(xiàn)優(yōu)化的過程,并在 Lava 中進(jìn)行了實(shí)現(xiàn)(第 III-B 節(jié))。最后,我們展示了 Lava 實(shí)現(xiàn)的性能,以及性能如何隨著數(shù)值表示的精度變化而變化。
A. 梯度推導(dǎo)
我們?cè)噲D優(yōu)化的獲取函數(shù)由 (1) 給出。為了計(jì)算梯度,我們對(duì) a(x) 關(guān)于向量 求梯度。
為了在神經(jīng)元中實(shí)現(xiàn)這些方法,我們會(huì)使用一群神經(jīng)元來表示當(dāng)前解 ,然后使用另一群神經(jīng)元將當(dāng)前解狀態(tài)轉(zhuǎn)化為函數(shù)下一次迭代的梯度步驟。隨著時(shí)間推移,解神經(jīng)元會(huì)收斂到最優(yōu)解,且狀態(tài)可以在下游被解碼。
B. Lava 實(shí)現(xiàn)
在兩群神經(jīng)元之間傳遞的向量(當(dāng)前解狀態(tài)、當(dāng)前梯度)是這些神經(jīng)元群體之間的接口。因此,我們可以將神經(jīng)實(shí)現(xiàn)抽象為遞歸通信向量的過程。在 Lava 中,我們使用兩個(gè)過程來實(shí)現(xiàn)這一方法:
1) 解神經(jīng)元——這些神經(jīng)元保存了解的編碼 。該過程在算法 1 中功能化定義。
2) 互信息梯度過程——這一群體根據(jù)解神經(jīng)元的狀態(tài)計(jì)算梯度。該過程在算法 2 中功能化指定。
由這兩個(gè)過程定義的系統(tǒng)可以運(yùn)行固定步數(shù),或者直到收斂。整個(gè)網(wǎng)絡(luò)的架構(gòu)如圖 1 所示。需要注意的是,互信息梯度方法依賴于貝葉斯線性回歸學(xué)習(xí)的參數(shù)。
該過程接收來自計(jì)算梯度的過程的輸入,并將該更新通過直接連接和遞歸連接整合到內(nèi)部狀態(tài) 中,如算法 1 所述。為了實(shí)現(xiàn)梯度動(dòng)力學(xué),我們定義了算法 2 中描述的過程。此實(shí)現(xiàn)的完整代碼可在(鏈接)獲取,審閱期間已移除。
IV. 結(jié)果
平均后悔性能如圖 3 所示。從這些結(jié)果中,我們得出三個(gè)觀察結(jié)論。首先,我們成功地使用遞歸動(dòng)力學(xué)實(shí)現(xiàn)了優(yōu)化算法。其次,盡管數(shù)值精度不同,該算法仍能持續(xù)優(yōu)化所選動(dòng)作的值。第三,數(shù)值精度越低,優(yōu)化算法的后悔減少速度越慢。值得注意的是,我們的方法在 32 位或 64 位精度下的表現(xiàn)優(yōu)于使用 64 位精度并在域 x 上優(yōu)化的 GP-Matérn 基線算法。此外,16 位精度實(shí)現(xiàn)的性能僅略遜于 GP-Matérn 基線。
通過檢查發(fā)現(xiàn),算法性能的變異性似乎并未受到數(shù)值精度的顯著影響。我們還觀察到,在 Himmelblau 和 Goldstein-Price 函數(shù)中,算法的后悔性能隨著精度的降低而增加。在 Branin-Hoo 算法的情況下,64 位和 32 位浮點(diǎn)表示的性能相同。
V. 討論與結(jié)論
我們已經(jīng)證明,所提出的貝葉斯優(yōu)化方法成功地轉(zhuǎn)化為遞歸動(dòng)力學(xué)的實(shí)現(xiàn)。使用遞歸動(dòng)力學(xué)解決優(yōu)化問題是一種成熟的技術(shù),至少可以追溯到 Tank 和 Hopfield 的工作,例如 [27], [28]。本文在矢量符號(hào)架構(gòu)(VSA)空間中實(shí)現(xiàn)貝葉斯優(yōu)化遞歸動(dòng)力學(xué)的概念驗(yàn)證,為在神經(jīng)形態(tài)硬件上實(shí)現(xiàn)貝葉斯優(yōu)化算法提供了一條路徑。由于獲取函數(shù)的凸化(通過在 VSA 空間中進(jìn)行優(yōu)化實(shí)現(xiàn)),我們能夠輕松實(shí)現(xiàn)這一算法。我們還表明,盡管優(yōu)化過程對(duì)實(shí)現(xiàn)的精度敏感,但優(yōu)化過程仍然能夠持續(xù)改進(jìn)結(jié)果。
六邊形空間語義指針(Hex-SSPs),作為(傅里葉)全息簡(jiǎn)化表示中的任何向量,與隨機(jī)傅里葉特征(RFFs)方法 [11], [12] 具有基本的數(shù)學(xué)關(guān)系。將 RFFs 與貝葉斯線性回歸結(jié)合以近似高斯過程的能力已被充分證明,如上所述。圍繞 RFFs 的豐富文獻(xiàn)(例如,在 [29] 中綜述)為使用 HRR 表示構(gòu)建的認(rèn)知模型提供了許多有用的理論成果。
本文描述的動(dòng)力學(xué)對(duì)編碼方案是無關(guān)的,這表明該優(yōu)化方案可能很好地?cái)U(kuò)展到使用 VSA 方法編碼的其他數(shù)據(jù)格式。我們已經(jīng)發(fā)布了一個(gè)遞歸動(dòng)力學(xué)的 Lava 實(shí)現(xiàn),并計(jì)劃將其集成到 Lava 優(yōu)化包中。
然而,我們觀察到,本實(shí)現(xiàn)中使用的 VSA 編碼依賴于密集表示。為了更好地利用 Loihi 2 上的可用資源,該算法最好與稀疏分?jǐn)?shù)綁定技術(shù)相結(jié)合,類似于 Frady 等人 [30] 提出的方法。我們還在研究近似貝葉斯線性回歸的方法,以降低學(xué)習(xí)規(guī)則的復(fù)雜性,從而減少實(shí)現(xiàn)該算法所需的電路規(guī)模。
原文鏈接:https://www.researchgate.net/profile/P-Michael-Furlong-2/publication/381356023_A_Recurrent_Dynamic_Model_for_Efficient_Bayesian_Optimization/links/6670393c85a4ee7261caef8f/A-Recurrent-Dynamic-Model-for-Efficient-Bayesian-Optimization.pdf
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.