Scalable and Interpretable Learning with Probabilistic Models for Knowledge Discovery
使用概率模型進行知識發現的可擴展和可解釋的學習
https://www.proquest.com/openview/b3c981a50f91c6c57567dab9d6d448b5/1?cbl=18750&diss=y&pq-origsite=gscholar
摘要
新穎的機器學習方法是正在進行的科學和工程轉型的核心。概率模型已經成為知識發現的基礎學習模型。作為替代模型,它們使得在有限預算下評估/查詢復雜系統的系統行為成為可能,從而實現了高效的黑盒優化或主動學習。另一個重要的用例是將概率模型用作生成模型,以生成具有所需特性的全新設計或從物理系統的平衡分布中抽樣樣本。然而,要充分釋放概率模型在知識發現中的潛力,就必須開發可擴展到不斷增長的數據規模和復雜性的模型,同時對領域專家具有解釋性。
在這篇論文中,我從開發一種新方法開始,該方法解決了貝葉斯優化中的稀疏解識別問題,該問題使用概率替代模型。稀疏解的發現不僅增強了對于人類理解系統行為的解的解釋性,而且通過減少參數數量,使得更容易地進行簡化部署和維護。
接下來,我介紹了一種利用深度學習來增強高斯過程推斷可擴展性的新方法。高斯過程被廣泛用作知識發現中的概率替代模型,但其實際使用受到了在GP回歸中識別核超參數的高成本的阻礙,這涉及到昂貴的邊緣似然。我展示了如何通過采用“攤銷”超參數推斷來避開昂貴的邊緣似然的需要。通過訓練一個單一的神經網絡,該網絡消耗一組數據并產生核函數的估計,可用于不同任務。
最后,我介紹了邊緣化模型,這是一種新的用于高維離散數據的生成模型家族,這種數據在科學發現中是普遍存在的。邊緣化模型通過對所有誘導邊緣分布進行顯式建模,利用神經網絡實現了可擴展和靈活的生成建模,并提供了可追蹤的似然。對邊際的直接建模實現了高效的邊際推斷和對給定(非歸一化)概率函數進行抽樣的任意階生成模型的可擴展訓練,從而克服了先前方法在精確似然性方面的主要局限性。
第1章介紹
概率模型作為一種基于原則的機器學習方法,用于建模數據分布,最近開始在促進科學探索和發現方面發揮著重要作用。替代模型在涵蓋科學、工程、機器人學等多個領域的各種領域中都是寶貴的工具,其中它們對復雜系統行為進行建模。利用概率替代模型提供的不確定性量化,可以設計自動算法,通過與系統的積極交互來高效實現給定用例的目標。一個主要的用例是優化,例如通過實驗測試確定電池陰極的最佳材料組成。在這種情況下,采用貝葉斯優化,利用概率模型來理解并通過實驗結果來迭代微調組成與性能之間的關系。同時,根據替代模型的不確定性量化,策略性地選擇后續的實驗條件,平衡對新穎組成的探索與對表現良好的已知組成的利用,從而加速發現最佳組成。
主動學習是另一個主要的用例,例如在訓練替代模型以準確模擬分子動力學方面。該過程始于基于有限數據的初始概率模型,然后通過積極查詢系統以獲取額外標記數據來系統地增強模型。選擇最具信息性的樣本進行標記的過程受到替代模型固有不確定性估計的指導,最終形成一個準確模型,標記工作量最小。
除了替代模型外,概率生成模型在各個領域對復雜數據分布進行建模方面取得了顯著進展,包括自然語言建模、圖像生成、音頻合成以及科學發現應用。在訓練用于科學發現的生成模型時,存在兩種主要設置。第一種設置是最大似然訓練,目標是訓練一個生成模型以最大化訓練數據的似然性。這種設置通常用于任務,如圖像生成、自然語言建模和藥物設計,其目標是生成與訓練數據分布相似的數據。第二種設置是分布匹配,旨在將生成分布與目標密度對齊。對于圖像和語言,這種設置較少探索,但在諸如采樣晶格模型和估計分子或材料的平衡性質等應用中經常使用,其中需要從物理系統的熱力學平衡分布中生成樣本。
在這篇論文中,我提出了解決知識發現中概率模型的解釋性和可擴展性挑戰的新方法。在深入探討所提出方法的細節之前,我對替代模型和生成模型的現有文獻進行了簡要概述。
本章的其余部分組織如下:1.1.1節首先簡要介紹了高斯過程,這是一種在科學發現中廣泛使用的概率替代模型。然后我在1.1.2節回顧了貝葉斯優化的基本方法論方面。1.2節簡要介紹了現有文獻中有關生成模型的情況,特別關注科學發現中的應用。最后,我在1.3節總結了本章的大綱。
1.1 概率替代模型
1.1.1 高斯過程
高斯過程定義了一種關于函數的非參數分布,形式為 f(·):X → R。
X是函數f的定義域,通常是R的子集,其中R是某個D的集合。輸出空間假定為單輸出,范圍為R,雖然對于m維多輸出Rm的擴展是直接的。
高斯過程模型在定義域上的任意有限點集合上指定了輸出函數的聯合高斯分布。更確切地說,對于定義域上的任意有限點集合X, ,相應的函數值 · · · , 遵循多變量高斯分布: ,其中μ是一個N維均值向量,KXX是一個N×N正定協方差矩陣。均值和協方差的參數由一個均值函數μ(·) : X → R和一個正定協方差函數k(·, ·) : X ×X → R確定。
因此,高斯過程通常用 f(·) ~ GP (μ(·), k (·, ·)) 表示。均值函數 μ(·) 通常設為零,協方差函數 k(·, ·) 通常由函數的選擇及其相關的超參數 θ 來參數化。在這種情況下,我們寫作 kθ(·, ·) 來表示協方差函數對超參數的依賴。
對于訓練數據集 ,每個 yn 通常被假設是通過在 f(xn) 上添加一個獨立同分布的零均值高斯噪聲生成的,即 yn = f(xn) + ?n,其中 。記 。對于大小為 N′ 的新數據輸入集合 ,先驗和似然的高斯性使得可以閉式計算預測分布。
核函數的選擇
核函數的選擇對于高斯過程泛化至關重要,因為不同的核函數會施加不同的模型假設,例如平滑度、周期性等。(有關廣泛的討論,請參閱 Rasmussen 和 Williams (2006) 的第 4 章。) 對于已知的結構,有時可以選擇一個內核來捕獲它。否則,核學習必須通過定義核函數的表達空間并通過優化(Wilson and Adams,2013;Wilson et al.,2016;Sun et al.,2018)或搜索(Duvenaud et al.,2018)選擇最佳的來進行。,2013;勞埃德等人,2014)。
這里我們給出一些流行核函數的例子。徑向基函數 (RBF) 核,也稱為“平方指數”核,由下式給出
其中Kν是第二類修正貝塞爾函數,ν是控制函數平滑度的超參數。當 ν 設置為 1/2 時,Matérn 核與絕對指數核相同,即
這是建模函數的流行選擇,這些函數不是無限可微的(假設在 RBF 內核中),但至少可微一次或兩次。
Exp-Sine-Squared 核,也稱為“周期”核,由下式給出
其中 p 是周期,l 是長度。
為了說明不同的內核如何對不同的函數屬性進行建模,我們在圖 1.1 中展示了從帶有上述內核的 GP 中提取的函數示例。
為了對具有多個所需結構的函數進行建模,可以組合不同的內核以形成復合內核。構建復合內核的標準方法是添加或乘以兩個或多個內核。例如,將線性核與周期核相乘可用于對具有增加/減少幅度的周期函數進行建模。加法通常用于組合各個維度的核,例如,不同長度尺度的 RBF 核的總和可用于對不同維度中具有不同平滑度的函數進行建模。Duvenaud (2014) 的第 2 章給出了如何使用復合核表達結構的全面指南。
超參數推斷和相關的可擴展性挑戰
除了核的特定選擇之外,協方差函數通常具有控制其特定結構的所謂超參數 θ,并且參數化核函數被寫為 kθ(·,·)。盡管完全貝葉斯處理是可能的(Neal,1999;Murray 和 Adams,2010;Filippone 和 Girolami,2014;Murray 和 Graham,2016),確定超參數的最常見方法是使用經驗貝葉斯并最大化對數邊際似然 (證據)關于超參數 θ,即執行 II 類最大似然(Berger,2013;MacKay,1992)。觀測數據 {X, y} 的對數 MLL 由下式給出:
其中我們寫 KXX(θ) 來指示 Gram 矩陣對超參數的依賴性。
為了解決上述優化問題,通常使用擬牛頓方法,例如L-BFGS(Liu和Nocedal,1989)或非線性共軛梯度(Hestenes等,1952;Fletcher和Reeves,1964)。這些迭代優化方法涉及為每個優化步驟多次獲取目標梯度。由于方程 (1.3) 的梯度縮放為 O(N3),這種優化在大規模問題上變得極其昂貴,主導了使用 GP 的計算成本。此外,方程(1.3)中目標的非凹性使得難以確保收斂到良好的最大值。
為了解決縮放問題,通常通過對數據進行二次采樣或通過虛擬“誘導”點來使用核矩陣的低秩近似(Smola 和 Bartlett,2001;Williams 和 Seeger,2001;Csató 和 Opper,2002;Qui?onero) -Candela 和 Rasmussen,2005;Seeger 等,2003;Snelson 和 Ghahramani,2009;Hensman 等,2017;Shi 等,2020。一般來說,這些方法需要對較小的矩陣進行求逆,并將計算復雜度降低至 (M 是子采樣數據或“誘導”點的數量),代價是更大且通常更具挑戰性的優化問題以及 數據集中重要信息的潛在丟失。對于指數二次核的特殊情況,Burt 等人。(2019) 表明,對于具有緊湊支持或 D 維度高斯分布的輸入,僅需要 計算復雜度即可以高概率實現任意好的近似。
1.1.2 貝葉斯優化
我在本節中簡要概述貝葉斯優化(BO)。為了更全面的治療,Shahriari 等人。(2015a) 對 BO 進行了徹底的審查。
貝葉斯優化的目標是在緊湊集 B ? R D 上最大化黑盒函數 f : RD → R。通常為了簡單起見,對域進行縮放并取為 [0, 1]D。我們假設 f 是連續的并且有界于此域。在每次優化迭代中,根據迄今為止觀察到的函數評估,使用概率代理模型對 f 進行建模,為所有可能的 x 生成正態分布的后驗 f(x) ~ N (μ(x), σ2(x))。通過最大化獲取函數 α(x) := Ef [u(x)] 來選擇下一個函數評估的位置,以平衡探索和利用的權衡,其中 u 是定義獲取函數的效用函數。執行該迭代過程直到滿足停止標準,例如,成功識別最佳解決方案或達到最大迭代次數。
高斯過程是 BO 中最流行的代理模型。貝葉斯神經網絡最近才開始作為替代替代模型進行探索(Li et al., 2023),但其高計算成本限制了在實踐中的采用。Neal (1994) 發現的高斯過程和貝葉斯神經網絡之間存在等價性。高斯過程在機器學習社區中的普及很大程度上是由于這種聯系以及與貝葉斯神經網絡相比,GP 使用的計算更便宜(Williams 和 Rasmussen,1995)。
典型的采集函數包括預期改進(EI,Jones 等人,1998)和置信上限(UCB,Srinivas 等人,2010)。EI 由下式給出
其中x*是迄今為止觀察到的最佳點,當f是GP時,獲取函數具有眾所周知的解析形式。UCB 類似地直接從邊緣后驗計算, 其中 β 是控制探索-利用權衡的超參數。最近, 信息理論獲取函數已經開發出來(Hernández-Lobato 等人,2014 年;Wang 和 Jegelka,2017 年)。
1.2 概率生成模型
生成模型是一種建模復雜數據分布的強大工具。在這一部分,我首先簡要概述了關于生成模型的現有文獻。然后我討論了兩種流行的生成建模設置,最大似然估計和分布匹配。最后,我介紹了自回歸模型以及它們如何在最大似然估計中被訓練用于任意階建模。
1.2.1 生成模型概述
生成模型的目標是學習一個分布 pθ(x) ——通常 θ 是由神經網絡參數化的—— 能夠生成類似于數據分布 pdata(x) 的樣本 x。學習到的分布可以用于不同的用途,例如生成新樣本、評估觀察數據的似然性,以及對邊際或條件分布進行推斷。廣義上講,生成模型可以分為兩類:顯式密度模型和隱式密度模型。在顯式密度模型中,概率密度函數 pθ(x) 被一個參數化函數明確定義,例如一個神經網絡。根據分布的明確定義,我們可以評估觀察數據的似然性,甚至進行邊際或條件分布的推斷。成功的顯式密度模型的示例包括歸一化流(Rippel 和 Adams,2013;Tabak 和 Turner,2013;Dinh 等,2014;2016)、變分自編碼器(VAEs)(Kingma 和 Welling,2013;Rezende 和 Mohamed,2015;Kingma 等,2016)和自回歸模型(ARMs)(Bengio 和 Bengio,2000;Larochelle 和 Murray,2011)。
在隱式密度模型中,分布 pθ(x) 是通過抽樣過程隱式定義的,即我們無法評估數據的似然性,只能從分布中生成樣本。生成對抗網絡(GANs)(Goodfellow 等,2014;Radford 等,2015;Arjovsky 等,2017;Karras 等,2019)和擴散模型(Sohl-Dickstein 等,2015;Ho 等,2020;Song 和 Ermon,2019)是隱式密度模型最常用的例子。最近,擴散模型的概率流ODE表述(Song 等,2020)使其成為連續歸一化流(神經ODE)的特例,從而實現了精確的對數似然評估。當非可逆解碼器無法進行封閉形式對數似然評估時,如最初由Kingma 和 Welling(2013)開發的情況下,VAEs有時也被認為是隱式密度模型。
能量基模型(EBMs)(Hinton,2002;LeCun 等,2006;Tieleman,2008)是另一類介于隱式和顯式密度模型之間的生成模型。與指定概率密度不同,它們明確地對負對數概率,即能量函數進行建模。這允許使用強大的神經網絡對能量函數進行靈活建模,并在圖像生成(Ngiam 等,2011;Du 和 Mordatch,2019)和語言處理(Mikolov 等,2013)等領域中找到應用。但是,由于未標準化概率的存在,似然性評估和精確抽樣是棘手的。
在本篇論文中,我們專注于離散域的顯式密度生成模型,因為它們具有可解釋性,并且在科學發現應用中具有廣泛的適用性。我們首先定義了兩種流行的生成建模設置。然后我們簡要概述了自回歸模型以及它們如何在最大似然估計中被訓練用于任意階建模。
1.2.2 生成建模設置
最大似然估計(MLE)給定一個從數據分布 pdata 中抽樣得到的數據集 ,我們的目標是學習一個分布 pθ(x),使得在我們的模型下數據的概率最大化。數學上,我們的目標是學習使對數似然最大化的參數 θ^?:
這也等同于在經驗分布下最小化Kullback-Leibler散度,即最小化 。在這種設置下,我們無法評估 ,但可以從經驗分布中抽取數據樣本,這在圖像生成(例如,擴散模型(Ho等,2020;Song和Ermon,2019))和語言處理(例如,預訓練的轉換器(Devlin等,2018;Yang等,2019b;Radford等,2019;Brown等,2020))中最常用。
分布匹配(DM)
在這種情況下,我們沒有從感興趣的分布中抽取樣本的工具。相反,我們可以訪問非歸一化(對數)概率質量(或密度)函數 f,通常以獎勵函數或能量函數的形式,由我們或物理系統定義來指定樣本的可能性。例如,我們可以將目標 PMF(或 PDF)定義為 ,其中 r(x) 是獎勵(或負能量)函數,τ > 0 是 溫度參數。這表達了我們希望模型為具有較大獎勵(較低能量)的數據分配較高概率的直觀想法。例如,在 ChatGPT(Ouyang et al.,2022;OpenAI,2023)等對話系統中,r(x) 可以表達響應與用戶偏好的契合程度。在分子中 在設計應用程序時,科學家可以根據特定樣本的測量或計算屬性與某些功能需求的接近程度來指定獎勵。
從數學上講,我們的目標是學習參數 θ,使得 ,其中 Z 是 f 的歸一化常數。兩個常見的訓練標準是最小化 KL 散度(Noé et al., 2019;Wu et al., 2019;Damewood et al., 2022):
或興趣分布 q(x) 上兩個對數概率之間的平方距離(Bengio 等人,2021a;Zhang 等人,2022): 當 KL 散度用作距離度量時,有時也稱為基于能量的 KL 訓練(K?hler 等人,2020)。該公式對于模擬熱力學平衡中的伊辛模型、分子、蛋白質和材料等物理系統特別有用(Noé 等人,2019;Wu 等人,2019;Damewood 等人,2022;K?hler 等人,2022)。,2023)。經過訓練的生成模型可用于通過從平衡分布中有效采樣來評估屬性,而分子動力學或 MCMC 等傳統方法由于不同狀態之間的高能壘而難以有效采樣。它對于受控生成也很有用,我們可以將獎勵函數指定為所需屬性的函數,例如指導語言模型(Ouyang et al., 2022),或生成具有所需屬性的分子(Bengio et al., 2022)。,2021a)。
1.2.3 自回歸模型
自回歸模型 (ARM) 通過使用鏈式法則將復雜的高維分布 p(x) 分解為單變量條件來對分布進行建模:
最近,在將自回歸模型應用于離散數據方面取得了巨大成功,例如自然語言(楊等人,2019b;布朗等人,2020)、蛋白質(Shin等人,2021;林等人,2023;Madani等人,2023)和分子(Segler等人,2018;Flam-Shepherd等人,2022)。由于它們的順序性質,評估(聯合/邊緣)似然性需要進行高達D個神經網絡評估,這對于長序列來說是昂貴的。
任意階自回歸模型(AO-ARMs)
在最大似然設置下,Uria等人(2014)提出了學習ARMs條件的方法,用于任意順序σ ∈ SD,其中SD表示{1, . . . , D}的所有排列的集合。模型?可以通過最大化一個在排列均勻分布下的期望的下界目標(Uria等人,2014;Hoogeboom等人,2021a)來進行訓練。
U(S)表示有限集合S上的均勻分布。σ ∈ SD是變量的隨機排列,SD定義了1、2、· · ·、D的所有排列的集合。σ(d)表示排序中的第d個元素,σ(< d) = {σ(1), . . . , σ(d ? 1)}。
這個目標允許通過像U-Net(Ronneberger等人,2015)和Transformers(Vaswani等人,2017)這樣的結構,在一個前向傳遞中利用高效并行評估多個單步條件。然而,在分布匹配設置下,AO-ARMs的訓練仍然是一個挑戰。
1.3 概述
論文的其余部分安排如下。在第二章中,我將介紹在使用高斯過程作為代理模型時,貝葉斯優化中解釋性的挑戰,并展示如何從稀疏性和多目標優化的角度解決這個問題。在第三章中,我將提出一種新的深度學習增強方法,以解決使用高斯過程作為代理模型時的可擴展性挑戰。在第四章中,我將介紹一種新的生成模型類別,以解決自回歸模型的可擴展性挑戰。最后,在第五章中我將總結論文并討論未來的方向。
第2章 通過稀疏貝葉斯優化進行可解釋的系統設計
2.1 引言
貝葉斯優化(BO)是一種用于高效全局優化的技術,被用于優化跨越各種復雜系統的設計參數,包括機器人技術(Lizotte等人,2007;Calandra等人,2015)、機器學習流水線(Hutter等人,2011;Snoek等人,2012;Turner等人,2021)、互聯網系統(Letham等人,2019;Feng等人,2020)、化學(Gómez-Bombarelli等人,2018;Burger等人,2020;Shields等人,2021)和能源(Attia等人,2020;Liu等人,2022)。在許多應用中,包括上述的應用,優化參數為稀疏是可取的。在本文中,我們將貝葉斯優化中的稀疏性定義為大部分優化參數接近于希望朝向的目標參數的屬性。例如,目標參數可能是一個零向量,其中將參數設置為零鼓勵去除冗余系統配置?;蛘撸繕藚悼赡苁悄J系統參數(現狀),其中稀疏性有利于最少的修改以保持一致性和穩健性。偏好稀疏的一個原因是它增加了可解釋性,在機器學習領域這一考慮最近引起了很多關注(Doshi-Velez和Kim,2017;Rudin等人,2022)??山忉屝詫τ谌祟惸軌蚶斫夂驮u估復雜系統的輸出是必要的——貝葉斯優化通常應用于此類系統。在政策/流程優化中,策略/控制的稀疏性為人類決策者提供了了解系統行為并識別潛在問題的自然方式(Ustun和Rudin,2016;Hu等人,2019)。
除了可解釋性,稀疏性也可以通過產生更容易部署和維護的系統來帶來好處,減少復雜自動化系統的“技術債務”(Sculley等人,2015)。舉例來說,推薦系統對許多互聯網公司至關重要,包括電子商務平臺、流媒體服務和社交媒體網站(Bobadilla等人,2013)。典型的推薦過程包括兩個階段,檢索階段和排名階段(Covington等人,2016)。檢索階段的參數確定了要從不同用戶興趣分類(Wilhelm等人,2018)代表不同用戶興趣分類的候選池(來源)中獲取的內容量。將參數設置為零意味著關閉這些來源。稀疏優化可以找到解決方案,其中低質量的來源完全被關閉,從而簡化系統并實現更快的開發。類似地,在化學中,稀疏解決方案需要更少的試劑和步驟來合成化合物,這減少了實驗開銷并加速了新化合物的發現。
機器學習中的稀疏性通常是通過正則化實現的,例如套索(lasso)中使用的L1正則化(Tibshirani,1996)、組套索(group lasso)中使用的組規范懲罰(Yuan和Lin,2006)以及直接將元素設置為零的L0正則化(Zhang,2008)。機器學習中正則化的目的通常是限制過擬合,從而通過減少泛化誤差(Evgeniou等人,2002)提高測試準確性。在我們的設置中,稀疏性是一個單獨的目標;可解釋的稀疏配置通常不會改善優化目標,事實上,可能會以某些成本換取其他指標。這可以從圖2.1中顯示的真實世界推薦系統來源實驗中的稀疏性目標帕累托邊界中看出。帕累托邊界包括所有產生稀疏性和優化目標之間最佳權衡的配置。在許多實際系統中,決策者愿意在一定程度上犧牲目標以實現更高級別的稀疏性,因為稀疏性帶來了可解釋性和簡單性的好處。因此,與典型的BO問題不同,決策者認為的“最佳”點不一定是具有最佳目標的點,而可能是帕累托邊界上具有更多稀疏性的其他點。
圖2.1:使用SEBO進行真實世界互聯網實驗的目標和稀疏性權衡。點表示推薦系統配置,其中x軸對應于所使用的活躍推薦來源的數量,即非稀疏參數。灰色點表示次優設計,而紅色點表示SEBO找到的帕累托邊界上的設計。決策者在決定使用哪種配置時需要平衡系統簡易性和性能。
這項工作的一個核心方面是有效地學習這些權衡,并為從業者提供一種平衡稀疏性和其他指標的方法。BO中的稀疏性是一項尚未在文獻中得到解決的重要課題。過去的工作已經在獲取函數優化或建模中使用正則化,但并非用于設計參數的稀疏性目的(有關回顧,請參見第2.2節)。我們的工作對BO中的稀疏性進行了全面和廣泛的處理,填補了這一空白。這項工作的主要貢獻包括:
1. 我們研究了將稀疏正則化納入BO的不同方法,并提供了負的理論結果,表明先前研究的正則化形式可能無法優化某些稀疏水平,而不論正則化系數如何。
2. 我們在多目標BO和獲取函數正則化之間建立了聯系,并展示了多目標BO如何用于自動選擇正則化系數。我們將其稱為SEBO(“探索稀疏性貝葉斯優化”)方法。
3. 我們開發了一種新的松弛策略,用于直接優化L0稀疏性,并展示了在我們的背景下它明顯優于典型的L1懲罰。
4. 我們展示了將獲取函數正則化與稀疏高斯過程先驗相結合,使得在高維空間中進行稀疏優化成為可能。
5. 我們提供了通過BO實現稀疏性的首次結果,涵蓋了一系列合成函數和三個實際任務(系統配置和AutoML),顯示了SEBO是稀疏BO的最佳方法。我們通過使用它來實現不同形式的稀疏性,如特征級和組級稀疏性,展示了我們方法的廣度。
6. 我們提供了一個新的高維基準問題,旨在模擬真實世界推薦系統中發現的權衡,并展示了這種系統如何受益于增加的稀疏性。
Section 2.2描述了必要的背景和相關工作。Section 2.3描述了將稀疏正則化納入獲取函數優化的兩種自然方法,但這兩種方法都可能無法優化某些稀疏水平。Section 2.4討論了稀疏BO與多目標BO之間的關系,并描述了如何使用多目標BO的方法同時優化所有稀疏水平。我們在Section 2.5中描述了如何使用L0正則化進行優化。我們在Section 2.7中通過將其應用于一組合成和真實世界基準來展示我們方法的用處。最后,我們在Section 2.8中討論了結果。
2.2 背景和相關工作
2.2.1 貝葉斯優化中的正則化
正則化已應用于獲取函數優化,但不是為了稀疏性。Shahriari等人(2016)在無界BO中使用了正則化,其中搜索空間沒有邊界。他們對EI目標值應用了一種L2正則化形式,對遠離搜索空間初始中心的采樣點進行懲罰。González等人(2016)在批量BO中使用了正則化,其中懲罰項阻止了選擇接近已選擇批量的點。懲罰項與原始獲取函數值相乘。
2.2.2 帶稀疏模型的貝葉斯優化
Eriksson和Jankowiak(2021)引入了稀疏軸對齊子空間(SAAS)函數先驗,其中通過逆平方核長度 誘導了結構化稀疏先驗,以在高維度中啟用BO。SAAS先驗具有 的形式,其中HC是半Cauchy分布,集中在零點。SAAS先驗的目標是通過將ρi收縮到零來關閉不重要的參數,在高維空間避免過擬合,從而實現高維度BO的樣本高效性。全局收縮參數τ 控制整體稀疏性:隨著更多數據,τ可以推到較大值,根據需要調整稀疏水平以適應數據。
雖然GP模型中的稀疏性與我們在這里尋求的稀疏性不同,但我們將展示將SAAS模型與獲取函數正則化相結合對于稀疏高維度BO非常有效。通過在獲取函數中強制執行正則化,識別為不重要的參數將被設置為其基線值,從而生成更簡單和更可解釋的策略。其他工作研究了GP回歸中的特征稀疏性,但沒有考慮優化中的稀疏性(Oh等人,2019;Park等人,2021)。
2.2.3 多目標貝葉斯優化
多目標BO用于當存在多個(通常是競爭的)目標 時,我們希望恢復非支配配置的帕累托邊界。一個經典方法是ParEGO,它將標準的單目標EI獲取函數應用于目標的隨機標量化(Knowles,2006)。已經開發了許多類型的標量化方法,用于將多目標優化(MOO)問題轉化為單目標問題(Ehrgott,2005)。最近關于多目標BO的工作集中于開發明確針對增加已知帕累托邊界的超體積的獲取函數。在這一類中,獲取函數,如期望超體積改進(EHVI),被認為是多目標BO的最新技術(Yang等人,2019a;Daulton等人,2020;2021)。
2.3 獲取函數正則化
2.3.1 外部正則化
我們使用正則化項 ξ(x) 來建模稀疏性,這可以是L0擬范數,以針對特征級稀疏性, ,或者可以調整為不同形式的稀疏性,如組稀疏性。這里 xs 表示決策者希望將解決方案推向的目標點,例如,一個零向量或當前的默認參數(現狀)。對于我們對正則化的分析,我們將假設 是 ξ(x) 的唯一全局最小值。
一個直接的添加正則化的方法是將正則化懲罰直接添加到獲取函數中。這與嶺回歸和套索回歸等正則化回歸技術類似。給定一個懲罰項 ξ(x),然后我們最大化
選擇下一個評估點。我們將這種方法稱為外部正則化(ER)。外部正則化后的 EI 為:
正則化系數 λ 必須設置,就像經典的正則化回歸一樣。這個公式將點的探索/利用價值(α)與其稀疏性價值(ξ)分開。這可能表現不佳,因為這兩種價值概念之間必然存在交互作用。我們提供了一個負面結果,顯示外部正則化不能捕獲某些稀疏水平。
這個結果在第6.1.2節中展示,該節還描述了當目標和稀疏性之間存在權衡時,實際中很容易遇到這種設置,就像圖2.1中所示。根據經驗,定理2.1意味著一旦找到了一個好的非稀疏點,無論如何調整 λ,正則化獲取函數都不會選擇稀疏點。增加 λ 將會使正則化獲取函數的最大值從一個非稀疏點直接跳轉到 xs 的平凡解,跳過中間所有稀疏級別。獲取函數無法選擇稀疏點,這些稀疏點能夠在其他具有類似稀疏水平的點之上得到改進。
2.3.2 內部正則化
將正則化添加到獲取函數優化的另一種替代方法是將其直接添加到目標函數中。在這種方法中,我們不是使用 f 的后驗來計算獲取函數,而是計算用于正則化函數的后驗的獲取函數。
我們將這稱為內部正則化(IR)。然后,獲取函數的目標是最大化 g,可以通過適當設置 λ 使其具有稀疏最大化器。通過內部正則化,EI變為
在這里, 現在是g的最優候選,而不是f的。外部和內部正則化的差異取決于獲取函數。很容易看出,對于方程(1.5)中的UCB獲取函數,它們是相同的。但對于EI,它們不是,通過比較方程(2.2)和(2.4)可以看出。對于EI,內部正則化通過直接將稀疏性納入到改進評估中來避免外部正則化的一些問題。在方程(2.4)中,改進既是根據目標的增加,也是根據稀疏性的增加來衡量的,并且是相對于已考慮了稀疏性懲罰的最佳候選進行的衡量。然而,正如我們將現在展示的,內部正則化也可能無法在每個稀疏水平上恢復點。對于這個結果,我們對最優目標值作為稀疏水平的函數感興趣:
稀疏性和目標之間的權衡將導致 h(θ) 隨著 θ 的增加而增加,盡管它不一定是嚴格遞增的?,F在我們給出內部正則化的負面結果,請參閱第6.1.2節了解詳細信息。
定理 2.2. 對于 h 嚴格凸的區間內的任意 θ,對于任意 λ > 0,方程(2.3)的最大化器不存在,其中 ξ(x) = θ。
這個結果表明,如果 h 在其整個定義域上是凹的,那么內部正則化才有希望在所有稀疏水平上恢復最優點。這是一個強條件,在BO中通常感興趣的類型的函數中,即使是簡單的正則化器也不太可能滿足。請注意,這個結果與 λ 的選擇和使用的獲取函數無關。如果所需的稀疏水平恰好位于 h 嚴格凸的區域內,那么可以預期內部正則化將無法找到最優解。在第6.1.2節的圖 6.1 中,展示了這個結果的示意圖,在一個 h 存在嚴格凸性區域的問題中。
我們將在實證結果中看到,內部正則化表現比外部正則化更好,盡管與命題定理 2.2 一致,它可能無法覆蓋整個目標與稀疏性的權衡,因此兩者都不是稀疏BO的推薦方法。在本文中,我們專注于EI,但兩種形式的正則化可以應用于任何獲取函數,包括熵搜索方法。在熵搜索中,獲取函數根據當前對于最優位置或函數值的信念的信息增益來評估點。信息增益因此會依賴于稀疏水平,類似于EI,因此外部和內部正則化具有類似的考慮因素。
2.4 多目標優化
在第2.3節中開發的兩種正則化方法都面臨著兩個基本挑戰。首先是它們都有一個必須設置的正則化系數 λ。在回歸設置中,正則化系數通常設置為通過超參數優化來最大化交叉驗證準確性,通常使用網格搜索或BO(Snoek et al.,2012)。在稀疏BO中,如果存在已知的期望稀疏水平,可以在每次優化迭代中掃描 λ,以找到產生期望稀疏水平的候選值。這顯著增加了BO的開銷,因為它要求將超參數優化作為每次獲取優化的一部分。此外,在實際應用中,通常無法事先知道期望的稀疏水平。
當解釋性和系統性能之間存在權衡時,所期望的解釋水平將取決于該權衡的具體情況。因此,在實踐中,我們希望在任何特定稀疏水平上確定最佳可達目標。第二個挑戰是,根據定理2.1和2.2的結果,無論如何掃描 λ,我們可能無法確定整個目標與稀疏性之間的權衡。根據問題的不同,可能無法通過任何一種正則化策略來探索感興趣的稀疏水平。這兩個挑戰都可以通過將稀疏BO視為多目標BO來解決。
2.4.1 稀疏BO作為多目標BO
在這一部分,我們介紹了稀疏BO的多目標方法——Sparsity Exploring Bayesian Optimization方法(SEBO)。我們不再將 ξ 視為應用于目標的懲罰,而是將 f 和 -ξ 視為我們希望最大化的兩個目標之一。
首先,我們注意到內部正則化和多目標BO之間存在以下聯系。
備注2.1. 內部正則化可以被視為對兩個目標 f 和 -ξ 進行線性標量化,其中 λ 是權重。線性標量化通常在MOO(Marler和Arora,2010)中使用——更多關于內部正則化與多目標BO中ParEGO方法之間聯系的討論,請參見第6.1.4節。
將稀疏BO視為目標和稀疏性的MOO具有幾個優點。它為設置正則化系數 λ 提供了解決方案,因為我們可以使用多目標BO的方法來平衡對 f 和 ξ 的改進,并探索帕累托前沿。我們可以使用強大的方法,如EHVI,選擇最大化所有稀疏水平的性能,或等效地,最大化所有性能水平的稀疏性,明確優化整個正則化路徑。多目標BO的目標是為每個稀疏水平確定最優解,從而使決策者能夠在解釋性和系統性能的其他考慮因素之間做出明智的權衡。最先進的MOO方法還避免了定理2.1和2.2的問題,并能夠探索整個帕累托前沿。
在我們的實驗中,我們使用EHVI獲取函數。在這里,超體積改進是相對于最壞情況參考點 r = [rf,rξ] 定義的,可以將其設置為 f 和 ξ 的最小值和最大值的估計值。給定一組觀察值 Xobs = {x1,...,xn},帕累托超體積定義為
這個獲取函數是無超參數的,并且,正如我們將看到的,對于稀疏BO非常有效。在實驗中,我們在計算超體積時對目標進行標準化。也可以對不同的目標進行加權,以鼓勵更多地探索稀疏或高性能的解決方案。我們將得到的方法稱為SEBO,并探討其與L0稀疏正則化的組合性能,接下來描述。SEBO-L0算法顯示在第2.6節中。
2.5 具有 稀疏性的獲取函數
我們的主要關注點是 稀疏性,這帶來了一個挑戰,即 準范數是不連續的,使得結果獲取函數難以優化。我們將遵循同倫延拓的思想,這個思想已經成功應用于解決非線性方程組和數值分叉分析等問題(Allgower and Georg, 2012)。
主要思想是定義一個同倫函數 H(x, a),其中 對應于一個易于解決的問題,而 對應于目標問題。特別地,對于 a > 0,我們定義 ,其中 。在假設在第2.2節中定義的效用函數 u(x) 是連續的情況下,我們有 ,這對應于具有 準范數的原始獲取函數。
雖然將 a 設置為一個小值,例如 ,直接優化獲取函數可能會很誘人,但這樣做不會很好,因為同倫的梯度(數值上)幾乎在整個域中為零。另一方面,將 a 設置為一個大值,例如 a = 1,將使得優化獲取函數變得更容易,但也會導致對真實獲取函數的較差近似,很可能得不到稀疏解。為了優化獲取函數,我們將從足夠大的初始值 astart 開始,并逐漸減小 a 直到 。每次改變 a 時,我們都從前一個 a 值找到的最佳解開始重新優化獲取函數。
這個想法在圖2.2中進行了說明,其中我們繪制了幾個 a 值的 H(x, a) 的快照,并顯示了結果連續同倫路徑。
2.6 SEBO算法
SEBO-L0方法描述如算法1所示。我們從一組初始的填充空間的準隨機實驗設計開始。在每個迭代步驟中,我們擬合一個SAAS GP模型,并優化獲取函數以找到下一個要評估的點,如第1行所示。在優化獲取函數時,使用同倫延拓來處理不連續的L0范數。這部分顯示在第11行。
2.7 實驗
我們在兩個合成和三個真實世界的問題上評估EI-IR、EI-ER和SEBO,重點關注高維問題。請注意,SEBO也可以用于低維問題。更多細節包括在第6.1.6節中。SEBO也自然地擴展到多目標BO問題,我們的代碼發布支持此功能。我們專注于單目標問題,以可視化和理解2D Pareto前沿,這在更高維度中難以可視化。我們展示了使用 正則化的大多數問題的結果,除了最后一個問題,其中使用了組套索,以展示這些方法可以用于恢復不同形式的稀疏性,如組稀疏。此外,我們提供了一項消融研究,通過將其與L1正則化進行比較,以證明使用 正則化的重要性。我們在一項消融研究中展示,第2.5節中的同倫延拓方法對于有效的 正則化至關重要。
2.7.1 實驗設置
我們的實驗都涉及高維參數空間,因此在使用ER、IR和SEBO進行優化時,我們使用SAAS模型。我們將性能與準隨機搜索(Sobol)、使用標準ARD Matérn-5/2核和EI獲取函數的BO(GPEI)以及SAASBO進行比較。對于SAAS模型,我們使用Eriksson和Jankowiak(2021)建議的相同超參數,并使用No-U-Turn(NUTS)采樣器進行模型推斷。獲取函數通過對MCMC樣本進行平均來計算。我們總是將定義縮放為單位超立方體[0, 1]D,并在擬合GP模型之前標準化目標,使其均值為0,方差為1。
對于第2.5節中描述的同倫延拓方法,我們將a的范圍離散化為30個值,從astart = 10?0.5開始,有關更多詳細信息,請參見第6.1.6節。圖6.5顯示了SEBO對astart選擇的不敏感性。當將稀疏性用作目標時,我們使用確定性模型。圖表顯示了各次重復試驗結果的平均值(自適應比特率仿真(ABR)問題有10次重復試驗,其他實驗有20次),誤差線對應于2個標準誤差。所有實驗均在Tesla V100 SXM2 GPU(16GB RAM)上運行。本文中用于復制方法和基準實驗的代碼可在https://github.com/facebookresearch/SparseBO上找到。
2.7.2 評估圖表
我們評估優化性能時考慮了目標和稀疏性之間的權衡。為了比較這種權衡,我們將稀疏性視為一個單獨的目標,顯示得到的帕累托前沿,例如,圖2.3(右側)和圖2.4。特別是,對于每個稀疏性水平(活動維度),我們繪制了在至多具有該數量的非稀疏分量的情況下找到的最佳值。我們還在第6.1.6節中展示了超體積跟蹤。在某些情況下,如果某個方法無法找到至少一個給定稀疏性水平的配置,則我們會為重復試驗分配一個對應于y軸上顯示的最差標簽的插補函數值。對于已知真實活動維度和最優值的合成問題,我們會針對固定的稀疏性水平繪制簡單遺憾,例如,在圖2.3(左側,中間)中。
2.7.3 合成函數
我們首先考慮兩個合成問題,其中稀疏性水平是已知的。我們在一個50維空間中嵌入了Branin和Hartmann6函數,其中0被視為稀疏,即xs = 0。對于Branin,我們使用了50次試驗(評估),并對Hartmann6使用了100次試驗,并分別使用了8個準隨機初始點和20個準隨機初始點。結果如圖2.3所示。最左側的兩個圖表顯示了僅在觀察點上評估目標,其活動(即非零)參數數量小于或等于真實有效維度(Branin為2,Hartmann6為6)的優化結果。
我們觀察到SEBO-L0表現最佳,其次是具有λ = 0.001的IR。這表明如果選擇了最佳的正則化系數,IR可能會有競爭力。另一方面,ER的表現比SEBO和IR差。最后,具有非正則化獲取函數(Sobol、GPEI和SAASBO)的方法無法識別稀疏配置,因為它們不會明確地優化解的稀疏性。圖2.3(右)展示了目標與稀疏性之間的權衡,SEBO-L0產生了最佳的稀疏性權衡。
2.7.4 排名采購系統模擬
推薦系統的采購組件負責檢索一系列項目,這些項目將發送到排名算法進行評分。項目可以從多個來源檢索,例如,這些來源可能代表用戶興趣分類法的不同方面。檢索更多項目可能會提高推薦系統的質量,但會增加基礎設施負載的成本。此外,每個來源可能需要單獨維護;因此,廢棄不良來源可以降低整個推薦系統的技術債務和維護成本。因此,我們的目標是確定一種檢索策略,該策略使用盡可能少的來源,同時最大化排名質量得分,該得分是內容相關性和基礎設施負載的函數。
我們開發了一個推薦采購系統的模擬,該模擬模擬了由特定采購策略產生的推薦的質量和基礎設施負載。采購系統被建模為一個主題模型,其中每個來源對主題有不同的分布,并且主題對用戶的相關性有不同的水平。當兩個來源(主題上)相似時,它們可能獲得重復項目,這不會提高推薦質量。
我們考慮了一個25維的檢索策略,其中每個參數指定從特定來源檢索的項目數量。我們的期望稀疏性是將參數設置為 ,即關閉來源。有關更多詳細信息,請參見第6.1.6節。我們使用了8個初始點,并對所有方法運行了100次試驗。圖2.4(左)顯示,SEBO-L0在不同稀疏級別下優化排名質量得分方面表現最佳。Sobol和GPEI無法找到稀疏策略,即使有25個活動參數,它們也獲得了更差的質量得分。IR和SAASBO的表現相似,而具有較大正則化參數λ = 0.01的ER在少于10個活動維度時獲得了更高的質量得分。
2.7.5 SVM機器學習超參數調優
我們考慮了為支持向量機(SVM)進行聯合特征選擇和超參數調優的問題。我們調整了SVM的C、?和γ超參數,與每個特征的獨立比例因子在連續范圍[0, 1]內進行了聯合調整。我們使用了CT切片UCI數據集中的100個特征(Asuncion和Newman,2007年),目標是在測試集上最小化RMSE。這產生了一個103維的優化問題,其中我們將每個特征收縮到一個比例因子為0的位置,即 ,因為這實際上是從數據集中移除該特征。我們取C ∈ [0.01, 1.0],? ∈ [0.01, 1.0],和γ ∈ [0.001, 0.1],其中每個區間的中心被認為是稀疏的,因為這是Sklearn中的默認值(即 (超參數區間))。我們在對數尺度上優化了C、?和γ,并用20個點初始化了所有方法,并運行了100次評估。圖2.4(中)顯示,SEBO-L0最能夠在稀疏性和(負)RMSE之間探索權衡。
2.7.6 自適應碼率模擬
視頻流媒體和實時會議系統使用自適應碼率(ABR)算法來平衡視頻質量和連續播放。目標是最大化體驗質量(QoE)。特定ABR控制器的最佳策略可能取決于網絡,例如,帶寬波動較大的流將受益于與帶寬穩定的流不同的ABR參數。這促使使用上下文策略,其中ABR參數通過上下文變量(如國家或網絡類型)個性化(Feng等,2020年)。各種其他系統和基礎架構應用通常依賴于可調參數,這些參數可以受益于上下文化。
我們假設系統已經使用全局非上下文策略πglobal進行了優化,該策略用于所有上下文。我們的目標是使用稀疏BO來找到每個單獨上下文i的上下文化殘差?πi,即, ,其中目標稀疏點 設為 。通過使用組套索(GL)范數(Yuan和Lin,2006年)對上下文化殘差?πi進行正則化,我們希望找到需要對全局策略 進行最小更改的策略,其中最少數量的上下文具有與全局最優不同的參數。這為上下文策略增加了簡單性和可解釋性,因為我們可以通過查看上下文殘差?πi來解釋策略。
圖2.4(右)顯示了將我們的方法應用于來自Feng等人(2020年)的上下文化ABR優化問題的結果。對于這個問題,我們有12個上下文,每個上下文有4個參數,導致一個48維的優化問題。我們對所有方法使用了75個試驗,其中包括8個準隨機初始點。組套索懲罰通過將每個單獨上下文的參數分配到同一組來定義。我們觀察到,具有固定λ的IR能夠在特定稀疏水平上探索權衡,并且更強的正則化(更大的λ)導致找到更稀疏的配置。另一方面,SEBO-GL能夠自動且有效地在所有稀疏水平上探索稀疏度和獎勵之間的權衡。所有其他基線(Sobol,GPEI,SAASBO)都未能找到任何實現非零獎勵的稀疏配置。
2.7.7 消融研究
通過消融研究,我們展示了使用第2.5節中的同倫延拓方法來定位L0稀疏性的重要性。我們著重于SEBO,因為它在性能上始終優于IR和ER,并參考第6.1.6節中的圖6.6,了解使用SAAS模型的重要性的額外結果。消融研究的結果可以在圖2.5中看到。對于L0近似使用固定值a的方法表現不佳,特別是當a很小時,這是因為收獲函數幾乎在任何地方都為零,因此很難進行優化。另一方面,a = 1導致無法發現稀疏配置,由此產生的方法性能與SAASBO類似(見圖2.3)。此外,我們還表明,對于所有方法(ER、IR和SEBO),直接使用L0正則化比經常使用的L1正則化效果顯著更好。
最后,在圖2.5(右側)中,我們展示了SEBO-L0每個復制的最終Pareto邊界中每個參數被頻繁打開(非零),這表明該方法正確識別了重要參數。
圖2.5:Hartmann6函數嵌入到50維空間中的消融研究。(左)SEBO-L0比SEBO-L1表現要好得多,因為它直接針對L0稀疏性。使用固定值a的效果很差,驗證了我們同倫延拓方法的重要性。(中)直接使用L0正則化對于IR和ER都比L1正則化效果顯著更好。(右)在嵌入的Hartmann6問題中,6個重要參數更頻繁地包含在帕累托最優配置中。2.7.8 稀疏解釋
2.7.8 稀疏解的解釋
排名采購系統模擬
我們檢查推薦采購系統問題中選擇了哪些活動維度,以了解所獲得的稀疏解。對于 在20次復制中的結果,我們獲得了最優的25維檢索策略,并在每個稀疏水平上計算了每個來源的檢索平均值。對于每個來源,我們根據第6.1.6節中的模擬設置計算源質量分數。每個來源包含一組主題的混合,其源相關性得分為 ,每獲取一項的基礎設施成本為 。基于此,我們將源質量分數定義為 ,并進行計算。請注意,該分數是為了解釋所獲得的解而計算的,與優化中使用的質量分數不同。
在圖2.6中,左側熱力圖可視化了在20次復制中不同稀疏水平下的最優策略,中間熱力圖可視化了檢索策略值的平均值。每列對應一個來源,并根據源質量分數按升序排序(從左到右);每行代表稀疏水平(活動維度數)。顏色表示參數值。正如可以看到的,質量較低的來源被關閉(零查詢),而質量較高的來源即使在較小的活動維度下也具有較高的檢索數量。這表明,從SEBO獲得的稀疏策略在每個稀疏水平上識別出最有效的來源。圖2.6右側的圖表顯示了從每個來源檢索的物品數量與來源質量分數之間的關系,其中有5個活動參數。每個點代表一個來源。曲線是擬合的樣條,以可視化關系。從這兩個圖表中我們可以看到,從質量較高的來源檢索到更多物品,而來自質量較低的來源的物品數量被驅使為零。
圖2.6:(左)不同稀疏水平下最優檢索策略的熱力圖。(中)不同稀疏水平下平均檢索策略值的熱力圖。(右)具有5個活動參數的平均檢索策略值與來源質量分數之間的散點圖。我們可以看到,從質量較高的來源檢索到更多物品,而從質量較低的來源獲取的物品數量被驅使為零,以達到稀疏性。
與圖2.5(右側)類似,我們計算了SEBO-L0每個復制的最終Pareto邊界中每個參數被打開(非零)的頻率。這些頻率幫助我們識別重要參數并解釋稀疏策略,如圖2.7(左)所示。在增強的Branin(d = 2,D = 50)中,兩個真正的有效維度,用橙色條表示,具有最高的頻率,并被SEBO-L0識別出來。
SVM機器學習超參數調優
圖2.7(右)可視化了每個SEBO-L0復制的最終Pareto邊界中參數值為非稀疏的頻率。稀疏值是γ、C和?三個超參數的每個區間的中心。對于增強參數,值為零被視為稀疏。三個橙色條對應于SVM的三個有效超參數,其非稀疏頻率較高?;疑珬l對應于增強維度,其頻率要低得多。
2.8 討論
貝葉斯優化(BO)是實現真實世界系統的高效樣本優化的強大工具。BO的最新發展使得優化數百個參數成為可能,為科學和工程中的復雜優化問題提供了解決方案。然而,實踐者和決策者通常更傾向于簡單的解決方案,例如,在設計空間中為了可解釋性、風險管理或降低技術債務的考慮。這提出了一個新的挑戰:我們應該如何以樣本效率的方式發現性能良好且簡潔的設計?
我們表明,僅使用稀疏誘導模型并不足以產生稀疏設計,并檢查了一些懲罰設計參數的方案,這些懲罰設計參數包含在收獲函數中。我們利用多目標優化的理論洞察力來識別常見懲罰方法的局限性,并提出SEBO,該方法同時優化稀疏性和性能。通過這樣做,我們能夠學習目標和稀疏性之間的整個最佳權衡集,使決策者能夠選擇他們愿意犧牲的目標量以獲得增加的可解釋性和簡潔性。
我們的公式與各種正則化器兼容,包括L0、L1和組套索懲罰。為了實現不連續的L0懲罰的優化,我們開發了一種基于同倫延拓的新型收獲函數優化方法,該方法使得基于梯度的優化成為可能。我們發現,采用L0懲罰的SEBO在識別最優設計方面始終優于所有其他方法,同時也消除了調整正則化超參數的需要。
我們的工作有一些局限性,提示了未來工作的方向。首先,SEBO可用于識別稀疏解的整個帕累托前沿,但在某些情況下,決策者可能心中有一個期望的稀疏水平。需要進一步的工作來開發能夠有效地針對特定稀疏水平的自適應算法。其次,如果目標是在實現稀疏性的同時減少后悔,可能存在同時選擇模型和收獲函數正則化參數的理論工作的機會,例如,參見Bastani和Bayati(2020)。
原文鏈接:https://www.proquest.com/openview/b3c981a50f91c6c57567dab9d6d448b5/1?cbl=18750&diss=y&pq-origsite=gscholar
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.