Intrinsic motivation as constrained entropy maximization
內在動機作為約束熵最大化
https://arxiv.org/pdf/2502.02962
摘要:
“內在動機”指的是智能系統內在地受到激勵的能力,即由智能體架構本身的特性而非行為與獎勵之間的學習關聯所驅動。本文將主動推理、授權以及其他形式的內在動機視為約束最大熵推理的不同變體,提供了一種與現有框架互補的內在動機的一般性視角。進一步探討了先前文獻中注意到的自由能與授權之間的聯系,并認為最大占用方法實際上包含了一個隱含的模型-證據約束。
關鍵詞:內在動機;主動推理;授權;熵
1. 引言
在心理學中,“內在動機”指的是智能生物即使在沒有特定的外部獎勵信號的情況下,也會被激勵去做某些事情(如探索、學習和成長)的傾向[1]。這種范式在機器學習中越來越受到關注,其中它被操作化為這樣一種觀點:行動策略可以根據智能體和智能體-環境互動的結構特征進行優化,而不是基于傳統方法如強化學習,后者是基于臨時的獎勵函數來優化策略。
基于授權的內在動機的早期且日益有影響力的正式解釋是,定義為連接智能體行動(執行器狀態)與感官反饋(觀察)的通道的能力[2,3]。對這一目標的一種解釋是,授權的智能體“保持選擇的開放性”,因為廣泛的行動條件通道容量意味著智能體能夠實現多種狀態(觀察是這些狀態的代理)。
主動推理框架[4]有著類似的動機,并提供了一種貝葉斯方法,將一種普遍形式的內在動機(即好奇心或“認知驅動”)[5]與智能體特定的狀態或結果的先驗分布結合起來[6],這些分布模擬了穩態設定點,可以像明確的獎勵一樣發揮作用。正如下面討論的,預期(變分)自由能(EFE)通過提供給定觀察的策略的經驗先驗來指導這一框架中的策略選擇。
最近,最大路徑占用目標被提出作為內在動機的框架[7]。在這種觀點下,智能體被激勵去最大化未來行動-狀態路徑的占用,這可以通過行動分布的熵和隨之而來的狀態分布的熵來衡量,給定一個初始狀態。這種更為激進的觀點明確顛覆了可能自然的假設,即探索和好奇心的驅動力已經進化成為實現獎勵的手段,實際上將獎勵狀態視為工具性價值,以促進未來的探索,即避免幾乎沒有或沒有行動變化性(例如死亡)的吸收狀態。
在機器學習的文獻中,還有許多其他關于內在動機的正式處理方法,其中一些與剛剛討論的密切相關,如人工好奇心的開創性工作(參見例如[8,9])和以貝葉斯驚訝為依據的處理方法[10,11]。在這里,主要關注的是主動推理和授權之間的關系,以及兩者與最近被明確提出作為替代方案的最大占用之間的關系。
雖然[12]對這三個內在動機框架在玩具問題上的比較實證研究進行了研究,[13]考慮了主動推理可能如何與更廣泛的內在動機方案正式相關,但關于這些框架之間的正式和概念關系的比較工作還相對較少。在這里,我強調這三種都可以被理解為約束熵最大化的變化,這是一個與自由能原理和主動推理有著深厚聯系的原則[14]。我通過將授權目標本身明確地表述為一種變分推理的形式,來探索授權和主動推理之間的聯系[15]。我還認為,占用最大化智能體表現出明顯的目標導向行為的能力取決于在將整個系統分解為行動和狀態時隱含的“生存本能”或模型-證據約束。這些考慮將局部約束下的熵最大化框架為智能和代理的核心,這一過程的特定方面,如授權、感知、好奇心和“生存意志”作為推論。
下面的第一部分詳細地解開了上述三種內在動機框架(授權、主動推理和最大占用),無論是形式上還是概念上的動機,并闡述了它們與約束熵最大化的聯系。第二部分仔細研究了這些理論之間的一些聯系,然后提煉出一些一般性的結論。
2 內在動機的三種形式化解釋
2.1. 賦權
直觀來說,這個表達式衡量了實際聯合分布與兩個變量獨立時的分布之間的差異,即這些變量相互攜帶了多少信息。盡管這一度量是對稱的(即對 X 和 Y 來說是一樣的),但它可以用條件概率從兩個方向進行分解。由于聯合密度可以分解為先驗概率和條件密度,即 (P(X,Y) = P(X)P(Y|X) = P(Y)P(X|Y)),互信息也可以表示為條件密度 (P(Y|X)\) 到 (Y) 的邊緣分布的期望 KL 散度。
給定一個固定的 (P(Y|X))(信道),信道容量C P(Y|X) 就是在可以選擇 (P(X) 的情況下,互信息可以取到的最大值。
賦權目標正是這個信道容量,對應于連接從時間步 (t) 到 (T) 的行動與在時間步 (T) 的觀察之間的信道。
直觀上,互信息項(即在行動分布下預期的信息增益)衡量了結果的可控性(行動選擇對這些結果的影響)以及可實現結果的多樣性(即“保留多種選擇”)[2]。這種可控性和多樣性的結合是約束熵最大化的特征,這是許多內在動機框架中的一個常見主題[7, 16, 17],并且與 Ashby 的“必需多樣性定律”[18]有關。
通過考慮互信息與熵的關系,可以更明確地表達賦權的“多樣性”方面。任何互信息 I(X;Y)都可以用熵的幾種方式來表示:
因此,賦能可以被視為在確保行為與觀察結果可靠相關(即“理性”)的同時,最大化行為分布的熵 H[P(A)],即最小化 H[P(A|O)]。同時,它也可以被看作是在確保觀察結果可控的情況下最大化觀察結果的多樣性,即最小化 H[P(O|A)]。
這一目標可以被看作是一個引導模型進化或選擇的信號,正如在剛剛引用的工作中所提到的那樣(即選擇一個關于行為和結果的生成模型 (P(A)P(O|A)。在給定一個固定模型的情況下,智能體也可以選擇策略(行為),以便通過尋找整體系統狀態空間中(這里隱含地用觀察結果表示外部狀態)信道容量最高的位置來最大化時間依賴的賦能 ,因為 隱含地依賴于從 t 到 T 的狀態。
在進一步考慮內在動機的其他處理方式之前,我們注意到在 [16] 中表明(在連續狀態空間的背景下),通過改變行為和觀察序列的長度以及行為與目標觀察之間的時間間隔,對上述賦能目標進行推廣,可以重新獲得動態系統中各種現存的控制描述。對于當前目的而言,重要的是,一個僅在第一步采取行為的推廣賦能目標對應于因果熵驅動的“踢動”(受控)版本 [17],這是一個更一般的框架,它用熵最大化來建模智能行為。
2.2 主動推理與期望自由能
在內在動機的研究方法中,基于貝葉斯推斷的方法是最有前景的方法之一。過去十年左右的認知(神經)科學進展,使得貝葉斯推斷這一概念在解釋智能行為方面逐漸占據重要地位。這一范式涵蓋了從具體的神經信息處理模型(如預測編碼,它被用來解釋感知推斷)到更抽象和一般性的框架,其中最突出的是自由能原理。自由能原理是一種基于變分貝葉斯推斷的自組織理論,而主動推理則從假設智能體選擇未來期望最小化變分自由能的行為這一假設出發,推導出一種行為(即規劃或策略選擇)方案。
受主動推理控制的智能體實施了一種特定形式的規劃即推理,從期望的結果(在這種情況下被視為為先驗生成模型提供證據的觀察結果)“反向推理”到最有可能實現這些結果的策略。簡言之,這涉及到推斷一個(變分)后驗策略分布 ,其中每個策略的概率與其對應的模型證據成正比。然后,根據策略的貝葉斯模型平均,每個策略都涉及不同的行為條件狀態轉移概率,在每個時間步采樣行為。
在主動推理框架中,驅動策略選擇的核心量是期望自由能(EFE,方程中用 G表示),這是智能體根據其生成模型選擇策略(行為序列)時預期產生的累積變分自由能。生成模型包括一個與狀態無關的結果(觀察 o)分布 P(o),這是智能體“偏好”看到的結果,可以被視為觀察結果的邊際似然,并模擬了內穩態系統為持續存在而必須保持在其中的特征吸引集。這可以被視為一種內在動機,因為它是“內置”在智能體中的,而不是通過學習獲得的,盡管在實踐中(即在計算模型中),它類似于一個臨時獎勵函數。然而,至關重要的是,EFE還實現了模型無關的歸納偏差,即行為將最小化未來的變分自由能,從而服務于更一般形式的內在動機。
2.3 最大占用原則
最大占用原則(Maximum Occupancy Principle,MOP)[7]將內在動機的主題推導至其邏輯終點,提出應該顛覆傳統的理性主體觀念——在這種觀念中,好奇心和其他內在驅動力是為了服務于獎勵最大化而進化的。相反,我們可以將獎勵狀態視為實現持續生存這一目標的手段,即為了探索(從而最大化占用)行為-狀態路徑空間。
從形式上講,占用目標是通過狀態條件策略分布 和轉移動態 P(S'|S, A) 定義的,這些可以交替采樣以生成行為-狀態路徑 t。然后,給定軌跡的獎勵函數 被指定為:
在文獻 [12] 中,通過實證研究展示了 MOP 智能體在積極探索狀態和行為空間的同時,仍然表現出明顯的目標導向行為。前者或許是可以預期的,鑒于其純粹基于內在動機、最大化意外性的獎勵函數,智能體會直接尋求那些導致不太可能的狀態的不太可能的行為。可以推測,盡管缺乏明確的任務、獎勵甚至偏好分布,MOP 智能體能夠表現出目標導向行為的原因在于最大化長期路徑占用的必要性,這平衡了在每個時間步貪婪最大化熵的傾向。這種為了長期增加熵而對短期熵最大化施加的隱含約束,讓人聯想到文獻 [34] 中的論點,即復雜生命形式所具有的結構化、相對低熵的狀態因其能夠加速在整個宇宙中自由能的耗散而受到青睞。
3. 內在動機的統一視角
本節首先分析主動推理與賦能之間的關系,然后從最大占用的視角審視這兩種方法。最后,討論這些框架中的一些共同主題,并通過一種多尺度或無尺度的視角來綜合這些觀點,從而解決一些明顯的二分法問題。
3.1 賦能與主動推理
最大化賦能目標與最小化期望自由能密切相關。最直接地,在沒有約束(期望效用項)的情況下,上述描述的期望自由能簡化為負信息增益,因此最小化期望自由能可以最大化狀態與觀察之間的互信息。
雖然最初的賦能目標隱含了隱藏狀態對行為-感知通道 的調節,但主動推理目標只是將這一點明確化:在選擇行為時,智能體實際上選擇了可控狀態的轉移動態(在典型實現中,離散行為索引轉移張量的切片),從而使這些狀態對觀察具有信息價值。因此,狀態實際上是(概率性地)被選擇以最大化行為與觀察之間的互信息,這與賦能目標一致。
在文獻(附錄)中聲稱,“賦能是主動推理的一個特例,當我們可以忽略風險(即所有策略同等風險)時”。在這里,風險是以下期望自由能的另一種分解中出現的一個術語(見附錄A的推導):
直觀上,風險僅僅是期望負獎勵的度量,在這種情況下,即預測結果與先驗期望(即偏好)的結果有多不同。給定策略下狀態到觀察結果的似然映射的熵(“模糊性”)量化了如果追求該策略,智能體對結果的不確定性程度。因此,最小化期望自由能鼓勵智能體選擇使結果可預測的策略(行為),同時滿足風險最小化的約束。
我們可以通過將文獻 [2] 中描述的賦能目標視為變分推斷過程的一部分來展開類似的論證。用主動推理中使用的符號表示,目標是最大化 ,其中是一系列控制狀態 。這個目標可以用后驗觀察和策略分布的熵來表示,也可以表示為 KL 散度:
有趣的是,定義一個條件“能量”項為在給定策略的情況下,時間T處觀察結果的負對數概率,那么互信息用熵表示的表達式可以通過改變符號并重新排列項,寫成類似于自由能 的形式。
最大化 等價于最小化這個能量。第二行缺乏一個標準的(變分)自由能的形式,因為“能量”項僅僅是變分密度 的熵,而不是聯合概率(生成模型)P(o, s)。然而,考慮到 可以分解為多個項,其中一些是生成模型的分布,我們得到了倒數第二行的表達式,它類似于一個帶有額外熵項需要最小化的赫姆霍茲自由能:在這個目標下,智能體會尋求低能量(可預測的)觀察結果,同時最大化策略的熵(“保留選擇”),并且尋求最小化最終狀態熵的策略,即尋找能夠導致可控狀態的路徑。
最后(最后一行),的期望能量(在生成模型下的負對數概率)等同于上述期望自由能中的模糊性項(針對軌跡中的最終觀察結果),而兩個熵項可以合并為一個狀態信息增益項。因此,僅從賦能目標(忽略額外的“偏好”約束)出發,我們可以推導出對認知價值(最小化模糊性)和控制(最大化狀態信息增益)的雙重驅動力。
主動推理智能體因此被“賦能”,它們在約束條件下最大化未來狀態分布的熵,這些約束條件是這些狀態或由此產生的觀察結果必須是可控的。至關重要的是,在主動推理中,智能體還被約束最大化模型證據(或其可處理的下界,變分自由能)。事實上,后者(近似最大化模型證據)是自由能原理(FEP)和主動推理中的核心概念,其中(受約束的)熵最大化是從變分自由能最小化中推導出來的,而探索性行為的出現則歸功于期望自由能目標中的分布匹配(KL散度)項。
3.2 約束最大占用率
乍一看,最大占用率目標似乎很難與前面討論的目標(如賦能和主動推理)進行精確對比,因為它只涉及最大化(預期)熵,而沒有約束條件。然而,上述描述的最大占用率目標足夠通用,如果將 項設置為負值,它可以近似編碼賦能目標。這會促使智能體選擇能夠最小化狀態轉移分布熵的行為,同時仍然最大化行為的熵。這顯然與前面討論的賦能目標密切相關,一旦考慮到狀態和觀察之間的區別(即,它會促使智能體在確保可控狀態和觀察結果的同時“保留選擇”)。然而,盡管這種設置在實踐中具有一定的意義,但它實際上偏離了最大占用率的核心理念。
在文獻 [7] 中,從概念和實驗的角度論證了最大占用率(MOP)智能體表現出比賦能或期望自由能(EFE)目標所控制的智能體更穩健的探索行為和更多樣化的策略選擇。然而,文獻 [7] 和 [12] 中報告的實驗涉及對狀態空間的完全觀測,因此 EFE 中的模糊性項并未發揮作用。此外,文獻 [7] 中的實驗默認使用 的設置,實際上僅最大化行為分布的熵。
由于這些原因,以下討論將重點關注關于熵最大化和約束條件的概念性論證,而不是這些實驗結果。從概念上講,最大占用率目標可能比主動推理產生更多樣化的行動,原因有二:(a) EFE 目標包含一個明確的“偏好”項,而 MOP 缺乏這一項,它會使行動偏向某些特定結果(從而降低行為-狀態路徑的熵);(b) 盡管 EFE 目標在每個時間步最大化狀態轉移分布的熵,但它沒有一項用于最大化行為分布的熵。
行為(策略)熵的最大化似乎可以從賦能框架中推導出來。因此,鑒于上述等價性,主動推理也應該如此。文獻 [7] 認為 EFE 確定性地選擇單一策略。然而,在完整的變分推斷處理(即規劃即推理)的背景下,策略分布的熵也應在相關約束下最大化。
從概念上講,π 是一個潛在變量,根據其他條件不變原則,其熵應在變分推斷過程中最大化,就像變分密度 Q(s)(隱藏原因的分布)的熵被最大化一樣。這一點在探索廣義自由能(generalized free energy)的主動推理工作中得到了形式化的體現,廣義自由能是一種在某些方面比 EFE 更簡潔的期望變分自由能的表述。如文獻 [15] 所示,該目標可以像變分推斷中通常那樣寫成赫姆霍茲自由能的形式,在這種情況下,能量項是策略后驗下的期望 EFE,策略分布的熵在最小化自由能時被明確最大化:
在文獻 [7] 中,廣義自由能被證明與賦能目標一致,但受到風險的約束。此外,上文中定義的“賦能的自由能” 也包含了策略熵這一項。因此,盡管僅關注期望自由能(EFE)無法完全體現這一點,主動推理(從廣義上理解,包括最大熵策略推斷)與最大占用率(MOP)的主要區別似乎在于是否存在明確的模型證據約束。
最大占用率的核心理念是,最大化路徑占用是一種“內在價值”,而獎勵則是從這種價值中衍生出來的。自由能原理(FEP)和主動推理的核心觀點(我們已經看到它包含了賦能)是,最大化模型證據是一種“內在價值”,而獎勵以及信息尋求行為都源自這一要求。乍一看,這些框架似乎難以調和,因為前者最大化意外性,而后者則最小化意外性(至少在感官觀察方面)。
文獻 [7] 的一個核心觀點是,在存在吸收態以及通過某些行動路徑可以(可預見地)避免這些吸收態的情況下,智能的、目標導向的行為會自然地從最大占用率(MOP)目標中涌現出來。人們可能會懷疑,在那些風險規避可能更為重要的、不太可預測的環境中,純粹的 MOP 智能體是否能夠取得同樣的成功。然而,撇開這一點不談,有充分的理由認為,如果沒有隱含的模型證據約束,MOP 智能體不會產生豐富而智能的行為。
最大化占用率的智能體尋求控制只是為了生存,這一目標被認為優雅地源于對遙遠未來最大化熵的渴望。然而,這一論點假設死亡對應于一個“吸收”狀態,在實驗中,這種狀態被建模為在剩余時間內熵為零。在一個更符合物理現實的模型中,死亡將對應于智能體與環境邊界的崩潰,因此對應于一個更高熵的狀態(個體智能體的消解對應于一個無約束的最大熵狀態,或者從物理角度來說,熱平衡)。相關地,“生存本能”在主動推理智能體中通過偏離內穩態設定點(由生成模型或“偏好分布”定義)來體現,這些偏離在自由能中得分很高,因此是令人反感的。
因此,將缺乏行動可用性與低熵狀態等同起來的觀點,只有在那些忽略了智能體消解所引發的整個系統熵增加的玩具場景中才是合理的。除非 MOP 智能體擁有一個關于智能體與環境之間先驗區別的內在概念,即一種“自我意識”,否則死亡對它們來說應該是有吸引力的。結果是,使得這些智能體能夠產生目標導向行為的隱含約束,在一般情況下,并不僅僅是長期最大化熵,而且是存在一個具有行動庫的智能體,這體現在將空間劃分為行動和狀態變量的劃分中。實際上,這相當于主動推理和賦能中明確出現的“可控性”約束版本,因為智能體必須施加足夠的控制以實現內穩態(即維持內部狀態以對抗耗散力)。
3.3 模型證據與生存意志
盡管前面已經提出了相關論點,但最大占用率(MOP)所強調的探索與獎勵之間的傳統假設的反轉仍然具有吸引力。熵最大化(盡管是在約束條件下)似乎是智能和生命的一個基本特征,它比任何特定的獎勵尋求行為在不同生命形式中更為恒定。將未來路徑占用(通過熵來衡量)視為等同于保持生命,是理解熵最大化在內在動機理論核心地位的一種方式。
然而,我們已經看到,為了重現復雜生物智能所具有的目標導向行為,必須在保持智能體存在(通過內部和外部狀態之間的條件獨立性來操作化)的約束下最大化熵。在簡單模型中,這種條件獨立性表現為行動與狀態的劃分。借鑒叔本華的觀點,內在動機可以被簡單地視為“生存意志”,即作為一個活著的(運動的、變化的)事物而持續存在的一種基本沖動,這種沖動根據局部約束(生成模型)的不同而呈現出不同的具體形式。這些約束塑造了熵產生的主要動機力量,使得條件獨立結構得以維持。
在更簡單的智能模型中,整個(智能體-環境)系統的相關劃分被假設為固定不變的,但在更復雜的處理方式中,例如多尺度或無尺度的主動推理,模型結構本身可能會隨著時間的推移而演變,通常是在較慢的時間尺度上。因此,我們可以在任何給定時刻將智能體的生命視為不僅尋求對當前參數化模型的觀測證據,而且還要尋求對參數本身的證據,以及對超參數(或參數的先驗,包括結構先驗)的證據。這種結構演變可以用貝葉斯模型選擇來理解。
從這個角度來看,無尺度的自我驗證(即尋求模型證據)與最大占用率之間并不存在深刻的矛盾。一旦將約束(參數和模型結構)本身視為隨機變量,自我驗證的過程就被看作是完全由數據或觀測驅動的。從這個角度來看,我們所處的宇宙(只要它被準確地建模為一個封閉系統)的一個特性是,數據生成過程的整體熵只能增加。從這個角度來說,最大熵推理是一種普遍的自我實現的預言,宇宙因此朝著熱平衡的方向演變。因此,所有智能體確實在最長的時間尺度上最大化了占用率,盡管是以一種相當無私的方式,即它們為一個更大范圍的宇宙最大熵模型收集證據,在這個模型中,智能體之間的邊界(馬爾可夫毯)及其相應的能量約束已經消失。
當然,熵被“為了自身”而最大化這一觀點,并不排除在各種情境下將其解釋為認知價值、好奇心等。前面的討論表明,探索行為絕不僅僅是為確保高效用結果而進化出的機制,它至少與后者的傾向一樣是智能體的基本方面,兩者可能參與了一種循環因果關系的舞蹈。無論特定的生成模型如何,期望自由能函數中同時存在目標尋求和信息尋求的驅動力,指向了相同的結論。
4. 結論
在當代關于內在動機的理論中尋找共同主題,揭示了約束熵最大化作為描述生物系統動機的核心原則的必然性。在基本層面上,這一見解并不新穎,因為熵最大化長期以來一直被公認為是物理學(包括生命和智能的物理學)的一個關鍵原則,并且在幾種內在動機的理論中明確發揮了作用。本文的主要目標是詳細探討三種在文獻中被并列討論的內在動機理論,盡管它們在表面上有所不同,但它們仍然可以被理解為這一普遍視角的不同變體。
原文鏈接:https://arxiv.org/pdf/2502.02962
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.