Associative Learning and Active Inference
聯(lián)想學(xué)習(xí)與主動(dòng)推理
https://www.researchgate.net/publication/384268822_Associative_Learning_and_Active_Inference
摘要
聯(lián)想學(xué)習(xí)是一種行為現(xiàn)象,個(gè)體基于刺激或事件的共同出現(xiàn)而發(fā)展出它們之間的聯(lián)系。最初由巴甫洛夫在他的條件反射實(shí)驗(yàn)中研究,學(xué)習(xí)的基本原則已經(jīng)通過發(fā)現(xiàn)廣泛的學(xué)習(xí)現(xiàn)象而得到擴(kuò)展?;谧钚』?jiǎng)勵(lì)預(yù)測誤差的概念,已經(jīng)開發(fā)出了計(jì)算模型。特別是Rescorla-Wagner模型,是一個(gè)極大地影響了強(qiáng)化學(xué)習(xí)領(lǐng)域的著名模型。然而,這些模型的簡單性限制了它們充分解釋與學(xué)習(xí)相關(guān)的行為現(xiàn)象的多樣性。在本研究中,我們采用了自由能原理,該原理表明生物系統(tǒng)努力在其對(duì)世界的內(nèi)部模型下最小化驚訝或不確定性。我們將學(xué)習(xí)過程視為自由能的最小化,并研究其與Rescorla-Wagner模型的關(guān)系,重點(diǎn)關(guān)注學(xué)習(xí)的信息方面、不同類型的驚訝以及基于信念和價(jià)值的預(yù)測誤差。此外,我們探討了如何在主動(dòng)推斷框架內(nèi)模擬眾所周知的行為現(xiàn)象,如阻斷、掩蓋和潛在抑制。我們通過使用注意力的信息和新穎性方面來實(shí)現(xiàn)這一點(diǎn),這些方面與看似矛盾的模型(如Mackintosh和Pearce-Hall模型)提出的類似想法共享。因此,我們證明了自由能原理,作為一個(gè)從第一性原理推導(dǎo)出的理論框架,可以整合基于經(jīng)驗(yàn)實(shí)驗(yàn)提出的聯(lián)想學(xué)習(xí)的思想和模型,并作為更好地理解大腦聯(lián)想學(xué)習(xí)背后的計(jì)算過程的框架。
4 結(jié)論
在本研究中,我們構(gòu)建了一個(gè)主動(dòng)推理模型,其中代理學(xué)習(xí)建立條件刺激(CS)和無條件刺激(US)之間的關(guān)聯(lián)。我們的工作闡明了學(xué)習(xí)過程是自由能的最小化,并將這種方法與經(jīng)典聯(lián)想學(xué)習(xí)模型進(jìn)行了比較。
20世紀(jì)最具影響力的模型之一,Rescorla-Wagner模型,認(rèn)為學(xué)習(xí)是通過最小化預(yù)測誤差——預(yù)測結(jié)果與觀察結(jié)果之間的差異來實(shí)現(xiàn)的。這一觀點(diǎn)已應(yīng)用于強(qiáng)化學(xué)習(xí)領(lǐng)域,作為獎(jiǎng)勵(lì)預(yù)測誤差——代理預(yù)測和觀察到的狀態(tài)值之間的差異。在主動(dòng)推理中,學(xué)習(xí)是通過調(diào)整代理的生成模型參數(shù)來最小化自由能實(shí)現(xiàn)的。自由能可以被視為兩種預(yù)測誤差的結(jié)合:復(fù)雜性和準(zhǔn)確性。在我們的模型中,我們強(qiáng)調(diào)了這兩種術(shù)語的動(dòng)態(tài)以及在學(xué)習(xí)過程中對(duì)世界狀態(tài)的信念的重要性。盡管我們的模型也顯示出獎(jiǎng)勵(lì)預(yù)測誤差的減少,但重要的是要注意,這種減少是自由能最小化的結(jié)果,而不是學(xué)習(xí)的主要驅(qū)動(dòng)力。
自由能原理進(jìn)一步允許我們建立代理在觀察到CS后對(duì)US的不確定性減少與學(xué)習(xí)過程中US的獎(jiǎng)勵(lì)價(jià)值增加之間的聯(lián)系。這種聯(lián)系之前在Rescorla的作品中討論過,但沒有被整合到模型中。
在我們的模擬中,我們在展示阻斷現(xiàn)象時(shí)遇到了挑戰(zhàn)。這一困難源于準(zhǔn)確性項(xiàng)的影響,該準(zhǔn)確性項(xiàng)在學(xué)習(xí)第二個(gè)新CS與US之間的關(guān)聯(lián)性時(shí)增加并最小化自由能,注意到兩個(gè)CS的顯著性是相同的。為了解決這個(gè)問題,我們使用注意力的概念巧妙地調(diào)整了我們的模擬,在主動(dòng)推理中,這可以被解釋為旨在獲得最有信息量的觀察的行動(dòng)。將這一概念應(yīng)用于聯(lián)想學(xué)習(xí),類似于Mackintosh的模型,該模型假設(shè)動(dòng)物會(huì)將注意力分配給之前更好地預(yù)測US的CS。這種方法使我們能夠證明代理朝向第一個(gè)CS,同時(shí)忽略第二個(gè)CS,導(dǎo)致對(duì)第二個(gè)CS的學(xué)習(xí)缺乏,從而展示了阻斷。
然而,這種類型的注意力的引入也揭示了我們的基本模型在處理單個(gè)新CS時(shí)的缺陷。如果CS是新的,還沒有攜帶任何信息,代理將不會(huì)關(guān)注這個(gè)線索,導(dǎo)致沒有學(xué)習(xí)。為了解決這個(gè)問題,我們引入了新奇性的概念,這在主動(dòng)推理中用于解釋好奇行為。應(yīng)用于聯(lián)想學(xué)習(xí),新奇性作為一個(gè)術(shù)語,負(fù)責(zé)對(duì)新CS的關(guān)注,類似于Pearce-Hall模型。我們證明了在學(xué)習(xí)過程的開始,CS的新奇性很高,是代理關(guān)注CS的主要原因。然而,隨著學(xué)習(xí)的進(jìn)行,關(guān)注CS的動(dòng)機(jī)發(fā)生了變化:新奇性減少,而CS和US之間的互信息增加,促使代理因?yàn)镃S的顯著性或信息性而關(guān)注CS。
將新奇性項(xiàng)納入阻斷模型,也有助于解釋在復(fù)制這一現(xiàn)象時(shí)頻繁出現(xiàn)的失敗,而Rescorla-Wagner、Mackintosh和Pearce-Hall模型單獨(dú)無法做到這一點(diǎn)。此外,使用新奇性項(xiàng)使我們能夠模擬潛伏抑制現(xiàn)象,這是Pearce-Hall模型的一個(gè)強(qiáng)項(xiàng),但Rescorla-Wagner或Mackintosh模型并非如此。
此外,我們成功地模擬了遮蔽現(xiàn)象,在我們的模型中,這取決于新奇性、顯著性和獎(jiǎng)勵(lì)之間的相互作用,與其他使用單一獎(jiǎng)勵(lì)預(yù)測誤差的模型不同??傊?,我們的工作突出了主動(dòng)推理如何將聯(lián)想學(xué)習(xí)的既定模型中的思想統(tǒng)一到一個(gè)全面的框架中。我們提出自由能原理作為一個(gè)潛在的框架,可以最充分地解釋聯(lián)想學(xué)習(xí)過程中發(fā)生的事情。需要注意的是,本文只呈現(xiàn)了有限數(shù)量的模擬實(shí)驗(yàn),而聯(lián)想學(xué)習(xí)的文獻(xiàn)是廣泛的。因此,進(jìn)一步的研究應(yīng)該集中在模擬現(xiàn)有的學(xué)習(xí)現(xiàn)象和設(shè)計(jì)新的實(shí)驗(yàn)來測試學(xué)習(xí)原則作為自由能最小化。
1 引言
聯(lián)想學(xué)習(xí)是動(dòng)物獲取其環(huán)境中事件之間預(yù)測關(guān)系知識(shí)的過程?;痉诸惛鶕?jù)所涉及的關(guān)聯(lián)性質(zhì)區(qū)分經(jīng)典條件反射和操作性條件反射。其他分類還區(qū)分觀察學(xué)習(xí)、潛在學(xué)習(xí)和社會(huì)學(xué)習(xí)。然而,在我們的文章中,我們僅限于前兩種類型,重點(diǎn)是經(jīng)典條件反射。
在經(jīng)典或巴甫洛夫條件反射中,動(dòng)物學(xué)會(huì)將兩個(gè)線索聯(lián)系起來。第一個(gè)線索,稱為條件刺激(CS),從外部環(huán)境的背景中脫穎而出(例如,光、聲音或獨(dú)特的觸覺刺激)。第二個(gè)線索,稱為無條件刺激(US),是一個(gè)相關(guān)的強(qiáng)化事件(如食物或水)或懲罰事件(如電擊)。通過反復(fù)配對(duì),動(dòng)物形成了CS和US之間的關(guān)聯(lián),導(dǎo)致條件反應(yīng)(CR),例如狗在鈴聲響起時(shí)流口水,正如巴甫洛夫(1927)著名地展示的那樣。在經(jīng)典條件反射中,形成的關(guān)聯(lián)被稱為刺激-結(jié)果(S-O)關(guān)聯(lián)。在巴甫洛夫?qū)W派中,它被視為神經(jīng)系統(tǒng)對(duì)世界事件之間關(guān)系的預(yù)期表征的基本適應(yīng)能力(Anokhin, 1974)。
經(jīng)典條件反射中最常用的方法是延遲條件反射和痕跡條件反射。延遲條件反射涉及呈現(xiàn)CS,然后在它仍在進(jìn)行時(shí)引入U(xiǎn)S,使兩個(gè)刺激重疊。在痕跡條件反射中,CS和US的呈現(xiàn)之間存在時(shí)間間隔。痕跡條件反射的關(guān)鍵特征是CS和US不重疊;受試者必須在痕跡間隔期間保持對(duì)CS的記憶,以將CS與US聯(lián)系起來。這種類型的條件反射被認(rèn)為涉及更復(fù)雜的認(rèn)知過程,因?yàn)樾枰ㄟ^記憶來彌合時(shí)間間隔。
操作性或工具性條件反射涉及行為與其后果之間的關(guān)聯(lián)。在這種情況下可以形成兩種類型的關(guān)聯(lián)。第一種是刺激-反應(yīng)(S-R)關(guān)聯(lián),其中CS與特定的強(qiáng)化行為聯(lián)系起來。第二種是反應(yīng)-結(jié)果(R-O)關(guān)聯(lián),它直接將行為與強(qiáng)化物聯(lián)系起來。
經(jīng)典和操作性條件反射已被證明是所有脊椎動(dòng)物中的普遍學(xué)習(xí)現(xiàn)象(Macphail, 1982)。這些原則是神經(jīng)科學(xué)和心理學(xué)領(lǐng)域?qū)W習(xí)理論中的基礎(chǔ)概念。此外,它們?yōu)閺?qiáng)化學(xué)習(xí)的發(fā)展鋪平了道路,強(qiáng)化學(xué)習(xí)是一個(gè)在現(xiàn)代機(jī)器學(xué)習(xí)算法中廣泛使用的突出領(lǐng)域。
尋找聯(lián)想學(xué)習(xí)的基本原則是20世紀(jì)生理學(xué)家的主要關(guān)注點(diǎn)。最初,巴甫洛夫提出兩個(gè)事件的緊密時(shí)間配對(duì)足以形成關(guān)聯(lián)。然而,1960年代和1970年代積累的證據(jù)挑戰(zhàn)了這一觀點(diǎn),并揭示了僅時(shí)間配對(duì)既不是關(guān)聯(lián)形成的必要條件,也不是充分條件。這一時(shí)期的關(guān)鍵發(fā)現(xiàn)包括線索競爭現(xiàn)象,如阻斷、掩蓋和真正的隨機(jī)對(duì)照實(shí)驗(yàn)。
阻斷發(fā)生在動(dòng)物首先學(xué)會(huì)CS1預(yù)測US的發(fā)生,隨后,當(dāng)與CS1一起呈現(xiàn)額外的線索CS2時(shí),它未能在CS2和US之間建立關(guān)聯(lián)。掩蓋指的是當(dāng)CS1在學(xué)習(xí)階段始終與CS2一起呈現(xiàn)時(shí),CS1與US之間的關(guān)聯(lián)強(qiáng)度減弱。Rescorla的真正隨機(jī)對(duì)照實(shí)驗(yàn)表明,即使在CS和US之間保持完美的時(shí)間連續(xù)性時(shí),US在沒有CS的情況下呈現(xiàn)也會(huì)導(dǎo)致關(guān)聯(lián)強(qiáng)度的退化。這些和其他實(shí)驗(yàn)導(dǎo)致了結(jié)論,即聯(lián)想記憶的形成由預(yù)測器提供的關(guān)于預(yù)測事件的偶然性或信息決定,而不是CS和US之間的時(shí)間連續(xù)性。
1.1 Rescorla-Wagner模型
對(duì)上述實(shí)驗(yàn)的分析促成了Rescorla和Wagner開發(fā)出20世紀(jì)最具影響力的其中一個(gè)學(xué)習(xí)模型。根據(jù)該模型(Rescorla & Wagner, 1972),每次試驗(yàn)中發(fā)生的學(xué)習(xí)量取決于與US相關(guān)的不可預(yù)測性或驚訝程度。在學(xué)習(xí)的早期階段,當(dāng)CS與US之間的關(guān)聯(lián)尚未建立時(shí),CS關(guān)于US的發(fā)生提供的信息很少,使其非常令人驚訝。因此,動(dòng)物從每次CS與US的配對(duì)中學(xué)到了很多。然而,隨著CS與US之間關(guān)聯(lián)強(qiáng)度的增加,US的發(fā)生變得不那么令人驚訝,導(dǎo)致學(xué)習(xí)進(jìn)展變慢。這一學(xué)習(xí)規(guī)則表述如下:
在這里,VX 表示CS X與US之間的關(guān)聯(lián)強(qiáng)度;λ 是US可能達(dá)到的最大關(guān)聯(lián)強(qiáng)度;α 是CS的顯著性系數(shù),β 是特定US的學(xué)習(xí)率;n 是試驗(yàn)次數(shù)。ΔV 表示所有可用CS的總預(yù)測值。在每次試驗(yàn)后,關(guān)聯(lián)值 VX 將根據(jù)預(yù)測值的變化 ΔV 進(jìn)行更新。在實(shí)驗(yàn)中,VX 可以從觀察到的行為適應(yīng)中得出。
根據(jù)公式1.1和1.2,Rescorla-Wagner模型中的學(xué)習(xí)過程可以被概念化為預(yù)測誤差的最小化。在每次試驗(yàn)中,動(dòng)物觀察所有可用的CS,并通過匯總每個(gè)CS的關(guān)聯(lián)強(qiáng)度(ΔV)來生成對(duì)即將發(fā)生的US的預(yù)測。當(dāng)US發(fā)生時(shí),US的強(qiáng)度與這一預(yù)測(λ?ΔV)進(jìn)行比較,從而產(chǎn)生正的或負(fù)的預(yù)測誤差。然后,通過根據(jù)預(yù)測誤差的大小和方向調(diào)整存在CS的關(guān)聯(lián)強(qiáng)度來發(fā)生學(xué)習(xí)。
例如,如果λ=1(US發(fā)生了)且ΔV=0(US未被預(yù)測),預(yù)測誤差(λ?ΔV)會(huì)很高,因?yàn)閁S令人驚訝。因此,CS與US之間的關(guān)聯(lián)強(qiáng)度會(huì)增加αXβ。然而,如果ΔV=0.9,結(jié)果的學(xué)習(xí)會(huì)少得多,具體為αXβ×0.1,反映了減少的預(yù)測誤差。
Rescorla-Wagner模型成功地解釋了各種現(xiàn)象,包括阻斷、掩蓋、條件性抑制、防止消退和過度預(yù)期。這些現(xiàn)象可以在模型捕捉聯(lián)想學(xué)習(xí)的動(dòng)態(tài)以及預(yù)測誤差對(duì)關(guān)聯(lián)強(qiáng)度調(diào)整的影響的框架內(nèi)得到理解。
Rescorla-Wagner模型先于強(qiáng)化學(xué)習(xí)領(lǐng)域出現(xiàn)。最初以聯(lián)想強(qiáng)度來表述,它可以被看作是預(yù)期和實(shí)際獎(jiǎng)勵(lì)值之間的獎(jiǎng)勵(lì)預(yù)測誤差,這構(gòu)成了大多數(shù)強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)。例如,時(shí)間差分模型(Sutton, 1988),作為最廣泛使用的強(qiáng)化學(xué)習(xí)算法之一——深度Q學(xué)習(xí)網(wǎng)絡(luò)(DQN;Mnih等人,2015)的基礎(chǔ),可以被視為Rescorla-Wagner模型的擴(kuò)展。它在試驗(yàn)內(nèi)的每一刻都提供實(shí)時(shí)預(yù)測,使得預(yù)測誤差不僅可以在試驗(yàn)結(jié)束時(shí)US發(fā)生時(shí)進(jìn)行評(píng)估,而且可以在整個(gè)試驗(yàn)過程中進(jìn)行評(píng)估。這一能力使得時(shí)間差分模型為聯(lián)想學(xué)習(xí)理論提供了新的見解,模擬了各種現(xiàn)象,如二階條件反射(Sutton & Barto, 1990)。此外,由于其能夠預(yù)測大腦內(nèi)的多巴胺信號(hào),它已確立為神經(jīng)科學(xué)中最成功的計(jì)算模型之一(Schultz, 2016)。
1.2 學(xué)習(xí)與信息
認(rèn)識(shí)到偶然性而非簡單的配對(duì)對(duì)于形成聯(lián)想連接至關(guān)重要,也可以從信息論的角度進(jìn)行考察(Gallistel & Balsam, 2014; Gallistel et al., 2014)。在條件反射實(shí)驗(yàn)中,條件刺激(CS)信號(hào)向受試者傳達(dá)的信息可以通過減少受試者對(duì)內(nèi)部世界表征下狀態(tài)的不確定性來量化。在信息論中,不確定性通常使用熵的概念來量化:
例如,想象你有兩個(gè)封閉的盒子,其中一個(gè)盒子里裝有糖果。讓我們考慮一個(gè)概率分布,它代表我們對(duì)獎(jiǎng)勵(lì)在左邊或右邊盒子中的內(nèi)部(先驗(yàn))信念:。如果我們的信念是 p(x) = [0.99; 0.01],我們非常確定獎(jiǎng)勵(lì)在左邊,導(dǎo)致熵值較低,約為 0.05。 但如果我們對(duì)獎(jiǎng)勵(lì)的位置一無所知,我們的信念是 p(x) = [0.5; 0.5],那么熵 H 將更高,約為 0.69。需要注意的是,我們已經(jīng)從使用值(如最初在 Rescorla-Wagner 方程和強(qiáng)化學(xué)習(xí)中使用的那樣)轉(zhuǎn)變?yōu)槭褂酶怕史植?。如果我們把這些概率分布讀作(例如,貝葉斯)信念,這意味著對(duì)世界狀態(tài)的(點(diǎn))估計(jì)被對(duì)世界狀態(tài)的信念所取代,這些信念必然包含不確定性。 熵是見證特定結(jié)果所能傳達(dá)的信息的上限。在聯(lián)想學(xué)習(xí)的背景下,熵由圍繞 US 的不確定性決定。CS 只能在它向受試者傳達(dá)信息的程度上減少這種不確定性。隨后的信息增益可以表示為 CS 和 US 之間的互信息(也稱為相對(duì)熵)。換句話說,它測量 US 的熵與在 CS 存在時(shí) US 的熵之間的差異:
因此,CS和US之間聯(lián)想連接的形成依賴于這兩個(gè)刺激之間存在互信息,并導(dǎo)致US熵的最小化。
1.3 本研究的目的
Rescorla-Wagner模型的優(yōu)勢在于其簡單性以及解釋廣泛學(xué)習(xí)現(xiàn)象的能力。它引入了學(xué)習(xí)中預(yù)測誤差或驚訝最小化的基本概念。然而,該模型可能過于簡單,無法成為通用學(xué)習(xí)規(guī)則。有許多實(shí)驗(yàn)發(fā)現(xiàn)該模型無法解釋(Miller等人,1995)。其他聯(lián)想學(xué)習(xí)模型——最著名的是Peace-Hall(Pearce & Hall,1980)和Mackintosh(Mackintosh,1975)模型,我們將在文章后面探討——在某些具體預(yù)測中也取得了成功,但在其他方面則失?。˙outon,2016)。為了尋找對(duì)聯(lián)想學(xué)習(xí)更完整的描述,我們轉(zhuǎn)向了自由能原理——一種從第一性原理推導(dǎo)出的貝葉斯方法,用于大腦功能(Friston,2010)。目標(biāo)是在條件反射任務(wù)中,包括簡單的單一CS條件反射、潛在抑制和線索競爭(阻斷和掩蓋),用主動(dòng)推斷框架模擬代理的行為,并研究在自由能(即驚訝)最小化下與經(jīng)典學(xué)習(xí)理論相比的學(xué)習(xí)潛在機(jī)制。
2 自由能原理和主動(dòng)推斷
自由能原理(Friston, 2010; Friston et al., 2011; Parr et al., 2022; Ramstead et al., 2023)是大腦功能最有希望且最全面的數(shù)學(xué)原理之一。在本文中,我們旨在展示自由能原理的核心思想如何與基于行為實(shí)驗(yàn)的經(jīng)典聯(lián)想學(xué)習(xí)模型相關(guān)聯(lián),并對(duì)其進(jìn)行擴(kuò)展。我們以動(dòng)物條件反射任務(wù)的模型為例來說明這些隨后的關(guān)系。
在主動(dòng)推斷中,我們構(gòu)建信念作為概率分布,這些分布代表了世界的各個(gè)方面。這種基于信念的框架非常適合信息論,因?yàn)榫哂行拍畹南到y(tǒng)可以通過不確定性(即熵)和驚訝(即驚訝和自信息)來描述。重要的是,主動(dòng)推斷強(qiáng)調(diào)不僅優(yōu)化成本函數(shù),而且減少不確定性對(duì)于實(shí)現(xiàn)最優(yōu)行為和學(xué)習(xí)的重要性。通過將減少不確定性視為學(xué)習(xí)的一個(gè)關(guān)鍵方面,主動(dòng)推斷為學(xué)習(xí)過程提供了寶貴的視角(Sajid et al., 2021)。
主動(dòng)推斷是一個(gè)全面的框架,它繼承了自由能原理,用于描述生物和人工代理中的貝葉斯最優(yōu)行為(Parr & Pezzulo, 2021; Ramstead et al., 2023)。主動(dòng)推斷的核心原則認(rèn)為,代理尋求最小化其感官觀察的驚訝程度,以維持穩(wěn)態(tài)(即,采樣偏好結(jié)果)。需要注意的是,主動(dòng)推斷中的驚訝概念與Rescorla-Wagner模型中使用的驚訝概念不同。我們將在本文后面深入探討各種類型的驚訝。
主動(dòng)推斷可以被概念化為包含三個(gè)關(guān)鍵階段:感知、行動(dòng)和學(xué)習(xí)。在感知階段,代理參與推斷其所處世界的狀態(tài)的過程。在感知階段之后,代理繼續(xù)在環(huán)境中行動(dòng),根據(jù)推斷出的狀態(tài)選擇行動(dòng)。因?yàn)檫@種(例如,貝葉斯模型)選擇依賴于推斷最可能的行動(dòng),所以有時(shí)被稱為規(guī)劃即推斷(Attias, 2003; Botvinick & Toussaint, 2012; Da Costa et al., 2020)。目標(biāo)是實(shí)施那些最小化未來感官觀察預(yù)期驚訝的行動(dòng)。最后,在學(xué)習(xí)階段,代理根據(jù)其行動(dòng)的觀察結(jié)果更新其對(duì)世界的模型。
感知受到貝葉斯大腦假設(shè)(Gregory, 1980; Knill & Pouget, 2005)的指導(dǎo),該假設(shè)提出大腦尋求通過使用貝葉斯推斷,在世界生成模型下最優(yōu)地推斷感官觀察背后的原因。換句話說,感知被視為貝葉斯信念更新——即,使用貝葉斯規(guī)則將先驗(yàn)信念(觀察之前)更新為后驗(yàn)信念(觀察之后):
在這里,s 是世界的狀態(tài),o 是一個(gè)觀測,p(s) 是世界處于狀態(tài) s 的先驗(yàn)概率,而 p(s∣o) 是在觀測到 o 之后世界處于狀態(tài) s 的后驗(yàn)概率。p(o∣s) 是當(dāng)世界處于狀態(tài) s 時(shí)觀測到 o 的似然性。p(o) 是在所有可能產(chǎn)生它的狀態(tài)下觀測到 o 的概率:。p(o)(也稱為邊緣似然或模型證據(jù))越高,模型對(duì)給定感官信息的解釋就越好。我們想要最小化的驚訝就是 ?lnp(o)。因此,通過最小化驚訝,我們實(shí)際上增加了模型證據(jù)。通過平均最小化驚訝,我們確保結(jié)果的熵 被最小化,從而符合穩(wěn)態(tài)要求。然而,為了計(jì)算 p(o),我們需要對(duì)所有可能的世界狀態(tài)求和或積分,這在實(shí)際中是不可行的。自由能原理假設(shè),與其直接評(píng)估 ?lnp(o),我們不如找到一個(gè)量,它將是驚訝的上界,并最小化它,這將導(dǎo)致驚訝的最小化。自由能方程的第一個(gè)版本展示了其理論基礎(chǔ)(對(duì)于易于理解的推導(dǎo),請參見 Smith 等人,2022 年):
在這里, 是Kullback-Leibler(KL)散度,用于衡量一個(gè)概率分布與另一個(gè)概率分布的不同之處。分布 q(s)表示代理對(duì)世界未觀測(即隱藏)狀態(tài) p(s∣o) 的信念。當(dāng)這兩個(gè)分布之間的差異減小時(shí),自由能將越來越接近驚訝的近似值,即 ?lnp(o)。因此,感知的任務(wù)是找到使自由能最小化的 q(s),使其盡可能接近驚訝。然而,我們無法從這個(gè)方程中計(jì)算自由能,因?yàn)?p(o) 仍然存在。為此,使用了自由能表達(dá)式的重新排列(Smith等人,2022年):
這個(gè)方程右邊的項(xiàng)分別被稱為復(fù)雜度和準(zhǔn)確性。復(fù)雜度意味著代理為了適應(yīng)感官輸入需要改變其信念的程度,而準(zhǔn)確性指的是模型的信念預(yù)測感官輸入的程度。從這個(gè)方程可以看出,當(dāng)準(zhǔn)確性最高且復(fù)雜度最低時(shí)(奧卡姆剃刀原則),自由能將最小化。
但代理不僅能夠觀察;它還可以行動(dòng)。主動(dòng)推斷中的下一個(gè)重要觀點(diǎn)是,代理實(shí)際上可以通過在環(huán)境中采取將導(dǎo)致偏好(或模型預(yù)期)的觀察 p(o∣C) 的行動(dòng)來最小化驚訝。因?yàn)樽杂赡苁求@訝的近似值,我們可以通過采取適當(dāng)?shù)男袆?dòng)來最小化未來的預(yù)期自由能(EFE)從而最小化驚訝。然而,我們不知道我們將來會(huì)看到哪些觀察結(jié)果,所以我們需要預(yù)測它們。將來將占據(jù)的狀態(tài)以及接收到的觀察結(jié)果將取決于所采取的行動(dòng),即策略 π。并且我們需要有關(guān)于與穩(wěn)態(tài)一致的觀察結(jié)果的先驗(yàn)信念(例如,感到飽足,處于舒適的溫度區(qū)域)p(o∣C)。鑒于這些先驗(yàn)偏好,EFE的形式如下(Smith等人,2022年;Millidge等人,2021年):
第一個(gè)期望,稱為內(nèi)在或認(rèn)識(shí)價(jià)值或信息增益,關(guān)注于獲取知識(shí)和減少對(duì)世界狀態(tài) s 的不確定性。第二個(gè)期望是外在價(jià)值,它在強(qiáng)化學(xué)習(xí)中作為獎(jiǎng)勵(lì)的類比,在最優(yōu)控制理論中作為成本。這個(gè)方程表明,代理努力獲取偏好觀察的同時(shí),也在收集信息——也就是說,在避免某些結(jié)果的同時(shí)使其他結(jié)果更有可能的情況下,最小化對(duì)環(huán)境狀態(tài)的不確定性。認(rèn)識(shí)的、探索性(即,尋求信息)行為在多大程度上超過工具性的、利用性(即,尋求偏好)行為,取決于先驗(yàn)偏好的精確度(與期望結(jié)果的置信度成反比,與 C 的方差成正比)以一種直接的方式。換句話說,如果偏好結(jié)果的可能性都相等,那么行動(dòng)的選擇將基于它們的內(nèi)在價(jià)值。這在機(jī)器學(xué)習(xí)和發(fā)展神經(jīng)機(jī)器人學(xué)中有時(shí)被稱為內(nèi)在動(dòng)機(jī)(Oudeyer & Kaplan, 2007; Schmidhuber, 2010; Parr & Friston, 2018; Schwartenbeck et al., 2019)。代理對(duì)策略的分布是通過 p(π)=σ(?G) 確定的,其中 σ 是一個(gè)softmax(歸一化指數(shù))函數(shù),G 是每個(gè)可用行動(dòng)(策略)π 的 Gπ 值的向量。
從網(wǎng)絡(luò)的頂部開始,首先通過上述變量的softmax(歸一化指數(shù))函數(shù)(σ)選擇一個(gè)策略(π)。為了做出決策,代理依賴于一個(gè)世界模型。在我們的實(shí)驗(yàn)中,我們假設(shè)狀態(tài)和觀察可以表示為各個(gè)離散因素的組合。例如,一個(gè)狀態(tài)可能包括代理在環(huán)境中的位置和獎(jiǎng)勵(lì)的位置。我們使用以下變量列表來編碼代理的世界模型:
每次試驗(yàn)開始時(shí)的信念狀態(tài)編碼在向量D中。向量D的每個(gè)元素i對(duì)應(yīng)于在狀態(tài)i開始試驗(yàn)的概率。換句話說,p(s) = Cat(D),其中Cat表示這是一個(gè)由D參數(shù)化的分類分布。在我們的實(shí)驗(yàn)中,對(duì)于每個(gè)獨(dú)立的狀態(tài)因素,我們保留一個(gè)單獨(dú)的D。
似然分布p(o|s)由張量A編碼。在一般情況下,我們可以將A視為一個(gè)矩陣,每一行對(duì)應(yīng)一個(gè)可能的觀察,每一列對(duì)應(yīng)一個(gè)可能的狀態(tài):p(o|s) = Cat(A)。為了簡化可視化,我們將A視為一組多維張量A1, A2,..., AM,其中M是輸出模態(tài)的數(shù)量。我們可以在這里使用一組張量,因?yàn)樵谖覀兊膶?shí)驗(yàn)中,我們將觀察模態(tài)視為在當(dāng)前信念狀態(tài)下是獨(dú)立的。每個(gè)張量Ai的形狀為|Oi|×|S1|×|S2|×...×|SK|,其中|Ok|是模態(tài)k的可能結(jié)果的數(shù)量,K是狀態(tài)因素的數(shù)量。
狀態(tài)轉(zhuǎn)移分布p(st+1|st, π)編碼為矩陣Bπ,每個(gè)狀態(tài)在試驗(yàn)步驟t有一列,每個(gè)狀態(tài)在試驗(yàn)步驟t+1有一行。每個(gè)矩陣Bπ對(duì)應(yīng)于一個(gè)特定的動(dòng)作(策略)π。將推斷出的狀態(tài)q(st)乘以動(dòng)作依賴的轉(zhuǎn)移矩陣B,為下一步提供先驗(yàn)p(st+1):p(st+1) = Cat(Bπ q(st))。
先驗(yàn)偏好或偏好觀察p(o|C)由向量C編碼,表示代理旨在接收的期望觀察。
模型的參數(shù),如圖1中的方塊所示,是可以學(xué)習(xí)的。例如,F(xiàn)riston等人(2016)展示了在T形迷宮任務(wù)中D的學(xué)習(xí)以及隨后的習(xí)慣形成。然而,代理最初就具備了對(duì)環(huán)境偶然性的知識(shí),表明了條件刺激(CS)與無條件刺激(US)之間明確的關(guān)聯(lián)。這種關(guān)系被編碼在A矩陣中,它建立了CS觀察與決定獎(jiǎng)勵(lì)是位于T形迷宮右側(cè)還是左側(cè)的環(huán)境狀態(tài)之間的關(guān)聯(lián)。我們的工作探討了代理如何在初始偶然性未知的情況下學(xué)習(xí)特定的關(guān)聯(lián)。
我們現(xiàn)在轉(zhuǎn)向數(shù)值研究,在這些研究中,我們應(yīng)用主動(dòng)推斷來重新審視聯(lián)想學(xué)習(xí)的基礎(chǔ),并建立主動(dòng)推斷與基于強(qiáng)化學(xué)習(xí)的經(jīng)典解釋之間的關(guān)系。
模型的參數(shù),如圖1中的方塊所示,是可以學(xué)習(xí)的。例如,F(xiàn)riston等人(2016)展示了在T形迷宮任務(wù)中D的學(xué)習(xí)以及隨后的習(xí)慣形成。然而,代理最初就具備了對(duì)環(huán)境偶然性的知識(shí),表明了條件刺激(CS)與無條件刺激(US)之間明確的關(guān)聯(lián)。這種關(guān)系被編碼在A矩陣中,它建立了CS觀察與決定獎(jiǎng)勵(lì)是位于T形迷宮右側(cè)還是左側(cè)的環(huán)境狀態(tài)之間的關(guān)聯(lián)。我們的工作探討了代理如何在初始偶然性未知的情況下學(xué)習(xí)特定的關(guān)聯(lián)。
我們現(xiàn)在轉(zhuǎn)向數(shù)值研究,在這些研究中,我們應(yīng)用主動(dòng)推斷來重新審視聯(lián)想學(xué)習(xí)的基礎(chǔ),并建立主動(dòng)推斷與基于強(qiáng)化學(xué)習(xí)的經(jīng)典解釋之間的關(guān)系。
2.1 實(shí)驗(yàn)的生成模型
在這項(xiàng)工作中,我們使用了pymdp庫(Heins等人,2022),它提供了離散狀態(tài)空間生成模型的主動(dòng)推斷的Python實(shí)現(xiàn)。本研究中采用的學(xué)習(xí)任務(wù)是一個(gè)T形迷宮,這是一個(gè)由通道和兩個(gè)臂組成的T形迷宮。動(dòng)物/代理的初始位置在中央通道。目標(biāo)是到達(dá)交叉口并朝正確方向轉(zhuǎn)彎以獲得強(qiáng)化。中央通道有一個(gè)提示,指示要向哪個(gè)方向轉(zhuǎn)彎(左或右)。要正確解決任務(wù),動(dòng)物/代理需要在之前遇到的提示和獎(jiǎng)勵(lì)的位置之間建立關(guān)系。這個(gè)任務(wù)結(jié)合了工具性行為和痕跡條件反射。代理必須在條件刺激(CS)和無條件刺激(US)之間形成關(guān)聯(lián),它們在時(shí)間上是分開的,然后相應(yīng)地行動(dòng)以獲得獎(jiǎng)勵(lì)。T形迷宮模型在主動(dòng)推斷文獻(xiàn)中被廣泛用于展示自由能的各種屬性(Friston等人,2015;Hesp等人,2021;Sajid等人,2022;Parr & Pezzulo,2021)。我們對(duì)模型進(jìn)行了某些修改,以說明阻斷現(xiàn)象,并使訓(xùn)練協(xié)議更接近相應(yīng)的動(dòng)物實(shí)驗(yàn)。然而,使用更標(biāo)準(zhǔn)的經(jīng)典條件反射模型,如簡單的音調(diào)-電擊關(guān)聯(lián),可以復(fù)制T形迷宮獲得的所有結(jié)果。
T形迷宮的設(shè)置如圖2所示。代理可以處于五個(gè)位置之一。數(shù)字表示起始位置,4表示帶有CS的位置,2表示T形分支,1和3表示迷宮的左臂和右臂,可能有獎(jiǎng)勵(lì)或電擊US。CS明確地信號(hào)了US。代理的信念狀態(tài)由兩個(gè)狀態(tài)因素組成,第一個(gè)編碼代理的位置q1(s),第二個(gè)編碼獎(jiǎng)勵(lì)的位置q2(s)。因此,環(huán)境狀態(tài)的結(jié)構(gòu)和代理對(duì)它的信念將如下所示,[loc1, loc2, loc3, loc4, loc5][rewleft,rewright],其中每個(gè)括號(hào)包含一個(gè)總和為一的概率分布。代理接收到的觀察包括代理的位置、CS和獎(jiǎng)勵(lì)。代理可以向上、向下、向左、向右移動(dòng)或停留在同一位置。生成模型還包括似然矩陣A、轉(zhuǎn)移矩陣B、先驗(yàn)向量D和偏好矩陣C。在動(dòng)物實(shí)驗(yàn)中,通常會(huì)對(duì)迷宮進(jìn)行預(yù)先暴露;幾天內(nèi),動(dòng)物有時(shí)間探索、熟悉迷宮并記住潛在的獎(jiǎng)勵(lì)點(diǎn)。因此,在條件反射之前,我們假設(shè)代理熟悉迷宮的空間,這意味著它可以基于觀察ot準(zhǔn)確地形成關(guān)于其在迷宮中的位置的信念q1(s)。D或p(s) = [0, 0, 0, 0, 1][0.5, 0.5]指定了代理在劇集開始時(shí)關(guān)于其位置和獎(jiǎng)勵(lì)位于迷宮左臂或右臂的50%機(jī)會(huì)的先驗(yàn)信念。偏好矩陣C的構(gòu)建方式是,代理偏好食物并對(duì)電擊有厭惡感。狀態(tài)轉(zhuǎn)移矩陣B定義了代理關(guān)于移動(dòng)后下一個(gè)狀態(tài)的信念。似然矩陣A定義了狀態(tài)和觀察之間的偶然性。由于我們的模型假設(shè)了三種觀察,矩陣A由三種模態(tài)組成。由于對(duì)迷宮的預(yù)先暴露,我們假設(shè)代理已經(jīng)學(xué)會(huì)了B矩陣,以及A矩陣的模態(tài)1和3(代理位置和獎(jiǎng)勵(lì))。它不知道的是將CS和獎(jiǎng)勵(lì)位置聯(lián)系起來的偶然性(A矩陣的第二種模態(tài))。沒有這些信息,代理不能可靠地預(yù)測獎(jiǎng)勵(lì)的位置,給定CS。
2.2 學(xué)習(xí)
在主動(dòng)推斷中,學(xué)習(xí)對(duì)應(yīng)于在已知為狄利克雷分布的分布類別內(nèi)更新模型參數(shù)的先驗(yàn)信念。不深入技術(shù)細(xì)節(jié),我們的可學(xué)習(xí)參數(shù)是應(yīng)該總和為一的概率分布。一個(gè)簡單的例子是關(guān)于獎(jiǎng)勵(lì)位置的先驗(yàn)信念,可以表示為。在學(xué)習(xí)過程中,我們可以使用狄利克雷分布來表示分布數(shù)據(jù):
在這里, 是濃度參數(shù)。我們可以通過簡單地向它們添加計(jì)數(shù)來更新這些參數(shù)。例如,如果我們的初始先驗(yàn)是 ,并且在劇集結(jié)束時(shí)的后驗(yàn)信念表明食物在右側(cè),我們會(huì)在 d2 上加1,得到。為了獲得D向量中的預(yù)期概率,我們只需對(duì) d 進(jìn)行歸一化,使其總和為1,將 轉(zhuǎn)換為 ,這表示一個(gè)正確的概率分布。相應(yīng)的學(xué)習(xí)更新可以表示如下:
其中 α 是學(xué)習(xí)率,ω 是遺忘率,q(sT) 是在試驗(yàn)的最終時(shí)間點(diǎn)后對(duì)狀態(tài)的后驗(yàn)信念。
其他模型參數(shù)也可以以類似的方式學(xué)習(xí)。我們的工作重點(diǎn)是學(xué)習(xí)A矩陣。如果代理遇到某個(gè)觀察 o 并推斷出它所處的狀態(tài) q(s),我們可以通過在 p(A) 的適當(dāng)位置添加計(jì)數(shù)來加強(qiáng)該觀察與狀態(tài)之間的關(guān)聯(lián)。這種類型的學(xué)習(xí)類似于經(jīng)典Hebbian可塑性規(guī)則:
在這里,?符號(hào)表示外積。學(xué)習(xí)率設(shè)置為α = 0.2,遺忘率設(shè)置為ω = 1。
鑒于這個(gè)問題涉及痕跡條件反射而非延遲條件反射,CS和US在時(shí)間上不重疊。為了解決這個(gè)問題,我們在模型中引入了一種情節(jié)重放機(jī)制,使得代理能夠?qū)⒁患慕Y(jié)果與之前的觀察聯(lián)系起來。在試驗(yàn)結(jié)束時(shí),當(dāng)代理接收到獎(jiǎng)勵(lì)或電擊,關(guān)于獎(jiǎng)勵(lì)位置的不確定性得到解決,我們重放這一集,同時(shí)將關(guān)于獎(jiǎng)勵(lì)位置的模糊信念q2(st)替換為明確的信念q2(sT)。因此,代理帶著對(duì)最終結(jié)果的了解重放這一集。在這個(gè)重放過程中,A矩陣得到訓(xùn)練,建立了整個(gè)情節(jié)中的觀察與獎(jiǎng)勵(lì)位置之間的聯(lián)想聯(lián)系。這可以被描述為一種離線學(xué)習(xí)格式,與在線學(xué)習(xí)形成對(duì)比,在線學(xué)習(xí)中參數(shù)在每一步都進(jìn)行更新。這涉及到主動(dòng)推斷和學(xué)習(xí)的一個(gè)重要方面,即學(xué)習(xí)是一個(gè)較慢的信念更新過程,基于在主動(dòng)推斷過程中積累的證據(jù)。
從技術(shù)角度來看,離線學(xué)習(xí)對(duì)應(yīng)于在特定試驗(yàn)中看到所有結(jié)果后,基于貝葉斯平滑(即,前向和后向傳遞)進(jìn)行推斷后更新模型參數(shù)。這可以與基于貝葉斯濾波的在線學(xué)習(xí)形成對(duì)比。從神經(jīng)生物學(xué)角度來看,隱式的貝葉斯平滑可以與實(shí)證研究中看到的重放事件相關(guān)聯(lián)(Louie & Wilson, 2001; Penny et al., 2013; Pezzulo et al., 2014)。
3 結(jié)果3.1 單一CS學(xué)習(xí)
在主動(dòng)推斷中,不僅感知和推斷,而且學(xué)習(xí)也是通過最小化自由能來實(shí)現(xiàn)的。通過感知最小化自由能可以改善對(duì)驚訝的近似,而相對(duì)于模型參數(shù)最小化自由能實(shí)際上可以減少驚訝,因?yàn)榇砜梢愿鶕?jù)經(jīng)驗(yàn)做出更準(zhǔn)確的預(yù)測。
在隨后的章節(jié)中,我們檢查了由于代理的生成模型中參數(shù)的學(xué)習(xí)而導(dǎo)致的自由能的變化。我們的分析集中在推斷后的自由能及其組成部分,同時(shí)考慮先驗(yàn)信念和觀察。具體來說,我們研究了CS和US的觀察,以及整個(gè)劇集中的總自由能。圖表展示了在每次試驗(yàn)后更新生成模型的參數(shù)時(shí)自由能的波動(dòng)。
圖3A展示了隨著學(xué)習(xí)的進(jìn)行,在觀察到CS后關(guān)于獎(jiǎng)勵(lì)位置q2(s)的信念變化。它是通過觀察CS后q2(s)分布的范圍計(jì)算得出的:R = max(q2(s)) - min(q2(s))。最初,關(guān)于獎(jiǎng)勵(lì)位置的先驗(yàn)信念是[0.5, 0.5],導(dǎo)致學(xué)習(xí)開始時(shí)R值為0。這表明代理尚未將CS與US聯(lián)系起來。隨著學(xué)習(xí)的進(jìn)行,q2(s)將向一側(cè)偏移,R將接近1,表明代理對(duì)CS和US之間的聯(lián)系有強(qiáng)烈的信念。在學(xué)習(xí)這種范式偶然性的過程中,所有劇集的總自由能都會(huì)降低(見圖3B)。讓我們檢查每一步的自由能各個(gè)組成部分。變分自由能,記作F,包含兩個(gè)項(xiàng):復(fù)雜度和準(zhǔn)確性(見方程2.3)。復(fù)雜度表示代理需要更新其信念以解釋感官輸入的程度,而準(zhǔn)確性反映了模型的信念對(duì)感官輸入的預(yù)測程度。這兩個(gè)量都可以用預(yù)測誤差來描述。復(fù)雜度由先驗(yàn)和后驗(yàn)信念之間的差異決定,而準(zhǔn)確性由預(yù)測和觀察結(jié)果之間的差異決定。
當(dāng)我們關(guān)注實(shí)驗(yàn)的第二步,即CS的觀察時(shí),我們在學(xué)習(xí)CS和US之間的偶然性時(shí)看到了F的波動(dòng)(見圖3C)。這是由于復(fù)雜度和準(zhǔn)確性的同時(shí)增長。隨著代理模型(A矩陣)中CS和US之間的關(guān)聯(lián)變得更加精確,代理在呈現(xiàn)CS后對(duì)其獎(jiǎng)勵(lì)位置信念的信心也隨之增加。在學(xué)習(xí)過程的開始,觀察CS后對(duì)獎(jiǎng)勵(lì)位置的信念將是[0.5left 0.5right],表明完全模糊(最大熵),因?yàn)镃S對(duì)代理還沒有意義。隨著學(xué)習(xí)的進(jìn)行,“右提示”CS將越來越多地將對(duì)獎(jiǎng)勵(lì)位置的信念向[0.4left 0.6right]、[0.3left 0.7right]等方向偏移,直到最終達(dá)到[0left 1right]?!白筇崾尽盋S也是如此。由于每個(gè)劇集開始時(shí)對(duì)獎(jiǎng)勵(lì)位置的先驗(yàn)信念總是[0.5left 0.5right],因此在CS觀察后復(fù)雜度項(xiàng)(先驗(yàn)和后驗(yàn)信念之間的差異)增加(見圖3D)。隨著代理的模型更好地解釋特定于一個(gè)獎(jiǎng)勵(lì)位置的CS觀察,CS觀察的準(zhǔn)確性也增加(見圖3E)。
只要后續(xù)步驟中沒有矛盾的信息,從CS觀察中推斷出的關(guān)于獎(jiǎng)勵(lì)位置的信念就會(huì)進(jìn)一步傳播到劇集中,作為后續(xù)步驟的先驗(yàn)信念。在學(xué)習(xí)過程的開始,迷宮臂中獎(jiǎng)勵(lì)或電擊(US)的觀察是唯一可以減少代理對(duì)獎(jiǎng)勵(lì)位置信念中的不確定性的刺激。因此,US觀察后的復(fù)雜度很高(見圖3G)。隨著學(xué)習(xí)的進(jìn)行,US位置的先驗(yàn)信念(CS觀察后傳播的信念)變得越來越接近后驗(yàn)信念(在US觀察后推斷出的),從而降低了復(fù)雜度。與CS觀察后的準(zhǔn)確性相比,US觀察的準(zhǔn)確性保持不變,因?yàn)榇淼哪P驮谑盏姜?jiǎng)勵(lì)或電擊后對(duì)獎(jiǎng)勵(lì)位置的信念具有很高的置信度(見圖3H)。
因此,通過學(xué)習(xí)CS和US之間的偶然性,我們通過減少先驗(yàn)和后驗(yàn)信念之間的差異(復(fù)雜度)來最小化US觀察的F(見圖3F)。復(fù)雜度項(xiàng),也被稱為貝葉斯“驚訝”(Baldi & Itti, 2010),可以被視為一種預(yù)測誤差。一方面,它可以與聯(lián)想學(xué)習(xí)理論中經(jīng)常被稱為驚訝的Rescorla-Wagner模型預(yù)測誤差相比較,該誤差以聯(lián)想強(qiáng)度來表述,但在強(qiáng)化學(xué)習(xí)中被改編為獎(jiǎng)勵(lì)預(yù)測誤差的形式。另一方面,貝葉斯驚訝是關(guān)于世界狀態(tài)的先驗(yàn)和后驗(yàn)信念之間的差異。這些概念共享了期望與現(xiàn)實(shí)之間差異的相似觀念。此外,我們可以在我們的模型中展示學(xué)習(xí)過程中獎(jiǎng)勵(lì)預(yù)測誤差的減少。為了展示這一點(diǎn),我們轉(zhuǎn)向預(yù)期自由能(EFE),這是一個(gè)最小化的函數(shù),用于指定最優(yōu)策略。
如方程2.4所示,EFE包含兩個(gè)組成部分:認(rèn)識(shí)的或信息尋求的組成部分和內(nèi)在的或獎(jiǎng)勵(lì)尋求的組成部分。本質(zhì)上,每個(gè)觀察結(jié)果都對(duì)代理具有其自身的獎(jiǎng)勵(lì)價(jià)值和信息價(jià)值。通過最小化EFE,我們識(shí)別出導(dǎo)致偏好觀察(獎(jiǎng)勵(lì))和提供最大信息量的觀察結(jié)果的一系列行動(dòng)?,F(xiàn)在關(guān)注內(nèi)在組成部分,我們可以展示CS預(yù)測的獎(jiǎng)勵(lì)價(jià)值的動(dòng)態(tài)(見圖4C)和獎(jiǎng)勵(lì)預(yù)測誤差:US觀察后實(shí)際收到的獎(jiǎng)勵(lì)與CS預(yù)測的獎(jiǎng)勵(lì)之間的差異(見圖4D)在學(xué)習(xí)過程中的變化。與Rescorla-Wagner模型一樣,預(yù)測值增加,獎(jiǎng)勵(lì)預(yù)測誤差減少。
第三種驚訝類型,信息理論驚訝或驚訝,是主動(dòng)推斷中最小化的主要焦點(diǎn)。變分自由能F如前所述是驚訝的上界。雖然F包括貝葉斯驚訝(復(fù)雜度),但貝葉斯驚訝與驚訝之間的關(guān)系取決于F中的第二項(xiàng),準(zhǔn)確性。在我們簡單的條件反射模型中,由于準(zhǔn)確性保持不變,F(xiàn)和復(fù)雜度在US觀察時(shí)隨著學(xué)習(xí)而減少。然而,在CS觀察時(shí),準(zhǔn)確性和復(fù)雜度隨著學(xué)習(xí)而增加,導(dǎo)致F沒有變化。
如果我們考慮整個(gè)訓(xùn)練劇集,類似于Rescorla-Wagner模型,整個(gè)劇集的總自由能的最顯著變化將由US獲取期間復(fù)雜度的減少所驅(qū)動(dòng),這意味著對(duì)US的更好預(yù)測。然而,在劇集內(nèi),復(fù)雜度的變化更有可能類似于TD學(xué)習(xí)規(guī)則,其中預(yù)測誤差從US轉(zhuǎn)移到CS。在我們的模型中,獎(jiǎng)勵(lì)預(yù)測誤差也是如此。
從獲取信息的角度來探討聯(lián)想學(xué)習(xí),也可以在主動(dòng)推斷的框架內(nèi)進(jìn)行考察。在這個(gè)背景下,一個(gè)信號(hào)(例如,CS)向觀察者(條件反射實(shí)驗(yàn)中的受試者)傳達(dá)的信息是通過減少觀察者對(duì)世界隨機(jī)方面的不確定性來衡量的。能夠傳達(dá)的信息量受到可用信息(源熵,代表世界那一方面的變化)和觀察到的信號(hào)與未觀察到的(即,隱藏或潛在的)世界狀態(tài)之間的互信息的限制(大致表明觀察和世界狀態(tài)之間的相關(guān)性)。
在我們的實(shí)驗(yàn)中,生成過程的設(shè)計(jì)方式是CS和US之間存在互信息,CS理想地預(yù)測US。為了觀察這種信息如何在學(xué)習(xí)過程中出現(xiàn)在代理的模型中,我們再次轉(zhuǎn)向EFE和方程2.4,但這次關(guān)注認(rèn)識(shí)項(xiàng)。從數(shù)學(xué)上講,認(rèn)識(shí)成分對(duì)應(yīng)于觀察和狀態(tài)之間的互信息,也稱為預(yù)期貝葉斯驚訝。通過學(xué)習(xí),CS和US之間的互信息(CS觀察的信息增益)增加(見圖4A)。同時(shí),由于CS更好地預(yù)測US,減少了不確定性,因此,未來步驟中的信息增益減少,未來觀察對(duì)額外信息的貢獻(xiàn)減少(見圖4B)。
因此,主動(dòng)推斷為學(xué)習(xí)的信息方面與價(jià)值或獎(jiǎng)勵(lì)之間的聯(lián)系提供了數(shù)學(xué)表述。在學(xué)習(xí)過程中,代理通過觀察CS接收到的關(guān)于US的信息增加,減少了對(duì)US的不確定性,從而增加了US的預(yù)期價(jià)值,最小化了收到的和預(yù)測的獎(jiǎng)勵(lì)之間的獎(jiǎng)勵(lì)預(yù)測誤差。然而,與Rescorla-Wagner和強(qiáng)化學(xué)習(xí)模型不同,其中獎(jiǎng)勵(lì)預(yù)測誤差的最小化推動(dòng)了學(xué)習(xí),在主動(dòng)推斷中,這是自由能最小化和對(duì)世界狀態(tài)和代理模型的信念優(yōu)化的結(jié)果。
3.2 阻斷
Rescorla-Wagner模型的成功在很大程度上是由于其能夠解釋線索競爭現(xiàn)象,其中最著名的是阻斷和掩蓋。
在本節(jié)中,我們考察在自由能最小化的背景下,學(xué)習(xí)過程中條件刺激之間的相互作用如何得到解釋。
當(dāng)代理已經(jīng)學(xué)會(huì)了和US之間的關(guān)聯(lián),并在同一個(gè)試驗(yàn)中被呈現(xiàn)一個(gè)以前未知的條件刺激時(shí),就會(huì)出現(xiàn)阻斷現(xiàn)象。在這種情況下,為了重現(xiàn)動(dòng)物學(xué)習(xí),代理不應(yīng)該學(xué)習(xí)CS2和US之間的關(guān)聯(lián)。
為了模擬阻斷現(xiàn)象,我們在模型中引入了另一個(gè)條件刺激,它在CS1之后完美地預(yù)測了獎(jiǎng)勵(lì)的位置。此時(shí),代理已經(jīng)學(xué)會(huì)了CS1和US之間的關(guān)聯(lián)。因此,我們在模型中增加了一個(gè)額外的觀察和相應(yīng)的模態(tài),以適應(yīng)(見圖5)?,F(xiàn)在在位置5呈現(xiàn),CS2在位置4呈現(xiàn)。
Rescorla-Wagner模型通過考慮預(yù)測誤差來解釋這一現(xiàn)象:如果CS1完美地預(yù)測了US,那么在US呈現(xiàn)時(shí),預(yù)測誤差將為零,導(dǎo)致沒有進(jìn)一步的學(xué)習(xí)。從自由能的角度來看,我們可以將這種預(yù)測誤差與復(fù)雜度項(xiàng)進(jìn)行類比。事實(shí)上,將引入我們的模型中,其中和US之間的關(guān)聯(lián)已經(jīng)建立,不會(huì)在US呈現(xiàn)時(shí)導(dǎo)致復(fù)雜度或自由能的變化(見圖6A和6B)。這意味著代理在觀察后不會(huì)進(jìn)一步改變其對(duì)獎(jiǎng)勵(lì)位置的信念,因?yàn)樗鼪]有提供額外的信息(見圖6C)。
然而,在主動(dòng)推斷的背景下模擬阻斷并不那么直接。在我們的模型中,如果在代理穿越迷宮的過程中被觀察到,和US之間的偶然性將以與CS1類似的方式被學(xué)習(xí)。這一過程也將導(dǎo)致學(xué)習(xí)試驗(yàn)中總自由能的最小化。然而,變化不會(huì)出現(xiàn)在或US觀察后的自由能的復(fù)雜度項(xiàng)中,而是出現(xiàn)在CS2觀察的準(zhǔn)確性項(xiàng)中。即使我們抽象出具體的學(xué)習(xí)機(jī)制,并將學(xué)習(xí)視為最小化自由能的手段,加強(qiáng)代理A矩陣中CS2和US之間的聯(lián)系將導(dǎo)致準(zhǔn)確性增加,從而相應(yīng)地減少CS2觀察的自由能(見圖7)。
準(zhǔn)確性可以通過我們的似然模型(A矩陣)如何好地預(yù)測我們的后驗(yàn)推斷信念q(s)來描述。由于關(guān)于獎(jiǎng)勵(lì)位置的信念已經(jīng)通過CS1更新,并進(jìn)一步傳播到劇集中,調(diào)整A矩陣參數(shù)以對(duì)應(yīng)CS2和US之間的偶然性與推斷信念一致,將增加準(zhǔn)確性并相應(yīng)地減少自由能。
這個(gè)模型實(shí)際上可以很好地說明貝葉斯驚訝(復(fù)雜度)和驚訝之間的區(qū)別。代理在觀察后信念不會(huì)改變(q(s) = p(s)),因此貝葉斯驚訝(復(fù)雜度)將為零(見圖7B)。然而,由于這個(gè)觀察的準(zhǔn)確性低,代理仍然會(huì)“驚訝”(-ln p(o) > 0),并通過學(xué)習(xí)最大化它。
因此,直接將添加到模型中而不進(jìn)行任何進(jìn)一步修改的方法無法重現(xiàn)阻斷現(xiàn)象。我們可以探索幾種將阻斷納入我們模型的選項(xiàng)。一種方法是假設(shè)在這個(gè)模型中,生物體的學(xué)習(xí)僅與具有非零值的觀察有關(guān)(適當(dāng)?shù)腃條目=0的觀察)。因此,在學(xué)習(xí)過程中,代理主要專注于最小化與這種觀察相關(guān)的自由能。在我們的情況下,它將是獎(jiǎng)勵(lì)或電擊觀察。這種方法有效地將我們的模型簡化為Rescorla-Wagner預(yù)測誤差類型的學(xué)習(xí),其目標(biāo)是通過復(fù)雜度最小化來最小化與無條件刺激(US)觀察相關(guān)的自由能(F)的組成部分。為了納入這一概念,我們可以通過在方程2.9中將F作為預(yù)測誤差來修改我們的學(xué)習(xí)規(guī)則:
這種使用自由能來調(diào)節(jié)學(xué)習(xí)的方法之前已經(jīng)在易變環(huán)境中的情感推斷背景下被考慮過(Joffily & Coricelli, 2013)。然而,我們在這里追求一種更簡單的方法,它與包含注意力的強(qiáng)化學(xué)習(xí)模型更為密切相關(guān)。
3.2.1 阻斷、認(rèn)識(shí)性可供性和注意力
在主動(dòng)推斷的背景下模擬阻斷的一個(gè)合理方法是通過阻斷認(rèn)識(shí)性行為,如注意力。
除了假設(shè)注意力為常數(shù)系數(shù)的Rescorla-Wagner模型外,還有眾所周知的聯(lián)想學(xué)習(xí)模型將注意力作為學(xué)習(xí)過程中潛在的可變參數(shù)。兩個(gè)突出的例子是Macintosh模型和Pearce-Hall模型。
Macintosh模型提出,在學(xué)習(xí)過程中,動(dòng)物會(huì)將更多的注意力分配給之前已被證明是US的可靠預(yù)測因子的刺激(Mackintosh, 1975)。根據(jù)這種觀點(diǎn),動(dòng)物學(xué)會(huì)選擇性地關(guān)注可靠預(yù)測試驗(yàn)結(jié)果的相關(guān)刺激,同時(shí)忽略不貢獻(xiàn)于US預(yù)測的無關(guān)刺激(Pearce & Mackintosh, 2010)。
Pearce-Hall模型認(rèn)為注意力在學(xué)習(xí)中扮演著不同的角色。根據(jù)該模型,注意力的作用是促進(jìn)更快的學(xué)習(xí),并且指向那些不是后續(xù)事件準(zhǔn)確預(yù)測因子的刺激(Pearce & Hall, 1980)。
????
符號(hào)表示與Macintosh模型相似;然而,對(duì)CS的注意力α在條件反射開始時(shí)會(huì)很高,并且隨著學(xué)習(xí)的進(jìn)行會(huì)下降。因此,這兩個(gè)模型提出了對(duì)比性的注意力機(jī)制,突出了其在學(xué)習(xí)中作用的不同視角。然而,我們可以探索如何在主動(dòng)推斷的框架內(nèi)表達(dá)相似的注意力原則,并在自由能最小化的統(tǒng)一框架下進(jìn)行整合。
注意力機(jī)制,在我們之前的模擬中,我們假設(shè)代理總是接收到具有同等顯著性的CS觀察。然而,在主動(dòng)推斷中,注意力可以被視為一種旨在獲取信息的行為,如在掃視模型中所展示的那樣(Parr & Friston, 2017)。為了將選擇性注意力納入我們的模型,我們可以引入一個(gè)額外的動(dòng)作:“關(guān)注提示”(見圖8A)。這個(gè)概念還引入了額外的狀態(tài),代理需要“訪問”或“關(guān)注”以接收CS觀察。在主動(dòng)推斷中,注意力通常被視為一種隱蔽的行為,與掃視眼動(dòng)等顯性行為發(fā)揮相同的作用(Rizzolatti等人,1987;Parr & Friston, 2018;Limanowski, 2022)。這意味著我們也可以將“關(guān)注提示”讀作“看著提示”。只有當(dāng)代理執(zhí)行這個(gè)動(dòng)作時(shí),CS觀察才會(huì)對(duì)代理可用。通過這一舉措,我們將我們的代理從被動(dòng)學(xué)習(xí)者轉(zhuǎn)變?yōu)榉e極學(xué)習(xí)者。
動(dòng)作是通過遵循最小化預(yù)期自由能(EFE)的策略來選擇的。如上所述,EFE包含一個(gè)內(nèi)在的信息增益項(xiàng)和一個(gè)外在的獎(jiǎng)勵(lì)項(xiàng)。信息增益對(duì)應(yīng)于狀態(tài)和觀察之間的預(yù)期貝葉斯驚訝和互信息(Itti & Baldi, 2008)。由于電擊的厭惡價(jià)值高于食物的獎(jiǎng)勵(lì)價(jià)值,當(dāng)對(duì)食物位置的不確定性仍未解決時(shí),的信息增益將高于信息增益和US的價(jià)值(見圖8B)。因此,代理將選擇關(guān)注的動(dòng)作。在接收到觀察后,由于不確定性得到解決,US的獎(jiǎng)勵(lì)價(jià)值增加,因?yàn)榇韺?duì)食物位置有把握,并且鑒于CS沒有獎(jiǎng)勵(lì)價(jià)值,在動(dòng)作選擇方面變得無關(guān)緊要(見圖8C)。因此,代理將關(guān)注,但不會(huì)關(guān)注(見圖8A)。這種注意力的概念與Macintosh的觀點(diǎn)相似,即在學(xué)習(xí)過程中,動(dòng)物將更多的注意力分配給可靠預(yù)測US的CS,換句話說,攜帶更多信息。
總結(jié),主動(dòng)推斷下的阻斷可以被解釋為通過移除不進(jìn)一步解決不確定性的動(dòng)作的預(yù)期信息增益或認(rèn)識(shí)性可供性來阻斷探索性行為。由于某些認(rèn)識(shí)性動(dòng)作被阻斷,因此沒有學(xué)習(xí)關(guān)聯(lián),因此也沒有對(duì)利用性行為的貢獻(xiàn)。換句話說,我們的合成代理學(xué)習(xí)了一種認(rèn)識(shí)性習(xí)慣(Friston等人,2016),阻止了新關(guān)聯(lián)的獲取。
3.3 新穎性與注意力
上述模型在只有一個(gè)CS存在的先前實(shí)驗(yàn)中不會(huì)有效運(yùn)作。在這種情況下,如果代理缺乏關(guān)于該特定觀察中存在有用信息的先驗(yàn)知識(shí),它就不會(huì)選擇關(guān)注CS的動(dòng)作。因此,與這一動(dòng)作相關(guān)的信息增益將會(huì)很低。為了解決這個(gè)問題,可以在學(xué)習(xí)過程中加入一個(gè)額外的項(xiàng)——即新穎性項(xiàng),它在主動(dòng)推斷框架內(nèi)考慮好奇心(Friston等人,2017)。在主動(dòng)推斷中,新穎性僅僅是伴隨預(yù)期關(guān)于潛在狀態(tài)的信息增益的關(guān)于參數(shù)的預(yù)期信息增益,通常被稱為顯著性(Schmidhuber, 2010; Barto等人,2013; Schwartenbeck等人,2019; Parr & Friston, 2018)。
EFE中的新穎性項(xiàng)使代理能夠優(yōu)先選擇那些導(dǎo)致觀察結(jié)果能夠在其學(xué)習(xí)過程中引起代理模型最顯著變化的動(dòng)作。通過整合新穎性項(xiàng),預(yù)期自由能(EFE)可以表示如下:
新穎性項(xiàng)依賴于代理對(duì)A矩陣的信念所編碼的不確定性,用狄利克雷參數(shù)表示,記作q(A)。在我們的模型中,我們假設(shè)代理對(duì)環(huán)境和潛在獎(jiǎng)勵(lì)位置有所熟悉,類似于動(dòng)物實(shí)驗(yàn)中進(jìn)行的預(yù)學(xué)習(xí)程序。因此,q(A)的濃度參數(shù)通常會(huì)很高,除了與CS觀察相關(guān)的矩陣部分除外。新穎性項(xiàng)量化了在特定策略下學(xué)習(xí)導(dǎo)致的A矩陣的預(yù)期變化。由于學(xué)習(xí)發(fā)生在劇集結(jié)束時(shí),我們使用前一個(gè)劇集中積累的信念來計(jì)算新穎性。
如圖9B所示,隨著學(xué)習(xí)的進(jìn)行,旨在關(guān)注CS的動(dòng)作的新穎性會(huì)降低,這與Pearce和Hall提出的注意力概念一致。然而,與他們的模型不同,其中注意力直接受US預(yù)測誤差的影響,我們模型中的新穎性并不直接依賴于US觀察或獎(jiǎng)勵(lì)預(yù)測誤差的復(fù)雜性。盡管如此,這兩個(gè)術(shù)語都以類似的方式隨著學(xué)習(xí)而減少。
因此,為了建立CS和US之間的關(guān)聯(lián),代理必須首先識(shí)別環(huán)境中的潛在CS事件,并對(duì)其進(jìn)行定向或關(guān)注。選擇相關(guān)觀察的過程可以被概念化為最小化行動(dòng)選擇的預(yù)期自由能。預(yù)期自由能的兩個(gè)組成部分,在定向和注意力中發(fā)揮作用,是新穎性和顯著性——即分別與參數(shù)和狀態(tài)相關(guān)聯(lián)的預(yù)期信息增益。只要與CS相關(guān)的新穎性和顯著性的總和超過了與US相關(guān)的信息增益和“獎(jiǎng)勵(lì)”,代理就會(huì)優(yōu)先關(guān)注CS。在學(xué)習(xí)的初期階段,對(duì)CS的關(guān)注將由新穎性驅(qū)動(dòng),隨著學(xué)習(xí)的進(jìn)行,新穎性逐漸降低。最終,注意力將轉(zhuǎn)向從CS觀察中獲得的信息增益,這反過來隨著學(xué)習(xí)的進(jìn)行而增加(見圖9B)。與之前的模擬一致,學(xué)習(xí)伴隨著先驗(yàn)和后驗(yàn)信念之間關(guān)于US的預(yù)測誤差的減少,這被表示為復(fù)雜性。
3.3.1 潛在抑制
通過利用新穎性作為注意力的機(jī)制,可以對(duì)潛在抑制現(xiàn)象提供解釋,這對(duì)Rescorla-Wagner模型來說是一個(gè)挑戰(zhàn)。潛在抑制指的是,如果動(dòng)物預(yù)先暴露于后來作為CS的刺激,那么CS和US之間的聯(lián)想學(xué)習(xí)就會(huì)被削弱。在我們的模型中,這可以歸因于這種刺激的新穎性較低,導(dǎo)致代理對(duì)該特定CS缺乏關(guān)注。這種效應(yīng)可以通過增加A矩陣中CS觀察的初始狄利克雷參數(shù)來模擬。另一種方法是在實(shí)驗(yàn)的初始階段使CS變得無信息,在這種情況下,CS是隨機(jī)呈現(xiàn)的,與US沒有任何聯(lián)系(見圖10)。在這種情況下,CS觀察的新穎性會(huì)降低,而顯著性保持不變。最終,代理會(huì)將其策略轉(zhuǎn)變?yōu)橹苯咏咏鼭撛讵?jiǎng)勵(lì)位置,因?yàn)榕cUS觀察相關(guān)的預(yù)期自由能的其他項(xiàng)(預(yù)期信息和價(jià)值)的總和高于CS的新穎性。即使CS恢復(fù)了其信息屬性,這種策略選擇也會(huì)持續(xù)存在。值得注意的是,潛在抑制效應(yīng)的常見解釋是CS注意力的下降(Lubow等人,1976),在Rescorla-Wagner模型中,這可以被概念化為上述alpha參數(shù)的減少。
3.3.2 阻斷和新穎性
在阻斷實(shí)驗(yàn)中,CS2的新穎性將保持較高,這與Pearce-Hall模型的預(yù)測相反。然而,它將低于與CS1觀察之前相關(guān)的信息增益以及CS1觀察和注意力解決不確定性之后US的價(jià)值(見圖11)。因此,代理的行為將與前面的模型一致,最初關(guān)注CS1,然后向獎(jiǎng)勵(lì)移動(dòng)。
盡管阻斷是一個(gè)有充分記錄的現(xiàn)象,但它并不總是在實(shí)驗(yàn)中一致地被觀察到(Maes等人,2016)。在我們的模型中,這種失敗可以通過各種因素來解釋。例如,與US的獎(jiǎng)勵(lì)價(jià)值相比,與相關(guān)的新穎性價(jià)值較高可能會(huì)起作用?;蛘?,可能具有與世界其他狀態(tài)相關(guān)的一些其他信息增益方面,這將吸引對(duì)它的注意力。因此,如果通過增加其顯著性使代理的注意力轉(zhuǎn)向,阻斷效應(yīng)將會(huì)更弱(Denton & Kruschke, 2006)。
3.4 遮蔽現(xiàn)象
遮蔽現(xiàn)象也是在條件反射中觀察到的一種現(xiàn)象,當(dāng)兩個(gè)新的條件刺激(CS)在試驗(yàn)中與無條件刺激(US)配對(duì)時(shí),會(huì)導(dǎo)致與單一CS試驗(yàn)相比條件反射更弱或?qū)W習(xí)速度更慢。與阻斷現(xiàn)象類似,經(jīng)典模型通過簡單的預(yù)測誤差來解釋這一現(xiàn)象。我們的模型表明,在遮蔽現(xiàn)象中,新穎性、顯著性和獎(jiǎng)勵(lì)價(jià)值都是需要考慮的重要因素。在這種情況下,兩個(gè)CS在學(xué)習(xí)開始時(shí)都是模糊的。是兩個(gè)不同的提示,例如聲音和光,而我們稱第一個(gè)CS為代理首先關(guān)注的提示,無論是。圖12顯示了在有兩個(gè)CS的學(xué)習(xí)(實(shí)線)與單一CS的學(xué)習(xí)(虛線)期間第一次CS觀察的EFE差異。在第一種情況下,對(duì)于相同數(shù)量的訓(xùn)練劇集,學(xué)習(xí)速度會(huì)更慢。
這種差異可以通過代理在觀察其中一個(gè)CS后的下一個(gè)動(dòng)作來解釋,該動(dòng)作由EFE決定(見圖13)。
在最初的幾次試驗(yàn)中,兩個(gè)條件刺激(CS)的新奇性將占據(jù)主導(dǎo)地位,這導(dǎo)致代理同時(shí)關(guān)注這兩個(gè)線索,每次試驗(yàn)都會(huì)減少新奇性并增加兩個(gè)線索的顯著性(信息增益)(見圖13A)。經(jīng)過幾次試驗(yàn)后,每個(gè)條件刺激將提供足夠的信息來增加直接前往獎(jiǎng)勵(lì)位置(US,紅色線)的策略價(jià)值,而不是觀察第二個(gè)條件刺激(青色線)。在這個(gè)階段,代理將只關(guān)注兩個(gè)條件刺激中的一個(gè),然后直接前往獎(jiǎng)勵(lì)位置(見圖13B)。因此,與單個(gè)條件刺激試驗(yàn)相比,學(xué)習(xí)兩個(gè)條件刺激與獎(jiǎng)勵(lì)之間的關(guān)聯(lián)性將需要更長的時(shí)間。
4 結(jié)論
在本研究中,我們構(gòu)建了一個(gè)主動(dòng)推理模型,其中代理學(xué)習(xí)建立條件刺激(CS)和無條件刺激(US)之間的關(guān)聯(lián)。我們的工作闡明了學(xué)習(xí)過程是自由能的最小化,并將這種方法與經(jīng)典聯(lián)想學(xué)習(xí)模型進(jìn)行了比較。
20世紀(jì)最具影響力的模型之一,Rescorla-Wagner模型,認(rèn)為學(xué)習(xí)是通過最小化預(yù)測誤差——預(yù)測結(jié)果與觀察結(jié)果之間的差異來實(shí)現(xiàn)的。這一觀點(diǎn)已應(yīng)用于強(qiáng)化學(xué)習(xí)領(lǐng)域,作為獎(jiǎng)勵(lì)預(yù)測誤差——代理預(yù)測和觀察到的狀態(tài)值之間的差異。在主動(dòng)推理中,學(xué)習(xí)是通過調(diào)整代理的生成模型參數(shù)來最小化自由能實(shí)現(xiàn)的。自由能可以被視為兩種預(yù)測誤差的結(jié)合:復(fù)雜性和準(zhǔn)確性。在我們的模型中,我們強(qiáng)調(diào)了這兩種術(shù)語的動(dòng)態(tài)以及在學(xué)習(xí)過程中對(duì)世界狀態(tài)的信念的重要性。盡管我們的模型也顯示出獎(jiǎng)勵(lì)預(yù)測誤差的減少,但重要的是要注意,這種減少是自由能最小化的結(jié)果,而不是學(xué)習(xí)的主要驅(qū)動(dòng)力。
自由能原理進(jìn)一步允許我們建立代理在觀察到CS后對(duì)US的不確定性減少與學(xué)習(xí)過程中US的獎(jiǎng)勵(lì)價(jià)值增加之間的聯(lián)系。這種聯(lián)系之前在Rescorla的作品中討論過,但沒有被整合到模型中。
在我們的模擬中,我們在展示阻斷現(xiàn)象時(shí)遇到了挑戰(zhàn)。這一困難源于準(zhǔn)確性項(xiàng)的影響,該準(zhǔn)確性項(xiàng)在學(xué)習(xí)第二個(gè)新CS與US之間的關(guān)聯(lián)性時(shí)增加并最小化自由能,注意到兩個(gè)CS的顯著性是相同的。為了解決這個(gè)問題,我們使用注意力的概念巧妙地調(diào)整了我們的模擬,在主動(dòng)推理中,這可以被解釋為旨在獲得最有信息量的觀察的行動(dòng)。將這一概念應(yīng)用于聯(lián)想學(xué)習(xí),類似于Mackintosh的模型,該模型假設(shè)動(dòng)物會(huì)將注意力分配給之前更好地預(yù)測US的CS。這種方法使我們能夠證明代理朝向第一個(gè)CS,同時(shí)忽略第二個(gè)CS,導(dǎo)致對(duì)第二個(gè)CS的學(xué)習(xí)缺乏,從而展示了阻斷。
然而,這種類型的注意力的引入也揭示了我們的基本模型在處理單個(gè)新CS時(shí)的缺陷。如果CS是新的,還沒有攜帶任何信息,代理將不會(huì)關(guān)注這個(gè)線索,導(dǎo)致沒有學(xué)習(xí)。為了解決這個(gè)問題,我們引入了新奇性的概念,這在主動(dòng)推理中用于解釋好奇行為。應(yīng)用于聯(lián)想學(xué)習(xí),新奇性作為一個(gè)術(shù)語,負(fù)責(zé)對(duì)新CS的關(guān)注,類似于Pearce-Hall模型。我們證明了在學(xué)習(xí)過程的開始,CS的新奇性很高,是代理關(guān)注CS的主要原因。然而,隨著學(xué)習(xí)的進(jìn)行,關(guān)注CS的動(dòng)機(jī)發(fā)生了變化:新奇性減少,而CS和US之間的互信息增加,促使代理因?yàn)镃S的顯著性或信息性而關(guān)注CS。
將新奇性項(xiàng)納入阻斷模型,也有助于解釋在復(fù)制這一現(xiàn)象時(shí)頻繁出現(xiàn)的失敗,而Rescorla-Wagner、Mackintosh和Pearce-Hall模型單獨(dú)無法做到這一點(diǎn)。此外,使用新奇性項(xiàng)使我們能夠模擬潛伏抑制現(xiàn)象,這是Pearce-Hall模型的一個(gè)強(qiáng)項(xiàng),但Rescorla-Wagner或Mackintosh模型并非如此。
此外,我們成功地模擬了遮蔽現(xiàn)象,在我們的模型中,這取決于新奇性、顯著性和獎(jiǎng)勵(lì)之間的相互作用,與其他使用單一獎(jiǎng)勵(lì)預(yù)測誤差的模型不同??傊?,我們的工作突出了主動(dòng)推理如何將聯(lián)想學(xué)習(xí)的既定模型中的思想統(tǒng)一到一個(gè)全面的框架中。我們提出自由能原理作為一個(gè)潛在的框架,可以最充分地解釋聯(lián)想學(xué)習(xí)過程中發(fā)生的事情。需要注意的是,本文只呈現(xiàn)了有限數(shù)量的模擬實(shí)驗(yàn),而聯(lián)想學(xué)習(xí)的文獻(xiàn)是廣泛的。因此,進(jìn)一步的研究應(yīng)該集中在模擬現(xiàn)有的學(xué)習(xí)現(xiàn)象和設(shè)計(jì)新的實(shí)驗(yàn)來測試學(xué)習(xí)原則作為自由能最小化。
https://www.researchgate.net/publication/384268822_Associative_Learning_and_Active_Inference
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.