99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

解釋AGI,實(shí)現(xiàn)AGI,聯(lián)想學(xué)習(xí)與主動(dòng)推理

0
分享至

Associative Learning and Active Inference

聯(lián)想學(xué)習(xí)與主動(dòng)推理

https://www.researchgate.net/publication/384268822_Associative_Learning_and_Active_Inference


摘要

聯(lián)想學(xué)習(xí)是一種行為現(xiàn)象,個(gè)體基于刺激或事件的共同出現(xiàn)而發(fā)展出它們之間的聯(lián)系。最初由巴甫洛夫在他的條件反射實(shí)驗(yàn)中研究,學(xué)習(xí)的基本原則已經(jīng)通過發(fā)現(xiàn)廣泛的學(xué)習(xí)現(xiàn)象而得到擴(kuò)展?;谧钚』?jiǎng)勵(lì)預(yù)測誤差的概念,已經(jīng)開發(fā)出了計(jì)算模型。特別是Rescorla-Wagner模型,是一個(gè)極大地影響了強(qiáng)化學(xué)習(xí)領(lǐng)域的著名模型。然而,這些模型的簡單性限制了它們充分解釋與學(xué)習(xí)相關(guān)的行為現(xiàn)象的多樣性。在本研究中,我們采用了自由能原理,該原理表明生物系統(tǒng)努力在其對(duì)世界的內(nèi)部模型下最小化驚訝或不確定性。我們將學(xué)習(xí)過程視為自由能的最小化,并研究其與Rescorla-Wagner模型的關(guān)系,重點(diǎn)關(guān)注學(xué)習(xí)的信息方面、不同類型的驚訝以及基于信念和價(jià)值的預(yù)測誤差。此外,我們探討了如何在主動(dòng)推斷框架內(nèi)模擬眾所周知的行為現(xiàn)象,如阻斷、掩蓋和潛在抑制。我們通過使用注意力的信息和新穎性方面來實(shí)現(xiàn)這一點(diǎn),這些方面與看似矛盾的模型(如Mackintosh和Pearce-Hall模型)提出的類似想法共享。因此,我們證明了自由能原理,作為一個(gè)從第一性原理推導(dǎo)出的理論框架,可以整合基于經(jīng)驗(yàn)實(shí)驗(yàn)提出的聯(lián)想學(xué)習(xí)的思想和模型,并作為更好地理解大腦聯(lián)想學(xué)習(xí)背后的計(jì)算過程的框架。

4 結(jié)論

在本研究中,我們構(gòu)建了一個(gè)主動(dòng)推理模型,其中代理學(xué)習(xí)建立條件刺激(CS)和無條件刺激(US)之間的關(guān)聯(lián)。我們的工作闡明了學(xué)習(xí)過程是自由能的最小化,并將這種方法與經(jīng)典聯(lián)想學(xué)習(xí)模型進(jìn)行了比較。

20世紀(jì)最具影響力的模型之一,Rescorla-Wagner模型,認(rèn)為學(xué)習(xí)是通過最小化預(yù)測誤差——預(yù)測結(jié)果與觀察結(jié)果之間的差異來實(shí)現(xiàn)的。這一觀點(diǎn)已應(yīng)用于強(qiáng)化學(xué)習(xí)領(lǐng)域,作為獎(jiǎng)勵(lì)預(yù)測誤差——代理預(yù)測和觀察到的狀態(tài)值之間的差異。在主動(dòng)推理中,學(xué)習(xí)是通過調(diào)整代理的生成模型參數(shù)來最小化自由能實(shí)現(xiàn)的。自由能可以被視為兩種預(yù)測誤差的結(jié)合:復(fù)雜性和準(zhǔn)確性。在我們的模型中,我們強(qiáng)調(diào)了這兩種術(shù)語的動(dòng)態(tài)以及在學(xué)習(xí)過程中對(duì)世界狀態(tài)的信念的重要性。盡管我們的模型也顯示出獎(jiǎng)勵(lì)預(yù)測誤差的減少,但重要的是要注意,這種減少是自由能最小化的結(jié)果,而不是學(xué)習(xí)的主要驅(qū)動(dòng)力。

自由能原理進(jìn)一步允許我們建立代理在觀察到CS后對(duì)US的不確定性減少與學(xué)習(xí)過程中US的獎(jiǎng)勵(lì)價(jià)值增加之間的聯(lián)系。這種聯(lián)系之前在Rescorla的作品中討論過,但沒有被整合到模型中。

在我們的模擬中,我們在展示阻斷現(xiàn)象時(shí)遇到了挑戰(zhàn)。這一困難源于準(zhǔn)確性項(xiàng)的影響,該準(zhǔn)確性項(xiàng)在學(xué)習(xí)第二個(gè)新CS與US之間的關(guān)聯(lián)性時(shí)增加并最小化自由能,注意到兩個(gè)CS的顯著性是相同的。為了解決這個(gè)問題,我們使用注意力的概念巧妙地調(diào)整了我們的模擬,在主動(dòng)推理中,這可以被解釋為旨在獲得最有信息量的觀察的行動(dòng)。將這一概念應(yīng)用于聯(lián)想學(xué)習(xí),類似于Mackintosh的模型,該模型假設(shè)動(dòng)物會(huì)將注意力分配給之前更好地預(yù)測US的CS。這種方法使我們能夠證明代理朝向第一個(gè)CS,同時(shí)忽略第二個(gè)CS,導(dǎo)致對(duì)第二個(gè)CS的學(xué)習(xí)缺乏,從而展示了阻斷。

然而,這種類型的注意力的引入也揭示了我們的基本模型在處理單個(gè)新CS時(shí)的缺陷。如果CS是新的,還沒有攜帶任何信息,代理將不會(huì)關(guān)注這個(gè)線索,導(dǎo)致沒有學(xué)習(xí)。為了解決這個(gè)問題,我們引入了新奇性的概念,這在主動(dòng)推理中用于解釋好奇行為。應(yīng)用于聯(lián)想學(xué)習(xí),新奇性作為一個(gè)術(shù)語,負(fù)責(zé)對(duì)新CS的關(guān)注,類似于Pearce-Hall模型。我們證明了在學(xué)習(xí)過程的開始,CS的新奇性很高,是代理關(guān)注CS的主要原因。然而,隨著學(xué)習(xí)的進(jìn)行,關(guān)注CS的動(dòng)機(jī)發(fā)生了變化:新奇性減少,而CS和US之間的互信息增加,促使代理因?yàn)镃S的顯著性或信息性而關(guān)注CS。

將新奇性項(xiàng)納入阻斷模型,也有助于解釋在復(fù)制這一現(xiàn)象時(shí)頻繁出現(xiàn)的失敗,而Rescorla-Wagner、Mackintosh和Pearce-Hall模型單獨(dú)無法做到這一點(diǎn)。此外,使用新奇性項(xiàng)使我們能夠模擬潛伏抑制現(xiàn)象,這是Pearce-Hall模型的一個(gè)強(qiáng)項(xiàng),但Rescorla-Wagner或Mackintosh模型并非如此。

此外,我們成功地模擬了遮蔽現(xiàn)象,在我們的模型中,這取決于新奇性、顯著性和獎(jiǎng)勵(lì)之間的相互作用,與其他使用單一獎(jiǎng)勵(lì)預(yù)測誤差的模型不同??傊?,我們的工作突出了主動(dòng)推理如何將聯(lián)想學(xué)習(xí)的既定模型中的思想統(tǒng)一到一個(gè)全面的框架中。我們提出自由能原理作為一個(gè)潛在的框架,可以最充分地解釋聯(lián)想學(xué)習(xí)過程中發(fā)生的事情。需要注意的是,本文只呈現(xiàn)了有限數(shù)量的模擬實(shí)驗(yàn),而聯(lián)想學(xué)習(xí)的文獻(xiàn)是廣泛的。因此,進(jìn)一步的研究應(yīng)該集中在模擬現(xiàn)有的學(xué)習(xí)現(xiàn)象和設(shè)計(jì)新的實(shí)驗(yàn)來測試學(xué)習(xí)原則作為自由能最小化。


1 引言

聯(lián)想學(xué)習(xí)是動(dòng)物獲取其環(huán)境中事件之間預(yù)測關(guān)系知識(shí)的過程?;痉诸惛鶕?jù)所涉及的關(guān)聯(lián)性質(zhì)區(qū)分經(jīng)典條件反射和操作性條件反射。其他分類還區(qū)分觀察學(xué)習(xí)、潛在學(xué)習(xí)和社會(huì)學(xué)習(xí)。然而,在我們的文章中,我們僅限于前兩種類型,重點(diǎn)是經(jīng)典條件反射。

在經(jīng)典或巴甫洛夫條件反射中,動(dòng)物學(xué)會(huì)將兩個(gè)線索聯(lián)系起來。第一個(gè)線索,稱為條件刺激(CS),從外部環(huán)境的背景中脫穎而出(例如,光、聲音或獨(dú)特的觸覺刺激)。第二個(gè)線索,稱為無條件刺激(US),是一個(gè)相關(guān)的強(qiáng)化事件(如食物或水)或懲罰事件(如電擊)。通過反復(fù)配對(duì),動(dòng)物形成了CS和US之間的關(guān)聯(lián),導(dǎo)致條件反應(yīng)(CR),例如狗在鈴聲響起時(shí)流口水,正如巴甫洛夫(1927)著名地展示的那樣。在經(jīng)典條件反射中,形成的關(guān)聯(lián)被稱為刺激-結(jié)果(S-O)關(guān)聯(lián)。在巴甫洛夫?qū)W派中,它被視為神經(jīng)系統(tǒng)對(duì)世界事件之間關(guān)系的預(yù)期表征的基本適應(yīng)能力(Anokhin, 1974)。

經(jīng)典條件反射中最常用的方法是延遲條件反射和痕跡條件反射。延遲條件反射涉及呈現(xiàn)CS,然后在它仍在進(jìn)行時(shí)引入U(xiǎn)S,使兩個(gè)刺激重疊。在痕跡條件反射中,CS和US的呈現(xiàn)之間存在時(shí)間間隔。痕跡條件反射的關(guān)鍵特征是CS和US不重疊;受試者必須在痕跡間隔期間保持對(duì)CS的記憶,以將CS與US聯(lián)系起來。這種類型的條件反射被認(rèn)為涉及更復(fù)雜的認(rèn)知過程,因?yàn)樾枰ㄟ^記憶來彌合時(shí)間間隔。

操作性或工具性條件反射涉及行為與其后果之間的關(guān)聯(lián)。在這種情況下可以形成兩種類型的關(guān)聯(lián)。第一種是刺激-反應(yīng)(S-R)關(guān)聯(lián),其中CS與特定的強(qiáng)化行為聯(lián)系起來。第二種是反應(yīng)-結(jié)果(R-O)關(guān)聯(lián),它直接將行為與強(qiáng)化物聯(lián)系起來。

經(jīng)典和操作性條件反射已被證明是所有脊椎動(dòng)物中的普遍學(xué)習(xí)現(xiàn)象(Macphail, 1982)。這些原則是神經(jīng)科學(xué)和心理學(xué)領(lǐng)域?qū)W習(xí)理論中的基礎(chǔ)概念。此外,它們?yōu)閺?qiáng)化學(xué)習(xí)的發(fā)展鋪平了道路,強(qiáng)化學(xué)習(xí)是一個(gè)在現(xiàn)代機(jī)器學(xué)習(xí)算法中廣泛使用的突出領(lǐng)域。

尋找聯(lián)想學(xué)習(xí)的基本原則是20世紀(jì)生理學(xué)家的主要關(guān)注點(diǎn)。最初,巴甫洛夫提出兩個(gè)事件的緊密時(shí)間配對(duì)足以形成關(guān)聯(lián)。然而,1960年代和1970年代積累的證據(jù)挑戰(zhàn)了這一觀點(diǎn),并揭示了僅時(shí)間配對(duì)既不是關(guān)聯(lián)形成的必要條件,也不是充分條件。這一時(shí)期的關(guān)鍵發(fā)現(xiàn)包括線索競爭現(xiàn)象,如阻斷、掩蓋和真正的隨機(jī)對(duì)照實(shí)驗(yàn)。

阻斷發(fā)生在動(dòng)物首先學(xué)會(huì)CS1預(yù)測US的發(fā)生,隨后,當(dāng)與CS1一起呈現(xiàn)額外的線索CS2時(shí),它未能在CS2和US之間建立關(guān)聯(lián)。掩蓋指的是當(dāng)CS1在學(xué)習(xí)階段始終與CS2一起呈現(xiàn)時(shí),CS1與US之間的關(guān)聯(lián)強(qiáng)度減弱。Rescorla的真正隨機(jī)對(duì)照實(shí)驗(yàn)表明,即使在CS和US之間保持完美的時(shí)間連續(xù)性時(shí),US在沒有CS的情況下呈現(xiàn)也會(huì)導(dǎo)致關(guān)聯(lián)強(qiáng)度的退化。這些和其他實(shí)驗(yàn)導(dǎo)致了結(jié)論,即聯(lián)想記憶的形成由預(yù)測器提供的關(guān)于預(yù)測事件的偶然性或信息決定,而不是CS和US之間的時(shí)間連續(xù)性。

1.1 Rescorla-Wagner模型

對(duì)上述實(shí)驗(yàn)的分析促成了Rescorla和Wagner開發(fā)出20世紀(jì)最具影響力的其中一個(gè)學(xué)習(xí)模型。根據(jù)該模型(Rescorla & Wagner, 1972),每次試驗(yàn)中發(fā)生的學(xué)習(xí)量取決于與US相關(guān)的不可預(yù)測性或驚訝程度。在學(xué)習(xí)的早期階段,當(dāng)CS與US之間的關(guān)聯(lián)尚未建立時(shí),CS關(guān)于US的發(fā)生提供的信息很少,使其非常令人驚訝。因此,動(dòng)物從每次CS與US的配對(duì)中學(xué)到了很多。然而,隨著CS與US之間關(guān)聯(lián)強(qiáng)度的增加,US的發(fā)生變得不那么令人驚訝,導(dǎo)致學(xué)習(xí)進(jìn)展變慢。這一學(xué)習(xí)規(guī)則表述如下:


在這里,VX 表示CS X與US之間的關(guān)聯(lián)強(qiáng)度;λ 是US可能達(dá)到的最大關(guān)聯(lián)強(qiáng)度;α 是CS的顯著性系數(shù),β 是特定US的學(xué)習(xí)率;n 是試驗(yàn)次數(shù)。ΔV 表示所有可用CS的總預(yù)測值。在每次試驗(yàn)后,關(guān)聯(lián)值 VX 將根據(jù)預(yù)測值的變化 ΔV 進(jìn)行更新。在實(shí)驗(yàn)中,VX 可以從觀察到的行為適應(yīng)中得出。

根據(jù)公式1.1和1.2,Rescorla-Wagner模型中的學(xué)習(xí)過程可以被概念化為預(yù)測誤差的最小化。在每次試驗(yàn)中,動(dòng)物觀察所有可用的CS,并通過匯總每個(gè)CS的關(guān)聯(lián)強(qiáng)度(ΔV)來生成對(duì)即將發(fā)生的US的預(yù)測。當(dāng)US發(fā)生時(shí),US的強(qiáng)度與這一預(yù)測(λ?ΔV)進(jìn)行比較,從而產(chǎn)生正的或負(fù)的預(yù)測誤差。然后,通過根據(jù)預(yù)測誤差的大小和方向調(diào)整存在CS的關(guān)聯(lián)強(qiáng)度來發(fā)生學(xué)習(xí)。

例如,如果λ=1(US發(fā)生了)且ΔV=0(US未被預(yù)測),預(yù)測誤差(λ?ΔV)會(huì)很高,因?yàn)閁S令人驚訝。因此,CS與US之間的關(guān)聯(lián)強(qiáng)度會(huì)增加αXβ。然而,如果ΔV=0.9,結(jié)果的學(xué)習(xí)會(huì)少得多,具體為αXβ×0.1,反映了減少的預(yù)測誤差。

Rescorla-Wagner模型成功地解釋了各種現(xiàn)象,包括阻斷、掩蓋、條件性抑制、防止消退和過度預(yù)期。這些現(xiàn)象可以在模型捕捉聯(lián)想學(xué)習(xí)的動(dòng)態(tài)以及預(yù)測誤差對(duì)關(guān)聯(lián)強(qiáng)度調(diào)整的影響的框架內(nèi)得到理解。

Rescorla-Wagner模型先于強(qiáng)化學(xué)習(xí)領(lǐng)域出現(xiàn)。最初以聯(lián)想強(qiáng)度來表述,它可以被看作是預(yù)期和實(shí)際獎(jiǎng)勵(lì)值之間的獎(jiǎng)勵(lì)預(yù)測誤差,這構(gòu)成了大多數(shù)強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)。例如,時(shí)間差分模型(Sutton, 1988),作為最廣泛使用的強(qiáng)化學(xué)習(xí)算法之一——深度Q學(xué)習(xí)網(wǎng)絡(luò)(DQN;Mnih等人,2015)的基礎(chǔ),可以被視為Rescorla-Wagner模型的擴(kuò)展。它在試驗(yàn)內(nèi)的每一刻都提供實(shí)時(shí)預(yù)測,使得預(yù)測誤差不僅可以在試驗(yàn)結(jié)束時(shí)US發(fā)生時(shí)進(jìn)行評(píng)估,而且可以在整個(gè)試驗(yàn)過程中進(jìn)行評(píng)估。這一能力使得時(shí)間差分模型為聯(lián)想學(xué)習(xí)理論提供了新的見解,模擬了各種現(xiàn)象,如二階條件反射(Sutton & Barto, 1990)。此外,由于其能夠預(yù)測大腦內(nèi)的多巴胺信號(hào),它已確立為神經(jīng)科學(xué)中最成功的計(jì)算模型之一(Schultz, 2016)。

1.2 學(xué)習(xí)與信息

認(rèn)識(shí)到偶然性而非簡單的配對(duì)對(duì)于形成聯(lián)想連接至關(guān)重要,也可以從信息論的角度進(jìn)行考察(Gallistel & Balsam, 2014; Gallistel et al., 2014)。在條件反射實(shí)驗(yàn)中,條件刺激(CS)信號(hào)向受試者傳達(dá)的信息可以通過減少受試者對(duì)內(nèi)部世界表征下狀態(tài)的不確定性來量化。在信息論中,不確定性通常使用熵的概念來量化:

例如,想象你有兩個(gè)封閉的盒子,其中一個(gè)盒子里裝有糖果。讓我們考慮一個(gè)概率分布,它代表我們對(duì)獎(jiǎng)勵(lì)在左邊或右邊盒子中的內(nèi)部(先驗(yàn))信念:。如果我們的信念是 p(x) = [0.99; 0.01],我們非常確定獎(jiǎng)勵(lì)在左邊,導(dǎo)致熵值較低,約為 0.05。 但如果我們對(duì)獎(jiǎng)勵(lì)的位置一無所知,我們的信念是 p(x) = [0.5; 0.5],那么熵 H 將更高,約為 0.69。需要注意的是,我們已經(jīng)從使用值(如最初在 Rescorla-Wagner 方程和強(qiáng)化學(xué)習(xí)中使用的那樣)轉(zhuǎn)變?yōu)槭褂酶怕史植?。如果我們把這些概率分布讀作(例如,貝葉斯)信念,這意味著對(duì)世界狀態(tài)的(點(diǎn))估計(jì)被對(duì)世界狀態(tài)的信念所取代,這些信念必然包含不確定性。 熵是見證特定結(jié)果所能傳達(dá)的信息的上限。在聯(lián)想學(xué)習(xí)的背景下,熵由圍繞 US 的不確定性決定。CS 只能在它向受試者傳達(dá)信息的程度上減少這種不確定性。隨后的信息增益可以表示為 CS 和 US 之間的互信息(也稱為相對(duì)熵)。換句話說,它測量 US 的熵與在 CS 存在時(shí) US 的熵之間的差異:

因此,CS和US之間聯(lián)想連接的形成依賴于這兩個(gè)刺激之間存在互信息,并導(dǎo)致US熵的最小化。

1.3 本研究的目的

Rescorla-Wagner模型的優(yōu)勢在于其簡單性以及解釋廣泛學(xué)習(xí)現(xiàn)象的能力。它引入了學(xué)習(xí)中預(yù)測誤差或驚訝最小化的基本概念。然而,該模型可能過于簡單,無法成為通用學(xué)習(xí)規(guī)則。有許多實(shí)驗(yàn)發(fā)現(xiàn)該模型無法解釋(Miller等人,1995)。其他聯(lián)想學(xué)習(xí)模型——最著名的是Peace-Hall(Pearce & Hall,1980)和Mackintosh(Mackintosh,1975)模型,我們將在文章后面探討——在某些具體預(yù)測中也取得了成功,但在其他方面則失?。˙outon,2016)。為了尋找對(duì)聯(lián)想學(xué)習(xí)更完整的描述,我們轉(zhuǎn)向了自由能原理——一種從第一性原理推導(dǎo)出的貝葉斯方法,用于大腦功能(Friston,2010)。目標(biāo)是在條件反射任務(wù)中,包括簡單的單一CS條件反射、潛在抑制和線索競爭(阻斷和掩蓋),用主動(dòng)推斷框架模擬代理的行為,并研究在自由能(即驚訝)最小化下與經(jīng)典學(xué)習(xí)理論相比的學(xué)習(xí)潛在機(jī)制。


2 自由能原理和主動(dòng)推斷

自由能原理(Friston, 2010; Friston et al., 2011; Parr et al., 2022; Ramstead et al., 2023)是大腦功能最有希望且最全面的數(shù)學(xué)原理之一。在本文中,我們旨在展示自由能原理的核心思想如何與基于行為實(shí)驗(yàn)的經(jīng)典聯(lián)想學(xué)習(xí)模型相關(guān)聯(lián),并對(duì)其進(jìn)行擴(kuò)展。我們以動(dòng)物條件反射任務(wù)的模型為例來說明這些隨后的關(guān)系。

在主動(dòng)推斷中,我們構(gòu)建信念作為概率分布,這些分布代表了世界的各個(gè)方面。這種基于信念的框架非常適合信息論,因?yàn)榫哂行拍畹南到y(tǒng)可以通過不確定性(即熵)和驚訝(即驚訝和自信息)來描述。重要的是,主動(dòng)推斷強(qiáng)調(diào)不僅優(yōu)化成本函數(shù),而且減少不確定性對(duì)于實(shí)現(xiàn)最優(yōu)行為和學(xué)習(xí)的重要性。通過將減少不確定性視為學(xué)習(xí)的一個(gè)關(guān)鍵方面,主動(dòng)推斷為學(xué)習(xí)過程提供了寶貴的視角(Sajid et al., 2021)。

主動(dòng)推斷是一個(gè)全面的框架,它繼承了自由能原理,用于描述生物和人工代理中的貝葉斯最優(yōu)行為(Parr & Pezzulo, 2021; Ramstead et al., 2023)。主動(dòng)推斷的核心原則認(rèn)為,代理尋求最小化其感官觀察的驚訝程度,以維持穩(wěn)態(tài)(即,采樣偏好結(jié)果)。需要注意的是,主動(dòng)推斷中的驚訝概念與Rescorla-Wagner模型中使用的驚訝概念不同。我們將在本文后面深入探討各種類型的驚訝。

主動(dòng)推斷可以被概念化為包含三個(gè)關(guān)鍵階段:感知、行動(dòng)和學(xué)習(xí)。在感知階段,代理參與推斷其所處世界的狀態(tài)的過程。在感知階段之后,代理繼續(xù)在環(huán)境中行動(dòng),根據(jù)推斷出的狀態(tài)選擇行動(dòng)。因?yàn)檫@種(例如,貝葉斯模型)選擇依賴于推斷最可能的行動(dòng),所以有時(shí)被稱為規(guī)劃即推斷(Attias, 2003; Botvinick & Toussaint, 2012; Da Costa et al., 2020)。目標(biāo)是實(shí)施那些最小化未來感官觀察預(yù)期驚訝的行動(dòng)。最后,在學(xué)習(xí)階段,代理根據(jù)其行動(dòng)的觀察結(jié)果更新其對(duì)世界的模型。

感知受到貝葉斯大腦假設(shè)(Gregory, 1980; Knill & Pouget, 2005)的指導(dǎo),該假設(shè)提出大腦尋求通過使用貝葉斯推斷,在世界生成模型下最優(yōu)地推斷感官觀察背后的原因。換句話說,感知被視為貝葉斯信念更新——即,使用貝葉斯規(guī)則將先驗(yàn)信念(觀察之前)更新為后驗(yàn)信念(觀察之后):

在這里,s 是世界的狀態(tài),o 是一個(gè)觀測,p(s) 是世界處于狀態(tài) s 的先驗(yàn)概率,而 p(s∣o) 是在觀測到 o 之后世界處于狀態(tài) s 的后驗(yàn)概率。p(o∣s) 是當(dāng)世界處于狀態(tài) s 時(shí)觀測到 o 的似然性。p(o) 是在所有可能產(chǎn)生它的狀態(tài)下觀測到 o 的概率:。p(o)(也稱為邊緣似然或模型證據(jù))越高,模型對(duì)給定感官信息的解釋就越好。我們想要最小化的驚訝就是 ?lnp(o)。因此,通過最小化驚訝,我們實(shí)際上增加了模型證據(jù)。通過平均最小化驚訝,我們確保結(jié)果的熵 被最小化,從而符合穩(wěn)態(tài)要求。然而,為了計(jì)算 p(o),我們需要對(duì)所有可能的世界狀態(tài)求和或積分,這在實(shí)際中是不可行的。自由能原理假設(shè),與其直接評(píng)估 ?lnp(o),我們不如找到一個(gè)量,它將是驚訝的上界,并最小化它,這將導(dǎo)致驚訝的最小化。自由能方程的第一個(gè)版本展示了其理論基礎(chǔ)(對(duì)于易于理解的推導(dǎo),請參見 Smith 等人,2022 年):

在這里, 是Kullback-Leibler(KL)散度,用于衡量一個(gè)概率分布與另一個(gè)概率分布的不同之處。分布 q(s)表示代理對(duì)世界未觀測(即隱藏)狀態(tài) p(s∣o) 的信念。當(dāng)這兩個(gè)分布之間的差異減小時(shí),自由能將越來越接近驚訝的近似值,即 ?lnp(o)。因此,感知的任務(wù)是找到使自由能最小化的 q(s),使其盡可能接近驚訝。然而,我們無法從這個(gè)方程中計(jì)算自由能,因?yàn)?p(o) 仍然存在。為此,使用了自由能表達(dá)式的重新排列(Smith等人,2022年):

這個(gè)方程右邊的項(xiàng)分別被稱為復(fù)雜度和準(zhǔn)確性。復(fù)雜度意味著代理為了適應(yīng)感官輸入需要改變其信念的程度,而準(zhǔn)確性指的是模型的信念預(yù)測感官輸入的程度。從這個(gè)方程可以看出,當(dāng)準(zhǔn)確性最高且復(fù)雜度最低時(shí)(奧卡姆剃刀原則),自由能將最小化。

但代理不僅能夠觀察;它還可以行動(dòng)。主動(dòng)推斷中的下一個(gè)重要觀點(diǎn)是,代理實(shí)際上可以通過在環(huán)境中采取將導(dǎo)致偏好(或模型預(yù)期)的觀察 p(o∣C) 的行動(dòng)來最小化驚訝。因?yàn)樽杂赡苁求@訝的近似值,我們可以通過采取適當(dāng)?shù)男袆?dòng)來最小化未來的預(yù)期自由能(EFE)從而最小化驚訝。然而,我們不知道我們將來會(huì)看到哪些觀察結(jié)果,所以我們需要預(yù)測它們。將來將占據(jù)的狀態(tài)以及接收到的觀察結(jié)果將取決于所采取的行動(dòng),即策略 π。并且我們需要有關(guān)于與穩(wěn)態(tài)一致的觀察結(jié)果的先驗(yàn)信念(例如,感到飽足,處于舒適的溫度區(qū)域)p(o∣C)。鑒于這些先驗(yàn)偏好,EFE的形式如下(Smith等人,2022年;Millidge等人,2021年):


第一個(gè)期望,稱為內(nèi)在或認(rèn)識(shí)價(jià)值或信息增益,關(guān)注于獲取知識(shí)和減少對(duì)世界狀態(tài) s 的不確定性。第二個(gè)期望是外在價(jià)值,它在強(qiáng)化學(xué)習(xí)中作為獎(jiǎng)勵(lì)的類比,在最優(yōu)控制理論中作為成本。這個(gè)方程表明,代理努力獲取偏好觀察的同時(shí),也在收集信息——也就是說,在避免某些結(jié)果的同時(shí)使其他結(jié)果更有可能的情況下,最小化對(duì)環(huán)境狀態(tài)的不確定性。認(rèn)識(shí)的、探索性(即,尋求信息)行為在多大程度上超過工具性的、利用性(即,尋求偏好)行為,取決于先驗(yàn)偏好的精確度(與期望結(jié)果的置信度成反比,與 C 的方差成正比)以一種直接的方式。換句話說,如果偏好結(jié)果的可能性都相等,那么行動(dòng)的選擇將基于它們的內(nèi)在價(jià)值。這在機(jī)器學(xué)習(xí)和發(fā)展神經(jīng)機(jī)器人學(xué)中有時(shí)被稱為內(nèi)在動(dòng)機(jī)(Oudeyer & Kaplan, 2007; Schmidhuber, 2010; Parr & Friston, 2018; Schwartenbeck et al., 2019)。代理對(duì)策略的分布是通過 p(π)=σ(?G) 確定的,其中 σ 是一個(gè)softmax(歸一化指數(shù))函數(shù),G 是每個(gè)可用行動(dòng)(策略)π 的 Gπ 值的向量。

從網(wǎng)絡(luò)的頂部開始,首先通過上述變量的softmax(歸一化指數(shù))函數(shù)(σ)選擇一個(gè)策略(π)。為了做出決策,代理依賴于一個(gè)世界模型。在我們的實(shí)驗(yàn)中,我們假設(shè)狀態(tài)和觀察可以表示為各個(gè)離散因素的組合。例如,一個(gè)狀態(tài)可能包括代理在環(huán)境中的位置和獎(jiǎng)勵(lì)的位置。我們使用以下變量列表來編碼代理的世界模型:

  1. 每次試驗(yàn)開始時(shí)的信念狀態(tài)編碼在向量D中。向量D的每個(gè)元素i對(duì)應(yīng)于在狀態(tài)i開始試驗(yàn)的概率。換句話說,p(s) = Cat(D),其中Cat表示這是一個(gè)由D參數(shù)化的分類分布。在我們的實(shí)驗(yàn)中,對(duì)于每個(gè)獨(dú)立的狀態(tài)因素,我們保留一個(gè)單獨(dú)的D。

  2. 似然分布p(o|s)由張量A編碼。在一般情況下,我們可以將A視為一個(gè)矩陣,每一行對(duì)應(yīng)一個(gè)可能的觀察,每一列對(duì)應(yīng)一個(gè)可能的狀態(tài):p(o|s) = Cat(A)。為了簡化可視化,我們將A視為一組多維張量A1, A2,..., AM,其中M是輸出模態(tài)的數(shù)量。我們可以在這里使用一組張量,因?yàn)樵谖覀兊膶?shí)驗(yàn)中,我們將觀察模態(tài)視為在當(dāng)前信念狀態(tài)下是獨(dú)立的。每個(gè)張量Ai的形狀為|Oi|×|S1|×|S2|×...×|SK|,其中|Ok|是模態(tài)k的可能結(jié)果的數(shù)量,K是狀態(tài)因素的數(shù)量。

  3. 狀態(tài)轉(zhuǎn)移分布p(st+1|st, π)編碼為矩陣Bπ,每個(gè)狀態(tài)在試驗(yàn)步驟t有一列,每個(gè)狀態(tài)在試驗(yàn)步驟t+1有一行。每個(gè)矩陣Bπ對(duì)應(yīng)于一個(gè)特定的動(dòng)作(策略)π。將推斷出的狀態(tài)q(st)乘以動(dòng)作依賴的轉(zhuǎn)移矩陣B,為下一步提供先驗(yàn)p(st+1):p(st+1) = Cat(Bπ q(st))。

  4. 先驗(yàn)偏好或偏好觀察p(o|C)由向量C編碼,表示代理旨在接收的期望觀察。

模型的參數(shù),如圖1中的方塊所示,是可以學(xué)習(xí)的。例如,F(xiàn)riston等人(2016)展示了在T形迷宮任務(wù)中D的學(xué)習(xí)以及隨后的習(xí)慣形成。然而,代理最初就具備了對(duì)環(huán)境偶然性的知識(shí),表明了條件刺激(CS)與無條件刺激(US)之間明確的關(guān)聯(lián)。這種關(guān)系被編碼在A矩陣中,它建立了CS觀察與決定獎(jiǎng)勵(lì)是位于T形迷宮右側(cè)還是左側(cè)的環(huán)境狀態(tài)之間的關(guān)聯(lián)。我們的工作探討了代理如何在初始偶然性未知的情況下學(xué)習(xí)特定的關(guān)聯(lián)。


我們現(xiàn)在轉(zhuǎn)向數(shù)值研究,在這些研究中,我們應(yīng)用主動(dòng)推斷來重新審視聯(lián)想學(xué)習(xí)的基礎(chǔ),并建立主動(dòng)推斷與基于強(qiáng)化學(xué)習(xí)的經(jīng)典解釋之間的關(guān)系。

模型的參數(shù),如圖1中的方塊所示,是可以學(xué)習(xí)的。例如,F(xiàn)riston等人(2016)展示了在T形迷宮任務(wù)中D的學(xué)習(xí)以及隨后的習(xí)慣形成。然而,代理最初就具備了對(duì)環(huán)境偶然性的知識(shí),表明了條件刺激(CS)與無條件刺激(US)之間明確的關(guān)聯(lián)。這種關(guān)系被編碼在A矩陣中,它建立了CS觀察與決定獎(jiǎng)勵(lì)是位于T形迷宮右側(cè)還是左側(cè)的環(huán)境狀態(tài)之間的關(guān)聯(lián)。我們的工作探討了代理如何在初始偶然性未知的情況下學(xué)習(xí)特定的關(guān)聯(lián)。

我們現(xiàn)在轉(zhuǎn)向數(shù)值研究,在這些研究中,我們應(yīng)用主動(dòng)推斷來重新審視聯(lián)想學(xué)習(xí)的基礎(chǔ),并建立主動(dòng)推斷與基于強(qiáng)化學(xué)習(xí)的經(jīng)典解釋之間的關(guān)系。

2.1 實(shí)驗(yàn)的生成模型

在這項(xiàng)工作中,我們使用了pymdp庫(Heins等人,2022),它提供了離散狀態(tài)空間生成模型的主動(dòng)推斷的Python實(shí)現(xiàn)。本研究中采用的學(xué)習(xí)任務(wù)是一個(gè)T形迷宮,這是一個(gè)由通道和兩個(gè)臂組成的T形迷宮。動(dòng)物/代理的初始位置在中央通道。目標(biāo)是到達(dá)交叉口并朝正確方向轉(zhuǎn)彎以獲得強(qiáng)化。中央通道有一個(gè)提示,指示要向哪個(gè)方向轉(zhuǎn)彎(左或右)。要正確解決任務(wù),動(dòng)物/代理需要在之前遇到的提示和獎(jiǎng)勵(lì)的位置之間建立關(guān)系。這個(gè)任務(wù)結(jié)合了工具性行為和痕跡條件反射。代理必須在條件刺激(CS)和無條件刺激(US)之間形成關(guān)聯(lián),它們在時(shí)間上是分開的,然后相應(yīng)地行動(dòng)以獲得獎(jiǎng)勵(lì)。T形迷宮模型在主動(dòng)推斷文獻(xiàn)中被廣泛用于展示自由能的各種屬性(Friston等人,2015;Hesp等人,2021;Sajid等人,2022;Parr & Pezzulo,2021)。我們對(duì)模型進(jìn)行了某些修改,以說明阻斷現(xiàn)象,并使訓(xùn)練協(xié)議更接近相應(yīng)的動(dòng)物實(shí)驗(yàn)。然而,使用更標(biāo)準(zhǔn)的經(jīng)典條件反射模型,如簡單的音調(diào)-電擊關(guān)聯(lián),可以復(fù)制T形迷宮獲得的所有結(jié)果。

T形迷宮的設(shè)置如圖2所示。代理可以處于五個(gè)位置之一。數(shù)字表示起始位置,4表示帶有CS的位置,2表示T形分支,1和3表示迷宮的左臂和右臂,可能有獎(jiǎng)勵(lì)或電擊US。CS明確地信號(hào)了US。代理的信念狀態(tài)由兩個(gè)狀態(tài)因素組成,第一個(gè)編碼代理的位置q1(s),第二個(gè)編碼獎(jiǎng)勵(lì)的位置q2(s)。因此,環(huán)境狀態(tài)的結(jié)構(gòu)和代理對(duì)它的信念將如下所示,[loc1, loc2, loc3, loc4, loc5][rewleft,rewright],其中每個(gè)括號(hào)包含一個(gè)總和為一的概率分布。代理接收到的觀察包括代理的位置、CS和獎(jiǎng)勵(lì)。代理可以向上、向下、向左、向右移動(dòng)或停留在同一位置。生成模型還包括似然矩陣A、轉(zhuǎn)移矩陣B、先驗(yàn)向量D和偏好矩陣C。在動(dòng)物實(shí)驗(yàn)中,通常會(huì)對(duì)迷宮進(jìn)行預(yù)先暴露;幾天內(nèi),動(dòng)物有時(shí)間探索、熟悉迷宮并記住潛在的獎(jiǎng)勵(lì)點(diǎn)。因此,在條件反射之前,我們假設(shè)代理熟悉迷宮的空間,這意味著它可以基于觀察ot準(zhǔn)確地形成關(guān)于其在迷宮中的位置的信念q1(s)。D或p(s) = [0, 0, 0, 0, 1][0.5, 0.5]指定了代理在劇集開始時(shí)關(guān)于其位置和獎(jiǎng)勵(lì)位于迷宮左臂或右臂的50%機(jī)會(huì)的先驗(yàn)信念。偏好矩陣C的構(gòu)建方式是,代理偏好食物并對(duì)電擊有厭惡感。狀態(tài)轉(zhuǎn)移矩陣B定義了代理關(guān)于移動(dòng)后下一個(gè)狀態(tài)的信念。似然矩陣A定義了狀態(tài)和觀察之間的偶然性。由于我們的模型假設(shè)了三種觀察,矩陣A由三種模態(tài)組成。由于對(duì)迷宮的預(yù)先暴露,我們假設(shè)代理已經(jīng)學(xué)會(huì)了B矩陣,以及A矩陣的模態(tài)1和3(代理位置和獎(jiǎng)勵(lì))。它不知道的是將CS和獎(jiǎng)勵(lì)位置聯(lián)系起來的偶然性(A矩陣的第二種模態(tài))。沒有這些信息,代理不能可靠地預(yù)測獎(jiǎng)勵(lì)的位置,給定CS。



2.2 學(xué)習(xí)

在主動(dòng)推斷中,學(xué)習(xí)對(duì)應(yīng)于在已知為狄利克雷分布的分布類別內(nèi)更新模型參數(shù)的先驗(yàn)信念。不深入技術(shù)細(xì)節(jié),我們的可學(xué)習(xí)參數(shù)是應(yīng)該總和為一的概率分布。一個(gè)簡單的例子是關(guān)于獎(jiǎng)勵(lì)位置的先驗(yàn)信念,可以表示為。在學(xué)習(xí)過程中,我們可以使用狄利克雷分布來表示分布數(shù)據(jù):

在這里, 是濃度參數(shù)。我們可以通過簡單地向它們添加計(jì)數(shù)來更新這些參數(shù)。例如,如果我們的初始先驗(yàn)是 ,并且在劇集結(jié)束時(shí)的后驗(yàn)信念表明食物在右側(cè),我們會(huì)在 d2 上加1,得到。為了獲得D向量中的預(yù)期概率,我們只需對(duì) d 進(jìn)行歸一化,使其總和為1,將 轉(zhuǎn)換為 ,這表示一個(gè)正確的概率分布。相應(yīng)的學(xué)習(xí)更新可以表示如下:

其中 α 是學(xué)習(xí)率,ω 是遺忘率,q(sT) 是在試驗(yàn)的最終時(shí)間點(diǎn)后對(duì)狀態(tài)的后驗(yàn)信念。

其他模型參數(shù)也可以以類似的方式學(xué)習(xí)。我們的工作重點(diǎn)是學(xué)習(xí)A矩陣。如果代理遇到某個(gè)觀察 o 并推斷出它所處的狀態(tài) q(s),我們可以通過在 p(A) 的適當(dāng)位置添加計(jì)數(shù)來加強(qiáng)該觀察與狀態(tài)之間的關(guān)聯(lián)。這種類型的學(xué)習(xí)類似于經(jīng)典Hebbian可塑性規(guī)則:


在這里,?符號(hào)表示外積。學(xué)習(xí)率設(shè)置為α = 0.2,遺忘率設(shè)置為ω = 1。

鑒于這個(gè)問題涉及痕跡條件反射而非延遲條件反射,CS和US在時(shí)間上不重疊。為了解決這個(gè)問題,我們在模型中引入了一種情節(jié)重放機(jī)制,使得代理能夠?qū)⒁患慕Y(jié)果與之前的觀察聯(lián)系起來。在試驗(yàn)結(jié)束時(shí),當(dāng)代理接收到獎(jiǎng)勵(lì)或電擊,關(guān)于獎(jiǎng)勵(lì)位置的不確定性得到解決,我們重放這一集,同時(shí)將關(guān)于獎(jiǎng)勵(lì)位置的模糊信念q2(st)替換為明確的信念q2(sT)。因此,代理帶著對(duì)最終結(jié)果的了解重放這一集。在這個(gè)重放過程中,A矩陣得到訓(xùn)練,建立了整個(gè)情節(jié)中的觀察與獎(jiǎng)勵(lì)位置之間的聯(lián)想聯(lián)系。這可以被描述為一種離線學(xué)習(xí)格式,與在線學(xué)習(xí)形成對(duì)比,在線學(xué)習(xí)中參數(shù)在每一步都進(jìn)行更新。這涉及到主動(dòng)推斷和學(xué)習(xí)的一個(gè)重要方面,即學(xué)習(xí)是一個(gè)較慢的信念更新過程,基于在主動(dòng)推斷過程中積累的證據(jù)。

從技術(shù)角度來看,離線學(xué)習(xí)對(duì)應(yīng)于在特定試驗(yàn)中看到所有結(jié)果后,基于貝葉斯平滑(即,前向和后向傳遞)進(jìn)行推斷后更新模型參數(shù)。這可以與基于貝葉斯濾波的在線學(xué)習(xí)形成對(duì)比。從神經(jīng)生物學(xué)角度來看,隱式的貝葉斯平滑可以與實(shí)證研究中看到的重放事件相關(guān)聯(lián)(Louie & Wilson, 2001; Penny et al., 2013; Pezzulo et al., 2014)。


3 結(jié)果3.1 單一CS學(xué)習(xí)

在主動(dòng)推斷中,不僅感知和推斷,而且學(xué)習(xí)也是通過最小化自由能來實(shí)現(xiàn)的。通過感知最小化自由能可以改善對(duì)驚訝的近似,而相對(duì)于模型參數(shù)最小化自由能實(shí)際上可以減少驚訝,因?yàn)榇砜梢愿鶕?jù)經(jīng)驗(yàn)做出更準(zhǔn)確的預(yù)測。

在隨后的章節(jié)中,我們檢查了由于代理的生成模型中參數(shù)的學(xué)習(xí)而導(dǎo)致的自由能的變化。我們的分析集中在推斷后的自由能及其組成部分,同時(shí)考慮先驗(yàn)信念和觀察。具體來說,我們研究了CS和US的觀察,以及整個(gè)劇集中的總自由能。圖表展示了在每次試驗(yàn)后更新生成模型的參數(shù)時(shí)自由能的波動(dòng)。

圖3A展示了隨著學(xué)習(xí)的進(jìn)行,在觀察到CS后關(guān)于獎(jiǎng)勵(lì)位置q2(s)的信念變化。它是通過觀察CS后q2(s)分布的范圍計(jì)算得出的:R = max(q2(s)) - min(q2(s))。最初,關(guān)于獎(jiǎng)勵(lì)位置的先驗(yàn)信念是[0.5, 0.5],導(dǎo)致學(xué)習(xí)開始時(shí)R值為0。這表明代理尚未將CS與US聯(lián)系起來。隨著學(xué)習(xí)的進(jìn)行,q2(s)將向一側(cè)偏移,R將接近1,表明代理對(duì)CS和US之間的聯(lián)系有強(qiáng)烈的信念。在學(xué)習(xí)這種范式偶然性的過程中,所有劇集的總自由能都會(huì)降低(見圖3B)。讓我們檢查每一步的自由能各個(gè)組成部分。變分自由能,記作F,包含兩個(gè)項(xiàng):復(fù)雜度和準(zhǔn)確性(見方程2.3)。復(fù)雜度表示代理需要更新其信念以解釋感官輸入的程度,而準(zhǔn)確性反映了模型的信念對(duì)感官輸入的預(yù)測程度。這兩個(gè)量都可以用預(yù)測誤差來描述。復(fù)雜度由先驗(yàn)和后驗(yàn)信念之間的差異決定,而準(zhǔn)確性由預(yù)測和觀察結(jié)果之間的差異決定。


當(dāng)我們關(guān)注實(shí)驗(yàn)的第二步,即CS的觀察時(shí),我們在學(xué)習(xí)CS和US之間的偶然性時(shí)看到了F的波動(dòng)(見圖3C)。這是由于復(fù)雜度和準(zhǔn)確性的同時(shí)增長。隨著代理模型(A矩陣)中CS和US之間的關(guān)聯(lián)變得更加精確,代理在呈現(xiàn)CS后對(duì)其獎(jiǎng)勵(lì)位置信念的信心也隨之增加。在學(xué)習(xí)過程的開始,觀察CS后對(duì)獎(jiǎng)勵(lì)位置的信念將是[0.5left 0.5right],表明完全模糊(最大熵),因?yàn)镃S對(duì)代理還沒有意義。隨著學(xué)習(xí)的進(jìn)行,“右提示”CS將越來越多地將對(duì)獎(jiǎng)勵(lì)位置的信念向[0.4left 0.6right]、[0.3left 0.7right]等方向偏移,直到最終達(dá)到[0left 1right]?!白筇崾尽盋S也是如此。由于每個(gè)劇集開始時(shí)對(duì)獎(jiǎng)勵(lì)位置的先驗(yàn)信念總是[0.5left 0.5right],因此在CS觀察后復(fù)雜度項(xiàng)(先驗(yàn)和后驗(yàn)信念之間的差異)增加(見圖3D)。隨著代理的模型更好地解釋特定于一個(gè)獎(jiǎng)勵(lì)位置的CS觀察,CS觀察的準(zhǔn)確性也增加(見圖3E)。

只要后續(xù)步驟中沒有矛盾的信息,從CS觀察中推斷出的關(guān)于獎(jiǎng)勵(lì)位置的信念就會(huì)進(jìn)一步傳播到劇集中,作為后續(xù)步驟的先驗(yàn)信念。在學(xué)習(xí)過程的開始,迷宮臂中獎(jiǎng)勵(lì)或電擊(US)的觀察是唯一可以減少代理對(duì)獎(jiǎng)勵(lì)位置信念中的不確定性的刺激。因此,US觀察后的復(fù)雜度很高(見圖3G)。隨著學(xué)習(xí)的進(jìn)行,US位置的先驗(yàn)信念(CS觀察后傳播的信念)變得越來越接近后驗(yàn)信念(在US觀察后推斷出的),從而降低了復(fù)雜度。與CS觀察后的準(zhǔn)確性相比,US觀察的準(zhǔn)確性保持不變,因?yàn)榇淼哪P驮谑盏姜?jiǎng)勵(lì)或電擊后對(duì)獎(jiǎng)勵(lì)位置的信念具有很高的置信度(見圖3H)。

因此,通過學(xué)習(xí)CS和US之間的偶然性,我們通過減少先驗(yàn)和后驗(yàn)信念之間的差異(復(fù)雜度)來最小化US觀察的F(見圖3F)。復(fù)雜度項(xiàng),也被稱為貝葉斯“驚訝”(Baldi & Itti, 2010),可以被視為一種預(yù)測誤差。一方面,它可以與聯(lián)想學(xué)習(xí)理論中經(jīng)常被稱為驚訝的Rescorla-Wagner模型預(yù)測誤差相比較,該誤差以聯(lián)想強(qiáng)度來表述,但在強(qiáng)化學(xué)習(xí)中被改編為獎(jiǎng)勵(lì)預(yù)測誤差的形式。另一方面,貝葉斯驚訝是關(guān)于世界狀態(tài)的先驗(yàn)和后驗(yàn)信念之間的差異。這些概念共享了期望與現(xiàn)實(shí)之間差異的相似觀念。此外,我們可以在我們的模型中展示學(xué)習(xí)過程中獎(jiǎng)勵(lì)預(yù)測誤差的減少。為了展示這一點(diǎn),我們轉(zhuǎn)向預(yù)期自由能(EFE),這是一個(gè)最小化的函數(shù),用于指定最優(yōu)策略。

如方程2.4所示,EFE包含兩個(gè)組成部分:認(rèn)識(shí)的或信息尋求的組成部分和內(nèi)在的或獎(jiǎng)勵(lì)尋求的組成部分。本質(zhì)上,每個(gè)觀察結(jié)果都對(duì)代理具有其自身的獎(jiǎng)勵(lì)價(jià)值和信息價(jià)值。通過最小化EFE,我們識(shí)別出導(dǎo)致偏好觀察(獎(jiǎng)勵(lì))和提供最大信息量的觀察結(jié)果的一系列行動(dòng)?,F(xiàn)在關(guān)注內(nèi)在組成部分,我們可以展示CS預(yù)測的獎(jiǎng)勵(lì)價(jià)值的動(dòng)態(tài)(見圖4C)和獎(jiǎng)勵(lì)預(yù)測誤差:US觀察后實(shí)際收到的獎(jiǎng)勵(lì)與CS預(yù)測的獎(jiǎng)勵(lì)之間的差異(見圖4D)在學(xué)習(xí)過程中的變化。與Rescorla-Wagner模型一樣,預(yù)測值增加,獎(jiǎng)勵(lì)預(yù)測誤差減少。


第三種驚訝類型,信息理論驚訝或驚訝,是主動(dòng)推斷中最小化的主要焦點(diǎn)。變分自由能F如前所述是驚訝的上界。雖然F包括貝葉斯驚訝(復(fù)雜度),但貝葉斯驚訝與驚訝之間的關(guān)系取決于F中的第二項(xiàng),準(zhǔn)確性。在我們簡單的條件反射模型中,由于準(zhǔn)確性保持不變,F(xiàn)和復(fù)雜度在US觀察時(shí)隨著學(xué)習(xí)而減少。然而,在CS觀察時(shí),準(zhǔn)確性和復(fù)雜度隨著學(xué)習(xí)而增加,導(dǎo)致F沒有變化。

如果我們考慮整個(gè)訓(xùn)練劇集,類似于Rescorla-Wagner模型,整個(gè)劇集的總自由能的最顯著變化將由US獲取期間復(fù)雜度的減少所驅(qū)動(dòng),這意味著對(duì)US的更好預(yù)測。然而,在劇集內(nèi),復(fù)雜度的變化更有可能類似于TD學(xué)習(xí)規(guī)則,其中預(yù)測誤差從US轉(zhuǎn)移到CS。在我們的模型中,獎(jiǎng)勵(lì)預(yù)測誤差也是如此。

從獲取信息的角度來探討聯(lián)想學(xué)習(xí),也可以在主動(dòng)推斷的框架內(nèi)進(jìn)行考察。在這個(gè)背景下,一個(gè)信號(hào)(例如,CS)向觀察者(條件反射實(shí)驗(yàn)中的受試者)傳達(dá)的信息是通過減少觀察者對(duì)世界隨機(jī)方面的不確定性來衡量的。能夠傳達(dá)的信息量受到可用信息(源熵,代表世界那一方面的變化)和觀察到的信號(hào)與未觀察到的(即,隱藏或潛在的)世界狀態(tài)之間的互信息的限制(大致表明觀察和世界狀態(tài)之間的相關(guān)性)。

在我們的實(shí)驗(yàn)中,生成過程的設(shè)計(jì)方式是CS和US之間存在互信息,CS理想地預(yù)測US。為了觀察這種信息如何在學(xué)習(xí)過程中出現(xiàn)在代理的模型中,我們再次轉(zhuǎn)向EFE和方程2.4,但這次關(guān)注認(rèn)識(shí)項(xiàng)。從數(shù)學(xué)上講,認(rèn)識(shí)成分對(duì)應(yīng)于觀察和狀態(tài)之間的互信息,也稱為預(yù)期貝葉斯驚訝。通過學(xué)習(xí),CS和US之間的互信息(CS觀察的信息增益)增加(見圖4A)。同時(shí),由于CS更好地預(yù)測US,減少了不確定性,因此,未來步驟中的信息增益減少,未來觀察對(duì)額外信息的貢獻(xiàn)減少(見圖4B)。

因此,主動(dòng)推斷為學(xué)習(xí)的信息方面與價(jià)值或獎(jiǎng)勵(lì)之間的聯(lián)系提供了數(shù)學(xué)表述。在學(xué)習(xí)過程中,代理通過觀察CS接收到的關(guān)于US的信息增加,減少了對(duì)US的不確定性,從而增加了US的預(yù)期價(jià)值,最小化了收到的和預(yù)測的獎(jiǎng)勵(lì)之間的獎(jiǎng)勵(lì)預(yù)測誤差。然而,與Rescorla-Wagner和強(qiáng)化學(xué)習(xí)模型不同,其中獎(jiǎng)勵(lì)預(yù)測誤差的最小化推動(dòng)了學(xué)習(xí),在主動(dòng)推斷中,這是自由能最小化和對(duì)世界狀態(tài)和代理模型的信念優(yōu)化的結(jié)果。

3.2 阻斷

Rescorla-Wagner模型的成功在很大程度上是由于其能夠解釋線索競爭現(xiàn)象,其中最著名的是阻斷和掩蓋。

在本節(jié)中,我們考察在自由能最小化的背景下,學(xué)習(xí)過程中條件刺激之間的相互作用如何得到解釋。

當(dāng)代理已經(jīng)學(xué)會(huì)了和US之間的關(guān)聯(lián),并在同一個(gè)試驗(yàn)中被呈現(xiàn)一個(gè)以前未知的條件刺激時(shí),就會(huì)出現(xiàn)阻斷現(xiàn)象。在這種情況下,為了重現(xiàn)動(dòng)物學(xué)習(xí),代理不應(yīng)該學(xué)習(xí)CS2和US之間的關(guān)聯(lián)。

為了模擬阻斷現(xiàn)象,我們在模型中引入了另一個(gè)條件刺激,它在CS1之后完美地預(yù)測了獎(jiǎng)勵(lì)的位置。此時(shí),代理已經(jīng)學(xué)會(huì)了CS1和US之間的關(guān)聯(lián)。因此,我們在模型中增加了一個(gè)額外的觀察和相應(yīng)的模態(tài),以適應(yīng)(見圖5)?,F(xiàn)在在位置5呈現(xiàn),CS2在位置4呈現(xiàn)。


Rescorla-Wagner模型通過考慮預(yù)測誤差來解釋這一現(xiàn)象:如果CS1完美地預(yù)測了US,那么在US呈現(xiàn)時(shí),預(yù)測誤差將為零,導(dǎo)致沒有進(jìn)一步的學(xué)習(xí)。從自由能的角度來看,我們可以將這種預(yù)測誤差與復(fù)雜度項(xiàng)進(jìn)行類比。事實(shí)上,將引入我們的模型中,其中和US之間的關(guān)聯(lián)已經(jīng)建立,不會(huì)在US呈現(xiàn)時(shí)導(dǎo)致復(fù)雜度或自由能的變化(見圖6A和6B)。這意味著代理在觀察后不會(huì)進(jìn)一步改變其對(duì)獎(jiǎng)勵(lì)位置的信念,因?yàn)樗鼪]有提供額外的信息(見圖6C)。


然而,在主動(dòng)推斷的背景下模擬阻斷并不那么直接。在我們的模型中,如果在代理穿越迷宮的過程中被觀察到,和US之間的偶然性將以與CS1類似的方式被學(xué)習(xí)。這一過程也將導(dǎo)致學(xué)習(xí)試驗(yàn)中總自由能的最小化。然而,變化不會(huì)出現(xiàn)在或US觀察后的自由能的復(fù)雜度項(xiàng)中,而是出現(xiàn)在CS2觀察的準(zhǔn)確性項(xiàng)中。即使我們抽象出具體的學(xué)習(xí)機(jī)制,并將學(xué)習(xí)視為最小化自由能的手段,加強(qiáng)代理A矩陣中CS2和US之間的聯(lián)系將導(dǎo)致準(zhǔn)確性增加,從而相應(yīng)地減少CS2觀察的自由能(見圖7)。


準(zhǔn)確性可以通過我們的似然模型(A矩陣)如何好地預(yù)測我們的后驗(yàn)推斷信念q(s)來描述。由于關(guān)于獎(jiǎng)勵(lì)位置的信念已經(jīng)通過CS1更新,并進(jìn)一步傳播到劇集中,調(diào)整A矩陣參數(shù)以對(duì)應(yīng)CS2和US之間的偶然性與推斷信念一致,將增加準(zhǔn)確性并相應(yīng)地減少自由能。

這個(gè)模型實(shí)際上可以很好地說明貝葉斯驚訝(復(fù)雜度)和驚訝之間的區(qū)別。代理在觀察后信念不會(huì)改變(q(s) = p(s)),因此貝葉斯驚訝(復(fù)雜度)將為零(見圖7B)。然而,由于這個(gè)觀察的準(zhǔn)確性低,代理仍然會(huì)“驚訝”(-ln p(o) > 0),并通過學(xué)習(xí)最大化它。

因此,直接將添加到模型中而不進(jìn)行任何進(jìn)一步修改的方法無法重現(xiàn)阻斷現(xiàn)象。我們可以探索幾種將阻斷納入我們模型的選項(xiàng)。一種方法是假設(shè)在這個(gè)模型中,生物體的學(xué)習(xí)僅與具有非零值的觀察有關(guān)(適當(dāng)?shù)腃條目=0的觀察)。因此,在學(xué)習(xí)過程中,代理主要專注于最小化與這種觀察相關(guān)的自由能。在我們的情況下,它將是獎(jiǎng)勵(lì)或電擊觀察。這種方法有效地將我們的模型簡化為Rescorla-Wagner預(yù)測誤差類型的學(xué)習(xí),其目標(biāo)是通過復(fù)雜度最小化來最小化與無條件刺激(US)觀察相關(guān)的自由能(F)的組成部分。為了納入這一概念,我們可以通過在方程2.9中將F作為預(yù)測誤差來修改我們的學(xué)習(xí)規(guī)則:

這種使用自由能來調(diào)節(jié)學(xué)習(xí)的方法之前已經(jīng)在易變環(huán)境中的情感推斷背景下被考慮過(Joffily & Coricelli, 2013)。然而,我們在這里追求一種更簡單的方法,它與包含注意力的強(qiáng)化學(xué)習(xí)模型更為密切相關(guān)。

3.2.1 阻斷、認(rèn)識(shí)性可供性和注意力

在主動(dòng)推斷的背景下模擬阻斷的一個(gè)合理方法是通過阻斷認(rèn)識(shí)性行為,如注意力。

除了假設(shè)注意力為常數(shù)系數(shù)的Rescorla-Wagner模型外,還有眾所周知的聯(lián)想學(xué)習(xí)模型將注意力作為學(xué)習(xí)過程中潛在的可變參數(shù)。兩個(gè)突出的例子是Macintosh模型和Pearce-Hall模型。

Macintosh模型提出,在學(xué)習(xí)過程中,動(dòng)物會(huì)將更多的注意力分配給之前已被證明是US的可靠預(yù)測因子的刺激(Mackintosh, 1975)。根據(jù)這種觀點(diǎn),動(dòng)物學(xué)會(huì)選擇性地關(guān)注可靠預(yù)測試驗(yàn)結(jié)果的相關(guān)刺激,同時(shí)忽略不貢獻(xiàn)于US預(yù)測的無關(guān)刺激(Pearce & Mackintosh, 2010)。


Pearce-Hall模型認(rèn)為注意力在學(xué)習(xí)中扮演著不同的角色。根據(jù)該模型,注意力的作用是促進(jìn)更快的學(xué)習(xí),并且指向那些不是后續(xù)事件準(zhǔn)確預(yù)測因子的刺激(Pearce & Hall, 1980)。


????

符號(hào)表示與Macintosh模型相似;然而,對(duì)CS的注意力α在條件反射開始時(shí)會(huì)很高,并且隨著學(xué)習(xí)的進(jìn)行會(huì)下降。因此,這兩個(gè)模型提出了對(duì)比性的注意力機(jī)制,突出了其在學(xué)習(xí)中作用的不同視角。然而,我們可以探索如何在主動(dòng)推斷的框架內(nèi)表達(dá)相似的注意力原則,并在自由能最小化的統(tǒng)一框架下進(jìn)行整合。

注意力機(jī)制,在我們之前的模擬中,我們假設(shè)代理總是接收到具有同等顯著性的CS觀察。然而,在主動(dòng)推斷中,注意力可以被視為一種旨在獲取信息的行為,如在掃視模型中所展示的那樣(Parr & Friston, 2017)。為了將選擇性注意力納入我們的模型,我們可以引入一個(gè)額外的動(dòng)作:“關(guān)注提示”(見圖8A)。這個(gè)概念還引入了額外的狀態(tài),代理需要“訪問”或“關(guān)注”以接收CS觀察。在主動(dòng)推斷中,注意力通常被視為一種隱蔽的行為,與掃視眼動(dòng)等顯性行為發(fā)揮相同的作用(Rizzolatti等人,1987;Parr & Friston, 2018;Limanowski, 2022)。這意味著我們也可以將“關(guān)注提示”讀作“看著提示”。只有當(dāng)代理執(zhí)行這個(gè)動(dòng)作時(shí),CS觀察才會(huì)對(duì)代理可用。通過這一舉措,我們將我們的代理從被動(dòng)學(xué)習(xí)者轉(zhuǎn)變?yōu)榉e極學(xué)習(xí)者。


動(dòng)作是通過遵循最小化預(yù)期自由能(EFE)的策略來選擇的。如上所述,EFE包含一個(gè)內(nèi)在的信息增益項(xiàng)和一個(gè)外在的獎(jiǎng)勵(lì)項(xiàng)。信息增益對(duì)應(yīng)于狀態(tài)和觀察之間的預(yù)期貝葉斯驚訝和互信息(Itti & Baldi, 2008)。由于電擊的厭惡價(jià)值高于食物的獎(jiǎng)勵(lì)價(jià)值,當(dāng)對(duì)食物位置的不確定性仍未解決時(shí),的信息增益將高于信息增益和US的價(jià)值(見圖8B)。因此,代理將選擇關(guān)注的動(dòng)作。在接收到觀察后,由于不確定性得到解決,US的獎(jiǎng)勵(lì)價(jià)值增加,因?yàn)榇韺?duì)食物位置有把握,并且鑒于CS沒有獎(jiǎng)勵(lì)價(jià)值,在動(dòng)作選擇方面變得無關(guān)緊要(見圖8C)。因此,代理將關(guān)注,但不會(huì)關(guān)注(見圖8A)。這種注意力的概念與Macintosh的觀點(diǎn)相似,即在學(xué)習(xí)過程中,動(dòng)物將更多的注意力分配給可靠預(yù)測US的CS,換句話說,攜帶更多信息。

總結(jié),主動(dòng)推斷下的阻斷可以被解釋為通過移除不進(jìn)一步解決不確定性的動(dòng)作的預(yù)期信息增益或認(rèn)識(shí)性可供性來阻斷探索性行為。由于某些認(rèn)識(shí)性動(dòng)作被阻斷,因此沒有學(xué)習(xí)關(guān)聯(lián),因此也沒有對(duì)利用性行為的貢獻(xiàn)。換句話說,我們的合成代理學(xué)習(xí)了一種認(rèn)識(shí)性習(xí)慣(Friston等人,2016),阻止了新關(guān)聯(lián)的獲取。

3.3 新穎性與注意力

上述模型在只有一個(gè)CS存在的先前實(shí)驗(yàn)中不會(huì)有效運(yùn)作。在這種情況下,如果代理缺乏關(guān)于該特定觀察中存在有用信息的先驗(yàn)知識(shí),它就不會(huì)選擇關(guān)注CS的動(dòng)作。因此,與這一動(dòng)作相關(guān)的信息增益將會(huì)很低。為了解決這個(gè)問題,可以在學(xué)習(xí)過程中加入一個(gè)額外的項(xiàng)——即新穎性項(xiàng),它在主動(dòng)推斷框架內(nèi)考慮好奇心(Friston等人,2017)。在主動(dòng)推斷中,新穎性僅僅是伴隨預(yù)期關(guān)于潛在狀態(tài)的信息增益的關(guān)于參數(shù)的預(yù)期信息增益,通常被稱為顯著性(Schmidhuber, 2010; Barto等人,2013; Schwartenbeck等人,2019; Parr & Friston, 2018)。

EFE中的新穎性項(xiàng)使代理能夠優(yōu)先選擇那些導(dǎo)致觀察結(jié)果能夠在其學(xué)習(xí)過程中引起代理模型最顯著變化的動(dòng)作。通過整合新穎性項(xiàng),預(yù)期自由能(EFE)可以表示如下:


新穎性項(xiàng)依賴于代理對(duì)A矩陣的信念所編碼的不確定性,用狄利克雷參數(shù)表示,記作q(A)。在我們的模型中,我們假設(shè)代理對(duì)環(huán)境和潛在獎(jiǎng)勵(lì)位置有所熟悉,類似于動(dòng)物實(shí)驗(yàn)中進(jìn)行的預(yù)學(xué)習(xí)程序。因此,q(A)的濃度參數(shù)通常會(huì)很高,除了與CS觀察相關(guān)的矩陣部分除外。新穎性項(xiàng)量化了在特定策略下學(xué)習(xí)導(dǎo)致的A矩陣的預(yù)期變化。由于學(xué)習(xí)發(fā)生在劇集結(jié)束時(shí),我們使用前一個(gè)劇集中積累的信念來計(jì)算新穎性。

如圖9B所示,隨著學(xué)習(xí)的進(jìn)行,旨在關(guān)注CS的動(dòng)作的新穎性會(huì)降低,這與Pearce和Hall提出的注意力概念一致。然而,與他們的模型不同,其中注意力直接受US預(yù)測誤差的影響,我們模型中的新穎性并不直接依賴于US觀察或獎(jiǎng)勵(lì)預(yù)測誤差的復(fù)雜性。盡管如此,這兩個(gè)術(shù)語都以類似的方式隨著學(xué)習(xí)而減少。


因此,為了建立CS和US之間的關(guān)聯(lián),代理必須首先識(shí)別環(huán)境中的潛在CS事件,并對(duì)其進(jìn)行定向或關(guān)注。選擇相關(guān)觀察的過程可以被概念化為最小化行動(dòng)選擇的預(yù)期自由能。預(yù)期自由能的兩個(gè)組成部分,在定向和注意力中發(fā)揮作用,是新穎性和顯著性——即分別與參數(shù)和狀態(tài)相關(guān)聯(lián)的預(yù)期信息增益。只要與CS相關(guān)的新穎性和顯著性的總和超過了與US相關(guān)的信息增益和“獎(jiǎng)勵(lì)”,代理就會(huì)優(yōu)先關(guān)注CS。在學(xué)習(xí)的初期階段,對(duì)CS的關(guān)注將由新穎性驅(qū)動(dòng),隨著學(xué)習(xí)的進(jìn)行,新穎性逐漸降低。最終,注意力將轉(zhuǎn)向從CS觀察中獲得的信息增益,這反過來隨著學(xué)習(xí)的進(jìn)行而增加(見圖9B)。與之前的模擬一致,學(xué)習(xí)伴隨著先驗(yàn)和后驗(yàn)信念之間關(guān)于US的預(yù)測誤差的減少,這被表示為復(fù)雜性。

3.3.1 潛在抑制

通過利用新穎性作為注意力的機(jī)制,可以對(duì)潛在抑制現(xiàn)象提供解釋,這對(duì)Rescorla-Wagner模型來說是一個(gè)挑戰(zhàn)。潛在抑制指的是,如果動(dòng)物預(yù)先暴露于后來作為CS的刺激,那么CS和US之間的聯(lián)想學(xué)習(xí)就會(huì)被削弱。在我們的模型中,這可以歸因于這種刺激的新穎性較低,導(dǎo)致代理對(duì)該特定CS缺乏關(guān)注。這種效應(yīng)可以通過增加A矩陣中CS觀察的初始狄利克雷參數(shù)來模擬。另一種方法是在實(shí)驗(yàn)的初始階段使CS變得無信息,在這種情況下,CS是隨機(jī)呈現(xiàn)的,與US沒有任何聯(lián)系(見圖10)。在這種情況下,CS觀察的新穎性會(huì)降低,而顯著性保持不變。最終,代理會(huì)將其策略轉(zhuǎn)變?yōu)橹苯咏咏鼭撛讵?jiǎng)勵(lì)位置,因?yàn)榕cUS觀察相關(guān)的預(yù)期自由能的其他項(xiàng)(預(yù)期信息和價(jià)值)的總和高于CS的新穎性。即使CS恢復(fù)了其信息屬性,這種策略選擇也會(huì)持續(xù)存在。值得注意的是,潛在抑制效應(yīng)的常見解釋是CS注意力的下降(Lubow等人,1976),在Rescorla-Wagner模型中,這可以被概念化為上述alpha參數(shù)的減少。


3.3.2 阻斷和新穎性

在阻斷實(shí)驗(yàn)中,CS2的新穎性將保持較高,這與Pearce-Hall模型的預(yù)測相反。然而,它將低于與CS1觀察之前相關(guān)的信息增益以及CS1觀察和注意力解決不確定性之后US的價(jià)值(見圖11)。因此,代理的行為將與前面的模型一致,最初關(guān)注CS1,然后向獎(jiǎng)勵(lì)移動(dòng)。


盡管阻斷是一個(gè)有充分記錄的現(xiàn)象,但它并不總是在實(shí)驗(yàn)中一致地被觀察到(Maes等人,2016)。在我們的模型中,這種失敗可以通過各種因素來解釋。例如,與US的獎(jiǎng)勵(lì)價(jià)值相比,與相關(guān)的新穎性價(jià)值較高可能會(huì)起作用?;蛘?,可能具有與世界其他狀態(tài)相關(guān)的一些其他信息增益方面,這將吸引對(duì)它的注意力。因此,如果通過增加其顯著性使代理的注意力轉(zhuǎn)向,阻斷效應(yīng)將會(huì)更弱(Denton & Kruschke, 2006)。

3.4 遮蔽現(xiàn)象

遮蔽現(xiàn)象也是在條件反射中觀察到的一種現(xiàn)象,當(dāng)兩個(gè)新的條件刺激(CS)在試驗(yàn)中與無條件刺激(US)配對(duì)時(shí),會(huì)導(dǎo)致與單一CS試驗(yàn)相比條件反射更弱或?qū)W習(xí)速度更慢。與阻斷現(xiàn)象類似,經(jīng)典模型通過簡單的預(yù)測誤差來解釋這一現(xiàn)象。我們的模型表明,在遮蔽現(xiàn)象中,新穎性、顯著性和獎(jiǎng)勵(lì)價(jià)值都是需要考慮的重要因素。在這種情況下,兩個(gè)CS在學(xué)習(xí)開始時(shí)都是模糊的。是兩個(gè)不同的提示,例如聲音和光,而我們稱第一個(gè)CS為代理首先關(guān)注的提示,無論是。圖12顯示了在有兩個(gè)CS的學(xué)習(xí)(實(shí)線)與單一CS的學(xué)習(xí)(虛線)期間第一次CS觀察的EFE差異。在第一種情況下,對(duì)于相同數(shù)量的訓(xùn)練劇集,學(xué)習(xí)速度會(huì)更慢。


這種差異可以通過代理在觀察其中一個(gè)CS后的下一個(gè)動(dòng)作來解釋,該動(dòng)作由EFE決定(見圖13)。


在最初的幾次試驗(yàn)中,兩個(gè)條件刺激(CS)的新奇性將占據(jù)主導(dǎo)地位,這導(dǎo)致代理同時(shí)關(guān)注這兩個(gè)線索,每次試驗(yàn)都會(huì)減少新奇性并增加兩個(gè)線索的顯著性(信息增益)(見圖13A)。經(jīng)過幾次試驗(yàn)后,每個(gè)條件刺激將提供足夠的信息來增加直接前往獎(jiǎng)勵(lì)位置(US,紅色線)的策略價(jià)值,而不是觀察第二個(gè)條件刺激(青色線)。在這個(gè)階段,代理將只關(guān)注兩個(gè)條件刺激中的一個(gè),然后直接前往獎(jiǎng)勵(lì)位置(見圖13B)。因此,與單個(gè)條件刺激試驗(yàn)相比,學(xué)習(xí)兩個(gè)條件刺激與獎(jiǎng)勵(lì)之間的關(guān)聯(lián)性將需要更長的時(shí)間。

4 結(jié)論

在本研究中,我們構(gòu)建了一個(gè)主動(dòng)推理模型,其中代理學(xué)習(xí)建立條件刺激(CS)和無條件刺激(US)之間的關(guān)聯(lián)。我們的工作闡明了學(xué)習(xí)過程是自由能的最小化,并將這種方法與經(jīng)典聯(lián)想學(xué)習(xí)模型進(jìn)行了比較。

20世紀(jì)最具影響力的模型之一,Rescorla-Wagner模型,認(rèn)為學(xué)習(xí)是通過最小化預(yù)測誤差——預(yù)測結(jié)果與觀察結(jié)果之間的差異來實(shí)現(xiàn)的。這一觀點(diǎn)已應(yīng)用于強(qiáng)化學(xué)習(xí)領(lǐng)域,作為獎(jiǎng)勵(lì)預(yù)測誤差——代理預(yù)測和觀察到的狀態(tài)值之間的差異。在主動(dòng)推理中,學(xué)習(xí)是通過調(diào)整代理的生成模型參數(shù)來最小化自由能實(shí)現(xiàn)的。自由能可以被視為兩種預(yù)測誤差的結(jié)合:復(fù)雜性和準(zhǔn)確性。在我們的模型中,我們強(qiáng)調(diào)了這兩種術(shù)語的動(dòng)態(tài)以及在學(xué)習(xí)過程中對(duì)世界狀態(tài)的信念的重要性。盡管我們的模型也顯示出獎(jiǎng)勵(lì)預(yù)測誤差的減少,但重要的是要注意,這種減少是自由能最小化的結(jié)果,而不是學(xué)習(xí)的主要驅(qū)動(dòng)力。

自由能原理進(jìn)一步允許我們建立代理在觀察到CS后對(duì)US的不確定性減少與學(xué)習(xí)過程中US的獎(jiǎng)勵(lì)價(jià)值增加之間的聯(lián)系。這種聯(lián)系之前在Rescorla的作品中討論過,但沒有被整合到模型中。

在我們的模擬中,我們在展示阻斷現(xiàn)象時(shí)遇到了挑戰(zhàn)。這一困難源于準(zhǔn)確性項(xiàng)的影響,該準(zhǔn)確性項(xiàng)在學(xué)習(xí)第二個(gè)新CS與US之間的關(guān)聯(lián)性時(shí)增加并最小化自由能,注意到兩個(gè)CS的顯著性是相同的。為了解決這個(gè)問題,我們使用注意力的概念巧妙地調(diào)整了我們的模擬,在主動(dòng)推理中,這可以被解釋為旨在獲得最有信息量的觀察的行動(dòng)。將這一概念應(yīng)用于聯(lián)想學(xué)習(xí),類似于Mackintosh的模型,該模型假設(shè)動(dòng)物會(huì)將注意力分配給之前更好地預(yù)測US的CS。這種方法使我們能夠證明代理朝向第一個(gè)CS,同時(shí)忽略第二個(gè)CS,導(dǎo)致對(duì)第二個(gè)CS的學(xué)習(xí)缺乏,從而展示了阻斷。

然而,這種類型的注意力的引入也揭示了我們的基本模型在處理單個(gè)新CS時(shí)的缺陷。如果CS是新的,還沒有攜帶任何信息,代理將不會(huì)關(guān)注這個(gè)線索,導(dǎo)致沒有學(xué)習(xí)。為了解決這個(gè)問題,我們引入了新奇性的概念,這在主動(dòng)推理中用于解釋好奇行為。應(yīng)用于聯(lián)想學(xué)習(xí),新奇性作為一個(gè)術(shù)語,負(fù)責(zé)對(duì)新CS的關(guān)注,類似于Pearce-Hall模型。我們證明了在學(xué)習(xí)過程的開始,CS的新奇性很高,是代理關(guān)注CS的主要原因。然而,隨著學(xué)習(xí)的進(jìn)行,關(guān)注CS的動(dòng)機(jī)發(fā)生了變化:新奇性減少,而CS和US之間的互信息增加,促使代理因?yàn)镃S的顯著性或信息性而關(guān)注CS。

將新奇性項(xiàng)納入阻斷模型,也有助于解釋在復(fù)制這一現(xiàn)象時(shí)頻繁出現(xiàn)的失敗,而Rescorla-Wagner、Mackintosh和Pearce-Hall模型單獨(dú)無法做到這一點(diǎn)。此外,使用新奇性項(xiàng)使我們能夠模擬潛伏抑制現(xiàn)象,這是Pearce-Hall模型的一個(gè)強(qiáng)項(xiàng),但Rescorla-Wagner或Mackintosh模型并非如此。

此外,我們成功地模擬了遮蔽現(xiàn)象,在我們的模型中,這取決于新奇性、顯著性和獎(jiǎng)勵(lì)之間的相互作用,與其他使用單一獎(jiǎng)勵(lì)預(yù)測誤差的模型不同??傊?,我們的工作突出了主動(dòng)推理如何將聯(lián)想學(xué)習(xí)的既定模型中的思想統(tǒng)一到一個(gè)全面的框架中。我們提出自由能原理作為一個(gè)潛在的框架,可以最充分地解釋聯(lián)想學(xué)習(xí)過程中發(fā)生的事情。需要注意的是,本文只呈現(xiàn)了有限數(shù)量的模擬實(shí)驗(yàn),而聯(lián)想學(xué)習(xí)的文獻(xiàn)是廣泛的。因此,進(jìn)一步的研究應(yīng)該集中在模擬現(xiàn)有的學(xué)習(xí)現(xiàn)象和設(shè)計(jì)新的實(shí)驗(yàn)來測試學(xué)習(xí)原則作為自由能最小化。


https://www.researchgate.net/publication/384268822_Associative_Learning_and_Active_Inference

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“早晚刷牙”是錯(cuò)的?醫(yī)生提醒;過了50歲,最好改掉4個(gè)刷牙習(xí)慣

“早晚刷牙”是錯(cuò)的?醫(yī)生提醒;過了50歲,最好改掉4個(gè)刷牙習(xí)慣

今日養(yǎng)生之道
2025-03-28 10:49:27
謝霆鋒演唱會(huì)結(jié)束后父子聚餐,倆兒子認(rèn)真聽爸爸講話,畫面溫馨

謝霆鋒演唱會(huì)結(jié)束后父子聚餐,倆兒子認(rèn)真聽爸爸講話,畫面溫馨

曉風(fēng)說
2025-04-27 18:20:25
馬卡:弗洛倫蒂諾將會(huì)在未來幾小時(shí)內(nèi)與安切洛蒂舉行會(huì)談

馬卡:弗洛倫蒂諾將會(huì)在未來幾小時(shí)內(nèi)與安切洛蒂舉行會(huì)談

懂球帝
2025-04-28 01:20:22
北約給中國殲-20戰(zhàn)斗機(jī)取代號(hào),名為“Fagin”,音譯過來很惡毒

北約給中國殲-20戰(zhàn)斗機(jī)取代號(hào),名為“Fagin”,音譯過來很惡毒

盒子里的密探
2025-04-27 14:58:07
日本“渡邊太太現(xiàn)象”,正在中國內(nèi)地上演

日本“渡邊太太現(xiàn)象”,正在中國內(nèi)地上演

智谷趨勢
2025-04-15 11:08:19
麥卡利斯特:能拿世界杯又能拿英超冠軍,這真的意義非凡

麥卡利斯特:能拿世界杯又能拿英超冠軍,這真的意義非凡

懂球帝
2025-04-28 03:33:02
下任美聯(lián)儲(chǔ)主席熱門人選沃什:美聯(lián)儲(chǔ)犯下“系統(tǒng)性錯(cuò)誤”,未能控制一代人以來最嚴(yán)重的通脹

下任美聯(lián)儲(chǔ)主席熱門人選沃什:美聯(lián)儲(chǔ)犯下“系統(tǒng)性錯(cuò)誤”,未能控制一代人以來最嚴(yán)重的通脹

澎湃新聞
2025-04-27 20:20:28
好消息,湖人隊(duì)在第四場比賽前獲得了東契奇的積極消息

好消息,湖人隊(duì)在第四場比賽前獲得了東契奇的積極消息

好火子
2025-04-28 01:46:38
明日農(nóng)歷四月初一,無論有錢沒錢,記得:1不減,2要看,3要吃

明日農(nóng)歷四月初一,無論有錢沒錢,記得:1不減,2要看,3要吃

小談食刻美食
2025-04-27 08:09:56
出國就遇冷!全球1600萬公頃可食用竹筍,為啥就中國能吃出花?

出國就遇冷!全球1600萬公頃可食用竹筍,為啥就中國能吃出花?

阿傖說事
2025-04-26 11:41:07
“高潮針”是個(gè)什么玩意?能讓這么多女生趨之若鶩

“高潮針”是個(gè)什么玩意?能讓這么多女生趨之若鶩

遛狗拴繩糞便清
2025-04-25 20:20:16
瘋了?澳洲之后不再收會(huì)計(jì)、IT、工程師!

瘋了?澳洲之后不再收會(huì)計(jì)、IT、工程師!

澳洲紅領(lǐng)巾
2025-04-27 15:15:26
又一體育界叛徒!系孫穎莎師兄,放棄國籍要助日本奪金!

又一體育界叛徒!系孫穎莎師兄,放棄國籍要助日本奪金!

明月聊史
2025-04-27 16:27:52
國央企合并重組潮!關(guān)系無數(shù)人命運(yùn)

國央企合并重組潮!關(guān)系無數(shù)人命運(yùn)

身在國企心在江湖
2025-04-27 13:40:42
俄羅斯絕密文件曝光:若與北約開戰(zhàn),先打中國周邊兩國“鄰居”

俄羅斯絕密文件曝光:若與北約開戰(zhàn),先打中國周邊兩國“鄰居”

林子說事
2025-04-26 21:00:38
蔡少芬的家居生活火了:一家五口“蝸居”80㎡公寓,窩小卻很幸福

蔡少芬的家居生活火了:一家五口“蝸居”80㎡公寓,窩小卻很幸福

手工制作阿愛
2025-04-25 06:01:11
北京國際電影節(jié)閉幕紅毯!馬麗林志玲劉曉慶倪萍唐國強(qiáng)等亮相

北京國際電影節(jié)閉幕紅毯!馬麗林志玲劉曉慶倪萍唐國強(qiáng)等亮相

草莓解說體育
2025-04-28 00:59:05
俄媒:一旦戰(zhàn)爭爆發(fā)中國將被圍攻,對(duì)中國而言,最危險(xiǎn)的不只戰(zhàn)爭

俄媒:一旦戰(zhàn)爭爆發(fā)中國將被圍攻,對(duì)中國而言,最危險(xiǎn)的不只戰(zhàn)爭

楊哥歷史
2025-03-22 13:58:51
這一次,公開示愛王菲的謝霆鋒,真是沒有給前妻張柏芝留一點(diǎn)體面

這一次,公開示愛王菲的謝霆鋒,真是沒有給前妻張柏芝留一點(diǎn)體面

振華觀史
2025-04-25 23:18:36
這位開國上將,55年授銜后長期不受重用,混的還不如一些中將少將

這位開國上將,55年授銜后長期不受重用,混的還不如一些中將少將

南書房
2025-04-27 11:15:22
2025-04-28 04:19:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
526文章數(shù) 9關(guān)注度
往期回顧 全部

科技要聞

充1秒跑2.5公里,寧德時(shí)代比亞迪華為激戰(zhàn)

頭條要聞

用馬斯克理念改造生產(chǎn)線 95后女生創(chuàng)業(yè)1年銷售額上億

頭條要聞

用馬斯克理念改造生產(chǎn)線 95后女生創(chuàng)業(yè)1年銷售額上億

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

華表獎(jiǎng)獲獎(jiǎng)名單!張譯二影帝惠英紅勇影后

財(cái)經(jīng)要聞

2千億!核電開閘 國常會(huì)核準(zhǔn)10臺(tái)新機(jī)組

汽車要聞

蔚來李斌的"十年磨一劍" 從看得見 到看不見

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
時(shí)尚
藝術(shù)
公開課

房產(chǎn)要聞

首開2小時(shí)熱銷超 200 套!天河芯紅盤憑什么交出樓市滿分答卷?

數(shù)碼要聞

AMD新一代筆記本GPU陣容曝光 共6款型號(hào) 劍指英偉達(dá)?  

5條適合春天的裙子、褲子!溫柔顯瘦美到爆炸!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 闸北区| 安西县| 天柱县| 巴南区| 宣武区| 江达县| 广河县| 会东县| 商南县| 富蕴县| 大田县| 马鞍山市| 百色市| 柞水县| 阳朔县| 垫江县| 大方县| 威远县| 新津县| 金山区| 永昌县| 元朗区| 正宁县| 濮阳市| 闸北区| 莎车县| 岐山县| 九寨沟县| 化州市| 潍坊市| 临江市| 图木舒克市| 凤翔县| 苏尼特右旗| 肃南| 沙洋县| 如皋市| 翁牛特旗| 竹北市| 无为县| 英超|