99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

序列預測學習是海馬體表征和重放的統一理論

0
分享至

Sequential predictive learning is a unifying theory for hippocampal representationand replay

序列預測學習是海馬體表征和重放的統一理論

https://www.biorxiv.org/content/10.1101/2024.04.28.591528.abstract

https://www.biorxiv.org/content/biorxiv/early/2024/06/04/2024.04.28.591528.full.pdf



摘要

哺乳動物的海馬體包含一個認知地圖,用于表示動物在環境中的位置,并生成離線“回放”,以實現回憶、規劃和形成長期記憶的目的。最近的研究發現,經過訓練以預測感官輸入的人工神經網絡會發展出空間調諧細胞,這與海馬體功能的預測理論一致。然而,預測性學習是否也能解釋生成離線回放的能力尚不清楚。在這里,我們發現,通過各種形式的預測性學習穩健出現的空間調諧細胞,并不能保證具有生成回放能力的認知地圖的存在。離線模擬僅出現在使用遞歸連接和頭部方向信息來預測多步觀察序列的網絡中,這種方式促進了反映環境幾何結構的連續吸引子的形成。這些離線軌跡能夠展示出類似于清醒狀態的統計特性,自主回放最近經歷的位置,并可以由虛擬頭部方向信號引導。此外,我們發現,經過訓練以循環預測未來觀察序列的網絡能夠快速學習認知地圖,并生成類似于海馬體θ波掃描的未來位置表征。這些結果表明,類似海馬體的表征和回放可以在參與預測性學習的神經網絡中出現,并提示海馬體θ序列反映了實現高效數據算法的電路,用于順序預測性學習。總之,這一框架為海馬體功能以及受海馬體啟發的人工智能方法提供了一個統一的理論。

主要的

哺乳動物的海馬體被認為參與了多種看似不同的認知過程,包括導航、記憶、規劃和想象。這種功能多樣性似乎依賴于兩種不同操作模式之間的相互作用。第一種是輸入驅動的“在線”模式,在環境中的主動行為期間發生。在在線模式中,神經活動顯示出顯著的θ節律,空間調諧細胞表示動物的位置,群體活動位于一個低維流形上,反映了環境和任務結構。第二種是“離線”模式,在行為靜止和睡眠期間發生。在離線模式中,不規則的神經活動顯示出顯著的尖波漣漪,并“回放”通過環境的真實軌跡,包括先前經歷的位置序列和未走路徑的生成軌跡。重要的是,回放被認為是海馬體內部生成的,但可能受到其輸入的影響,特別是頭部方向系統,它在睡眠期間傳遞連貫但隨機漂移的信號。然而,對于這些操作模式的統一解釋仍然缺乏。特別是,我們缺少一個模型來說明像海馬體這樣的遞歸神經網絡如何在在線模式中從感官信息中學習空間表征,并生成滿足三個關鍵需求的離線活動:(1) 內部生成的連貫空間位置表征;(2) 生成通過環境的合理軌跡的位置序列;(3) 在那些位置輸出與學習關聯相關的感官輸入。

一個經典的理論用來解釋海馬體表征和回放的是,海馬體實現了一個連續吸引子神經網絡(CANN)。CANN使用吸引性神經流形來表示空間,即使在沒有輸入的情況下也能維持局部化的活動隆起。事實上,CANN模型可以解釋在線和離線活動期間的許多實驗觀察結果。這些包括:(1) 空間調諧細胞的存在;(2) 位于低維流形上的群體活動;(3) 內部生成的離線軌跡,范圍從擴散運動到記憶軌跡。然而,傳統的CANN模型依賴于將神經元預先分配到空間位置或手工調整遞歸連接,并且學習CANN的模型依賴于具有預先存在的對外部空間調諧信號。此外,CANN無法解釋海馬體功能的另外兩個方面。第一個是視角依賴的感官信息與視角獨立的空間表征的關聯;第二個是弱調諧細胞的優勢,這對群體活動的低維結構和空間的分布式海馬體表征至關重要。因此,目前尚不清楚一個網絡如何僅從自我中心的感官輸入(如圖像)中學習類似海馬體的表征和回放。

一個有前景的候選理論是預測性學習。計算模型已經表明,學習預測即將到來的感官輸入會導致人工神經網絡中空間調諧單元的出現,并且海馬體的位置場類似于強化學習中使用的預測表征。此外,海馬體編碼了對即將到來的刺激的預期以及預測誤差。事實上,關于海馬體功能的其他理論提出,海馬體是一個序列預測網絡,這一觀點基于其解剖結構以及神經元活動不僅僅編碼動物當前的位置,而是以一種“掃描”的方式表示可能的未來位置軌跡的觀察結果。

為了確定預測性學習在統一海馬體功能不同方面上的潛力,我們訓練了遞歸神經網絡 (RNN) 來預測一個代理在模擬環境中移動時的自我中心感官輸入(圖2a,方法)。這使我們能夠在代理接收到空間模糊的感官輸入的情況下,比較不同預測模型的分布式表征(圖S1)。同時,這也讓我們能夠研究這些模型在沒有感官輸入情況下的離線生成能力。我們發現,一種基于吸引子的認知地圖能夠從預測性學習中出現,并具備生成離線回放的能力,但只有在網絡使用遞歸連接并通過定向信號(頭部方向)預測多步感官輸入序列時才可能實現。總之,序列預測性學習可以解釋海馬體中的在線表征和離線回放。因此,序列預測性學習是一個能夠統一對海馬體三種觀點的候選理論:1)海馬體是一張預測性地圖;2)海馬體是一個連續吸引子神經網絡 (CANN);3)海馬體是一個序列生成器。



下一步預測性學習產生空間調諧細胞,但不產生回放

我們在一個“網格世界”環境中模擬了一個代理,該環境中的視覺線索由不同顏色和圖案的地板磚組成(圖2a)。在“清醒”階段,代理采取隨機行動,以實現對環境的充分探索(方法)。在每個位置,代理接收一張7×7的顏色圖像,對應于其前方地板和墻壁的自我中心視角(圖2b,補充視頻)。關鍵的是,該網絡的輸入既具有空間模糊性,也具有冗余性(圖2c,S2)——單個感官單元幾乎沒有空間調諧性,環境中的多個位置可能具有相同的感官輸入,而同一位置可能因代理的頭部方向不同而具有不同的感官輸入。每個階段的動作序列和視覺輸入被用來訓練一個遞歸神經網絡(RNN),通過時間反向傳播預測每個時間步的下一個視覺輸入(圖2a、b,圖S3a,方法)。

訓練完成后,網絡中形成了一個對外部空間的表征(圖2c、d)。代理的位置可以通過線性解碼器從預測性RNN單元中準確解碼(圖2b、d,方法),許多RNN單元活動的很大一部分方差可以由代理的位置解釋(600個單元中有141±15個單元的空間位置解釋了超過50%的方差),并且它們發展出了攜帶顯著更多空間信息的空間調諧曲線,相比于視覺輸入或未訓練網絡中觀察到的信息(圖2c,方法)。與海馬體中的細胞類似,網絡中的單元表現出空間信息分布的偏態(圖S3b),其中大量單元為弱調諧細胞,少數單元具有強/可靠的空間調諧性。

空間調諧單元的出現是遞歸網絡中預測性學習的一個穩健特性。訓練后的RNN包含比隨機(未訓練)RNN或相同訓練的前饋網絡具有更多空間信息的單元(圖2c、d,圖S4),并且空間調諧細胞的出現并不依賴于環境的幾何形狀(圖S5),也不依賴于離散環境和動作空間的使用(圖S6)。由于神經網絡模型的涌現特性可能對特定超參數選擇敏感,我們訓練了一個由250個預測網絡組成的群體,每個網絡具有不同的超參數設置(種子、學習率、序列持續時間、反向傳播時間窗口、神經元數量和神經時間尺度;圖S7)。我們發現,空間表征的出現與這些RNN群體的預測性能高度相關(圖2e),并且至關重要的是,沒有任何一個網絡能夠在不發展出空間調諧細胞的情況下很好地進行預測。這些結果表明,對外部空間的調諧是遞歸神經網絡學習預測自我中心感官信息時自然且穩健的結果。

接下來,我們測試了預測性RNN是否能夠在類似睡眠的狀態下生成合理的模擬。具體來說,我們移除了感官和動作輸入,并增加了高于訓練期間使用的噪聲量(不相關的高斯噪聲,見方法),使得網絡動態主要由遞歸連接主導(圖S8)。為了識別網絡在睡眠期間所表征的位置,我們使用了在清醒狀態下從RNN活動解碼位置的解碼器(圖2f)。我們發現,網絡并未表征一個空間局部化的位置(圖2g),離線活動產生的感官“預測”與解碼視點(即位置和頭部方向,圖2h)的感官輸入不對應,并且表征位置的軌跡不符合環境統計特性(圖2i)。相反,軌跡頻繁地在空間中跳躍,僅訪問環境中少量孤立的位置,這些位置在不同試驗中保持一致(圖S8)。這與清醒狀態下的軌跡形成鮮明對比,后者僅限于通過環境的平滑過渡。無法生成回放并非特定超參數選擇的結果,因為無論網絡超參數或噪聲水平如何,這些網絡都無法生成合理的模擬(圖S8)。因此,學習預測下一幅圖像能夠穩健地產生空間調諧,但并未賦予內在生成回放的能力。

連續吸引子表征從序列預測性學習中涌現

在檢查預測性RNN的群體活動時,我們觀察到,盡管存在空間調諧單元,RNN中的活動并不類似于連續吸引子神經網絡(CANN)(圖3a、b)。也就是說,清醒狀態下的群體活動并未位于反映環境空間布局的流形上,而睡眠期間的活動則收斂到一個單一的偏離流形的固定點。為了量化這些觀察結果,我們開發了兩個指標:第一,空間表征相似性分析(sRSA),用于測量神經空間距離與環境距離之間的相關性(方法);第二,睡眠-清醒距離(S-W Dist),用于測量睡眠期間活動與清醒流形在神經空間中的距離(方法)。我們觀察到,預測性RNN的sRSA得分顯著低于CANN(圖3a、b),而其S-W Dist顯著更高,表明群體活動位于清醒流形之外。


因此,我們想知道其他形式的預測性學習是否可能生成基于吸引子的認知地圖。最近的研究表明,遞歸自編碼器也可以包含空間調諧單元,并且掩碼預測性學習(一種在保留時間步中訓練自編碼器預測輸入的方法)已被發現在視覺和語言任務中生成良好的內部模型。在掩碼預測范式下,視覺輸入可以在多個時間步被掩碼(圖3c,S1),我們假設這將鼓勵遞歸連接維持代理當前狀態的一致表征并捕捉通過空間的轉換。確實,我們發現多步或序列預測性學習導致了一個反映環境布局并在睡眠期間約束神經活動的神經流形的涌現(圖3d)。

有趣的是,盡管所有掩碼網絡都能解決預測任務并發展出空間調諧單元,但只有使用速度和頭部方向(HD)信息訓練的序列網絡形成了認知地圖(圖3e、f)。具體來說,吸引子流形(低S-W Dist)僅出現在被訓練預測至少兩個時間步掩碼觀測的網絡中(圖3e),而映射到空間的能力(高sRSA)并未出現在單步掩碼網絡或接收動作身份、速度和角速度的序列網絡中(圖3e,圖S9)。此外,使用速度和HD信息訓練的序列預測網絡是唯一一類其空間表征更接近歐幾里得距離而非位置間步數的網絡(圖3f)。這些結果在具有不同超參數的網絡中表現穩健(圖3g,S10),在具有不同幾何形狀的環境中一致(圖3h),并且在一個具有真實行為軌跡的連續環境中也成立(圖3i,圖S11)。

雖然層歸一化、丟棄法(dropout)和噪聲注入(見方法)提高了訓練和離線活動的穩定性,并改善了下一步RNN中的空間調諧(圖S12),但它們并未促進下一步網絡中連續吸引子的形成,其存在也并非序列RNN中吸引子涌現的必要條件(圖S12)。

為什么下一步預測性RNN具有空間調諧表征,卻沒有能夠映射環境空間布局的吸引子神經流形?

這種表面上的矛盾是由于網絡對空間的表征被動作身份和視覺輸入的強大表征所取代(圖S13),而在序列預測性網絡中,這些表征僅被弱表達(圖S13)。有趣的是,增加環境中視覺模糊性的程度降低了下一步、單步和動作身份編碼網絡中的空間表征,但并未降低使用速度+頭部方向動作編碼的序列網絡中的空間表征(圖S14),這進一步支持了這樣的觀點:結合速度和頭部方向信息的序列預測性學習促進了認知地圖的形成。認知地圖流形的出現可以歸因于更多細胞的方差由空間位置解釋的現象。盡管調諧曲線包含相同數量的空間信息,序列預測網絡中的單元有更多活動方差由空間位置解釋(圖S15),并且更多這些空間調諧單元對單一空間位置表現出單峰調諧曲線(圖S15)。在超參數群體中,sRSA與調諧單元的比例相關,而非平均空間信息量(SI,圖S15)。

序列預測性RNN生成離線模擬,能夠自主回放最近的位置或遵循頭部方向查詢

與下一步預測性網絡(圖2)不同,序列預測性RNN中的離線活動在沒有感官輸入的情況下維持了位置的一致表征。當網絡僅由內部噪聲驅動時,每個時間步解碼出的位置在空間上高度集中(圖4a、b),并在每個睡眠周期中圍繞一個不同的單一位置進行局部轉換(圖4c,圖S16)。


然而,海馬體中的離線活動并不僅限于單一位置,而是展示出延伸的路徑,這些路徑穿過環境,并經常重現最近探索中顯著或獎勵相關的位置。在連續吸引子神經網絡(CANN)和其他海馬體模型中,生成軌跡的一種常見方法是引入適應機制(圖4a),即對每個神經元活動的緩慢負反饋,這被認為在生成海馬體離線活動的動力學中起到了關鍵作用。我們發現,在RNN單元中添加一個適應變量會產生延伸的睡眠軌跡(圖4c、S16、S17),其統計特性與清醒狀態下的軌跡相似(圖4d)。值得注意的是,除了相鄰空間位置之間的轉換外,離線軌跡經常進行對角線和兩步轉換(圖S16),而這些轉換在訓練數據中均不可能出現。因此,該網絡能夠自主生成反映環境結構的生成性模擬,但并不嚴格局限于清醒狀態下觀察到的狀態轉換。在清醒試驗中增加學習率會導致網絡從生成合理但隨機的軌跡,轉變為在隨后的睡眠周期中重現試驗中訪問過的位置(圖S18)。

除了回放最近的位置,離線海馬體活動還可以用于定向規劃和想象。受表征頭部方向的神經回路在大腦離線活動中自發活躍這一現象的啟發,我們假設在清醒狀態下指示代理動作的相同輸入可以引導睡眠期間的軌跡(圖4a)。確實,與適應機制類似,添加一個動作“查詢”信號會通過影響回放轉換的方向產生類似清醒狀態的轉換統計特性(圖4c、d,S17)。這種行為僅出現在使用速度和頭部方向信息訓練的序列預測網絡中(圖4e),并與它們形成認知地圖的能力相關,這一點可以通過sRSA和睡眠-清醒距離來衡量(圖4f)。有趣的是,生成類似清醒狀態軌跡的能力僅依賴于動作信號中的頭部方向分量,而虛構的速度或適應機制則可以調節這一運動的速度(圖S16)。此外,頭部方向查詢提高了視覺模擬的合理性,生成的輸出模仿了睡眠期間回放位置的相關感官輸入(圖4g、h,S17)。總之,這些結果表明,序列預測性學習生成的網絡包含一個認知地圖,滿足離線活動的三個關鍵需求(圖1c),即:(1)在沒有輸入的情況下維持一致的表征;(2)生成延伸的軌跡,可以回放最近的經歷或通過頭部方向查詢進行定向;(3)能夠在表征的位置上重現學習到的感官關聯。

基于展開(rollout)的序列預測性學習生成θ波掃描表征動態并實現快速學習

盡管上述學習過程重現了若干實驗觀察結果,但它需要大量的感官“數據”——更準確地說,只有在完成約2000次試驗(每次試驗500步)后才能學習到地圖(圖S20)。相比之下,海馬體在暴露于新環境后的幾天內就能形成神經流形,并且能夠快速在位置和新穎感官信息之間建立關聯。此外,與海馬體不同,掩碼網絡預測的是當前而非未來的感官觀測。在自監督學習和強化學習中,序列預測通常通過“展開”來學習:即預測多個未來時間步,這提高了數據效率。因此,我們修改了學習過程,采用基于展開的方法,其中RNN在接收到下一個時間步的感官輸入之前,每一步都預測未來觀測的多步序列(圖5a,S1)。


與使用掩碼方法的序列預測網絡類似,這種基于展開的預測性RNN也學習到了一個連續吸引子地圖(圖5b),該地圖在睡眠期間維持了一致的空間表征,并生成了具有合理感官關聯的、類似于清醒狀態的軌跡(圖5c)。有趣的是,當解碼器被應用于展開的不同階段時,網絡所表征的位置會從代理當前位置的后方“掃描”到前方幾步的位置(圖5a、d)。這種循環表征與海馬體的θ波掃描極為相似:每約120毫秒出現一次代表動物前方位置的尖峰序列,由8Hz的θ振蕩協調。為了學習吸引子地圖,網絡必須接收未來速度和頭部方向的預期序列(圖S19),這類似于提前規劃其動作。然而,一旦地圖被學習到,網絡便能夠在展開過程中模擬可能但未實際發生的未來軌跡,前提是提供一個假設的動作序列(圖S19)。

展開學習顯著提升了學習性能和認知地圖的形成。 展開網絡擁有更多空間調諧單元(圖5e、f),相較于掩碼網絡形成了更高sRSA值的空間表征(圖5f,圖S20),并且在感官預測方面表現更優(圖S20)。此外,當環境中引入新物體時,這種方法能夠快速形成新的感官關聯,即使物體被移除后,這種關聯仍然保留在網絡的輸出中(圖S21)。這種改進的原因在于網絡的數據效率更高——它能夠以更少的試驗次數和更短的序列長度形成連續吸引子地圖(圖5g,圖S20)。

總體而言,我們發現基于展開的序列預測性學習提高了學習連續吸引子地圖的速度和魯棒性,并重現了實驗觀察到的θ波掃描“前瞻”模式。因此,我們的研究結果表明,θ序列是海馬體中序列預測性學習的一個標志性特征。

在這項研究中,我們使用了一個RNN模型來證明序列預測性學習為海馬體表征和回放提供了一個統一的理論。與之前的研究結果一致,我們發現學習預測感官輸入能夠穩健地促使遞歸神經網絡中空間調諧細胞的發展。然而,我們發現空間調諧細胞的存在并不足以保證具備生成離線回放能力的認知地圖。盡管如此,在使用速度和頭部方向信息預測多步感官輸入序列的訓練網絡中,一個連續吸引子流形始終出現,這使得網絡能夠在線下模擬合理的軌跡。這種離線“回放”活動可以重現試驗中的位置、生成新的軌跡,或由頭部方向查詢引導。我們發現,通過循環預測未來的感官輸入,認知地圖形成的效率得到了提高,并且生成了類似于海馬體中觀察到的θ波掃描的表征。這些結果表明,多步序列預測是解釋海馬體操作的一個有前景的統一理論。

我們的工作建立在先前探索預測模型與海馬體-內嗅系統中空間表征關系的研究基礎之上。過去的研究已經表明:(1) 海馬體中空間調諧的某些方面可以通過預測性表征很好地解釋,這些表征可以通過具有空間調諧輸入的預測性赫布學習、時序差分學習(TD learning)或脈沖時間依賴可塑性(STDP)學習;(2) 學習從動作中預測記憶嵌入可以連接外部空間和自我中心表征;(3) 預測可以將空間調諧輸入與關系結構聯系起來;(4) 使用離散狀態從動作中預測觀測值的克隆隱馬爾可夫模型可以重現海馬體的許多特征并支持離線評估;(5) 參與路徑整合(即從動作序列中預測空間位置)會導致網格細胞和連續吸引子動力學的出現;(6) 訓練遞歸網絡預測海馬體尖峰數據或線性位置細胞序列可以重現海馬體活動的多種特征,包括尖峰交叉相關性和序列回放。我們的工作表明,這些發現可以在RNN中通過感官數據的序列預測性學習統一起來,并應用于自我中心、高維、連續的感官輸入。

更廣泛地說,序列預測性學習統一了海馬體操作的三種不同觀點。除了將海馬體視為預測性地圖的觀點與海馬體實現連續吸引子神經網絡(CANN)的觀點聯系起來,序列預測性學習還與海馬體作為序列生成器的觀點一致。這些觀點基于對θ序列的廣泛生理學觀察,這些序列與諸如觸須擺動、腳步、嗅聞或眼跳等行為步驟相關,并且對隨后的回放至關重要。它們還得到了最近模型的支持,這些模型表明將觀測值與離散狀態序列關聯可以重現許多與海馬體相關的生理現象,以及經典模型表明神經網絡中的序列學習可以重現其許多心理功能。

我們研究中最令人驚訝的結果之一是,空間調諧細胞并不能保證一個具有拓撲對應環境的低維神經流形或認知地圖的存在。支持空間調諧與認知地圖之間的這一區分,實驗研究表明,雖然位置細胞在新環境中幾乎會立即出現,但認知地圖僅在多天的暴露后才會出現,并且依賴于弱調諧細胞。此外,我們觀察到,預測感官輸入序列對于地圖形成和回放是必要的,但對于空間調諧卻不是必需的,這與生理學結果相呼應:在發育過程中,位置細胞在海馬體中先于序列活動出現,而破壞其序列結構會干擾其產生回放的能力,但不會干擾其對空間的關聯編碼。

除了預測感官輸入序列外,我們的研究結果表明,頭部方向信號對于從視角依賴的觀測中學習認知地圖至關重要。雖然承認引入頭部方向信號是對外部空間的(即非自我中心的),但它與將動物的頭部方向和前進速度傳遞到海馬體系統的輸入信號有著驚人的相似性。此外,頭部方向系統在睡眠期間傳遞一個連貫的信號,該信號與動物的實際頭部方向無關,并且在海馬體回放之前顯示出活動增強。在我們的模型中,僅靠適應機制就足以生成回放軌跡,但虛擬頭部方向輸入對于在回放位置輸出相關的感官信息是必要的,并且能夠影響回放軌跡的方向。總的來說,這些結果預測,頭部方向對于形成位置細胞并非必要,但在認知地圖的形成、重現下游處理所需的學習關聯的回放過程中起著關鍵作用,并且可以支持利用回放進行定向規劃和想象。頭部方向系統的這一關鍵作用是一個實驗性的預測,可以在未來的研究中加以驗證。

本研究存在一些局限性需要考慮。首先,我們從隨機初始狀態開始訓練網絡,這并不能準確反映海馬體中的學習過程。有大量證據表明,海馬體具有預先存在的連接結構,學習是在這些結構上進行的。一個突出的假設是,這些結構賦予海馬體一個“庫”式的儲備,其中包含現有的序列,這些序列可以與任意的感官輸入序列相關聯。我們假設這種初始化將促進快速甚至單次學習的序列預測性學習。此外,任何成年動物都會有豐富的環境經驗,這些先前的知識會對學習“新”環境產生影響。未來的研究可以探索在具有結構化初始化和/或在多個連續學習環境中訓練的網絡中,序列預測的表現如何。

其次,盡管我們的序列學習算法受到θ波動態的啟發,但我們并未關注突觸可塑性機制的生物學真實性。然而,基于展開的預測網絡可能通過生物學上合理的可塑性機制來實現。在一個生物學上真實的網絡中,由平臺電位驅動的行為時間尺度可塑性可以提供維持過去預測記錄所需的資格痕跡,并在具有時空分離輸入的樹突隔室中將其與當前觀測值進行比較。盡管這些機制通常在研究CA3到CA1的前饋輸入時被探討,它們也可以增強CA3中序列預測所需的遞歸突觸。

另一個限制是,與我們的模型不同,海馬體并不直接接收視覺輸入,而是通過內嗅皮層接收經過多個皮層結構處理的信號。

具體來說,內側內嗅皮層中的專門神經元群體(如網格細胞和地標細胞)為海馬體提供了高度組織化且低維的輸入。這使得快速編碼新環境成為可能,并可能對學習更復雜的環境(例如多感官的真實世界)至關重要。此外,新皮層本身也可能參與預測性學習,而高級預測性學習可以導致在低級回路中出現具有類似皮層反應特性的細胞。由于海馬體的功能只能通過其與皮層和皮層下區域的相互作用來理解,在后續研究中深入探討層級更深的回路中的序列預測性學習將非常重要。

總之,我們的研究展示了序列預測性學習在解釋主動探索期間的海馬體表征以及行為靜止期間的回放方面的能力。這表明,海馬體或許可以最好地被理解為一個未來序列預測回路。

方法

環境

網格世界
網格世界環境是使用Minigrid包開發的( Minigrid Documentation ,Chevalier-Boisvert等人,2023)。我們生成了一個18×18的L形房間(圖1A),房間由墻壁和彩色地板瓷磚組成,每種瓷磚對應一個唯一的RGB顏色值。墻壁的顏色為[0.6, 0.6, 0.6],是不可通過的。地板的顏色為[0.3, 0.3, 0.3],彩色地板瓷磚的顏色分別為[0.45, 0.45, 0]、[0, 0, 0.45]和[0.45, 0, 0],這些瓷磚是可以通過的,并且以不同的形狀排列在地板上,作為視覺提示。







訓練超參數可以在表1中找到,其中包括示例網絡使用的超參數以及隨機超參數掃描的范圍。





解碼誤差通過運行一個額外的測試試驗計算,測試時長為 個時間步,并計算代理實際位置與解碼位置之間的城市街區距離(Cityblock Distance)。




為了計算每個單元的空間解釋方差(%EVS),代理程序又運行了另一個持續時間為 個時間步的試驗。%EVS 被定義為在移除由空間調諧曲線給出的預期率后,單元活動方差的減少量。


























https://www.biorxiv.org/content/biorxiv/early/2024/06/04/2024.04.28.591528.full.pdf

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
俄總參謀長盛贊朝軍英勇,庫爾斯克解放后1.2萬名朝軍去向成謎!

俄總參謀長盛贊朝軍英勇,庫爾斯克解放后1.2萬名朝軍去向成謎!

凱撒談兵
2025-04-26 22:04:44
津媒:客負三鎮后于根偉在發布會的發言明顯感覺是克制著怒火

津媒:客負三鎮后于根偉在發布會的發言明顯感覺是克制著怒火

懂球帝
2025-04-29 08:38:16
2025社保補繳政策落地,60歲不能一次性補繳,斷繳一年損失4000

2025社保補繳政策落地,60歲不能一次性補繳,斷繳一年損失4000

晨曦徐徐
2025-04-18 10:19:52
“五花進屋,家窮人苦”,究竟是哪“5種花”?如果有建議搬走

“五花進屋,家窮人苦”,究竟是哪“5種花”?如果有建議搬走

錘不倒的拖油瓶
2025-03-14 05:31:01
美論壇:為什么中國儀仗隊在越南一亮相,越南女生就集體失控了呢

美論壇:為什么中國儀仗隊在越南一亮相,越南女生就集體失控了呢

荷蘭豆愛健康
2025-04-29 01:32:51
轟動全港!香港商家大佬出殯,政商學界齊聚,四屆特首親臨致哀,花圈布滿整條街...

轟動全港!香港商家大佬出殯,政商學界齊聚,四屆特首親臨致哀,花圈布滿整條街...

港港地
2025-04-28 23:43:39
江西男子花365萬買到10輛不合格貨車,警方為何十年不立案?

江西男子花365萬買到10輛不合格貨車,警方為何十年不立案?

塔子山評說
2025-04-28 10:28:55
凱文-波特:如果會有一支球隊能完成1-3逆轉,那就是這支雄鹿

凱文-波特:如果會有一支球隊能完成1-3逆轉,那就是這支雄鹿

懂球帝
2025-04-28 13:45:07
潛伏我國30年美國辣醬巨頭,年賺300億打敗老干媽,被誤認是國貨

潛伏我國30年美國辣醬巨頭,年賺300億打敗老干媽,被誤認是國貨

素衣讀史
2024-12-19 14:16:46
董子健新戲惹群嘲,“京圈太子”的身份,都掩蓋不住演技差的短板

董子健新戲惹群嘲,“京圈太子”的身份,都掩蓋不住演技差的短板

老閆侃史
2025-04-28 17:00:03
越來越多的人查出白血病!醫生提醒:家中久置的4物,或是幫兇

越來越多的人查出白血病!醫生提醒:家中久置的4物,或是幫兇

朗威游戲說
2025-04-27 10:12:23
韓國棋院能請回幾個前LG杯冠軍? 難題甩給三位寶島出生的棋手

韓國棋院能請回幾個前LG杯冠軍? 難題甩給三位寶島出生的棋手

勁爆體壇
2025-04-28 21:14:04
80后!985大學黨委常委、組織部長,有新職!

80后!985大學黨委常委、組織部長,有新職!

雙一流高校
2025-04-29 01:11:17
幸福航空:暫時停航,麻煩不斷 25架機隊

幸福航空:暫時停航,麻煩不斷 25架機隊

和訊網
2025-04-28 10:45:26
哈佛研究發現:一年當中有2個月份出生的娃很聰明,碰上就是福氣

哈佛研究發現:一年當中有2個月份出生的娃很聰明,碰上就是福氣

奶豆爸爸聊育兒
2025-04-22 14:23:54
電影《水餃皇后》片名是舒淇寫的!導演劉偉強:寫了100多個,選了其中一個

電影《水餃皇后》片名是舒淇寫的!導演劉偉強:寫了100多個,選了其中一個

福州晚報
2025-04-27 20:14:05
“9個月的薪水我不領了”!董事長帶頭降收入,其持股市值達11億元,一眾高管也自愿大幅降薪

“9個月的薪水我不領了”!董事長帶頭降收入,其持股市值達11億元,一眾高管也自愿大幅降薪

每日經濟新聞
2025-04-29 00:15:41
英偉達,突傳重磅!

英偉達,突傳重磅!

證券時報
2025-04-29 08:42:03
鏡報:南安普頓老板將俱樂部掛牌出售,標價1.25億英鎊

鏡報:南安普頓老板將俱樂部掛牌出售,標價1.25億英鎊

懂球帝
2025-04-29 00:00:05
字母哥:我對利拉德無比尊敬 現在這份敬意已到了新的高度

字母哥:我對利拉德無比尊敬 現在這份敬意已到了新的高度

直播吧
2025-04-28 16:04:04
2025-04-29 10:03:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
529文章數 9關注度
往期回顧 全部

科技要聞

阿里Qwen3開源即王炸,成本僅R1的1/3

頭條要聞

牛彈琴:印巴局勢讓人倒吸一口涼氣 巴方情況不容樂觀

頭條要聞

牛彈琴:印巴局勢讓人倒吸一口涼氣 巴方情況不容樂觀

體育要聞

“我們欠球迷一個冠軍慶典,現在可以狂歡了”

娛樂要聞

黃渤青島做東請客 桌上全人情世故

財經要聞

裁員70%、降薪20% AI四小龍到底怎么了?

汽車要聞

東風日產,重新起跑

態度原創

房產
健康
教育
藝術
家居

房產要聞

灣區最美戶外教育社區!這座世界莊園自然能量場,為孩子解鎖人生新高度

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

對于“不尊師重道”的學生,班主任這樣做,嚴愛并行

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

慢度設計 溫暖與沉靜的體驗

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 民勤县| 新竹市| 高雄市| 徐州市| 南郑县| 阜南县| 南丹县| 松原市| 岗巴县| 桓台县| 江华| 内乡县| 屏东市| 宁陵县| 尼玛县| 巴彦淖尔市| 五大连池市| 远安县| 陇南市| 海城市| 孝感市| 潞西市| 繁峙县| 江山市| 平乐县| 中宁县| 乌审旗| 鄂托克旗| 全南县| 新蔡县| 雅安市| 莎车县| 南岸区| 色达县| 古丈县| 璧山县| 安化县| 汕尾市| 偃师市| 平邑县| 闸北区|