99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

通過全局工作空間路由信息來學習操作序列

0
分享至

Learning to Chain Operations by Routing InformationThrough a Global Workspace

通過全局工作空間路由信息來學習操作序列

https://arxiv.org/pdf/2503.01906



摘要

我們提出了一種受全局工作空間理論(Global Workspace Theory)啟發(fā)的模型,該模型通過整合專用模塊來執(zhí)行順序推理任務??刂破魍ㄟ^工作空間使用門控機制選擇性地在模塊之間傳遞信息。這種方法允許模型通過在專用領域之間迭代廣播信息來鏈式執(zhí)行操作,模擬系統(tǒng)-2推理。我們在一個簡單的加法任務中評估了模型的性能,該任務要求將兩個加數相加。此任務可以通過順序將信息路由通過輸入模塊、增量模塊(多次)以及最終的輸出模塊來解決。我們考慮了該系統(tǒng)的兩種實現(xiàn)方式,并逐步增加其復雜性。首先,使用基于獨熱數字表示的手工設計模塊,控制器(一個LSTM循環(huán)網絡)學習以適當的順序選擇合適的模塊(輸入、增量、輸出)。其次,我們用針對MNIST圖像的可學習表示模塊和針對任務目標訓練的增量模塊替換了手工設計模塊;在此情況下,控制器再次學習到適當的順序模塊選擇以完成任務。最后,我們展示了全局工作空間模型在未見過的加法操作(包括訓練期間見過的加法操作的插值和外推)測試中,盡管參數更少,但性能優(yōu)于LSTM和Transformer。我們的結果突顯了受全局工作空間理論啟發(fā)的架構在增強深度學習推理能力方面的潛力。

關鍵詞:全局工作空間;順序推理;系統(tǒng)-2;Transformer;LSTM;長度泛化

引言

在解決問題的過程中,個體通常依賴多種策略,開始時使用較慢的、深思熟慮的過程,并隨著經驗的積累逐漸過渡到更快的自動化反應。在學習加法的早期階段,兒童經常使用多步驟策略,例如多次遞增“1”,直到達到最終和。這反映了系統(tǒng)-2推理(Kahneman, 2011),其中每個操作按順序執(zhí)行。隨著時間推移,這種方法演變?yōu)轭愃葡到y(tǒng)-1的回憶,答案更自動地從記憶中提?。⊿iegler, 1987)。盡管記憶化能夠帶來更快的反應,但它也更容易出錯且靈活性較低。

認知科學中關于順序處理與自動化處理的這一區(qū)分,映射了人工智能領域當前的一個挑戰(zhàn):如何賦予模型系統(tǒng)-2推理能力。大多數深度學習模型,如長短期記憶網絡(LSTM)(Hochreiter, 1997)和Transformer(Vaswani, 2017),在類似系統(tǒng)-1的任務中表現(xiàn)出色,這些任務以記憶和統(tǒng)計相關性為主導(Bengio等, 2019)。它們也能夠解決一些算術問題(Zaremba & Sutskever, 2014)。然而,這些架構在需要逐步推理的任務中往往表現(xiàn)不佳,例如必須將多個操作按順序鏈接起來的場景,比如通過遞增數字直到得出最終和。一個有啟發(fā)性的演示表明,Transformer、LSTM以及基于卷積的神經網絡在長度泛化方面都存在困難,即無法推廣到比訓練期間見過的序列更長的序列(Hupkes等, 2020)。

先前嘗試賦予神經網絡系統(tǒng)-2能力的努力包括為它們提供外部記憶(Graves, 2014)或世界模型(Ha & Schmidhuber, 2018)。一種極具吸引力的替代方案由全局工作空間理論(GWT)(Baars, 1993)提出,該理論描述了人類認知如何通過意識處理跨專用領域整合信息。在該理論中,不同的認知模塊競爭進入全局工作空間的權限,在此最相關的信息被廣播并整合,用于更高層次的推理。Sackur & Dehaene(2009)研究了人類執(zhí)行算術任務的過程,并指出,盡管無意識過程可以處理孤立的操作,但要將多個步驟按順序鏈接起來,則需要意識控制以確保正確的信息流動。這種對標準機器學習架構的替代方案在很大程度上尚未得到充分探索(但可參見Devillers等, 2024;Juliani等, 2022;Goyal等, 2021)。

在這項工作中,我們遵循VanRullen & Kanai(2021)提出的路線圖,通過鏈接來自專用領域的操作,利用受GWT啟發(fā)的原則,賦予深度學習架構更高級的認知功能。我們在此提出的模型通過簡化的注意機制捕捉了GWT的一些基本方面。它與LSTM和Transformer的隱式黑箱處理形成鮮明對比;然而,我們證明了該模型在加法任務的學習及其對新測試條件(插值和外推)的泛化方面具有顯著優(yōu)勢。

任務



我們使用交叉熵損失函數,該損失在多個時間步上取平均值(我們使用 T = 20 ),以比較模型預測的概率分布與真實的獨熱編碼分布。因此,模型被鼓勵在盡可能少的時間步內預測出目標和。我們通過模型在時間步上的平均輸出來評估其準確性。

全局工作空間模型

我們提出的架構(圖2)受到全局工作空間理論(GWT)的啟發(fā),該理論認為專用模塊競爭訪問一個共享的工作空間,其內容可以廣播到所有模塊。我們的模型利用這一思想,將這些模塊整合起來,用于解決需要順序推理的任務,例如算術運算。模型的每個模塊負責特定的任務,例如感知右加數、執(zhí)行遞增操作或輸出最終和。這三個模塊并不獨立運行,而是通過中央全局工作空間進行信息傳遞,該工作空間充當通信樞紐。一種注意機制被用來選擇性地在工作空間和三個模塊之間路由信息,確保正確的操作按順序執(zhí)行。這個路由器允許模型將多個操作鏈接在一起,模擬系統(tǒng)-2推理的逐步處理特征。路由器被建模為一個LSTM,它以左加數 作為輸入,并輸出一個三維向量 g(t) ,表示每個專用模塊的交互門控,隨后對其進行softmax處理。這些門控控制模塊與全局工作空間之間的信息流動。


模塊可以分為兩個領域模塊(視覺和數字)以及一個操作模塊(遞增器)。設 V(t) 和 D(t) 分別表示視覺領域和數字領域的狀態(tài)。視覺領域充當輸入模塊的角色,因為它在第一個時間步對 進行編碼:




其中, gw(t-1)是前一時刻的全局工作空間狀態(tài),是數字模塊的門控,是數字領域用于解碼全局工作空間內容的前饋網絡。

操作模塊(遞增器)不直接與外部環(huán)境交互,而是對全局工作空間的狀態(tài)執(zhí)行操作o(同樣使用一個前饋網絡)。因此,它不需要編碼器或解碼器:


全局工作空間的狀態(tài)是三個潛在模塊的聚合,即編碼后的領域狀態(tài)和遞增操作符的輸出,每個模塊都由路由器給出的門控值進行加權:

結果

獨熱編碼模型

我們從任務的一個非常簡單的版本開始,其中 被表示為一個 10 維的獨熱向量,并且所有模塊(路由器除外)都被手工設計為處理這些向量。因此,模塊的維度被設置為 10。被設置為恒等函數,因此它們只是將獨熱向量傳遞到下一階段。為了簡化,我們還將 o 定義為循環(huán)移位函數,使得獨熱向量的每個元素向右移動一位,最后一個元素循環(huán)回到第一個位置(見圖 3,頂部)。


我們在訓練過程中保持全局工作空間模型的其他參數不變,僅訓練路由器 LSTM。我們使用貝葉斯搜索優(yōu)化模型的超參數,以在 10,000 個訓練周期后的測試準確率為優(yōu)化目標,同時模型使用任務的隨機 80% 數據進行訓練。最終得到的超參數值報告在補充表 2 中,并用于實驗。


對模型行為的檢查表明,它已經學會了按照預期的順序正確執(zhí)行操作(圖 4)。這適用于測試集中所有左加數和右加數組合的情況:測試準確率達到 100%。


MNIST 模型

我們現(xiàn)在描述一個更高級版本的模型,該模型可以分別接受 MNIST 圖像和獨熱編碼數字作為輸入和輸出。我們首先在 MNIST 圖像上預訓練一個變分自編碼器,為我們提供了一個圖像編碼器 E 和解碼器 D ,它們在后續(xù)步驟中保持凍結狀態(tài)。編碼器由 3 層帶批量歸一化的 ReLU 卷積層組成,后接一個前饋層,生成一個 12 維的隱藏狀態(tài)。類似地,解碼器由一個前饋層和 3 層帶批量歸一化和 ReLU 激活的反卷積層組成。該自編碼器經過 55 輪訓練,學習率為 ,批量大小為 32。




全局工作空間具有 10 維。其編碼器和解碼器由 5 層帶 ReLU 激活的前饋網絡組成,隱藏層大小為 32。它們以 的學習率和 1024 的批量大小進行訓練。由此產生的多模態(tài)全局工作空間能夠將獨熱標簽翻譯為有意義的數字圖像(補充圖 10)。它還能夠在全局工作空間和數字域之間循環(huán),而不會丟失有意義的圖像信息(補充圖 11)。此外,如補充圖 12 所示并由各種聚類指標確認(補充表 1),數字在全球工作空間中的組織比在自編碼器的潛在空間或像素空間中更好(即更解耦)。






泛化能力

在前幾節(jié)中,我們描述了一個通過迭代鏈接已知操作來解決加法任務的模型,這種方式類似于系統(tǒng)-2推理。這一能力得益于其受全局工作空間理論啟發(fā)的架構。與系統(tǒng)-1的記憶化不同,這種組合式的問題解決方式應使模型能夠解決未見過的任務。因此,我們在模型未訓練過的任務(即 的值)上測試了其泛化能力。為此,我們從頭重新訓練模型,并從訓練集中省略了一些 的值。我們將未見過的測試值分為兩種情況:一種是該值在訓練值范圍內(插值),另一種是該值超出訓練值范圍(外推)。為了便于與替代的“基線”架構進行比較,我們在分析中使用了優(yōu)化后的獨熱模型,而非 MNIST 模型。

作為對比,我們考慮了兩種通常用于序列任務的替代模型:純 LSTM 和僅解碼器因果 Transformer。我們讓 Transformer 學習輸入和位置嵌入以及輸出投影。我們使用了 nanoGPT 的 Transformer 實現(xiàn)。兩種模型同樣在 20 個時間步內運行,在整個任務中接收 ,并在 t = 0 時接收 的獨熱表示。在 Transformer 模型中,輸入被位置嵌入編碼。這些模型在所有 20 個時間步內輸出預測的和,沒有專用模塊或全局工作空間。它們使用與全局工作空間模型相同的交叉熵損失函數,該損失函數在所有 20 個時間步上取平均值。

在對獨熱全局工作空間模型使用的相同超參數優(yōu)化后(結果值見補充表 2),替代模型也能在一定程度上學習任務(補充圖 13)。然而,泛化結果揭示了幾種關鍵模式(圖 8)。雖然所有模型都能在某些未見過的任務上泛化,但 LSTM 和 Transformer 模型在外推任務上表現(xiàn)掙扎。相比之下,我們的模型在除一種條件外的所有情況下顯著優(yōu)于其他模型(即當在 [1?7] 上訓練并在 8 上測試時)。



為了理解不同架構之間泛化能力的差異,我們研究了候選模型的行為。一個使用多步策略解決問題的模型,其內部狀態(tài)預計會隨著時間演變。我們預測,在這種策略下提供一個置信答案所需的時間應取決于要加的數字 。我們觀察到全局工作空間模型中的這種行為,其置信度隨時間逐漸增強,且速度與 線性相關(補充圖 14)。我們在其他模型中未發(fā)現(xiàn)這一現(xiàn)象。我們還預測,在對 的迭代整合過程中,模型在第 t 步的內部狀態(tài)應與其在第 t+1 步整合 +1 時的狀態(tài)非常相似。這是系統(tǒng)性的一種標志,屬于組合性的形式。我們在我們的模型中清楚地發(fā)現(xiàn)了這一模式(圖 9),但在 LSTM 或 Transformer 中未發(fā)現(xiàn),它們的狀態(tài)隨著時間變化不大,并且在不同的加法指令 下顯著不同。



全局工作空間理論為解釋人類認知提供了一個引人注目的框架,強調了共享工作空間在整合和廣播來自專用認知模塊信息中的作用。受這一框架的啟發(fā),我們的模型利用一個中央工作空間和專用模塊來解決一個涉及順序、系統(tǒng)-2 類推理的簡單算術任務:模型可以學習反復遞增右加數,直到達到正確的和。路由器通過協(xié)調輸入模塊、遞增器和輸出模塊之間的信息流,確保操作按正確的順序執(zhí)行,從而促進這一過程。

我們進一步展示了該模型可以通過將工作空間用作一種模態(tài)無關的緩沖區(qū),在不同表示之間翻譯信息,以協(xié)調多模態(tài)模塊(視覺和標簽)。工作空間創(chuàng)建了 MNIST 圖像的解耦表示,這些表示可被模塊使用。我們還演示了操作模塊可以通過在數字域一側對其進行遠端監(jiān)督,從零開始學習如何在工作空間表示中遞增數字。這些鼓舞人心的結果表明,所提出的架構可能具有更廣泛的用途。例如,該模型可以學習整合多種感官模態(tài)的信息(圖像、聲音、文本),并執(zhí)行一系列習得的操作(技能)以解決復雜問題,正如人類和其他動物所做的那樣(Boraud 等, 2018)。這也可以與世界模型相關聯(lián),世界模型是一類生成神經網絡,能夠學習內部模擬行為軌跡及其對環(huán)境的影響(Ha & Schmidhuber, 2018)。為了實現(xiàn)這些更具野心的目標,本工作中使用的相對簡單的注意路由器可以擴展為根據全局工作空間及其專用模塊的內容打開門控,正如 VanRullen & Kanai(2021)所設想的那樣。

超越訓練數據進行泛化是智能系統(tǒng)的標志性特征,通常被認為是人類系統(tǒng)-2 的能力體現(xiàn)(Kahneman, 2011;Bengio 等, 2019)。因此,我們希望測試我們的模型是否比傳統(tǒng)架構更能泛化。在實驗中,當面對未包含在訓練集中的新指令(左加數)值時,全局工作空間模型始終優(yōu)于 LSTM 和 Transformer。這種能力在外推任務中尤為重要,因為模型必須將學到的策略應用于分布外的值。盡管 LSTM 和 Transformer 表現(xiàn)出過擬合的跡象,無法泛化到新值,但全局工作空間模型保持了穩(wěn)健的性能。我們將此歸因于模型對順序推理的顯式表示,使其能夠學習程序而非記憶特定的輸入-輸出映射。對網絡動態(tài)的研究確實揭示了我們的模型利用了任務的時間性和組合性方面。相比之下,Transformer 和 LSTM 模型主要學習直接映射,并從一開始就生成答案,這限制了它們的泛化能力。此外,我們的模型表現(xiàn)出的學習曲線(補充圖 13)表明它迅速掌握了完成任務所需的底層策略,顯示出“頓悟”的跡象,即對鏈式操作正確方法的理解突然躍升。

有趣的是,先前的研究表明,大型預訓練語言模型在訪問中間文本草稿板時可以更準確地執(zhí)行多步計算,例如加法(Nye 等, 2021)。我們的工作在很大程度上與這些結果一致,因為全局工作空間可以被視為一個內部草稿板,其中存儲中間步驟的結果,然后輸出最終答案。然而,最近的進展表明,顯式的語言空間推理并不總是最優(yōu)的。例如,Hao 等(2024)提出了 Coconut 方法,其中中間推理發(fā)生在連續(xù)的潛在空間中,而不是顯式表示為文本。這種方法提高了語言模型的推理效率,并支持回溯和對多種可能性的并行探索,類似于我們的全局工作空間作為多步處理的內部動態(tài)緩沖區(qū)的方式運作。

最后,我們目前正在探索鼓勵多步解決的不同損失函數,這可以豐富與 LSTM 和 Transformer 的比較。隨著我們繼續(xù)完善模型并探索更復雜的任務,我們相信這種方法可以為深度學習和認知人工智能的未來發(fā)展提供藍圖。

原文鏈接: https://arxiv.org/pdf/2503.01906

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中日友好醫(yī)院肖飛首次發(fā)聲:醫(yī)院處罰太重,不接受!無醫(yī)療事故

中日友好醫(yī)院肖飛首次發(fā)聲:醫(yī)院處罰太重,不接受!無醫(yī)療事故

小人物看盡人間百態(tài)
2025-04-28 16:16:07
泡泡瑪特海外售價翻倍仍賣爆!CEO:2025年目標海外營收突破百億

泡泡瑪特海外售價翻倍仍賣爆!CEO:2025年目標海外營收突破百億

瀟湘晨報
2025-04-29 15:45:06
55分大勝!騎士4-0熱火晉級半決賽,米切爾22+5阿倫14+12

55分大勝!騎士4-0熱火晉級半決賽,米切爾22+5阿倫14+12

湖人崛起
2025-04-29 09:56:53
網友爆料董襲瑩本科相當于國內三本,不符合協(xié)和4+4要求

網友爆料董襲瑩本科相當于國內三本,不符合協(xié)和4+4要求

大象新聞
2025-04-29 12:27:03
董某瑩的跨科4+4臨床博士遭教授揭秘:國外規(guī)培要10年,協(xié)和僅1年

董某瑩的跨科4+4臨床博士遭教授揭秘:國外規(guī)培要10年,協(xié)和僅1年

東東趣談
2025-04-28 20:05:18
“不能讓李嘉誠跑了!”中方這次下了死命令,有一道口子決不能開

“不能讓李嘉誠跑了!”中方這次下了死命令,有一道口子決不能開

獵火照狼山
2025-04-29 08:26:46
廣東女子把帶血衛(wèi)生巾扔下砸中鄰居,丈夫道歉 被鄰居用菜刀砍殘

廣東女子把帶血衛(wèi)生巾扔下砸中鄰居,丈夫道歉 被鄰居用菜刀砍殘

水晶的視界
2025-04-29 08:27:20
面對印度斷水,中巴聯(lián)手干了件大事:靠中國建大壩,巴鐵奪回水脈

面對印度斷水,中巴聯(lián)手干了件大事:靠中國建大壩,巴鐵奪回水脈

阿握聊事
2025-04-29 08:57:55
事情越鬧越大!曝知網已搜不到董襲瑩論文,醫(yī)學界翟天臨就此誕生?!

事情越鬧越大!曝知網已搜不到董襲瑩論文,醫(yī)學界翟天臨就此誕生?!

可達鴨面面觀
2025-04-29 12:11:34
科爾有點!蘇群:砍亞當斯是勇士今日死里逃生的關鍵!

科爾有點!蘇群:砍亞當斯是勇士今日死里逃生的關鍵!

直播吧
2025-04-29 13:26:13
特朗普高調放話“我要管理國家和世界”,美媒:美總統(tǒng)支持率正遭重創(chuàng)

特朗普高調放話“我要管理國家和世界”,美媒:美總統(tǒng)支持率正遭重創(chuàng)

環(huán)球網資訊
2025-04-29 11:52:01
中國外交部發(fā)布《不跪》視頻,潛藏四層深意!

中國外交部發(fā)布《不跪》視頻,潛藏四層深意!

解筱文
2025-04-29 12:47:52
衙內回流:一個八卦帶出來的階層絕望

衙內回流:一個八卦帶出來的階層絕望

美第奇效應
2025-04-29 07:07:15
億萬富翁稱高關稅將拖垮中國:“為了面子”和美國作對,必輸無疑

億萬富翁稱高關稅將拖垮中國:“為了面子”和美國作對,必輸無疑

凱撒談兵
2025-04-28 21:36:34
中國22萬噸艦隊現(xiàn)身南海,菲方向美軍求援,只等來8個字回復

中國22萬噸艦隊現(xiàn)身南海,菲方向美軍求援,只等來8個字回復

空天力量
2025-04-29 10:11:31
肖飛回應后續(xù)!董小姐已懷孕33周,父母被扒不一般,家里很有錢

肖飛回應后續(xù)!董小姐已懷孕33周,父母被扒不一般,家里很有錢

180°視角
2025-04-29 12:35:31
巴基斯坦重炮集結,一眼望不到頭,印度轉頭一看:全是中國造的!

巴基斯坦重炮集結,一眼望不到頭,印度轉頭一看:全是中國造的!

獵火照狼山
2025-04-29 08:25:53
山西省海歸商會發(fā)布關于董明珠涉海歸言論嚴正聲明:留學人員是黨和人民的寶貴財富,封閉思維危及企業(yè)競爭力

山西省海歸商會發(fā)布關于董明珠涉海歸言論嚴正聲明:留學人員是黨和人民的寶貴財富,封閉思維危及企業(yè)競爭力

和訊網
2025-04-29 12:35:00
脊背發(fā)涼!女婿找上海岳母資助換房,意外識破大案!人均損失超百萬

脊背發(fā)涼!女婿找上海岳母資助換房,意外識破大案!人均損失超百萬

瀟湘晨報
2025-04-29 11:29:05
返回時間推遲?神舟十九號預計推遲一天返回,怎么了?

返回時間推遲?神舟十九號預計推遲一天返回,怎么了?

火星一號
2025-04-29 11:54:09
2025-04-29 16:44:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
530文章數 9關注度
往期回顧 全部

科技要聞

Qwen3登頂開源榜 阿里稱大模型是十年長跑

頭條要聞

印巴再度交火 外交部回應是否計劃"介入調解"

頭條要聞

印巴再度交火 外交部回應是否計劃"介入調解"

體育要聞

勇士火箭雷霆太陽,你們是怎么失去他的?

娛樂要聞

甜馨簽樂華出道惹爭議 維護爸媽被質疑

財經要聞

特朗普執(zhí)政百日下的美元危機

汽車要聞

年輕or傳統(tǒng)?上汽奧迪A5L與一汽奧迪A5L有什么不同?

態(tài)度原創(chuàng)

游戲
旅游
家居
藝術
親子

《百日戰(zhàn)紀》好玩嗎?小高直接在小紅書評論區(qū)自夸

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

雅奢氛圍 營造品質生活

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

男孩滑滑板成功下樓梯,太不可思議了

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 浮梁县| 土默特右旗| 乐至县| 库尔勒市| 公安县| 镇安县| 鸡东县| 平果县| 曲阳县| 南宁市| 云霄县| 庄河市| 咸宁市| 望城县| 龙山县| 禹城市| 孟州市| 洪洞县| 渝北区| 陇南市| 札达县| 平凉市| 绿春县| 永川市| 南靖县| 满洲里市| 庆安县| 开江县| 罗平县| 万州区| 塔河县| 莎车县| 重庆市| 开江县| 彰武县| 石柱| 仁怀市| 鹤山市| 将乐县| 太原市| 萨迦县|