網易首頁 > 網易號 > 正文申請入駐

通過全局工作空間路由信息來學習操作序列

2025-04-22 09:05:50　來源: CreateAMind

上海舉報

分享至

Learning to Chain Operations by Routing InformationThrough a Global Workspace

通過全局工作空間路由信息來學習操作序列

https://arxiv.org/pdf/2503.01906

摘要

我們提出了一種受全局工作空間理論（Global Workspace Theory）啟發(fā)的模型，該模型通過整合專用模塊來執(zhí)行順序推理任務?？刂破魍ㄟ^工作空間使用門控機制選擇性地在模塊之間傳遞信息。這種方法允許模型通過在專用領域之間迭代廣播信息來鏈式執(zhí)行操作，模擬系統(tǒng)-2推理。我們在一個簡單的加法任務中評估了模型的性能，該任務要求將兩個加數相加。此任務可以通過順序將信息路由通過輸入模塊、增量模塊（多次）以及最終的輸出模塊來解決。我們考慮了該系統(tǒng)的兩種實現(xiàn)方式，并逐步增加其復雜性。首先，使用基于獨熱數字表示的手工設計模塊，控制器（一個LSTM循環(huán)網絡）學習以適當的順序選擇合適的模塊（輸入、增量、輸出）。其次，我們用針對MNIST圖像的可學習表示模塊和針對任務目標訓練的增量模塊替換了手工設計模塊；在此情況下，控制器再次學習到適當的順序模塊選擇以完成任務。最后，我們展示了全局工作空間模型在未見過的加法操作（包括訓練期間見過的加法操作的插值和外推）測試中，盡管參數更少，但性能優(yōu)于LSTM和Transformer。我們的結果突顯了受全局工作空間理論啟發(fā)的架構在增強深度學習推理能力方面的潛力。

關鍵詞：全局工作空間；順序推理；系統(tǒng)-2；Transformer；LSTM；長度泛化

引言

在解決問題的過程中，個體通常依賴多種策略，開始時使用較慢的、深思熟慮的過程，并隨著經驗的積累逐漸過渡到更快的自動化反應。在學習加法的早期階段，兒童經常使用多步驟策略，例如多次遞增“1”，直到達到最終和。這反映了系統(tǒng)-2推理（Kahneman, 2011），其中每個操作按順序執(zhí)行。隨著時間推移，這種方法演變?yōu)轭愃葡到y(tǒng)-1的回憶，答案更自動地從記憶中提?。⊿iegler, 1987）。盡管記憶化能夠帶來更快的反應，但它也更容易出錯且靈活性較低。

認知科學中關于順序處理與自動化處理的這一區(qū)分，映射了人工智能領域當前的一個挑戰(zhàn)：如何賦予模型系統(tǒng)-2推理能力。大多數深度學習模型，如長短期記憶網絡（LSTM）（Hochreiter, 1997）和Transformer（Vaswani, 2017），在類似系統(tǒng)-1的任務中表現(xiàn)出色，這些任務以記憶和統(tǒng)計相關性為主導（Bengio等, 2019）。它們也能夠解決一些算術問題（Zaremba & Sutskever, 2014）。然而，這些架構在需要逐步推理的任務中往往表現(xiàn)不佳，例如必須將多個操作按順序鏈接起來的場景，比如通過遞增數字直到得出最終和。一個有啟發(fā)性的演示表明，Transformer、LSTM以及基于卷積的神經網絡在長度泛化方面都存在困難，即無法推廣到比訓練期間見過的序列更長的序列（Hupkes等, 2020）。

先前嘗試賦予神經網絡系統(tǒng)-2能力的努力包括為它們提供外部記憶（Graves, 2014）或世界模型（Ha & Schmidhuber, 2018）。一種極具吸引力的替代方案由全局工作空間理論（GWT）（Baars, 1993）提出，該理論描述了人類認知如何通過意識處理跨專用領域整合信息。在該理論中，不同的認知模塊競爭進入全局工作空間的權限，在此最相關的信息被廣播并整合，用于更高層次的推理。Sackur & Dehaene（2009）研究了人類執(zhí)行算術任務的過程，并指出，盡管無意識過程可以處理孤立的操作，但要將多個步驟按順序鏈接起來，則需要意識控制以確保正確的信息流動。這種對標準機器學習架構的替代方案在很大程度上尚未得到充分探索（但可參見Devillers等, 2024；Juliani等, 2022；Goyal等, 2021）。

在這項工作中，我們遵循VanRullen & Kanai（2021）提出的路線圖，通過鏈接來自專用領域的操作，利用受GWT啟發(fā)的原則，賦予深度學習架構更高級的認知功能。我們在此提出的模型通過簡化的注意機制捕捉了GWT的一些基本方面。它與LSTM和Transformer的隱式黑箱處理形成鮮明對比；然而，我們證明了該模型在加法任務的學習及其對新測試條件（插值和外推）的泛化方面具有顯著優(yōu)勢。

任務

我們使用交叉熵損失函數，該損失在多個時間步上取平均值（我們使用 T = 20 ），以比較模型預測的概率分布與真實的獨熱編碼分布。因此，模型被鼓勵在盡可能少的時間步內預測出目標和。我們通過模型在時間步上的平均輸出來評估其準確性。

全局工作空間模型

我們提出的架構（圖2）受到全局工作空間理論（GWT）的啟發(fā)，該理論認為專用模塊競爭訪問一個共享的工作空間，其內容可以廣播到所有模塊。我們的模型利用這一思想，將這些模塊整合起來，用于解決需要順序推理的任務，例如算術運算。模型的每個模塊負責特定的任務，例如感知右加數、執(zhí)行遞增操作或輸出最終和。這三個模塊并不獨立運行，而是通過中央全局工作空間進行信息傳遞，該工作空間充當通信樞紐。一種注意機制被用來選擇性地在工作空間和三個模塊之間路由信息，確保正確的操作按順序執(zhí)行。這個路由器允許模型將多個操作鏈接在一起，模擬系統(tǒng)-2推理的逐步處理特征。路由器被建模為一個LSTM，它以左加數作為輸入，并輸出一個三維向量 g(t) ，表示每個專用模塊的交互門控，隨后對其進行softmax處理。這些門控控制模塊與全局工作空間之間的信息流動。

模塊可以分為兩個領域模塊（視覺和數字）以及一個操作模塊（遞增器）。設 V(t) 和 D(t) 分別表示視覺領域和數字領域的狀態(tài)。視覺領域充當輸入模塊的角色，因為它在第一個時間步對進行編碼：

其中， gw(t-1)是前一時刻的全局工作空間狀態(tài)，是數字模塊的門控，是數字領域用于解碼全局工作空間內容的前饋網絡。

操作模塊（遞增器）不直接與外部環(huán)境交互，而是對全局工作空間的狀態(tài)執(zhí)行操作o（同樣使用一個前饋網絡）。因此，它不需要編碼器或解碼器：

全局工作空間的狀態(tài)是三個潛在模塊的聚合，即編碼后的領域狀態(tài)和遞增操作符的輸出，每個模塊都由路由器給出的門控值進行加權：

結果

獨熱編碼模型

我們從任務的一個非常簡單的版本開始，其中被表示為一個 10 維的獨熱向量，并且所有模塊（路由器除外）都被手工設計為處理這些向量。因此，模塊的維度被設置為 10。被設置為恒等函數，因此它們只是將獨熱向量傳遞到下一階段。為了簡化，我們還將 o 定義為循環(huán)移位函數，使得獨熱向量的每個元素向右移動一位，最后一個元素循環(huán)回到第一個位置（見圖 3，頂部）。

我們在訓練過程中保持全局工作空間模型的其他參數不變，僅訓練路由器 LSTM。我們使用貝葉斯搜索優(yōu)化模型的超參數，以在 10,000 個訓練周期后的測試準確率為優(yōu)化目標，同時模型使用任務的隨機 80% 數據進行訓練。最終得到的超參數值報告在補充表 2 中，并用于實驗。

對模型行為的檢查表明，它已經學會了按照預期的順序正確執(zhí)行操作（圖 4）。這適用于測試集中所有左加數和右加數組合的情況：測試準確率達到 100%。

MNIST 模型

我們現(xiàn)在描述一個更高級版本的模型，該模型可以分別接受 MNIST 圖像和獨熱編碼數字作為輸入和輸出。我們首先在 MNIST 圖像上預訓練一個變分自編碼器，為我們提供了一個圖像編碼器 E 和解碼器 D ，它們在后續(xù)步驟中保持凍結狀態(tài)。編碼器由 3 層帶批量歸一化的 ReLU 卷積層組成，后接一個前饋層，生成一個 12 維的隱藏狀態(tài)。類似地，解碼器由一個前饋層和 3 層帶批量歸一化和 ReLU 激活的反卷積層組成。該自編碼器經過 55 輪訓練，學習率為，批量大小為 32。

全局工作空間具有 10 維。其編碼器和解碼器由 5 層帶 ReLU 激活的前饋網絡組成，隱藏層大小為 32。它們以的學習率和 1024 的批量大小進行訓練。由此產生的多模態(tài)全局工作空間能夠將獨熱標簽翻譯為有意義的數字圖像（補充圖 10）。它還能夠在全局工作空間和數字域之間循環(huán)，而不會丟失有意義的圖像信息（補充圖 11）。此外，如補充圖 12 所示并由各種聚類指標確認（補充表 1），數字在全球工作空間中的組織比在自編碼器的潛在空間或像素空間中更好（即更解耦）。

泛化能力

在前幾節(jié)中，我們描述了一個通過迭代鏈接已知操作來解決加法任務的模型，這種方式類似于系統(tǒng)-2推理。這一能力得益于其受全局工作空間理論啟發(fā)的架構。與系統(tǒng)-1的記憶化不同，這種組合式的問題解決方式應使模型能夠解決未見過的任務。因此，我們在模型未訓練過的任務（即的值）上測試了其泛化能力。為此，我們從頭重新訓練模型，并從訓練集中省略了一些的值。我們將未見過的測試值分為兩種情況：一種是該值在訓練值范圍內（插值），另一種是該值超出訓練值范圍（外推）。為了便于與替代的“基線”架構進行比較，我們在分析中使用了優(yōu)化后的獨熱模型，而非 MNIST 模型。

作為對比，我們考慮了兩種通常用于序列任務的替代模型：純 LSTM 和僅解碼器因果 Transformer。我們讓 Transformer 學習輸入和位置嵌入以及輸出投影。我們使用了 nanoGPT 的 Transformer 實現(xiàn)。兩種模型同樣在 20 個時間步內運行，在整個任務中接收，并在 t = 0 時接收的獨熱表示。在 Transformer 模型中，輸入被位置嵌入編碼。這些模型在所有 20 個時間步內輸出預測的和，沒有專用模塊或全局工作空間。它們使用與全局工作空間模型相同的交叉熵損失函數，該損失函數在所有 20 個時間步上取平均值。

在對獨熱全局工作空間模型使用的相同超參數優(yōu)化后（結果值見補充表 2），替代模型也能在一定程度上學習任務（補充圖 13）。然而，泛化結果揭示了幾種關鍵模式（圖 8）。雖然所有模型都能在某些未見過的任務上泛化，但 LSTM 和 Transformer 模型在外推任務上表現(xiàn)掙扎。相比之下，我們的模型在除一種條件外的所有情況下顯著優(yōu)于其他模型（即當在 [1?7] 上訓練并在 8 上測試時）。

為了理解不同架構之間泛化能力的差異，我們研究了候選模型的行為。一個使用多步策略解決問題的模型，其內部狀態(tài)預計會隨著時間演變。我們預測，在這種策略下提供一個置信答案所需的時間應取決于要加的數字。我們觀察到全局工作空間模型中的這種行為，其置信度隨時間逐漸增強，且速度與線性相關（補充圖 14）。我們在其他模型中未發(fā)現(xiàn)這一現(xiàn)象。我們還預測，在對的迭代整合過程中，模型在第 t 步的內部狀態(tài)應與其在第 t+1 步整合 +1 時的狀態(tài)非常相似。這是系統(tǒng)性的一種標志，屬于組合性的形式。我們在我們的模型中清楚地發(fā)現(xiàn)了這一模式（圖 9），但在 LSTM 或 Transformer 中未發(fā)現(xiàn)，它們的狀態(tài)隨著時間變化不大，并且在不同的加法指令下顯著不同。

全局工作空間理論為解釋人類認知提供了一個引人注目的框架，強調了共享工作空間在整合和廣播來自專用認知模塊信息中的作用。受這一框架的啟發(fā)，我們的模型利用一個中央工作空間和專用模塊來解決一個涉及順序、系統(tǒng)-2 類推理的簡單算術任務：模型可以學習反復遞增右加數，直到達到正確的和。路由器通過協(xié)調輸入模塊、遞增器和輸出模塊之間的信息流，確保操作按正確的順序執(zhí)行，從而促進這一過程。

我們進一步展示了該模型可以通過將工作空間用作一種模態(tài)無關的緩沖區(qū)，在不同表示之間翻譯信息，以協(xié)調多模態(tài)模塊（視覺和標簽）。工作空間創(chuàng)建了 MNIST 圖像的解耦表示，這些表示可被模塊使用。我們還演示了操作模塊可以通過在數字域一側對其進行遠端監(jiān)督，從零開始學習如何在工作空間表示中遞增數字。這些鼓舞人心的結果表明，所提出的架構可能具有更廣泛的用途。例如，該模型可以學習整合多種感官模態(tài)的信息（圖像、聲音、文本），并執(zhí)行一系列習得的操作（技能）以解決復雜問題，正如人類和其他動物所做的那樣（Boraud 等, 2018）。這也可以與世界模型相關聯(lián)，世界模型是一類生成神經網絡，能夠學習內部模擬行為軌跡及其對環(huán)境的影響（Ha & Schmidhuber, 2018）。為了實現(xiàn)這些更具野心的目標，本工作中使用的相對簡單的注意路由器可以擴展為根據全局工作空間及其專用模塊的內容打開門控，正如 VanRullen & Kanai（2021）所設想的那樣。

超越訓練數據進行泛化是智能系統(tǒng)的標志性特征，通常被認為是人類系統(tǒng)-2 的能力體現(xiàn)（Kahneman, 2011；Bengio 等, 2019）。因此，我們希望測試我們的模型是否比傳統(tǒng)架構更能泛化。在實驗中，當面對未包含在訓練集中的新指令（左加數）值時，全局工作空間模型始終優(yōu)于 LSTM 和 Transformer。這種能力在外推任務中尤為重要，因為模型必須將學到的策略應用于分布外的值。盡管 LSTM 和 Transformer 表現(xiàn)出過擬合的跡象，無法泛化到新值，但全局工作空間模型保持了穩(wěn)健的性能。我們將此歸因于模型對順序推理的顯式表示，使其能夠學習程序而非記憶特定的輸入-輸出映射。對網絡動態(tài)的研究確實揭示了我們的模型利用了任務的時間性和組合性方面。相比之下，Transformer 和 LSTM 模型主要學習直接映射，并從一開始就生成答案，這限制了它們的泛化能力。此外，我們的模型表現(xiàn)出的學習曲線（補充圖 13）表明它迅速掌握了完成任務所需的底層策略，顯示出“頓悟”的跡象，即對鏈式操作正確方法的理解突然躍升。

有趣的是，先前的研究表明，大型預訓練語言模型在訪問中間文本草稿板時可以更準確地執(zhí)行多步計算，例如加法（Nye 等, 2021）。我們的工作在很大程度上與這些結果一致，因為全局工作空間可以被視為一個內部草稿板，其中存儲中間步驟的結果，然后輸出最終答案。然而，最近的進展表明，顯式的語言空間推理并不總是最優(yōu)的。例如，Hao 等（2024）提出了 Coconut 方法，其中中間推理發(fā)生在連續(xù)的潛在空間中，而不是顯式表示為文本。這種方法提高了語言模型的推理效率，并支持回溯和對多種可能性的并行探索，類似于我們的全局工作空間作為多步處理的內部動態(tài)緩沖區(qū)的方式運作。

最后，我們目前正在探索鼓勵多步解決的不同損失函數，這可以豐富與 LSTM 和 Transformer 的比較。隨著我們繼續(xù)完善模型并探索更復雜的任務，我們相信這種方法可以為深度學習和認知人工智能的未來發(fā)展提供藍圖。

原文鏈接： https://arxiv.org/pdf/2503.01906

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.