BlendRL: A Framework for Merging Symbolic and Neural Policies (ICLR 2025)
BlendRL:合并符號與神經策略學習的框架
https://arxiv.org/pdf/2410.11689
https://github.com/ml-research/blendrl
摘要
人類能夠同時利用符號推理和直覺反應。相比之下,強化學習策略通常被編碼在神經網絡等不透明系統中,或者依賴于預定義符號和規則的符號系統中。這種割裂的方法嚴重限制了智能體的能力,因為它們往往缺乏神經智能體的靈活低級反應能力或符號智能體的可解釋推理能力。為了克服這一挑戰,我們提出了BlendRL,這是一個神經符號強化學習框架,能夠在使用邏輯和神經策略混合的強化學習智能體中和諧地整合這兩種范式。我們通過實驗證明,BlendRL智能體在標準的Atari環境中表現優于神經和符號基線智能體,并展示了它們對環境變化的魯棒性。此外,我們分析了神經策略和符號策略之間的互動,說明了它們的混合使用如何幫助智能體克服彼此的局限性。
1引言
為了解決復雜問題,人類運用兩種基本的思維方式:(1)用于即時反應和運動控制的本能反應,以及(2)使用明確可識別概念的抽象推理。這兩種人類智能的方面通常被稱為系統1和系統2(卡尼曼,2011)。盡管我們的推理系統需要符號來構建可解釋的決策規則,但本能反應并不依賴這種歸納偏差,不過缺乏透明性。在具有挑戰性的強化學習環境中,例如“袋鼠”(Kangaroo)場景,智能體的目標是到達其幼崽(位于頂部),幼崽被猴子抓走,需要將猴子擊打出路;或者在“海洋探險”(Seaquest)場景中,智能體控制一艘潛水艇,需要收集游泳的潛水員,同時不能耗盡氧氣(參見圖1)。開發能夠有效利用這兩種信息處理系統的智能體一直是一個持續的挑戰(Lake等人,2017;Mao等人,2019;Kautz,2022)。主要困難不僅在于使這兩種系統都具備高級能力,還在于無縫整合這些系統,使它們能夠協同互動,從而在不犧牲透明度的情況下最大化性能。
深度神經網絡已證明能夠在廣泛的任務中有效學習策略,而無需依賴任何關于任務的先驗知識(Mnih等人,2015;Schulman等人,2017;Badia等人,2020;Bhatt等人,2024)。然而,這些“黑箱”策略可能會利用人類觀察者難以察覺的捷徑(Locatello等人,2020;Liu & Borisyuk,2024)。例如,在簡單的Atari乒乓球游戲中,深度智能體傾向于依賴對手的位置而非球的位置(Delfosse等人,2024d),這表明深度學習系統傾向于利用捷徑學習機會,而這些機會在稍作修改的環境中無法泛化。
為了增強推理能力,符號推理已被整合到一些方法中,例如基于邏輯的策略(Jiang & Luo,2019;Kimura等人,2021;Cao等人,2022;Delfosse等人,2023a)或基于程序的框架(Sun等人,2020;Verma等人,2018;Lyu等人,2019;Cappart等人,2021;Kohler等人,2024)。這些方法提供了透明性、可修訂性、更好的泛化能力以及課程學習的潛力。然而,它們通常依賴于特定的人類歸納偏差,這些偏差對于解決任務是必要的,因此需要專家提供基本概念或潛在的邏輯規則。此外,涉及微妙動作的低級反應在這些框架中很難甚至無法編碼。這一限制突顯了符號系統在學習能力方面的局限性。因此,一個重要的問題出現了:我們如何構建能夠利用神經和符號建模優勢的智能體?目前結合這些系統的方法通常采用自上而下(即順序)的方法:使用深思熟慮的系統(例如規劃器)提供慢速的高級推理來選擇反應系統(例如深度強化學習),后者提供快速的低級反應(Kokel等人,2021)。然而,這種順序方法并不總是適用,例如,自動駕駛汽車可以在低密度高速公路上重新計算其計劃,但在交通擁堵時則必須快速反應,而無需重新規劃。能夠根據上下文選擇神經或符號建模的智能體是必要的。
我們提出了BlendRL,這是一個并行整合神經和基于邏輯的策略學習的框架。BlendRL智能體學習基于邏輯的可解釋推理以及低級控制,通過一個混合函數將它們結合起來,該函數利用混合狀態表示。它們可以利用高級推理(例如路徑規劃),這受益于符號(或以對象為中心)的狀態表示,以及低級反應,用于精細的控制技能(例如射擊敵人),使用基于像素的狀態表示。盡管其神經部分的可解釋性較低,但它幫助智能體適應那些符號表示不足的情況。BlendRL通過明確建模這兩種信息處理系統來提供混合策略,并使用深度神經網絡和可微邏輯推理器(Evans & Grefenstette,2018;Shindo等人,2023;2024b)的組合來選擇其動作。此外,我們為BlendRL智能體提出了一個基于優勢演員-評論家(A2C)的學習算法,該算法結合了近端策略優化(PPO)和策略正則化,并對訓練有素的智能體的神經和符號組件之間的相互作用進行了分析。總體而言,我們做出了以下貢獻:(i)我們提出了BlendRL,以聯合且同時訓練符號和神經策略。(ii)為了在所提出的框架上高效學習,我們在混合狀態表示上調整了PPO演員-評論家算法。此外,我們提出了一種正則化方法來平衡神經和符號策略,提供既是透明推理器又是準確反應器的智能體。(iii)我們通過實驗表明,BlendRL智能體在需要進行高級推理和低級反應的環境中優于神經和最先進的神經符號基線。此外,我們展示了BlendRL智能體對環境變化的魯棒性。(iv)我們深入分析了神經和符號策略之間的相互作用,揭示了混合表示和策略如何幫助智能體克服彼此的局限性。
我們首先提供必要的背景知識,然后介紹我們的BlendRL方法用于策略推理和學習。我們在三個復雜的Atari游戲中對BlendRL進行了實驗評估,將其性能與純神經和邏輯基線進行了比較。在此之后,我們討論了相關工作,然后總結。我們的代碼和資源是公開可用的。
2 背景
在正式介紹我們的BlendRL方法之前,讓我們先介紹必要的背景知識。
可微前向推理 是一種基于數據的一階邏輯(FOL)推理方法(Russell & Norvig,2010)。在前向推理中,給定一組事實和規則,通過將規則應用于事實來推導出新事實。可微前向推理是前向推理的可微實現,利用基于張量的可微操作(Evans & Grefenstette,2018;Shindo等人,2023)或基于圖的方法(Shindo等人,2024b)。這種方法可以通過將動作編碼為規則的形式(其中規則頭定義動作,規則體指定其條件),高效地應用于強化學習任務。為了學習每條規則的重要性或真值,可以將它們與可學習的規則權重相關聯。因此,假設可以以規則的形式表示,并從數據中學習。
3 BLENDRL
BlendRL通過結合符號策略和神經策略,整合了抽象推理和本能反應。如圖2所示,神經策略處理子符號(即基于像素的)表示以計算動作分布,而推理模塊則在符號狀態上使用可微推理。這些動作分布隨后被混合以獲得最終的動作分布。我們首先描述每種策略類型以及混合模塊的內部工作原理。接下來,我們討論如何利用預訓練大型語言模型(LLMs)中封裝的常識來獲取符號概念及其評估函數。最后,我們描述了如何調整PPO演員-評論家算法以對BlendRL模塊進行端到端訓練。讓我們首先正式介紹狀態表示。
3.1 混合狀態表示
BlendRL智能體使用兩種不同的狀態表示:(i)基于像素的表示和(ii)以對象為中心的表示,這些表示可以通過對象發現模型提取(Redmon等人,2016;Lin等人,2020;Delfosse等人,2023b;Zhao等人,2023)。基于像素的表示通常由環境提供的原始圖像堆疊而成,輸入到深度卷積網絡,如Mnih等人(2015)所介紹。我們考慮的符號(以對象為中心)表示由對象列表組成,包含屬性(例如位置、方向、顏色等),允許在結構化表示上進行邏輯推理(Zadaianchuk等人,2021;Liu等人,2021;Yoon等人,2023;Wüst等人,2024;Stammer等人,2024b)。
3.2 混合神經符號策略
利用這兩種狀態表示,BlendRL智能體通過聚合其神經策略和邏輯策略的概率來計算動作選擇的概率。
這些規則是透明的,例如 [R1] 可以被解釋為“如果氧氣耗盡則選擇向上”。規則體中的原子“empty”是一個狀態謂詞,其真值水平可以從以對象為中心的狀態中計算得出。每個狀態謂詞都與一個(可微的)函數相關聯,稱為評估函數,用于計算其真值或置信度。
例如,“empty(為空)”可以映射到一個函數,比如 sigmoid((x - α)/γ),它將實際的氧氣值
(來自以對象為中心的狀態)轉換為一個范圍在 [0, 1] 之間的真值分數。第二條規則 [R2] 表示相同的選擇動作 UP,但其動機是為了收集潛水員。第三條規則 [R3] 如果潛水員在游戲玩家的左側,則選擇另一個動作(LEFT)。在評估每個狀態謂詞的評估函數之后,我們執行可微前向推理(Shindo 等人,2023)以根據狀態原子推導出由動作規則定義的動作原子。前向推理涉及從觀察到的狀態推斷出所有可推導的知識(即動作的規則頭原子)。這一過程使我們能夠獲得符號策略中定義的所有動作的置信度(作為概率)。與 NUDGE 策略(Delfosse 等人,2023a)不同,BlendRL 使用大型語言模型(LLM)生成動作規則及其必要元素(謂詞及其評估函數),如第 3.3 節所述。我們還將內存高效的基于消息傳遞的前向推理器(Shindo 等人,2024b)整合進來,以克服傳統符號策略可能相關的內存瓶頸。NUDGE 和其他常見邏輯策略的內存消耗與關系和實體的數量呈二次方關系,這極大地限制了它們的可擴展性。相比之下,BlendRL 的符號策略呈線性擴展,適合更復雜環境的可擴展訓練并行化。
圖 3 描述了混合模塊的整體過程。它根據符號狀態計算神經策略和邏輯策略的分布,基于由 LLM 生成的混合規則。在袋鼠環境中訓練的智能體的混合加權規則集顯示在右上角。它編碼了當周圍有猴子或致命的投擲椰子時,應選擇神經模塊(以便躲避椰子或調整位置以最佳方式擊打猴子)的事實。當周圍沒有東西時,它可以安全地依賴其邏輯策略(顯示在它上面),這使它能夠在袋鼠環境中導航。
3.3 LLM生成的邏輯策略
BlendRL利用語言模型(LLMs)根據思維鏈原則(Wei等人,2022;Kojima等人,2022)生成符號程序以進行精確推理:
(i)它使用任務上下文和可檢測對象的描述及實現來創建狀態謂詞,
(ii)它制定動作規則,以生成的謂詞的合取作為規則體,
(iii)它生成謂詞的評估函數(即它們的Python實現函數)。
對于步驟(ii)和(iii),我們采用了少樣本提示方法,向LLM提供了一個從NUDGE策略(Delfosse等人,2023a)中獲得的示例邏輯規則集。這避免了需要專家提供邏輯規則集、使用的邏輯謂詞及其實現,從而允許用戶有效地用自然語言引入歸納偏差(更多細節見附錄A.3和A.4)。
圖4展示了一個在“袋鼠”任務上訓練的BlendRL的邏輯模塊的一個子集。與之相關的LLM生成規則的權重已被調整以最大化性能。
3.4 優化
我們使用近端策略優化(PPO)演員-評論家算法來訓練BlendRL智能體,并且采用混合價值函數。我們通過同時使用視覺狀態和以對象為中心的狀態來計算價值,從而構建混合評論家。
混合價值函數。由于價值函數是對預期回報的近似,我們沒有使用邏輯來編碼它。然而,BlendRL整合了一個混合價值函數,它同時使用子符號x 和符號(或以對象為中心的 z 狀態表示。給定狀態 s = (x, z) ,價值定義為:
4 實驗
我們概述了BlendRL相較于純神經或純符號方法的優勢,并通過額外的實驗研究了BlendRL對環境變化的魯棒性。此外,我們還考察了神經和符號組件之間的相互作用,并證明了BlendRL能夠生成可靠的解釋。我們具體旨在回答以下研究問題:
(Q1)BlendRL智能體是否能夠克服符號智能體和神經智能體的不足?
(Q2)BlendRL是否能夠為其動作選擇生成神經和符號兩種解釋?
(Q3)BlendRL智能體是否對環境變化具有魯棒性?
(Q4)神經模塊和符號模塊如何相互作用以最大化BlendRL智能體的整體性能?
現在,讓我們為BlendRL學習高效且易于理解的策略的能力提供實證證據,即使在沒有提供解決任務所需的所有必要先驗知識的情況下。
4.1 實驗設置
環境。我們在Atari學習環境(Bellemare等人,2013)中評估BlendRL,這是強化學習(尤其是關系推理任務)最流行的基準。為了提高資源效率,我們使用了(Delfosse等人,2024b)的對象中心提取模塊。具體來說,在“袋鼠”環境中,智能體需要到達并攀爬梯子,以到達被囚禁的小袋鼠,同時擊打試圖阻止它的猴子。在“海洋探險”中,智能體需要營救潛水員,同時射擊鯊魚和敵方潛艇,并且在氧氣耗盡前浮出水面。最后,在“大金剛”中,智能體需要到達頂部的公主,同時躲避大金剛扔過來的木桶。更多細節見附錄A.7。為了進一步測試BlendRL克服解決任務所需概念潛在缺失的能力,我們在為生成策略規則的LLM提供的提示中省略了游戲的某些部分。具體來說,我們省略了“袋鼠”中智能體可以擊打猴子、“海洋探險”中可以射擊敵人以及“大金剛”中可以跳過木桶的事實。為了測試魯棒性并分離智能體的不同能力,我們使用了HackAtari(Delfosse等人,2024a),它允許定制環境(例如移除敵人)。對于這些消融研究,我們將在論文的相關部分提供修改的使用細節。
基線。我們將BlendRL與純神經PPO智能體進行比較。兩種智能體類型都集成了用于Atari環境的經典卷積神經網絡(CNN)。此外,我們還評估了NUDGE,它使用預訓練的神經PPO智能體來搜索可行的策略規則(Delfosse等人,2023a),這是在Atari任務中表現最佳的邏輯智能體。我們訓練每種類型的智能體,直到它們都收斂到穩定的每集回報(即對于“袋鼠”和“大金剛”訓練1.5萬集,對于“海洋探險”訓練2.5萬集)。更多細節見附錄A.6。
4.2 結果與分析
與神經智能體和神經符號智能體的比較(Q1)。圖5展示了BlendRL、NUDGE和NeuralPPO智能體在各種Atari環境中的每集回報。BlendRL在所有測試場景中均超過了基于邏輯的最先進的NUDGE基線(Delfosse等人,2023a)。在“袋鼠”環境中,由于敵人數量相對較少,需要較少的直覺動作,NUDGE表現尚可,盡管其擊打猴子和躲避投擲的椰子的能力較弱。然而,在其他充滿更多威脅的環境中,神經策略對于精確控制至關重要,NUDGE則明顯落后。此外,純神經PPO智能體常常陷入次優策略。例如,在“海洋探險”中,不收集潛水員而浮出水面會導致負獎勵。因此,神經PPO智能體專注于射擊鯊魚以獲取獎勵,但從未補充氧氣。相比之下,BlendRL能夠有效地選擇其邏輯模塊以在需要時收集潛水員并浮出水面,并選擇其神經模塊以高效地對準敵人并射擊它們。總體而言,BlendRL在不同環境中顯著優于兩種基線,這突顯了神經符號混合策略在高效整合神經和符號方法進行策略學習方面的有效性。
BlendRL智能體具有可解釋性和可解釋能力(Q2)。BlendRL的符號策略易于解釋,因為它們由一組透明的符號加權規則組成,如圖4中“袋鼠”的示例所示。可解釋的混合模塊在需要精細控制的情況下優先選擇神經智能體(例如躲避迎面而來的致命椰子或準確地將自己定位在猴子旁邊并擊打它)。相反,當沒有即時危險時,邏輯模塊被使用,例如作為路徑規劃的代理。其他環境的邏輯規則見附錄A.4
BlendRL對環境變化具有魯棒性(Q3)。
深度智能體通常會在訓練過程中“死記硬背”虛假的相關性,因此即使在簡單的Atari游戲中,也無法泛化到未見過的環境中(Farebrother等人,2018;Delfosse等人,2024a)。我們使用了HackAtari環境的變體,以禁用“袋鼠”和“海洋探險”中的敵人,以及“大金剛”中的木桶。我們還使用了一個修改過的“袋鼠”環境,其中梯子的位置被重新安置。
如預期的那樣,我們的BlendRL智能體仍然能夠在這些更安全的環境版本中完成任務(從而獲得獎勵)(參見表1)。BlendRL智能體確實依賴于其基于邏輯的策略和混合模塊中整合的知識,僅依賴其神經模塊進行精確的控制技能(例如瞄準和射擊/擊打),我們將在下面進一步展示這一點。
每個模塊在每一步的使用情況。此外,BlendRL的智能體可以通過訓練調整它們選擇每個組件的程度,如圖的右側所示。由于“海洋探險”是一個逐步發展的環境,智能體最初面對的敵人較少(因此主要依賴其邏輯模塊來收集潛水員),然后逐漸進入更多敵人出現的狀態(參見圖10),BlendRL智能體最初主要依賴其邏輯模塊(藍色),然后逐漸將其偏好轉移到其神經模塊(紅色),以精確地射擊敵人。這些結果證明了BlendRL在神經符號混合表示上的策略推理和學習的有效性,從而增強了整體性能。我們在附錄A.8中進一步比較了神經和邏輯混合模塊,強調基于邏輯的混合模塊可以有效利用兩種策略,從而實現更好的性能。
總體而言,我們的實驗評估展示了BlendRL智能體在多個需要推理和反應能力的Atari環境中的學習能力。我們證明了它們優于常用的神經PPO基線,以及最先進的邏輯智能體NUDGE。我們進一步證明了它們能夠泛化到與訓練環境略有不同的未見場景,并且它們能夠高效地在兩種模塊類型之間切換,以獲得既能產生解釋又能量化每個符號屬性和每個像素區域影響的策略。
5 相關工作
關系強化學習(Relational RL)(Dzeroski等人,2001;Kersting等人,2004;Kersting & Driessens,2008;Lang等人,2012;Hazra & Raedt,2023)通過整合邏輯表示和概率推理來解決關系領域中的強化學習任務。BlendRL通過將可微邏輯編程與深度神經策略相結合,擴展了這一方法。神經邏輯強化學習(NLRL)框架(Jiang & Luo,2019)首次將可微歸納邏輯編程(?ILP)(Evans & Grefenstette,2018)引入強化學習領域。?ILP 使用基于梯度的優化從示例中學習泛化的邏輯規則。NUDGE(Delfosse等人,2023a)通過引入神經引導的符號抽象擴展了這種方法,利用對?ILP的廣泛研究(Shindo等人,2021b;a)來學習復雜程序。INSIGHT(Luo等人,2024)是另一個神經符號框架,它聯合學習結構化狀態和符號策略,并生成文本解釋。與這些僅依賴符號策略表示的方法不同,BlendRL整合了神經和符號策略,并聯合訓練它們。
規劃與強化學習的結合已被探索以實現策略學習中的深思熟慮。例如,RePReL(Kokel等人,2021)使用規劃器分解多智能體規劃任務,然后為每個智能體使用強化學習解決子任務。在這些框架中,用于長期(緩慢)推理的規劃器通常是獨立組件。相比之下,BlendRL在相同級別上計算符號和神經策略,允許它們聯合學習,從而增強整體性能。此外,規劃器通常用于基于模型的強化學習中,以生成假設性經驗,從而改進價值估計(Sutton,1991;Kaiser等人,2019)。相比之下,BlendRL直接將其符號推理模塊整合到其策略中,使其能夠與神經模塊進行聯合學習。
此外,BlendRL與使用LLMs進行程序生成的先前工作相關。例如,LLMs已被應用于生成概率程序(Wong等人,2023)、答案集程序(Ishay等人,2023;Yang等人,2023)、可微邏輯程序(Shindo等人,2024a)以及用于視覺推理的程序(Surís等人,2023;Stani?等人,2024)。我們的符號策略表示受到情境演算(Reiter,2001)的啟發,這是一種描述邏輯中狀態和動作的成熟框架。
6 結論
在本研究中,我們介紹了BlendRL,這是一個開創性的框架,它將符號策略和神經策略整合用于強化學習。BlendRL利用神經網絡進行反應性動作,并使用可微邏輯推理器進行高級推理,通過一個混合模塊無縫地將它們結合起來,該模塊管理兩種策略類型的分布。我們還為BlendRL智能體開發了一種學習算法,該算法在基于像素和以對象為中心的狀態上混合了狀態價值函數,并包括一種正則化方法以增強邏輯和神經策略的有效性。
我們的實證評估表明,BlendRL智能體在流行的Atari環境中顯著優于純神經智能體和最先進的神經符號基線。此外,這些智能體對環境變化表現出魯棒性,并能夠生成清晰、可解釋的解釋,涵蓋各種推理類型,有效解決了純神經策略的局限性。我們對符號和神經策略表示之間相互作用的全面分析突顯了它們協同提升整體性能的潛力。
原文鏈接:https://arxiv.org/pdf/2410.11689
https://github.com/ml-research/blendrl
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.