Bridging the Gap- Representation Spaces in Neuro-Symbolic AI2411.04393v1.pdf
彌合差距:神經符號人工智能中的表示空間
https://arxiv.org/pdf/2411.04393
摘要
神經符號人工智能是一種通過結合神經網絡和符號學習的優勢來提升人工智能模型整體性能的有效方法。然而,二者在處理數據的方式上存在差異,主要原因是它們通常使用不同的數據表示方法,而這往往是限制二者整體性能的一個重要因素。從這個角度出發,我們通過構建一個四級分類框架,分析了2013年以來的191項研究。第一級定義了五種表示空間類型,第二級關注表示空間可以表示的五種信息模態。然后,第三級描述了四種符號邏輯方法。最后,第四級類別提出了三種神經網絡與符號學習之間的協作策略。此外,我們還基于其表示空間對46項研究進行了詳細分析。
1 引言
神經符號人工智能是一種有前景的范式,它結合了神經網絡的強大學習能力和符號人工智能的邏輯推理能力,以解決復雜的AI問題。然而,盡管這兩種技術的合作看似自然,但它們在表示方式上的差異顯然不容忽視。
在AAAI 2020會議上,Henry Kautz教授提出了一個神經符號系統的分類法。此外,許多研究人員從不同角度對近期的神經符號人工智能進行了相關綜述。如圖1所示,Acharya等人[1]提出了一種新的分類方法,根據神經部分和符號部分的作用對現有的神經符號人工智能進行了分類和討論,包括“為推理而學習”“為學習而推理”以及“學習-推理”。Garcez等人[73]基于Henry Kautz引入的六種類型,提出了一個包含順序型、嵌套型、協作型和編譯型的神經符號AI分類法。此外,一些綜述關注跨領域整合和應用。例如,Berlot-Attwell[27]從人工通用智能(AGI)需求的角度對神經符號視覺問答(VQA)進行了綜述。Marra[128]基于七個維度,對整合神經符號人工智能和統計關系人工智能進行了全面綜述。Belle[24]探討了基于主觀概率與隨機世界語義學之間的區別、無限域和隨機世界語義學的重要性以及概率在公式和量詞中的應用,研究了統計關系學習(SRL)與神經符號學習之間的整合。Kleyko等人[104][102]對高維計算(HDC)和向量符號架構(VSA)進行了兩部分的總結,內容包括已知計算模型、將各種輸入數據類型轉換為高維分布式表示、相關應用、認知計算和架構以及未來工作的方向。Delong等人[55]、Khan和Curry[98]、Lamb等人[107]、Singh等人[162]、Zhang等人[196][197]從神經符號推理的角度對圖論和本體推理進行了多方面的總結。Panchendrarajan和Zubiaga[141]討論了一種結合機器學習和符號方法的混合方法,重點關注自然語言處理的三個子領域:理解、生成和推理。
本綜述是對上述現有綜述的補充。它還旨在幫助初學者從表示空間的角度快速了解神經符號人工智能的最新研究趨勢和典型工作原理。此外,我們專注于不同模態的表示能力及其對神經網絡和符號學習表示的支持。
2 基于表示空間的神經符號人工智能類型
在本文中,“模態”指輸入數據的模態,因此單模態模型描述的是一種只能處理一種數據類型的方法。相比之下,多模態模型可以處理多于一種的數據類型。此外,非異構和異構指的是表示空間是否能夠同時支持神經網絡的嵌入向量和符號邏輯的表示,而不是以對方的方式表示它們。只能支持其中一種的表示空間被稱為非異構表示空間,反之則是異構表示空間。結合上述兩種分類方法,我們將現有的神經符號人工智能研究分為五種類型:單模態非異構、多模態非異構、單模態異構、多模態異構和動態自適應模型。
該表格清晰地展示了每一類別的定義:
(1) 單模態非異構神經符號人工智能:神經網絡從單模態數據中提取特征,表示空間僅支持一種表示方式。
(2) 多模態非異構神經符號人工智能:神經網絡從多模態數據中提取特征,表示空間僅支持神經網絡或邏輯符號表示中的一種。
(3) 單模態異構神經符號人工智能:神經網絡從單模態數據中提取特征,表示空間可以同時支持神經網絡和邏輯符號的表示。
(4) 多模態異構神經符號人工智能:神經網絡從多模態數據中提取特征,表示空間可以同時支持神經網絡和邏輯符號的表示。
(5) 動態自適應神經符號人工智能:表示空間可以根據任務需求動態調整和優化,即動態地滿足上述四種分類的所有要求。
本研究調查了2013年以來的191項現有的神經符號人工智能研究,其中175項使用了單模態非異構表示方法,13項研究使用了多模態非異構混合表示方法。關于單模態異構表示方法有兩項研究,多模態異構模型有一項研究。目前還沒有研究使用多模態異構和動態自適應表示方法。
3 單模態非異構神經符號人工智能
我們將175項神經符號人工智能研究按照處理的數據類型劃分為五個子類別:文本、圖像、環境與狀態、數值與數學表達式以及結構化數據。
3.1 文本
這一類別涵蓋了51項研究,其中神經網絡從文本數據中提取特征,然后使用邏輯符號方法對它們進行處理。此外,這些研究可以根據符號邏輯的類型進一步劃分為四個分支:邏輯規則與編程、符號表示與結構、知識圖譜與數據庫、數學與數值運算。
3.1.1 符號:邏輯規則與編程
這一組合包括32項研究,所有研究都從文本中提取特征,例如自然語言、編程語言和特定領域的描述,然后通過語義解析將特征轉換為符號邏輯可以處理的形式。這一過程彌合了基于數據的模式識別和基于規則的邏輯推理之間的差距。根據神經網絡和符號邏輯的合作方式,這一組合中的研究可以分為三組。在本綜述的這一部分的其余內容中,我們將默認使用本節中的分類模型進行研究統計。
(1) 神經符號生成:特征由神經網絡提取,然后這些特征被轉換為符號邏輯模塊可以處理的形式。這一類別的研究包括[7, 13, 17, 23, 30, 34, 38, 54, 56, 83, 96, 117, 136, 137, 139, 140, 145, 158, 203]。
(2) 符號-神經增強:通過整合符號邏輯提供的高級知識(如符號邏輯規則、知識或結構化信息)來增強神經網絡,以實現更好的特征解釋或學習過程。[15, 35, 46, 95, 115, 116, 175, 175] 均屬于此類別。
(3) 神經-符號協作:一種雙向協作學習過程。神經網絡提取的特征被轉換為符號邏輯可以處理的形式,同時符號邏輯中的規則被反饋回神經網絡。此類別的研究包括 [72, 149, 154, 193, 198]。
在這些研究中,Liang等人[115]提出了一個NSM(神經符號機器),它結合了神經網絡和符號邏輯,以在大型知識庫上高效執行離散操作。NSM使用一個神經編程模塊,通過問題和描述接收自然語言輸入,通過序列到序列模型提取語義,并通過將語義映射為一系列標記來生成可執行程序。管理模塊以正確答案的形式為任務提供弱監督信號,通過獎勵表明任務完成的程度。程序員需要從管理器提供的獎勵中學習,并找到合適的程序。最后,NSM使用Lisp解釋器執行程序員模塊生成的程序的非可微操作。為了解決在從問答對中訓練時遇到的尋找正確程序的問題,NSM通過檢查生成程序的語法和語義來修剪程序員的搜索空間,即檢查生成的程序是否會引發語法或語義錯誤,并過濾掉無效的程序序列以提高訓練效率。符號邏輯以上述過程中的程序表達式和Lisp解釋器的形式存在。前者通過將自然語言轉換為代碼來構建代表特定操作的程序序列——環境的概率生成模型。僅使用問答對進行訓練時,NSM在WebQuestionSSP數據集上實現了新的最佳性能,而無需任何特征工程或領域特定知識,展示了NSM通過整合神經網絡的統計學習能力和符號邏輯的推理能力的強大功能,能夠有效地從弱監督信號中學習,并使用大規模知識庫進行語義解析任務。
Pan等人[140]提出了LOGIC-LM,這是一種通過結合大型語言模型(LLM)和符號求解器來解決邏輯問題的方法。該方法通過三個階段有效地將自然語言處理和確定性邏輯推理聯系起來:問題表述、符號推理和結果解釋。LOGIC-LM首先使用LLM將問題的自然語言陳述中的基本實體、事實和邏輯規則解釋并翻譯為邏輯中的謂詞、變量和邏輯表達式。然后,LOGIC-LM使用確定性符號求解器對符號表示進行操作,并通過邏輯推理得出給定問題的答案或解決方案。同時,求解器的確定性確保了結論在邏輯上是一致且可追溯的。最后,LOGIC-LM使用一個自精煉模塊,根據符號求解器的反饋迭代提高符號翻譯的準確性。在初始符號表述導致錯誤或被認為不準確的情況下,自精煉模塊利用求解器的輸入——錯誤信息來修改和改進公式。在上述過程中,符號邏輯以邏輯編程語言、一階邏輯、約束滿足問題和布爾可滿足性問題的形式存在。LOGIC-LM在多個邏輯推理數據集上的有效性得到了驗證,這些數據集涵蓋了從演繹推理到約束滿足問題的范圍,表明這種方法為解決大型語言模型在可靠邏輯推理方面的局限性提供了一個可行的想法。
Galassi等人[72]提出了一個神經符號論證挖掘框架,通過結合神經網絡和符號邏輯來提高論證挖掘的性能。該方法首先使用循環神經網絡、卷積神經網絡和變換器架構等神經網絡從學術文章、社交媒體內容和法律文件等文本數據中提取特征,并自動識別論證組件,如文章中的主張、理由和證據,以及它們之間的關系,如支持或反對。該研究提出使用概率邏輯編程(PLP)來融合神經網絡輸出和符號邏輯表示。具體而言,PLP框架使用帶有概率標簽的邏輯規則(如可廢止規則)來表示不確定性,并將神經網絡識別的論證組件和關系作為輸入進行推理和分析。這種方法可以在單一學習過程中同時識別論證組件并分析論證關系,并通過在訓練階段引入規則和約束來實現全局決策調整。該研究中的符號邏輯以結構化論證和抽象論證的形式存在,前者通過定義一種形式語言并指定如何從該知識構建論證和反論證來表示知識,例如使用嚴格規則和推翻規則來表達論證的結構和內容;抽象論證通過關注論證之間的高級關系來處理邏輯不一致性。該研究提出的方法比傳統論證挖掘更有效地處理復雜推理任務。
3.1.2 符號:符號表示與結構
這一類別包括六項研究。神經網絡通過擴展的短期記憶網絡、通用句子編碼器、InferSent句子嵌入或Bert模型從文本數據中提取特征,然后通過各種方法將文本輸入轉換為結構化表示,例如使用符號棧機操作文本序列,或者使用句法分析樹等句子的語法結構,或者生成符號表達式以表示數學問題的求解過程。其中,屬于符號-神經增強的研究包括[37, 87, 143],而屬于神經-符號協作分類的研究包括[42, 77, 179]。
Pinhanez等人[143]提出了一種方法,通過利用對話系統中意圖識別標識符中嵌入的元知識來提高意圖識別的準確性。從現有知識的角度來看,從文本或人類中獲取結構化和完整的知識是一個挑戰。該研究通過展示如何利用意圖標識符中嵌入的原型分類法,為神經符號系統中的知識獲取提供了一種高效方法。該方法首先通過神經網絡從對話系統中用于意圖識別的用戶話語或句子中提取特征,并通過將一組意圖標識符嵌入到另一個連續向量空間中生成嵌入表示。然后,利用元知識將該向量空間中的表示映射到通過原型分類法嵌入的意圖標識符的另一向量表示空間,即通過分析開發者在意圖標識符中隱含的原型分類法來捕獲高級知識結構,并利用這種結構來提升模型的意圖識別能力。符號邏輯以兩種形式存在于這一過程中:一種是通過原型分類法表達的元知識,另一種是由這些原型分類法構成的知識圖譜形式的結構。原型分類法反映了開發者通過連接不同意圖之間共享的高級符號概念而嵌入到意圖標識符中的結構化知識。這些知識結構是非正式但結構化的,描述了不同意圖之間的關系和層次結構。實驗結果表明,以這種方式嵌入元知識可以在大多數情況下提高意圖識別的準確性。識別“超出范圍”的樣本可以顯著提高識別準確率并降低誤識率。同時,該方法能夠自動挖掘和利用對話系統中嵌入的知識,無需專家的直接干預。
Chen等人[37]提出了NeSS(神經符號棧機),通過將符號棧機集成到序列到序列生成框架中作為機器操作控制器。具體而言,該方法利用神經網絡從源語言的輸入序列和目標語言的輸出序列中提取特征。這些文本序列包含用于指導神經符號機器操作的命令或指令。然后,神經網絡作為控制器,根據輸入序列的特征生成一系列執行軌跡作為操作指令,這些指令隨后由具有序列操作能力的符號棧機執行。輸入序列通過一系列遞歸處理和序列操作,生成目標輸出序列,實現對輸入序列的聯合理解和轉換。NeSS中的符號邏輯主要以兩種形式存在:符號棧機和操作等價性。符號棧機是NeSS的核心組件,通過符號操作(如棧推入、棧彈出、序列生成等指令)支持遞歸和序列操作,實現輸入序列的聯合處理和輸出序列的生成。同時,符號棧機支持遞歸,可將整個序列分解為組件并分別處理。操作等價性是NeSS用于提升泛化能力的一個重要概念,通過比較不同輸入序列生成的執行軌跡的相似性,識別和分類語義相似的組件,進一步促使模型學習組合組件的規則。實驗表明,NeSS在四個需要組合泛化的基準測試中表現良好,包括SCAN語言驅動的導航任務基準測試、少樣本學習的組合指令任務、組合機器翻譯基準測試以及上下文無關語法解析任務,實現了100%的泛化性能,表明NeSS能夠理解和生成符合給定規則的序列,并將學到的知識泛化到新的、未見過的組合。
此外,[42]中使用符號輸出驗證解決數學問題的正確性,而[77]中提出的方法則利用符號輸出解釋句子的結構或語義。[179]中提出的方法強調從感官數據中自動生成和利用符號的過程,即通過增量學習過程從輸入數據中提取結構和流程,并自底向上生成符號,每個符號代表輸入數據中的一個模式或概念。此外,該方法利用工作記憶綁定符號之間的關系并控制結構,模擬人腦在處理復雜概念結構時的工作方式。
上述例子展示了如何有效結合連續向量空間表示與高級離散結構化知識表示,如何將神經網絡的學習能力與符號主義相結合,以及如何利用邏輯的精確規則和結構來提升模型的理解、推理、泛化和解釋能力。
3.1.3 符號:知識圖譜與數據庫
這一類別包括12項研究,其中神經網絡從文本中提取特征,符號邏輯存在于知識圖譜、一階邏輯事實和本體論中,以表示明確的規則、實體以及實體之間的關系,從而支持推理和決策。屬于神經符號生成的研究包括[21, 31, 89, 101, 182, 183]。屬于符號-神經增強分類的研究包括[91]。而[44, 86, 88, 121, 174]屬于神經-符號協作。
Verga等人[183]提出了一種方法,通過幫助神經網絡模型從大規模文本數據中學習,并直接與結構化知識庫交互,從而提升模型在知識密集型任務中的表現。該方法的神經網絡部分基于大規模預訓練語言模型,通過學習語法、語義等特征來理解語言的細微差別。隨后,利用預訓練語言模型生成的上下文嵌入表示作為查詢,從知識庫中檢索與當前上下文相關的三元組信息。檢索結果被轉換為神經網絡可理解的形式,并與文本的上下文嵌入一起用于最終任務,如回答問題。在此方法中,符號邏輯以知識庫中的三元組形式存在,通過顯式接口將符號邏輯中的事實信息與神經網絡編碼的知識相結合。
Jain等人[91]提出了ReOnto(關系抽取本體論),該方法結合圖神經網絡和公開可用的本體論作為先驗知識,用于識別生物醫學文本中兩個實體之間的句子關系。ReOnto通過將實體對嵌入圖結構中(實體作為節點,潛在關系作為邊),利用圖神經網絡捕捉實體之間的復雜交互。此外,該方法通過計算從本體論中提取的關系路徑與句子中實體關系的語義相似性,聯合預測實體對之間的關系。ReOnto中的符號邏輯以本體論中的關系路徑形式存在,這些路徑通過一系列邏輯關系連接兩個實體。實驗結果表明,ReOnto在兩個公共生物醫學數據集(BioRel和ADE)上優于所有基線方法,性能提升了約3%。
Hu等人[88]提出了OREOLM(知識推理增強的語言模型),通過結合符號邏輯的知識圖譜推理和神經網絡,提升開放域問答的性能。OREOLM的核心是通過嵌入在語言模型中的知識交互層,使語言模型與可微分的知識圖譜推理模塊協同工作。具體而言,該模型基于Transformer的語言模型通過識別問題中的關鍵實體及其上下文關系,生成與這些實體相關的查詢或關系預測。隨后,知識圖譜推理模塊根據語言模型的指令沿著預測的關系進行圖遍歷,并收集路徑上的信息。這些信息被編碼為嵌入向量并整合回語言模型,作為額外的上下文信息以幫助理解問題并生成答案。實驗表明,OREOLM在開放域問答的多個基準數據集上表現出顯著的性能提升,尤其是在處理需要多跳推理或缺失關系推理的復雜問題時。
3.1.4 符號:數學與數值運算
這一組合共包含一項研究。Flach和Lamb [68]專注于使用λ演算進行編碼和計算,并通過學習在λ演算中執行歸約來利用邏輯符號進行計算。該研究提出了關于Transformer模型能力的詳細假設(H1和H2):H1認為Transformer能夠學習執行λ演算中的單步計算,而H2則提出它能夠執行完整的計算。具體而言,該方法使用Transformer模型從通過λ演算的語法規則生成的文本形式的λ項中提取特征。輸出是這些項經過β歸約后的新λ項,即函數體中的自由變量被實際參數替換。λ演算包括函數的抽象定義和應用,是一種用于表達函數抽象和函數應用的形式系統。它是函數式編程語言的理論基礎,是圖靈完備的,并且理論上可以表示任何可計算問題。該模型能夠支持函數式編程語言的學習和研究,并通過λ演算規則簡化表達式,以構建更強大的代碼編輯器和編譯器。Transformer模型在執行單步和多步β歸約任務中表現出高準確率。在單步β歸約任務中,模型的最高準確率達到99.73%。在多步β歸約任務中,模型的準確率高達97.70%。即使輸出沒有完全正確預測,字符串相似性指數通常也超過99%,這表明Transformer模型能夠有效地學習并執行基于λ演算的計算任務。
3.2 圖像
這一類別包括51項研究,所有研究都通過神經網絡從圖像數據中提取低級特征,然后使用符號邏輯進行高級推理和決策。這些研究涉及四種邏輯符號方法的子類別:邏輯規則與編程、符號表示與結構、知識圖譜與數據庫以及數學與數值運算。
3.2.1 符號:邏輯規則與編程
這一組合共包含35項研究,其中神經網絡從圖像或視覺數據中提取諸如物體、場景結構或其他感知信息等特征,然后應用邏輯規則、謂詞邏輯和概率邏輯編程來處理這些特征,以實現進一步的理解、推理和決策。這種組合包括基本應用,如初級圖像分類和手寫公式評估,以及更高級的決策和推理任務,如視覺關系檢測和抽象邏輯推理,這些研究表明結合方法在多個領域和任務中具有巨大潛力。在這些研究中,屬于神經符號生成分類的研究包括[6, 10, 12, 18, 40, 43, 49, 51, 63, 64, 71, 74, 76, 79, 85, 111, 113, 114, 119, 126, 160, 167, 173, 177, 189, 194, 201];屬于符號-神經增強分類的研究包括[60];屬于神經-符號協作的研究包括[3, 26, 48, 124, 125, 180, 186]。
在這些研究中,Li等人[114]提出了一種神經符號學習框架,旨在解決神經網絡訓練與符號約束求解之間的銜接問題。該框架通過引入“軟化符號接地”過程,優化符號解的玻爾茲曼分布,并采用退火機制,避免了耗時的狀態空間搜索過程。該方法可以從圖像中提取特征,例如手寫算術表達式和視覺數獨,并通過學習輸入數據的深度表示來識別模式和結構。通過“軟化符號接地”,該研究實現了神經網絡與符號邏輯之間的轉換,利用玻爾茲曼分布模型和MCMC采樣技術,將神經網絡識別和提取的特征映射到潛在的符號空間(如識別的數字、運算符等),從而彌合神經網絡的連續特征空間與符號邏輯的離散決策空間之間的差異。隨后,輸入被送入符號邏輯系統以生成輸出。在這個方法中,符號邏輯部分以預定義的符號約束或規則的形式存在,這些符號約束代表了問題的邏輯結構和規則,例如算術表達式的評估規則、數獨問題求解規則等,為神經網絡提供了一個結構化的推理框架。實驗結果表明,該研究在多個神經符號學習任務上表現優于現有方法,包括手寫公式評估、視覺數獨分類以及加權圖的最短路徑預測。
Shindo等人[160]提出了NSFR(神經符號正向推理器),這是一種基于一階邏輯的可微分正向鏈推理方法,通過梯度下降等優化算法優化從已知事實和規則中推導新事實的過程。該方法中的神經網絡從視覺數據中提取特征,并直接將神經網絡輸出的對象屬性(如顏色和形狀)所表示的提取對象映射為符號邏輯中的原子事實,然后使用這種基于原子形式的概率符號表示進行邏輯推理。與傳統符號邏輯推理不同,NSFR通過可微分正向鏈推理近似邏輯運算,這一過程可以在梯度下降框架內進行并通過反向傳播進行優化。在NSFR中,符號邏輯主要定義了對象之間的關系以及一階邏輯推理的規則,使模型能夠理解和處理高級概念和模式。通過對二維的Kandinsky模式和三維的CLEVR-Hans數據集的實驗,NSFR展現了其在理解和推理涉及對象屬性(如顏色和形狀)以及空間關系(如“靠近”和“上方”)的復雜模式方面的強大能力。上述結果表明,NSFR能夠處理需要識別圖像中的對象及其屬性并基于這些信息進行高級推理的任務。
Garcez等人[74]提出了一種新方法,即SRL+CS(帶常識的符號強化學習),可以提升強化學習的泛化能力、遷移學習能力、抽象能力和可解釋性。該方法將符號邏輯的概念引入標準的深度強化學習框架中。該方法主要使用卷積神經網絡處理圖像數據,并將圖像中的視覺模式和結構映射為抽象的符號表示。圖像中識別出的對象被標記為特定符號,并計算它們之間的相對位置。最后,基于這些符號所表示的狀態空間執行Q學習,目標是學習在給定狀態下采取哪種行動可以最大化未來的累積獎勵。符號表示的狀態空間為最終決策提供了基礎。受人類常識原則的啟發,SRL+CS在學習和決策過程中引入了兩項關鍵改進:僅在對象狀態與智能體交互發生變化時更新Q值,在做決策時考慮對象的相對位置,并給予更接近的對象更高的權重。實驗結果證明,該研究能夠在不同環境配置中實現知識遷移和泛化,尤其是在從確定性的訓練環境測試到隨機環境時,展現了近乎完美的零樣本學習能力。
3.2.2 符號:符號表示與結構
這一類別包括八項研究,其中神經網絡負責處理連續的、高維的視覺輸入,符號邏輯通過將提取的特征映射到一組預定義的符號或概念中,利用這些信息或模式進行推理或決策。在這些研究中,屬于神經符號生成分類的研究包括[2, 16, 99, 152, 166, 168];屬于神經符號協作的研究包括[52, 65]。
Su等人[168]提出了一種模型,該模型利用神經網絡從視覺數據中提取和學習高維特征,同時使用符號邏輯在結構化、基于規則的框架內解釋這些特征。該方法首先從原始視覺數據(如手寫字符、物體圖像或任何視覺場景)中學習和提取高維特征,將不同的物體、形狀、顏色和大小編碼為高維向量,并捕捉圖像內的統計屬性和模式。隨后,通過特征向量離散化和基于學習特征的符號推理邏輯規則應用等方法,將連續的特征空間映射到離散的符號空間,并將這些符號邏輯運算的結果轉換為相應的圖像輸出或決策。在本研究的方法中,符號邏輯主要以結構化表示的形式存在,例如使用符號圖像渲染器、概率程序控制過程和符號筆畫原語,以便更清晰地描述和推理圖像數據背后的邏輯和結構。此外,該方法可以通過后驗約束將專家知識或預定義的邏輯規則明確地整合到學習和推理過程中,確保生成的符號結構和推理輸出與人類的理解和期望一致。與傳統的數據驅動的深度學習模型相比,本研究提出的模型能夠更好地捕捉和理解圖像中的抽象關系和概念,并具有跨領域知識遷移和應用的潛力。
Sarkar等人[152]提出了一個用于檢測燃燒條件不穩定的神經符號框架,這對于發動機健康監測和預測至關重要。該方法通過分析大量的序列化高速燃燒火焰圖像來實現。該方法首先通過卷積神經網絡(CNN)分層提取圖像的低維語義特征,并識別火焰中的連貫結構。然后,將每個圖像幀中特征圖的結構組成時間序列,形成基于圖像特征的時間序列數據。接下來,該方法使用符號時間序列分析,通過最大熵劃分等符號方法將這些時間序列數據轉換為符號序列,然后構建廣義D-Markov機模型,并通過狀態分裂和合并等過程形成描述火焰從穩定到不穩定狀態轉變的狀態轉移矩陣。該矩陣捕捉了火焰形狀隨時間的動態行為,并為早期不穩定檢測提供了基礎。該方法能夠在火焰形狀從穩定轉變為不穩定之前的低時間尺度上捕捉前兆。通過在不同工況下收集的大量旋流穩定燃燒器的實驗數據進行驗證,發現該方法與傳統的PCA方法一致。相比之下,該方法能夠捕捉燃燒過程中的細微變化,檢測熱聲不穩定性,并適用于不同類型的燃燒系統和工況,具有一定的通用性和遷移能力。
3.2.3 符號:知識圖譜與數據庫
這一組合共包含五項研究,這些研究利用神經網絡從視覺模態中提取特征,然后使用知識圖譜、背景知識、一階邏輯編程和本體論等邏輯符號形式來表示和處理高級、規律化的知識,以幫助模型理解和推理該領域的復雜關系和規則。在這些研究中,屬于神經符號生成分類的研究包括[80, 188];[130]屬于符號-神經增強分類;屬于神經符號協作的研究包括[57, 170]。
Díaz-Rodríguez等人[57]提出了X-NeSyL(可解釋的神經符號學習)。這種方法結合了深度學習和符號邏輯,并使用知識圖譜作為專家知識來提升模型的性能和可解釋性。該過程利用結合的卷積神經網絡EXPLANet從圖像數據中提取高級視覺特征,并將其映射到知識圖譜中定義的符號邏輯。隨后,通過一個名為SHAP-Backprop的訓練過程,將模型的預測輸出與知識圖譜中的期望符號關系進行比較,并基于知識圖譜的符號邏輯向神經網絡模型的訓練提供反饋,以確保模型所學習的特征和預測與領域專家的知識一致。X-NeSyL使用SHapley Additive exPlanations(SHAP)值來量化每個識別部分對最終分類決策的貢獻,并利用這些值來調整模型的最終輸出。
與此同時,這種可解釋性指標——SHAP GED,通過比較模型生成的神經符號表示與知識圖譜表示之間的一致性程度來評估模型的可解釋性。實驗結果表明,EXPLANet模型在MonuMAI數據集上優于基線模型,包括MonuNet和純ResNet-101分類器,這表明結合領域專家的知識可以有效提升深度學習模型在特定任務上的性能。此外,實驗結果還表明,線性實例級加權方案在保持良好分類性能的同時提高了模型的可解釋性。
3.2.4 符號:數學與數值運算
這一組合包含三項研究,其中神經網絡從圖像、時間序列或視頻中提取復雜的模式和結構。這些模型隨后使用符號回歸來發現數據背后的數學規律,或使用概率圖模型來模擬數據關系中的因果關系。在這些研究中,屬于神經符號生成分類的研究包括[100];屬于神經符號協作分類的研究包括[67, 150]。
Kim等人[100]提出了一種EQL(EQuation Learner),該方法結合了神經網絡和符號回歸。該研究通過反向傳播算法實現了整個系統的端到端訓練,使整個模型具有高度的可解釋性。首先,EQL使用卷積神經網絡從MNIST數據集中的手寫數字圖像中提取和識別數字信息,并通過對序列數據進行處理來執行動態系統分析,這些序列數據中移動物體的位置和速度隨時間變化,從而從時間序列中挖掘運動特征。隨后,該方法通過符號回歸將隱含的連續特征轉換為明確的、可解釋的數學方程,或將連續的神經網絡特征空間轉換為離散的符號數學表達式。
在MNIST算術任務中,EQL網絡能夠從圖像中提取數字,并成功學習加法運算。此外,EQL網絡從數據中提取了關于動態系統預測的未知參數,并利用這些參數預測動態系統的未來狀態。這證明了EQL網絡處理和理解動態系統的能力,并提高了模型的可解釋性,從而促進了科學發現和技術革新。
3.3 環境與態勢感知數據
這一類別包括19項研究成果,所有研究都利用神經網絡從視覺圖像、傳感器數據、環境狀態信息等中提取特征,然后使用符號邏輯(如邏輯規則、定義目標和約束以及表達任務的高級知識)進行基于規則的推理和決策。這些研究包括四種邏輯符號方法的類別:邏輯規則與編程、符號表示與結構、知識圖譜與數據庫以及數學與數值運算。
3.3.1 符號:邏輯規則與編程
這一組合包含14項研究,其中神經網絡自動從原始數據中提取復雜特征,然后使用邏輯規則、一階邏輯公式和符號動作模型來表達和處理結構化知識,以指導神經網絡。網絡的學習過程為執行精確且復雜的邏輯推理提供了可解釋的決策基礎。在這些研究中,屬于神經符號生成分類的研究包括[5, 190];屬于符號-神經增強分類的研究包括[90, 120];屬于神經符號協作的研究包括[11, 28, 41, 82, 93, 132, 159, 161, 164, 191]。
Hazra和De Raedt [82]提出了一種DERRL(深度可解釋關系強化學習)方法,通過符號邏輯生成的邏輯規則來表達策略,從而為每個決策或動作的生成過程提供可解釋性。該方法利用神經網絡從環境狀態中提取以關系和對象邏輯形式表達的復雜特征,并使用這些邏輯表示來學習環境的動態規律和策略規則。例如,在“積木世界”游戲中,DERRL使用邏輯謂詞如top(X)和on(X,Y)來描述積木之間的關系,并表達積木堆疊的狀態。神經網絡的輸出是一系列動作規則的參數,這些參數對應于動作決策的邏輯規則。例如,在“積木世界”中,神經網絡的輸出表示何時以及如何移動積木的規則。接下來,通過定義語義損失函數,使神經網絡生成的規則滿足預設的邏輯約束。這一過程可以通過公理將人類先驗知識整合到學習過程中。在多個環境(如倒計時游戲、積木世界、網格世界等)的實驗表明,與傳統方法和最新的神經邏輯強化學習方法相比,DERRL在計算效率、策略準確性和語義約束執行方面表現更優,為傳統深度強化學習缺乏可解釋性和環境適應性的問題提供了一種可行的解決方案。
Lyu等人[120]提出了一種KeGNN(知識增強圖神經網絡),通過在圖神經網絡的基礎上堆疊知識增強層符號邏輯,以引入一階邏輯形式的先驗知識,從而在噪聲圖數據上進行準確推理。該方法首先利用圖神經網絡從圖結構數據中提取節點特征和圖結構,將每個節點表示為與文本內容、節點屬性等信息相關的特征向量,并利用圖結構傳遞和聚合鄰節點的特征信息。KeGNN使用模糊邏輯將GNN的連續實值輸出轉換為邏輯公式可處理的形式,即將布爾邏輯的真值和假值映射到[0,1]區間內的連續值,并將節點類別的實值輸入到知識增強層,然后利用先驗知識對這些預測進行可學習的權重調整。KeGNN模型是端到端可微分的,這意味著GNN參數和知識增強層的權重可以通過標準的反向傳播算法同時學習。KeGNN中的符號邏輯以知識增強層的形式存在,包括一階邏輯公式形式的先驗知識以及一元謂詞和二元謂詞的邏輯公式。前者表示節點的屬性,后者描述節點的特征和節點之間的關系。與傳統GNN模型相比,KeGNN在多個基準數據集上能夠一定程度上提高分類精度,這表明KeGNN在處理圖結構數據方面的有效性。
3.3.2 符號:符號表示與結構
這一類別包括四項研究,其中神經網絡從與三維世界的物理交互、視覺模態數據以及環境狀態的符號表示中提取特征。它們使用符號邏輯描述環境狀態、規則和動作效果,然后基于這些知識和規則進行推理。在這些研究中,屬于神經符號生成分類的研究包括[20];[151]屬于神經符號增強;而[69, 195]屬于神經符號協作。
Zellers等人[195]提出了一種框架,PIGLeT(Physical Interaction as Grounding for Language Transformers),能夠提取常見的物理常識知識。該方法通過與三維模擬環境的交互學習物體的物理屬性和動作的后果,包括物體的材質以及對物體施加動作的結果。PIGLeT首先利用神經網絡從與三維模擬環境的物理交互過程中提取特征,這些特征包括物體的物理屬性以及可以施加的動作,例如理解不同動作(如移動和投擲)對各種物體的物理后果。隨后,利用物理動力學模型以符號表示形式預測對物體施加動作的結果,并將其轉換為自然語言描述。PIGLeT通過物理動力學模型的符號表示捕捉因交互導致的物體狀態變化,以及交互和狀態的自然語言描述。實驗結果表明,PIGLeT對物理世界動態的理解超過了基于純文本學習的大型語言模型。這些結果表明,將交互學習和符號邏輯結合在模擬環境中可以提高機器對物理常識的理解。
此外,Balloch等人[20]提出了WorldCloner,這是一個能夠適應環境新穎變化的神經符號框架,通過整合神經網絡和符號邏輯實現。WorldCloner可以利用其符號世界模型在環境轉換前學習高效的符號表示,快速檢測新穎性,并在單次試驗中適應環境變化。具體而言,該方法首先利用神經網絡從環境狀態的視覺輸入中提取特征,例如代理的位置、周圍物體的類型、顏色等。這些信息被編碼為高維特征向量,用于更新符號世界模型。當環境狀態轉換與現有規則不一致時,這些信息將調整或添加新規則以反映環境變化。同時,符號世界模型通過模擬環境轉換為神經網絡提供“想象”的訓練數據,從而無需直接與環境交互即可更新和優化策略。WorldCloner中的符號邏輯以符號世界或規則模型的形式體現,模型由“如果……那么……”等邏輯表達式組成,詳細描述了環境中的狀態轉換。與傳統無模型強化學習和最先進的世界模型方法(如Dreamer V2)相比,WorldCloner在處理環境新穎性方面表現出顯著優勢。在處理不同類型的新穎性(如DoorKeyChange、LavaProof和LavaHurts)時,WorldCloner展現出更好的或至少相當的適應效率。特別是在LavaProof場景中,Dreamer V2無法適應環境的新穎性,而WorldCloner能夠有效發現并利用新的環境變化來調整策略。
3.3.3 符號:數學與數值運算
這一分類包含一項研究。Landajuela等人[109]提出了一種新方法,即DSP(Deep Symbolic Policy),通過直接搜索符號策略空間來解決深度強化學習中的控制問題。DSP框架使用自回歸RNN(循環神經網絡)從強化學習環境中提取環境觀測或狀態數據的特征。這些特征包含控制任務當前狀態的關鍵信息,例如物體的位置和速度。該過程從一個空表達式開始,逐步構建為一系列數學運算符和狀態變量的序列。因此,DSP對環境狀態的理解被轉化為符號控制策略。代表策略的數學表達式可以根據環境的當前觀測計算出一個或多個動作,這也意味著RNN可以學習如何將環境狀態映射為數學表達式,并將其用作控制環境的策略。這些數學表達式直接影響環境中動作的選擇。
因此,DSP使用風險偏好策略梯度根據這些動作在環境中獲得的獎勵來優化RNN的參數,從而改進生成的符號策略并最大化生成策略的性能。此外,DSP提出了一種“錨定”算法,可以處理多維動作空間。它使用基于預訓練神經網絡的策略作為臨時策略,并通過逐步用純符號策略替換它們,實現從神經網絡策略到符號策略的轉換。DSP在八個環境中進行了測試,包括單動作空間和多動作空間,以及執行連續控制任務的基準環境。結果顯示,DSP發現的符號策略在平均排名和平均歸一化繪圖獎勵方面超越了多個最先進的方法,這表明這種策略生成方法可以產生既高效又易于理解的控制策略。
3.4 數值類型與數學表達式
這一類別包含27項研究成果,所有研究都利用神經網絡從數值數據、序列數據、圖像數據和傳感器數據中提取特征,然后使用數學表達式、數學方程、邏輯規則、約束、概率模型等符號邏輯來提升性能或可解釋性。這些研究可以根據邏輯符號方法分為三個子類別:邏輯規則與編程、符號表示與結構以及數學與數值運算。
3.4.1 符號:邏輯規則與編程
這一分類包含十項研究,其中神經網絡從數值數據中提取特征。同時,符號邏輯以規則和約束、命題邏輯、本體論和推理機制以及知識模型的形式存在。屬于神經符號生成分類的研究包括[123];屬于符號-神經增強分類的研究包括[122, 185];屬于神經符號協作的研究包括[4, 9, 50, 84, 118, 155, 172]。
在這些研究中,Long等人[118]提出了一種可以從觀測到的動態數據中發現偏微分方程(PDE),并在嘈雜環境中預測這些數據的長期動態行為的方法。該方法首先從物理系統的觀測數據中提取特征,例如通過卷積運算近似微分算子的時間變化的流體速度場或溫度分布。卷積核可以通過梯度、散度和拉普拉斯算子來近似,使神經網絡能夠從觀測數據中學習這些微分運算的最佳近似,并捕捉其空間變化特征。此外,偏微分方程還通過時間上的前向歐拉方法和空間上的有限差分方法進行離散化。這一過程可以從連續的物理過程中提取神經網絡能夠處理的數值信息,被視為一種特征提取過程。接下來,這些近似被輸入到SymNet(符號神經網絡)作為特征并轉化為符號邏輯。SymNet學習并近似PDE的非線性響應函數,揭示PDE模型的結構和形式,相當于從數據中學習到的內容。數值特征被轉化為物理過程的符號數學描述。PDE-Net 2.0中的符號邏輯主要以SymNet的形式存在。SymNet描述了系統動態行為的非線性關系,包括非線性響應函數的近似以及邏輯規則和約束的應用。前者通過SymNet學習PDE中的非線性關系,后者通過在卷積核和SymNet參數上施加適當的約束,將物理規則和數學約束整合到網絡學習過程中。該方法通過Burgers擴散方程和反應-對流-擴散方程進行了測試。結果顯示,PDE-Net 2.0能夠準確還原Burgers方程的形式,包括對流項和擴散項的準確系數,并還原熱方程,包括擴散。從數據中恢復了反應-對流-擴散方程的精確形式,包括反應項、對流項和擴散項的系數以及主要結構。結果表明,PDE-Net 2.0不僅可以學習具有固定系數的PDE,還可以處理參數隨時間和空間的變化。該方法可以預測系統行為并揭示其背后的物理和數學機制。
Segler等人[155]提出了一種新方法,使用計算機輔助合成規劃(CASP)幫助化學家更快地找到更好的合成路徑,即3N-MCTS。作者使用深度神經網絡學習化學反應數據庫中的反應模式和轉化規則。然后,這些規則通過三個不同的神經網絡來提出可能的化學轉化、預測反應的可行性,并在模擬階段對樣本轉化進行預測。具體而言,神經網絡基于反應物和產物的分子結構,使用擴展連通性指紋(如ECFP4)來表示分子,從化學反應數據中提取特征,包括化學反應的結構信息和化學轉化規則。從化學反應數據中自動提取的符號化化學轉化規則隨后被用于預測特定化學轉化是否可能成功。該過程使用擴展策略網絡在搜索樹擴展階段指導搜索方向并提出可能的化學轉化,使用可行性預測網絡預測擴展策略網絡在自然化學環境中提出的反應的可行性,以及使用滾動策略網絡預測擴展策略網絡在模擬中提出的反應的可行性。在此階段通過采樣轉化估計合成位置的價值。3N-MCTS可以比傳統計算機輔助合成規劃方法更快地找到合成路徑。在雙盲AB測試中,參與評估的化學家無法顯著區分3N-MCTS生成的合成路徑與文獻中報告的合成路徑的質量差異,這意味著神經符號人工智能方法生成的路徑在質量上與人類專家相當。
3.4.2 符號:符號表示與結構
這一組合包括兩項研究[29, 81]。前者關注神經符號生成,后者研究符號-神經增強。在這些研究中,神經網絡從編程語言的代碼或數值輸入輸出對中提取特征,并使用符號邏輯方法(如抽象語法樹或符號方程生成)來表示高級語義表示。[81]提出了一種在COBOL代碼中尋找語義相似代碼片段的新方法。該方法定義了一個元模型,并將其實例化為C和COBOL代碼之間通用的抽象語法樹,作為一種可以捕捉代碼結構和邏輯并作為代碼符號邏輯形式的中間表示。使用神經網絡從C和COBOL兩種編程語言代碼中提取這種中間表示。然后,通過遍歷方法將中間表示轉換為一維序列化形式。最后,基于UnixCoder等神經網絡模型對這些線性化的中間表示進行訓練和微調,以學習代碼片段之間的語義相似性。符號邏輯在該方法中以兩種主要形式存在:中間表示和線性化中間表示。前者作為代碼的高級抽象,體現了程序的邏輯結構,忽略了具體的語法細節;后者使神經網絡能夠學習代碼的結構和語義。實驗通過比較隨機模型、針對特定任務微調的UniXCoder模型、預訓練的UniXCoder模型以及使用原始C代碼微調的UniXCoder模型,在COBOL測試集上驗證了代碼克隆檢測任務的有效性。使用C代碼的基于結構的遍歷(SBT)中間表示(IR)微調的UniXCoder模型在MAP@2指標上實現了36.36%的提升。同時,與使用原始C代碼微調相比,使用C代碼的SBT IR微調的UniXCoder模型能夠更好地遷移到COBOL代碼,實現了跨語言代碼理解的零樣本學習。
3.4.3 符號:數學與數值運算
這一組合包含15項研究,其中神經網絡從實驗數據、模擬數據、時間序列信號、圖像或特定問題領域的數值輸入(如結構工程、物理科學、化學等)中提取特征,然后應用數學表達式、方程或以概率模型形式的符號邏輯方法。數學推導可以將神經網絡學到的特征轉化為易于理解和解釋的形式,從而提升模型對數據的理解和預測能力。在這些研究中,屬于神經符號生成分類的研究包括[19, 25, 53, 106, 108, 142];屬于符號-神經增強分類的研究包括[92, 131, 151];屬于神經符號協作的研究包括[14, 29, 61, 134, 144, 176]。
Podina等人[144]提出了一種神經符號方法,用于在數據稀疏的情況下重建整個常微分方程或偏微分方程的解。該方法利用神經網絡從常微分方程或偏微分方程的現有數值數據中提取特征。通常,這些數值數據描述了系統狀態隨時間和空間的變化,因此在面對未知的物理規律或方程時,神經網絡可以從這些數據中學習系統的動態特征。隨后,該方法通過符號回歸技術(如AI Feynman)將神經網絡學到的數值表示轉化為符號方程。本研究中的符號邏輯主要以兩種形式存在:微分方程的已知部分和未知部分,其中前者是對系統動態的先驗理解的數學表示,并以已知微分算子的形式給出;后者由另一個神經網絡學習和表示,并通過符號回歸技術轉化為符號表達式。這一部分代表了微分方程中數據學習需要發現的未知算子。實驗結果表明,該方法在多個測試案例中表現出色。首先,在Lotka-Volterra場景中,系統可以通過增加計算點的數量,在無噪聲和有噪聲數據條件下均獲得良好的模型恢復;在凋亡模型場景中,即使僅使用兩個時間點(初始條件t=0和后續時間t=0.5)的有噪聲數據,且均方誤差(MSE)為5×10?3,學習到的函數也能與實際解之間準確發現隱藏項,并以均方誤差為3×10??和2×10?2的精度重建偏微分方程的解。上述實驗結果證明了該方法在發現和理解復雜系統中隱藏動態行為方面的有效性。
Jia和Sasani[92]提出了一種基于符號的循環神經網絡(SRNN),能夠在不需要大量訓練數據的情況下對混凝土結構在地震激勵下的非線性響應進行建模和預測。SRNN利用神經網絡從結構動態響應的時間歷程分析中提取模態特征,如位移、速度和加速度,并學習結構行為的非線性動態模型的知識。隨后,符號激活函數將這一非線性動態模型轉化為一組常微分方程,這些方程可以通過數值積分方法求解,便于工程師理解和使用。本研究中的符號邏輯以符號激活函數的形式存在,能夠發現以正弦、余弦、平方和乘法等形式描述輸入和輸出之間關系的數學表達式。此外,SRNN還利用隱藏狀態存儲非線性序列信息,為神經網絡提供時間序列數據的非線性特征。實驗結果表明,SRNN在估計結構非線性響應方面取得了有希望的結果。在單自由度系統的應用案例中,SRNN成功地學習了結構響應的非線性行為,并能夠準確預測未見地面運動下的反應;對于多自由度系統,盡管存在一些挑戰,SRNN仍能更好地捕捉結構的非線性動態行為,但后者的預測精度略有下降,相關系數(/)在0.83到0.88之間,略低于單自由度系統的性能。
3.5 結構化數據
這一類別包含27項研究,所有研究都利用神經網絡從圖結構、結構化符號和標記參數數據中提取特征。隨后,它們使用符號邏輯(如知識圖譜、邏輯規則、參數圖和標記規則)來表示數據之間的結構和邏輯關系。這些研究應用了三種邏輯符號方法:邏輯規則與編程、符號表示與結構以及知識圖譜與數據庫。
3.5.1 符號:邏輯規則與編程
這一組合包含15項研究,其中神經網絡從結構化符號、圖結構和時間序列數據中提取特征。另一方面,符號邏輯利用直接定義的邏輯規則、基于規則的推理或增強的知識圖譜。在這些研究中,屬于神經符號生成分類的研究包括[66, 163, 178];屬于符號-神經增強分類的研究包括[8, 32, 59, 129, 147, 153, 202];屬于神經符號協作的研究包括[75, 135, 156, 157, 169]。
在這些研究中,Sun等人[169]提出了一種NSPS(神經符號程序搜索)方法,通過自動搜索和合成神經符號程序,提高了自動駕駛系統設計的自動化水平。該方法利用神經網絡從結構化、參數化的觀測中提取特征,這些觀測作為特定領域語言中的“屬性”,代表與車輛狀態和環境相關的數值數據流,例如航點、速度、加速度和邊界框。NSPS自動搜索給定的神經符號操作集,并選擇必要的神經符號來組裝成程序。程序分為兩部分:數字流和邏輯流。前者處理諸如車輛速度和加速度等感官輸入,后者則基于這些輸入執行理性判斷,例如車輛是否處于接近交叉口的減速階段。同時,NSPS可以根據當前階段查詢目標速度和航點索引,以實現相應的車輛操作。
在本研究中,符號邏輯以特定領域語言中邏輯運算和數值運算的形式存在,這些語言專為神經符號決策過程設計。其中,Intersect()和Union()等函數基于數字流執行數值計算,而DecelerationPhase()、FollowUpPhase()和CatchUpPhase()等符號函數則執行邏輯判斷。實驗結果表明,通過NSPS方法獲得的NSDP(神經符號決策程序)在自動駕駛系統設計中實現了顯著的性能提升。NSDP能夠處理多種駕駛場景,包括跟車、交叉口匯合、環島匯合以及在未見交叉口的左轉,并且能夠在各種駕駛場景中實現低碰撞率、低加速度和低顛簸率。相比之下,純神經網絡方法產生了更平穩的駕駛行為。
Singh等人[163]提出了一種神經符號方法,即NeuSTIP(NeuroSymbolic Link and Time Interval Prediction),基于時間知識圖譜同時執行鏈接預測和時間間隔預測。該方法創新性地將Allen時間謂詞引入規則學習中,這些謂詞可以確保給定規則中相鄰謂詞的時間一致性,并通過設計評分函數,利用所學規則在執行鏈接預測和時間間隔預測時評估候選答案的置信度。NeuSTIP首先利用神經網絡從時間知識圖譜的四元組(實體1、關系、實體2、時間間隔)中提取實體之間的關系以及這些關系隨時間變化的動態信息。隨后,NeuSTIP通過神經網絡基于這些特征學習基于Allen時間謂詞的時間邏輯規則。這些規則隨后被用于推理和預測鏈接預測及時間間隔預測任務。例如,NeuSTIP可以學習如下規則:“如果事件A在時間間隔T1發生,事件B在時間間隔T2發生,且T1和T2滿足特定的Allen時間關系,則可以預測事件C在時間間隔T3發生?!?實驗結果表明,NeuSTIP模型在時間知識圖譜補全任務中實現了顯著的性能提升。在WIKIDATA12k數據集上,NeuSTIP模型的平均倒數排名(Mean Reciprocal Rank)、Hits@1和Hits@10指標均達到了較高水平;在YAGO11k數據集上,NeuSTIP模型在所有指標上均超過了TimePlex模型和其他基準模型。此外,在WIKIDATA12k和YAGO11k數據集上,NeuSTIP模型在aeIOU指標上超過了基線HyTE、TNT-Complex和Timeplex模型,表明通過學習和應用包含時間邏輯的規則可以有效提升時間知識圖譜補全任務的性能。
3.5.2 符號:符號表示與結構
這一組合包括[47]和[148],前者屬于神經符號生成,后者屬于符號-神經增強。這兩個研究中的神經網絡從物理系統的動態數據和標記參數數據中抽象特征,并使用以參數圖和標簽形式的明確數學表達式來指導模型學習過程,增強模型的可解釋性。
Riveret等人[148]提出了一種新的方法,將受限玻爾茲曼機(Restricted Boltzmann Machines, RBMs)與概率半抽象論證相結合,通過解釋數據背后的論證標簽來學習論證標簽之間的概率依賴關系。該方法利用訓練好的受限玻爾茲曼機從論證標簽數據中提取論證標簽之間的關系和模式。隨后,通過符號回歸將神經網絡學到的概率依賴關系轉化為論證圖的標簽。這種轉換不僅使網絡的輸出包含對論證狀態的預測,還為這些預測提供了解釋。該研究中的符號邏輯以論證圖中的標記形式存在,代表論證之間的攻擊和支援等交互關系,以及論證的狀態(如接受、拒絕或待定)。實驗結果表明,與其他標準機器學習技術相比,NSAM(神經符號論證機器)在處理概率分類任務時具有優勢。在引入交換噪聲的實驗中,所有不同模型的性能隨著噪聲水平的增加而下降,但NSAM能夠通過其內置的論證規則減輕噪聲的負面影響。即使在高噪聲水平下,NSAM的準確率仍至少比其他模型高出25%。此外,NSAM不僅可以提供預測結果,還可以通過標記論證圖來解釋預測。
3.5.3 符號:知識圖譜與數據庫
這一組合包含十項研究,其中神經網絡從知識圖譜、圖結構數據或其他符號邏輯數據的形式中提取特征,而符號邏輯則利用知識圖譜、邏輯表達式、查詢結構或規則來整合領域知識、推理規則或關系。在這些研究中,屬于神經符號生成分類的研究包括[62, 112];屬于符號-神經增強分類的研究包括[22, 33, 36, 45, 58, 146];屬于神經符號協作的研究包括[133, 187]。
Chen等人[36]提出了一種新的框架,MTransE(一種用于多語言知識圖譜嵌入的翻譯模型),通過嵌入多語言知識圖譜實現跨語言知識對齊。首先,MTransE從知識圖譜的實體和關系中學習其嵌入向量表示,將其壓縮到低維空間中,以便于計算和對齊。目標函數使得知識圖譜中的實體和關系在嵌入空間中盡可能保持它們之間的語義關系。隨后,MTransE利用軸校準(Axis Calibration)、翻譯向量(Translation Vectors)和線性變換(Linear Transformations)來調整和轉換這些嵌入表示,通過最小化跨語言實體對應關系的損失函數,實現不同語言知識圖譜之間的對齊。其中,軸校準通過最小化不同語言中對應實體或關系向量之間的距離,使具有相似含義的實體和關系在各種語言的嵌入空間中更加接近。翻譯向量可以將一種語言中的實體或關系嵌入向量“翻譯”成另一種語言中的對應嵌入向量,而線性變換通過學習一個線性變換矩陣,將一種語言的嵌入空間映射到另一種語言的嵌入空間,從而實現跨語言知識對齊。
實驗結果表明,MTransE的一些變體(如線性變換變體Var4和Var5)在跨語言實體匹配任務中顯著優于其他變體和基線方法。線性變換技術還驗證了給定的跨語言三元組的有效性,并通過驗證實體和關系之間的語義一致性,確認了組對是否正確對齊。此外,MTransE模型只需部分跨語言三元組對齊即可進行訓練,能夠在對齊跨語言知識的同時保留單語言嵌入的關鍵屬性,這意味著它不僅能處理跨語言任務,還能有效處理單語言內的知識圖譜補全任務。
4 多模態非異構神經符號人工智能
這一類別包含13項研究成果,所有研究都利用神經網絡從多模態數據中提取特征,然后使用知識圖譜、邏輯程序和符號規則等符號邏輯來提升系統的推理和決策性能。這些研究應用了三種邏輯符號方法:邏輯規則與編程、知識圖譜與數據庫以及數學與數值運算。
4.1 符號:邏輯規則與編程
這一類別包含八項研究,其中神經網絡從多種模態數據(如圖像和文本)中提取特征,然后應用符號邏輯方法來提升模型的理解深度和推理性能。在這些研究中,屬于神經符號生成分類的研究包括[78, 199];屬于符號-神經增強分類的研究包括[192];屬于神經符號協作的研究包括[39, 94, 138, 171, 200]。
在這些研究中,Chen等人[39]提出了一種神經符號視覺推理模型,GENOME(GenerativE NeurosymbOlic visual reasoning by growing and reusing ModulEs),該模型利用大型語言模型(LLMs)的編程能力實現語言描述的模塊化翻譯。GENOME首先使用大規模語言模型從圖像中提取視覺特征,如物體和場景以及這些物體和場景之間的關系。LLMs還從自然語言文本中提取與視覺任務相關的指令或問題,例如問題分析和關鍵詞提取。隨后,通過各種模塊和功能對這兩種特征進行邏輯運算,例如使用物體定位模塊“LOC”在圖像中定位特定物體的位置,使用計數模塊“COUNT”統計符合特定條件的物體數量,以及使用條件判斷模塊“EVAL”根據特定屬性進行邏輯判斷等。值得注意的是,LLMs生成這些邏輯模塊,并根據實際視覺語言任務的需求決定是否創建新模塊。在模塊執行階段,通過運行解析后的符號邏輯操作序列,結合新生成的符號模塊和現有模塊庫中的模塊,對輸入的視覺和語言數據進行推理,最終生成任務的整體輸出。
實驗表明,GENOME模型在標準的視覺問答(Visual Question Answering)和指代表達理解(Referring Expression Comprehension)任務中表現出色。相比之下,從一個任務中學習到的模塊可以無縫遷移到新任務中,GENOME也可以通過少量觀測樣本進行訓練以適應新的視覺推理任務。上述結果表明,GENOME通過生成和重用模塊在標準視覺推理任務中與現有模型競爭,并具有出色的任務適應性和遷移學習能力。
Tarau[171]提出了一種輕量級邏輯編程語言——Natlog,這是一種類似于Prolog的簡單實用語言,基于與Prolog類似的統一執行模型。該語言的語法和語義更加簡化,能夠緊密集成到基于Python的深度學習生態系統中。特別是,Natlog通過重寫符號索引算法,將相同功能委托給神經網絡,實現基于基元數據集的內容驅動索引。具體而言,Natlog利用神經網絡處理基元數據庫的內容驅動索引,從這些多模態結構化數據中學習模式和關聯,并基于訓練中學到的模式對輸入查詢進行內容驅動索引。這一步相當于利用神經網絡提供一種高效的檢索機制,協助符號邏輯引擎高效地訪問和處理大規模數據集。隨后,由神經網絡索引的相關事實被發送到Natlog的邏輯推理引擎,其正確性通過合一和邏輯演繹步驟進行驗證,并基于邏輯規則進一步推導出查詢的答案。
實驗部分展示了如何使用邏輯查詢識別具有特定屬性的化學元素,如何使用神經網絡作為內容驅動索引器預測與給定查詢相關的數據庫條目,并將這些預測用于邏輯推理過程。上述實驗表明,Natlog能夠通過整合神經網絡,從大規模術語數據庫中有效地檢索和推理出與查詢相關的信息。
4.2 符號:知識圖譜與數據庫
這一組合共包含三項研究。[110, 127, 165]均屬于神經符號協作分類。它們應用知識圖譜、本體論、邏輯規則等符號邏輯或結構化知識來增強模型的推理和解釋能力,并為模型提供對世界的明確理解和先驗知識。
Lazzari等人[110]提出了一種神經符號推理器,Sandra,該方法結合了向量空間表示和演繹推理,通過將數據映射到預定義的符號描述中,在不顯著增加計算復雜度的情況下增強了模型性能。首先,Sandra定義了一組描述和情境作為符號邏輯形式。描述是對一種情境或現象的抽象和概括,包含多個角色,這些角色定義了描述中各元素之間的關系。同時,情境是描述的一個具體實例,由其在描述所定義的子空間中的對應位置表示。情境中的每個實體或屬性都映射到描述的角色對應的向量。如果子空間中的基向量可以線性表示描述子空間中的情境向量,那么我們說該情境滿足描述。
這種方法可以處理多種模態的輸入數據,如文本、圖像和結構化數據,然后通過神經網絡將輸入數據映射到由“Sandra”定義的向量空間V中的向量,其中每個描述都在本體論中定義了對應的向量子空間Vd。通過比較輸入數據的向量表示與每個描述的向量子空間,系統可以推斷哪些描述與當前輸入上下文一致,并最終基于這種明確的推理過程生成相關的輸出,如分類標簽、推理解釋等。
實驗表明,Sandra在不同配置下的性能顯著提升。例如,在“2x2”配置中,與基線模型26.85%的準確率相比,Sandra模型的準確率為45.75%。在Fashion-MNIST(R-FMNIST)數據集的配置C中,結合CNN后,準確率從43.13%提高到52.49%。此外,Lazzari等人強調,Sandra模型在理論上與DnS模型一致,能夠有效地提供對預定義向量空間的可解釋性和控制能力。這一結果反映了其在向量和符號知識表示之間架起橋梁的能力,提升了模型的性能,并增強了其在多樣化數據處理中的適應性和可解釋性。
### 4.3 符號:數學與數值運算
這一分類包含一項研究。Wang等人[184]通過MAXSAT求解器和快速坐標下降法解決了與MAXSAT(最大可滿足性)問題相關的半定規劃問題。這種方法也被稱為SATNet。SATNet首先從數值數據、邏輯數據或圖像數據中提取特征。對于邏輯數據,使用邏輯編碼來表示問題的約束;而對于圖像數據,則使用卷積神經網絡從數獨圖像中提取數字識別特征。這些特征隨后被轉換為適合邏輯推理的格式——可微分的MAXSAT求解器。直接的邏輯數據可以用作MAXSAT問題的輸入,而圖像數據則必須先經過卷積神經網絡處理以識別圖像中的數字,識別結果被轉換為邏輯格式作為MAXSAT問題的輸入。MAXSAT求解器隨后通過優化過程找到滿足所有約束的解,并將解轉換回原始問題的表示形式。
目前,研究人員已成功使用SATNet學習邏輯結構,并在多個任務中顯著提升了性能。在奇偶性學習場景中,SATNet能夠快速幫助模型在20個周期內學習目標函數,并使測試集上的錯誤率收斂到零;在數獨場景中,SATNet學會了如何解決標準的9×9數獨謎題,發現了并恢復了謎題規則,并在測試集上分別實現了98.3%的準確率。對于視覺數獨任務,SATNet能夠從圖像輸入中有效學習數獨游戲規則,并在測試集上實現了63.2%的謎題解決準確率,接近理論上的“最佳”測試準確率74.7%。在本研究中,MAXSAT求解器作為一層嵌入到學習過程中,將符號邏輯的處理能力整合到神經網絡架構中,因此屬于符號-神經增強分類。
5 單模態異構神經符號人工智能
Furlong和Eliasmith[70]提出了VSAs(向量符號架構),用于在大腦模型構建中模擬概率計算以及實現符號邏輯和認知功能。在VSAs框架中,神經網絡從原始數據中提取的特征被轉換為高維空間中的向量表示。隨后,VSAs在高維向量上進行操作以模擬符號邏輯。具體而言,它定義了綁定(Binding)、捆綁(Bundling)、相似性(Similarity)和解綁(Unbinding)操作,其中綁定操作通過向量的循環卷積或點積將兩個向量組合成一個新向量,該向量可以唯一地表示兩個原始向量的組合;捆綁操作是將多個向量疊加在一起形成一個新向量,大致保留原始向量的信息;相似性操作通過計算兩個向量之間的點積或余弦相似性來判斷兩個符號或概念是否相似或相關;解綁操作是綁定操作的逆操作,用于從綁定向量中提取原始向量?;谶@些操作,VSA在高維向量空間中支持類似于傳統符號邏輯的操作,例如通過綁定和捆綁操作在向量空間中構建樹結構或圖結構,以表示復雜的數據結構和關系;或者通過相似性計算和解綁操作對代表不同概念和規則的向量進行模式匹配或規則應用,以模擬邏輯推理過程。盡管VSA架構中的邏輯推理部分是透明的,但將原始數據映射到高維向量空間仍然可以被視為一種“黑箱”操作。然而,與傳統的符號邏輯方法相比,VSA架構提供了并行處理能力,這意味著許多符號邏輯操作可以在向量空間中同時進行。這一特性對于處理復雜的邏輯推理和大規模知識庫具有重要意義。
Katz等人[97]提出了一種NVM(神經虛擬機),用于執行符號化的機器人控制算法。該方法通過模擬圖靈完備的符號虛擬機的執行,利用神經網絡進行符號操作。首先,它通過神經網絡從符號邏輯數據中提取特征,將符號邏輯操作轉換為神經網絡內的活動模式和連接權重,并使用一組神經元的特定激活模式來表示程序符號中的變量名、運算符等。這些激活模式是預先定義的,以便神經網絡能夠準確地表示和區分各種程序符號。隨后,利用神經網絡的特定層和活動模式來描述圖靈完備虛擬機中寄存器、內存、指令指針等的狀態,并通過更新相應的神經活動來表示狀態變化。通過這種方式,可以通過預定義的神經網絡模式和動態權重調整來執行算術運算、邏輯判斷、條件分支和循環等符號操作。編譯后的程序隨后可以作為一系列指令序列發送到NVM進行處理。此外,通過專門設計的神經網絡層,符號決策可以被轉換為可執行的控制信號,例如電機指令或動作序列。NVM的一個關鍵優勢是能夠使用幾乎任何程序邏輯來編程和執行復雜任務,這對于機器人的開發和操作至關重要。
6 多模態異構神經符號人工智能
Katz等人[97]提出了一種邏輯神經網絡(LNN)框架,將神經網絡和邏輯符號處理功能相結合。LNN的創新之處在于,神經網絡和符號邏輯在相同的表示空間中操作相同類型的數據,避免了使用額外的中間層來轉換數據類型。具體而言,LNN支持利用神經網絡從多種模態的原始數據中提取特征,例如數值、文本、圖像和聲音數據。更重要的是,LNN將命題、謂詞中的邏輯符號對應到一個或一組神經元上,這意味著每個神經元或神經元組的激活狀態代表邏輯命題的真值狀態,例如激活狀態表示命題為真,非激活狀態表示命題為假。同時,邏輯運算(如與、或、非)也可以通過特定的激活函數和網絡結構設計來實現。例如,通過多個輸入的加權和與閾值激活函數可以構建“與”運算,只有當所有輸入都被激活時,輸出神經元才會被激活,這意味著“與”運算的結果有效。當任一輸入有效時,“或”運算會激活輸出神經元,表明該運算結果有效?!胺恰边\算則在輸入非激活時激活輸出神經元。通過這種方式,LNN可以構建更復雜的邏輯表達式,并支持命題邏輯、謂詞邏輯、模糊邏輯、描述邏輯和時態邏輯等多種邏輯符號形式。
LNN采用端到端的訓練方法,無需手動設置規則或邏輯推理步驟,基于學習到的參數執行邏輯運算。每次網絡的前向傳播相當于執行一次參數化的邏輯運算。例如,在訓練一個執行“與”運算的LNN時,可以使用兩個命題的真值狀態作為輸入,將“與”運算的結果作為輸出。訓練數據集包含所有可能的真值輸入組合及其對應的“與”運算結果。網絡通過訓練學習參數,以便在接收到命題狀態時準確執行其“與”運算。
在傳統的深度學習模型中,模型內部的隱藏層往往難以解釋,被視為“黑箱”。很難準確解釋每個參數(如神經元的權重和偏置)的具體含義和作用,以及它們如何協同工作以實現整個網絡的邏輯運算。盡管LNN試圖將邏輯門和邏輯規則直接映射到網絡結構中,但其學習過程仍然是一個“黑箱”。盡管該方法可以執行特定的邏輯運算,但LNN內部如何表示和處理這些邏輯運算的詳細機制需要更加直觀。
盡管如此,LNN仍然是在相同表示空間中使用相同表示方法執行神經網絡和邏輯符號操作的有意義的嘗試。首先,它摒棄了傳統的表示轉換層,嘗試采用融合方法處理這些不同類型的數據并執行邏輯運算,從而更自然地實現神經網絡和符號邏輯的知識對齊,同時避免了復雜的轉換和信息丟失。此外,由于LNN直接將邏輯運算映射到神經網絡中,每個神經元或神經元組的激活狀態可以直接對應邏輯命題的真值狀態,因此LNN執行邏輯運算的決策過程更容易解釋。更重要的是,這種集成處理方法可能會為大型語言模型的設計帶來新的啟發,幫助LLM穩定內部概念表示,并提供更準確、更可解釋的邏輯鏈推理能力。
此外,[103, 105]提出的高維計算(HDC)或向量符號架構(VSA)方法為實現神經符號人工智能提供了一種與傳統神經網絡和符號邏輯推理不同的過程。第六章提到,在這種方法中,數據和概念被表示為高度高維向量,能夠捕捉復雜的模式和關系,作為符號和非符號信息的統一表示。因此,傳統的符號邏輯運算可以通過對高維向量執行算術和邏輯運算來模擬。同時,借助高維空間中向量的正交性,HDC可以通過簡單的近似匹配檢索存儲的信息,并支持快速檢索和聯想記憶。此外,HDC方法可以從數據中提取和泛化模式,并通過學習高維向量空間支持復雜的決策和推理任務,從而為符號邏輯和神經網絡處理提供了一種自然且有效的方式。由于上述兩篇綜述已詳細介紹了HDC或VSA方法,本文將不再贅述。
7 動態自適應神經符號人工智能
與多模態異構神經符號人工智能相比,這一分類能夠動態調整并適應涉及多模態數據處理、符號邏輯處理以及內部表示調整的計算任務。目前,尚無研究滿足動態自適應神經符號人工智能的要求。具體而言,這一分類具有以下特征。
7.1 自動選擇和整合適當的模態數據處理策略
首先,此類系統能夠在通過神經網絡進行特征提取時,根據具體任務的需求和上下文自動選擇并整合最合適的模態數據處理策略。例如,在面對視覺和文本的雙模態任務時,系統可能會優先使用視覺特征進行初步提取。當視覺信息不足以支持符號邏輯決策時,它可能會結合文本模態提供的上下文信息進行深入推理。這種策略的選擇和整合并非靜態預設,而是通過系統的動態學習和調整過程生成的。這一能力也使得動態自適應神經符號人工智能系統在處理多模態數據時更加高效、準確且節能。
7.2 動態調整符號邏輯的處理方式
其次,動態自適應神經符號人工智能系統能夠根據任務需求自動選擇符號邏輯的處理形式。這一特性意味著系統可以處理各種邏輯推理任務,并根據不同任務的特點動態選擇最合適的符號邏輯處理方法。例如,在處理需要復雜邏輯推理的任務時,系統可能會采用更復雜和精細的邏輯規則;而在處理簡單或直觀的任務時,它可能會采用更直接的邏輯處理策略。這種動態調整能力提高了系統在處理邏輯推理任務時的靈活性,并優化了推理效率和能耗。
7.3 基于反饋和任務表現的自我調整內部表示
最后,基于反饋和任務表現的自我調整內部表示的能力意味著系統能夠根據實際任務執行結果和性能評估自動調整和優化內部數據表示和處理邏輯。這種自我調整不僅包括模型參數的微調,還包括對模型結構和處理策略的根本性調整。例如,在任務處理過程中,系統可能會發現某種模態數據的處理方法不夠有效,因此它可以在處理特定任務時通過調整處理策略或切換到更復雜的邏輯推理模塊來自動增強其邏輯處理模塊。這種基于任務表現的自我調整能力使得神經符號人工智能系統能夠持續適應各種任務需求和環境挑戰。
原文鏈接: https://arxiv.org/pdf/2411.04393
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.