知識圖譜(KG,Knowledge Graph)是一種關鍵的知識組織形式,其以圖結構將事實知識呈現為(頭實體、關系、尾實體)的三元組(triple)形式。
這種結構化的知識表達方式在眾多領域發揮著基礎性的支撐作用,并廣泛應用于推薦系統、問答系統和情感分析等下游應用中。
然而,盡管主流知識圖譜如 Freebase 和 Wordnet 包含了豐富的知識,但仍然存在嚴重的不完整問題。這意味著在這些知識圖譜中,實體之間缺少大量的關系連接,導致知識圖譜無法全面、準確地反映真實世界的知識。
例如,在描述人物關系時,可能存在某些人物之間的關聯關系未被記錄;在描述事件時,可能缺少關鍵的參與實體或事件發生的背景信息等。這種不完整性嚴重限制了知識圖譜在上述下游應用中的性能和效果,凸顯了知識圖譜補全(KGC,Knowledge Graph Completion)任務的重要性。
已有的解決方案大多通過預設的幾何空間假設學習實體和關系的低維嵌入,并通過定義好的打分函數進行補全。這類方案僅依賴知識圖譜中的三元組,忽略了支持這些三元組的上下文語義,容易得出與事實不符的結論,且在處理長尾實體時表現不佳。
近年來基于文本的方法,利用預訓練語言模型將實體和關系與其標簽和描述進行編碼。由于結構化的三元組與自然語言句子之間存在較大語義差距,其性能仍無法超越最新的基于嵌入的方法。
最近兩年的研究表明,大語言模型較強的語義理解能力和上下文學習能力可以被利用于解決較為復雜的推理問題。
香港中文大學博士生李木之和香港科技大學(廣州)博士生楊策皓認為,通過提供相關的知識和恰當監督,可以激發大語言模型的推理能力,更好地解決知識圖譜補全問題。
圖 | 香港中文大學博士生李木之(來源:李木之)
圖 | 香港科技大學(廣州)博士生楊策皓(來源:楊策皓)
基于此,他們研發出一種名為 KGR3 的 KGC 框架,具體包括如下三個模塊。
檢索模塊:負責收集與待補全三元組相關的語義和結構化知識。這包括:
1)三元組檢索:從知識圖譜中獲取與查詢三元組具有相同關系和相似實體的一些三元組);
2)文本上下文檢索,從知識庫中提取查詢三元組及支持三元組中實體的相關上下文,如標簽、描述、別名等);
3)候選答案檢索(利用先前的 KGC 模型對知識圖譜中的實體進行初步評分和排名,選取排名靠前的實體作為候選答案)。
推理模塊:利用大語言模型的上下文感知推理能力,為具體的不完整三元組生成一些可能的答案。為了引導大語言模型更好地完成任務,他們利用演示提取出的相似三元組幫助大語言模型理解任務,并提供了實體的描述來防止幻覺現象的產生。考慮到大語言模型輸出的噪聲問題,他們會對生成的答案做對齊,確保輸出的實體在知識圖譜中真實存在。
重排序模塊:整合并重排上述兩個模塊的候選答案,使滿足不完整三元組的最佳實體排在較前位置。在這個模塊中,他們通過對訓練集中的三元組頭尾實體進行負采樣來候選答案集,并引入監督微調機制,使大語言模型擁有能夠根據實體描述和已知實體的鄰接三元組從答案集中選擇最佳實體的能力。
實驗結果表明,在文本語義信息、圖譜結構化知識、以及監督微調的多重指導下,即使是參數量較小(1.5B 和 7B)的開源大模型,都有能力很好地解決知識圖譜的補全問題。
(來源:arXiv)
據介紹,KGR3 可被用于推薦系統、信息檢索等領域。例如,KGR3 通過補全知識圖譜中的用戶和物品關系,推薦系統可以發現用戶潛在的興趣點,提供更個性化、符合用戶需求的推薦內容。
在電商平臺上,能根據知識圖譜中的 KGR3 補全的相關實體關系(如品牌關聯、產品功能互補等)推薦搭配產品或相關服務,基于用戶購買歷史推薦相似產品,提升推薦的質量和效果。
在社交網絡平臺的好友推薦或內容推薦中,利用 KGR3 補全后的知識圖譜挖掘用戶之間更深層次的聯系,以及用戶可能感興趣的話題或群組,增強用戶在平臺上的互動和參與度。
據了解,李木之在粵港澳大灣區數字經濟研究院(IDEA,International Digital Economy Academy)訪問期間,在郭健教授和徐鋮晉博士的指導下,他與博士生楊策皓組成團隊,將語境知識圖譜作為研究課題。
團隊察覺到現有 KGC 方法的不足,尤其是嵌入法和文本法在處理語義理解和長尾實體時的局限,而大語言模型雖有潛力但應用受限。
因此,他們決定嘗試探索一種新的解決方案,把圖譜中可以獲取到的知識整合起來,看是否可以大語言模型學會做這樣的任務。經過初步嘗試,他們開發出了 KGR3 框架的雛形,包含檢索、推理和重排序三個模塊,并初步驗證了可行性。
在驗證方案可行之后,他們快速進行了實驗,并首次提交了論文。然而結果不盡人意,評審分數未達預期。審稿人指出,盡管框架的設計有一定創新性,但在性能表現上仍有明顯不足,使用了參數量更多,能力更大的大語言模型,卻未能顯著超過傳統方法,缺乏足夠的說服力。
這一挫折讓他們意識到,研究仍需深入,必須找到提升框架性能的有效途徑。
他們仔細查看了審稿意見,分析實驗數據,發現原本的重排序方案是整個框架的瓶頸。在前序方案中,他們嘗試讓大語言模型去生成候選實體的完整排序。然而,在知識圖譜中并沒有具體排序的監督數據。
于是,他們選擇利用已有 KGC 模型輸出的排序來微調大語言模型,這無益于解決已有方案的缺陷。在閱讀關于大語言模型的其他文獻后,他們認為輸出完整排序實質上增加了任務難度。
相較于在實體間“比大小”,大語言模型更擅長做“選擇題”,因此他們轉換到了現在的方案。同時,他們意識到需要在寫作方面強化研究目的。
在新一版論文中,他們更清晰地闡述 KGR3 框架如何有效利用實體上下文和大語言模型的能力,以及各模塊間的協同工作原理。
此外,他們補充了更多對比實驗,以全面展示 KGR3 在不同數據集、不同基準 KGC 模型、以及不同規模和種類的大語言模型下的優勢,增強研究的說服力。
再次提交論文之后,這一次論文得到了審稿人的一致性高度認可,評審分數大幅提升。審稿人對 KGR3 框架在性能上的顯著提升給予了充分肯定,尤其贊賞其在處理復雜知識圖譜補全任務時的有效性和創新性。
日前,相關論文以《檢索、推理、重新排序:知識圖譜補全的語境增強框架》(Retrieval, Reasoning, Re-ranking: A Context-Enriched Framework for Knowledge Graph Completion)在預印本網站arXiv發表[1],并已被自然語言處理頂會 NAACL 2025 主會收錄。
圖 | 相關論文(來源:arXiv)
未來,團隊計劃將 KGR3 范式延伸至其他知識圖譜推理任務,如歸納式知識圖譜補全和基于知識的問答。
在當前研究中,KGR3 框架已在傳統的知識圖譜補全任務中展現出顯著優勢,但對于未在訓練集中出現的實體(即歸納式設置下的情況),該框架尚無法有效處理。后續,團隊將著力解決這一問題,使 KGR3 能夠應對更復雜、更具挑戰性的實際場景。
例如,在實際應用中,新的實體和關系不斷涌現,能夠處理歸納式 KGC 任務將大大提升知識圖譜的完整性和實用性。
此外,研究人員還計劃將 KGR3 框架應用于知識圖譜問答,從問題理解、知識檢索、答案生成和優化等多個環節入手,充分發揮其在處理知識圖譜和文本信息方面的優勢,為用戶提供準確、有用的答案,進而將語境知識圖譜概念進一步延伸。
參考資料:
1.https://arxiv.org/pdf/2411.08165
排版:劉雅坤
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.