Event Analyticsacross Languagesand Communities
跨語(yǔ)言與社區(qū)的事件分析
https://library.oapen.org/bitstream/handle/20.500.12657/96074/9783031644511.pdf?sequence=1#page=243
概述
自然災(zāi)害、恐怖襲擊等突發(fā)事件,足球世界杯等計(jì)劃性事件,以及歐洲移民危機(jī)和軍事沖突等長(zhǎng)期演變的事件,都會(huì)影響全球不同語(yǔ)言背景的社區(qū)和社會(huì)。新聞網(wǎng)站和社交媒體對(duì)這些事件的報(bào)道,導(dǎo)致了來(lái)自異構(gòu)來(lái)源的大量多語(yǔ)言事件信息。處理這些信息需要方法、工具和數(shù)據(jù)集,以實(shí)現(xiàn)跨語(yǔ)言的事件信息互聯(lián)、驗(yàn)證、情境化和分析,并提供直觀的多語(yǔ)言信息交互方式。這些技術(shù)對(duì)于數(shù)字人文研究者、記憶機(jī)構(gòu)、出版商、媒體監(jiān)測(cè)公司和記者等利益相關(guān)者群體至關(guān)重要。本書(shū)展示了跨語(yǔ)言和跨社區(qū)的事件分析研究成果,推動(dòng)了這一領(lǐng)域的發(fā)展。
圖 1 概述了 CLEOPATRA 國(guó)際培訓(xùn)網(wǎng)絡(luò)(ITN),這是本書(shū)的核心組成部分。該項(xiàng)目提供了一個(gè)獨(dú)特的跨學(xué)科和跨部門(mén)的研究與培訓(xùn)計(jì)劃,探索如何分析和理解影響我們生活和社會(huì)的主要事件在線(xiàn)上如何呈現(xiàn)。這些事件以多種歐洲語(yǔ)言(包括英語(yǔ)和德語(yǔ),以及資源較少的克羅地亞語(yǔ)和斯洛文尼亞語(yǔ))的豐富資源表示。通過(guò)數(shù)據(jù)挖掘和自然語(yǔ)言處理(NLP)等領(lǐng)域的創(chuàng)新方法,以及創(chuàng)建新的以事件為中心的數(shù)據(jù)集(如包含 15 種語(yǔ)言中超過(guò) 100 萬(wàn)個(gè)事件的**開(kāi)放事件知識(shí)圖譜(OEKG)),實(shí)現(xiàn)了對(duì)這些事件的分析和探索。
CLEOPATRA ITN 項(xiàng)目于 2019 年 1 月啟動(dòng),持續(xù)至 2023 年 6 月,見(jiàn)證了 NLP 從基于 Transformer 的語(yǔ)言模型向大語(yǔ)言模型(LLMs)時(shí)代的過(guò)渡。LLMs 在人工智能(AI)的多個(gè)領(lǐng)域取得了重大突破,尤其是在文本生成和理解方面,打破了以往的語(yǔ)言障礙。本書(shū)展示的方法和資源需要在這一過(guò)渡背景下進(jìn)行審視。這些方法包括命名實(shí)體識(shí)別、對(duì)話(huà)式問(wèn)答和事件敘事化,這些任務(wù)現(xiàn)在和未來(lái)也可以通過(guò) LLMs 實(shí)現(xiàn)。
本書(shū)的目的有兩個(gè):首先,展示在 LLMs 引入之前的事件分析領(lǐng)域最先進(jìn)的 NLP 方法,為未來(lái)的發(fā)展提供基準(zhǔn);其次,強(qiáng)調(diào)即使在 LLMs 時(shí)代,所提出的方法和資源仍然具有重要價(jià)值,特別是在解決 LLMs 在可靠性方面的固有缺陷時(shí)。在涉及不同文化和感知的敏感領(lǐng)域,真實(shí)性是不可或缺的維度,可以通過(guò)精心設(shè)計(jì)的模型架構(gòu)和符號(hào)知識(shí)表示(如以事件為中心的知識(shí)圖譜)來(lái)實(shí)現(xiàn)。
CLEOPATRA ITN 的一個(gè)核心方面是創(chuàng)建支持事件分析的資源,最終形成了包含符號(hào)事件知識(shí)(如事實(shí)、多語(yǔ)言文本、新聞文章、圖像、示例問(wèn)題及其答案)的 OEKG。在進(jìn)行事件分析時(shí),這些可信資源的可用性至關(guān)重要,因?yàn)槭录母兄赡芨叨纫蕾?lài)于接收者的特征,包括政治觀點(diǎn)和文化影響。隨著越來(lái)越多的信息來(lái)源出現(xiàn)在網(wǎng)絡(luò)上(尤其是社交媒體),LLMs 基于未公開(kāi)資源生成文本的能力幾乎不受限制,通常缺乏進(jìn)一步調(diào)查的參考依據(jù)。因此,AI 生成的虛假信息預(yù)計(jì)將通過(guò)欺騙性敘述、篡改圖像和深度偽造視頻主導(dǎo)未來(lái)的虛假信息環(huán)境,使用戶(hù)和算法難以區(qū)分真相與虛構(gòu)。
通過(guò) CLEOPATRA ITN 的研究和資源,我們旨在為事件分析提供基礎(chǔ),支持開(kāi)發(fā)和評(píng)估未來(lái)技術(shù),以實(shí)現(xiàn)真實(shí)且有依據(jù)的事件分析。
本書(shū)結(jié)構(gòu)
本書(shū)分為三個(gè)部分,分別關(guān)注跨語(yǔ)言和跨社區(qū)事件分析的不同方面:
第一部分:以事件為中心的多語(yǔ)言和多模態(tài) NLP 技術(shù)
介紹處理多語(yǔ)言信息所需的 NLP 技術(shù)的最新發(fā)展。特別是,本部分包含五章,展示了支持資源較少語(yǔ)言的 NLP 方法,以及處理多模態(tài)信息以從異構(gòu)來(lái)源推進(jìn)事件分析的技術(shù)。
第二部分:以事件為中心的多語(yǔ)言知識(shí)技術(shù)
討論將多語(yǔ)言事件信息集成到知識(shí)圖譜中并提供用戶(hù)訪問(wèn)的技術(shù)。本部分的貢獻(xiàn)包括 OEKG,一個(gè)包含 15 種語(yǔ)言中超過(guò) 100 萬(wàn)個(gè)事件的多語(yǔ)言事件知識(shí)圖譜。此外,還介紹了 QuoteKG(引述知識(shí)圖譜)以及事件推薦和對(duì)話(huà)式問(wèn)答的方法。
第三部分:事件分析
涵蓋多語(yǔ)言事件分析的三個(gè)選定方面,即事件中心新聞傳播障礙的分析、社交媒體中的聲明檢測(cè)以及事件敘事化作為呈現(xiàn)事件數(shù)據(jù)的手段。
第一部分:以事件為中心的多語(yǔ)言和多模態(tài) NLP 技術(shù)
本書(shū)的第一部分包含五章,主要涉及應(yīng)用于不同類(lèi)型事件文本的自然語(yǔ)言處理(NLP)新方法的研究。CLEOPATRA 項(xiàng)目最初在其 NLP 活動(dòng)中依賴(lài)于現(xiàn)有且經(jīng)過(guò)驗(yàn)證的方法,涵蓋了常見(jiàn)的任務(wù),如詞形還原、詞性/形態(tài)句法標(biāo)注(PoS/MSD)、命名實(shí)體識(shí)別與分類(lèi)(NERC)、依存句法分析等。然而,該項(xiàng)目也正值大語(yǔ)言模型(LLMs)在 NLP 處理流程中引入的初期,LLMs 對(duì) NLP 方法論產(chǎn)生了深遠(yuǎn)影響,并在幾年內(nèi)引發(fā)了范式轉(zhuǎn)變。因此,第一部分中的一些章節(jié)展示了仍基于先前方法的研究,而其他章節(jié)則已將 LLMs 作為其方法論核心。
第 1 章 提出了一個(gè)適用于任何語(yǔ)言的通用命名實(shí)體識(shí)別(UNER)框架。該提案受到 NLP 領(lǐng)域中兩個(gè)類(lèi)似倡議的啟發(fā),即通用依存關(guān)系(UD)和通用標(biāo)注集(UT)。它整合了所有先前的 NERC 方法,并提出了一種三層層次化的命名實(shí)體分類(lèi),與相關(guān)的 dBpedia 條目相結(jié)合,從而將名稱(chēng)直接關(guān)聯(lián)到概念數(shù)據(jù)空間中的項(xiàng)目。
第 2 章 研究了如何將全球發(fā)布的大量新聞與相關(guān)地理位置進(jìn)行情境化。現(xiàn)有的地理位置估計(jì)方法主要基于文本或照片作為獨(dú)立任務(wù)。由于新聞?wù)掌赡苋狈Φ乩砭€(xiàn)索,而文本可能包含多個(gè)地點(diǎn),僅基于單一模態(tài)識(shí)別新聞故事的核心位置具有挑戰(zhàn)性。本章引入了用于新聞文檔多模態(tài)地理位置估計(jì)的新數(shù)據(jù)集,同時(shí)考慮文本和照片,并取得了更好的結(jié)果。
第 3 章 探討了語(yǔ)言類(lèi)型學(xué)中的計(jì)算方法如何改進(jìn)語(yǔ)言分類(lèi)結(jié)果。由于 CLEOPATRA 項(xiàng)目主要面向事件的多語(yǔ)言處理,本章提出了一種使用可比樹(shù)庫(kù)(如關(guān)于 2019 年歐盟選舉的新聞?wù)Z料庫(kù))或平行樹(shù)庫(kù)(如平行 UD)中的句法特征來(lái)測(cè)量語(yǔ)言距離的新方法。該方法還可以測(cè)量訓(xùn)練數(shù)據(jù)中哪些語(yǔ)言組合可以改進(jìn)依存句法分析的結(jié)果。
第 4 章介紹了為大規(guī)模多語(yǔ)言和多模態(tài)新聞集合中的情感分析(SA)和仇恨言論檢測(cè)開(kāi)發(fā)的方法。由于文本或句子的情感對(duì)意見(jiàn)形成至關(guān)重要,而仇恨言論似乎比以前更頻繁出現(xiàn)(盡管尚未有人能明確定義該術(shù)語(yǔ)涵蓋的具體概念),這一任務(wù)變得越來(lái)越重要。本章展示的研究成功整合了多模態(tài)信息以獲取整體上下文,并將該方法應(yīng)用于一個(gè)具體的示例任務(wù)。
第 5 章以 LLMs 在低資源語(yǔ)言中的應(yīng)用為主題,結(jié)束了第一部分。由于在最流行的多語(yǔ)言 LLMs 中,低資源語(yǔ)言的詞匯在工作字典中往往嚴(yán)重不足,本章提出了通過(guò)將這些語(yǔ)言的“脆弱詞匯”引入多語(yǔ)言 LLMs 的字典中,并提供合理的嵌入初始化,隨后在可用低資源語(yǔ)料庫(kù)的限制下進(jìn)行微調(diào)的策略。
第一部分的章節(jié)涵蓋了 CLEOPATRA 事件處理流程中開(kāi)發(fā)并用于多語(yǔ)言處理的 NLP 方法集,展示了如何將語(yǔ)言技術(shù)與知識(shí)技術(shù)成功結(jié)合,以在事件相關(guān)數(shù)據(jù)的自動(dòng)處理中取得更好的結(jié)果。
第 1 章 UNER:通用命名實(shí)體識(shí)別框架
Diego Alves, Gaurisha Thakkar, and Marko Tadic
摘要
命名實(shí)體識(shí)別與分類(lèi)(NERC)是自然語(yǔ)言處理(NLP)中的一項(xiàng)重要任務(wù),廣泛應(yīng)用于交互式問(wèn)答、摘要生成、關(guān)系抽取和文本挖掘等應(yīng)用中。現(xiàn)有的 NERC 語(yǔ)料庫(kù)遵循不同的標(biāo)注方案,這些方案在格式和復(fù)雜性方面因研究需求而異:從單層層次標(biāo)注(如“人物”、“地點(diǎn)”和“組織”)到多層標(biāo)注方案。受通用依存關(guān)系(Universal Dependencies, UD)框架在解析樹(shù)標(biāo)準(zhǔn)化表示方面的啟發(fā),我們開(kāi)發(fā)了通用命名實(shí)體識(shí)別(UNER)框架,該框架包括一個(gè)多層 NERC 層次結(jié)構(gòu)和一個(gè)對(duì)應(yīng)的工作流程,用于從 Wikipedia 和 DBpedia 解析數(shù)據(jù)并將其轉(zhuǎn)換為 UNER 標(biāo)注。
本章介紹了 UNER 層次結(jié)構(gòu)及其數(shù)據(jù)提取和標(biāo)注的工作流程。所提出的流程用于生成一個(gè)英語(yǔ)語(yǔ)料庫(kù),并對(duì)其進(jìn)行了定性和定量評(píng)估。此外,還提出并討論了七種標(biāo)注改進(jìn)策略,表明使用**開(kāi)放事件知識(shí)圖譜(OEKG)中的信息可以改進(jìn)我們的數(shù)據(jù)集。
1.1 引言
命名實(shí)體識(shí)別與分類(lèi)(NERC)是自然語(yǔ)言處理(NLP)中的一個(gè)重要子領(lǐng)域,因?yàn)閺奈谋局刑崛⌒畔⒕哂兄匾饬x。它最早于 1995 年在第六屆消息理解會(huì)議(MUC-6)上定義(Chinchor 1998),此后被廣泛應(yīng)用于各種 NLP 應(yīng)用中,包括事件和關(guān)系抽取、問(wèn)答系統(tǒng)以及面向?qū)嶓w的搜索。例如,MUC-7(Chinchor 1998)定義了一個(gè) 2 層層次結(jié)構(gòu),每層有 3-8 個(gè)節(jié)點(diǎn),而 Second Harem NERC 方案(Freitas 等,2010)由 3 層組成,每層有 10 到 36 個(gè)節(jié)點(diǎn)。
為了創(chuàng)建一個(gè)通用的多語(yǔ)言命名實(shí)體標(biāo)注方案,我們提出了**通用命名實(shí)體識(shí)別(UNER)框架**,這是一個(gè)多層次的 NERC 層次結(jié)構(gòu)。UNER 基于 Sekine NERC 層次結(jié)構(gòu)(Sekine 2007),并進(jìn)行了特定修改,使其能夠輕松轉(zhuǎn)換為其他 NERC 方法。結(jié)合該框架,我們提出了一種從 Wikipedia 自動(dòng)提取和標(biāo)注文本的流程,并根據(jù) UNER 層次結(jié)構(gòu)進(jìn)行標(biāo)注。該流程應(yīng)用于英文 Wikipedia,生成的 UNER 語(yǔ)料庫(kù)經(jīng)過(guò)定性和定量評(píng)估。
在 1.2 節(jié)中,我們?cè)敿?xì)描述了 UNER 框架和層次結(jié)構(gòu);在 1.3 節(jié)中,我們?cè)敿?xì)介紹了數(shù)據(jù)提取和標(biāo)注的工作流程。1.4 節(jié)展示了 UNER 英文語(yǔ)料庫(kù)及其評(píng)估結(jié)果。1.5 節(jié)描述了為提高標(biāo)注語(yǔ)料庫(kù)的精確率和召回率而進(jìn)行的實(shí)驗(yàn),1.6 節(jié)總結(jié)了我們的結(jié)論和未來(lái)潛在的研究方向。
1.2 UNER 標(biāo)注框架定義
本節(jié)概述了 UNER 層次結(jié)構(gòu)及其在版本 1 和版本 2 之間的變化。
1.2.1 UNER:版本 1
UNER 層次結(jié)構(gòu)的第一個(gè)版本(Alves 等,2020)基于 Sekine(2007)提出的 NERC 層次結(jié)構(gòu),該結(jié)構(gòu)在比較的 NERC 方案中具有最高的概念復(fù)雜性(Alves 等,2020)。每個(gè) UNER 層級(jí)的節(jié)點(diǎn)數(shù)量如表 1.1 所示。
提出的 UNER 層次結(jié)構(gòu)由 4 個(gè)層級(jí)組成。層級(jí) 0 是根節(jié)點(diǎn),所有其他層級(jí)均由此派生。層級(jí) 1 包含三個(gè)主要類(lèi)別,對(duì)應(yīng)于 MUC-7(Chinchor 1998)的主要類(lèi)別:**名稱(chēng)**、**時(shí)間表達(dá)式**和**數(shù)值表達(dá)式**。層級(jí) 2 包含 29 個(gè)命名實(shí)體類(lèi)別,這些類(lèi)別在層級(jí) 3 中細(xì)分為 95 種類(lèi)型。此外,層級(jí) 4 包含 129 個(gè)子類(lèi)型(Alves 等,2020)。
因此,UNER 層次結(jié)構(gòu)的第一個(gè)版本涵蓋了 215 個(gè)標(biāo)簽,這些標(biāo)簽最多可包含 4 個(gè)層級(jí)的粒度,具體取決于命名實(shí)體類(lèi)型的詳細(xì)程度。UNER 標(biāo)簽由每個(gè)層級(jí)的標(biāo)簽組成,用連字符“-”分隔。由于層級(jí) 0 是根節(jié)點(diǎn)且對(duì)所有實(shí)體通用,因此不在標(biāo)簽中描述。例如:
- UNER 標(biāo)簽 Name-Event-Natural_Phenomenon-Earthquake 由層級(jí) 1 的 Name、層級(jí) 2 的 Event、層級(jí) 3 的 Natural Phenomenon 和層級(jí) 4 的 Earthquake 組成。
1.2.2 UNER:版本 2
使用 Wikipedia 數(shù)據(jù)和與 DBpedia 信息相關(guān)的元數(shù)據(jù)生成 UNER 標(biāo)注數(shù)據(jù)集的想法促使我們修訂了最初提出的 UNER 層次結(jié)構(gòu)。主要原因是自動(dòng)標(biāo)注過(guò)程基于 UNER 標(biāo)簽與 DBpedia 類(lèi)之間的等價(jià)列表。在生成等價(jià)列表時(shí),我們發(fā)現(xiàn)并非所有 UNER 標(biāo)簽都有對(duì)應(yīng)的 DBpedia 類(lèi)。這適用于絕大多數(shù)時(shí)間和數(shù)值表達(dá)式。因此,我們開(kāi)發(fā)了 UNER 的版本 2,并在項(xiàng)目的 GitHub 網(wǎng)頁(yè)上發(fā)布。它由 124 個(gè)標(biāo)簽組成,其層次結(jié)構(gòu)詳見(jiàn)表 1.2。
此外,在標(biāo)注過(guò)程中,我們使用了 IOB 格式(Ramshaw 和 Marcus,1999),因?yàn)樵S多 NERC 系統(tǒng)廣泛使用該格式,如 Alves 等(2020)所示。因此,每個(gè)標(biāo)注的實(shí)體標(biāo)記在 UNER 標(biāo)簽的開(kāi)頭還會(huì)收到字母“B”(如果標(biāo)記是實(shí)體的第一個(gè)標(biāo)記)或“I”(如果標(biāo)記在實(shí)體內(nèi)部)。非實(shí)體標(biāo)記僅接收標(biāo)簽“O”。
1.3 數(shù)據(jù)提取與標(biāo)注
開(kāi)發(fā)的工作流程允許從 Wikipedia(適用于該數(shù)據(jù)庫(kù)中的任何語(yǔ)言)提取文本和元數(shù)據(jù),隨后通過(guò)某些標(biāo)記(實(shí)體)的超鏈接識(shí)別 DBpedia 類(lèi),并將其轉(zhuǎn)換為 UNER 類(lèi)型和子類(lèi)型(最后兩步與語(yǔ)言無(wú)關(guān))。
一旦數(shù)據(jù)提取和標(biāo)注的主要過(guò)程完成,工作流程會(huì)提出后處理步驟,以改進(jìn)分詞、實(shí)現(xiàn) IOB 格式(Ramshaw 和 Marcus,1999),并收集有關(guān)生成語(yǔ)料庫(kù)的統(tǒng)計(jì)信息。整個(gè)過(guò)程如圖 1.1 所示,分為三個(gè)子過(guò)程。
1.3.1 文本和元數(shù)據(jù)提取
1. 從維基百科轉(zhuǎn)儲(chǔ)文件中提取:對(duì)于給定的語(yǔ)言,我們從維基媒體網(wǎng)站獲取其最新的轉(zhuǎn)儲(chǔ)文件。接著,我們使用WikiExtractor工具進(jìn)行文本提取,并保留文章中的超鏈接。這些超鏈接指向其他維基百科頁(yè)面,以及指向這些命名實(shí)體的唯一標(biāo)識(shí)符。我們提取所有唯一的超鏈接并按字母順序排序。我們從超鏈接中提取文章路徑,去除域名和子域名信息。這些文章路徑被視為命名實(shí)體。
2. 維基百科-DBpedia實(shí)體鏈接:對(duì)于從轉(zhuǎn)儲(chǔ)文件中提取的所有唯一命名實(shí)體,我們使用SPARQLWrapper通過(guò)SPARQL查詢(xún)向DBpedia端點(diǎn)發(fā)送請(qǐng)求,以識(shí)別與該實(shí)體關(guān)聯(lián)的各類(lèi)別。此步驟為步驟1中的每個(gè)命名實(shí)體生成一組它所屬的DBpedia類(lèi)別。
3. 維基百科-DBpedia-UNER反向映射:對(duì)于步驟1中提取的每個(gè)命名實(shí)體,我們使用步驟2生成的類(lèi)別集合以及UNER/DBpedia映射模式,為每個(gè)命名實(shí)體分配UNER類(lèi)別。對(duì)于一個(gè)實(shí)體,從DBpedia響應(yīng)中獲取的所有類(lèi)別都會(huì)被映射到一個(gè)層級(jí)值,解析并選擇最高層級(jí)的類(lèi)別,然后將其映射到UNER類(lèi)別。為了構(gòu)建最終的標(biāo)注數(shù)據(jù)集,我們僅選擇包含至少一個(gè)命名實(shí)體的句子。這減少了標(biāo)注的稀疏性,從而降低了測(cè)試模型中的假陰性率。此步驟從整個(gè)維基百科轉(zhuǎn)儲(chǔ)文件中生成了特定語(yǔ)言的初始標(biāo)注語(yǔ)料庫(kù)。
1.3.2 標(biāo)注過(guò)程
1. UNER/DBpedia映射:此映射器將每個(gè)DBpedia類(lèi)別鏈接到一個(gè)UNER標(biāo)簽。提取的命名實(shí)體可能具有多個(gè)DBpedia類(lèi)別。它為每個(gè)DBpedia類(lèi)別分配最合適的UNER標(biāo)簽。例如,實(shí)體“2015 European Games”具有以下DBpedia類(lèi)別及其對(duì)應(yīng)的UNER等價(jià)類(lèi)別:
- dbo:Event—Name-Event-Historical-Event
- dbo:SoccerTournament—Name-Event-Occasion-Game
- dbo:SocietalEvent—Name-Event-Historical-Event
- dbo:SportsEvent—Name-Event-Occasion-Game
- owl:Thing—NULL
左側(cè)的值表示DBpedia類(lèi)別,而其對(duì)應(yīng)的UNER等價(jià)類(lèi)別顯示在右側(cè)。它將所有DBpedia類(lèi)別映射到其UNER對(duì)應(yīng)類(lèi)別。
2. DBpedia層級(jí):此映射器為每個(gè)DBpedia類(lèi)別分配一個(gè)優(yōu)先級(jí)。這用于從關(guān)聯(lián)的類(lèi)別集合中選擇特定的DBpedia類(lèi)別。以下是類(lèi)別及其優(yōu)先級(jí)的示例:
? dbo:Event—2
? dbo:SoccerTournament—4
? dbo:SocietalEvent—2
? dbo:SportsEvent—4
? owl:Thing—1
對(duì)于實(shí)體“2015 European Games”,DBpedia類(lèi)別**SoccerTournament**優(yōu)先于其他類(lèi)別,因?yàn)樗哂懈叩膬?yōu)先級(jí)值。如果提取的實(shí)體有兩個(gè)具有相同層級(jí)值的類(lèi)別,則選擇列表中的第一個(gè)類(lèi)別作為最終類(lèi)別。所有DBpedia類(lèi)別都根據(jù)DBpedia本體分配了層級(jí)值,其中類(lèi)別以結(jié)構(gòu)化的順序呈現(xiàn),這使我們能夠定義層級(jí)級(jí)別。
1.3.3 后處理步驟
后處理步驟對(duì)應(yīng)于三個(gè)不同的腳本,這些腳本提供以下功能:
1. 改進(jìn)分詞(使用正則表達(dá)式):通過(guò)將標(biāo)點(diǎn)符號(hào)與單詞分離來(lái)優(yōu)化分詞。此外,它將IOB格式(Ramshaw和Marcus 1999)應(yīng)用于文本中的UNER標(biāo)注。
2. 計(jì)算生成語(yǔ)料庫(kù)的統(tǒng)計(jì)信息:包括總詞元數(shù)、非實(shí)體詞元數(shù)(標(biāo)簽“O”)、實(shí)體詞元數(shù)(標(biāo)簽“B”或“I”)以及實(shí)體數(shù)(標(biāo)簽“B”)。該腳本還提供了所有UNER標(biāo)簽及其在語(yǔ)料庫(kù)中出現(xiàn)次數(shù)的列表。
3. 列出語(yǔ)料庫(kù)中的實(shí)體(詞元及其對(duì)應(yīng)的UNER標(biāo)簽)。每個(gè)識(shí)別的實(shí)體在此列表中僅出現(xiàn)一次,即使它在語(yǔ)料庫(kù)中多次出現(xiàn)。
整個(gè)流程和后處理步驟均應(yīng)用于英語(yǔ),生成了UNER英語(yǔ)語(yǔ)料庫(kù),該語(yǔ)料庫(kù)將在下一節(jié)中描述和評(píng)估。此基線(xiàn)語(yǔ)料庫(kù)是后續(xù)章節(jié)中改進(jìn)實(shí)驗(yàn)的基礎(chǔ)。
1.4 UNER英語(yǔ)語(yǔ)料庫(kù)(基線(xiàn))
在本節(jié)中,我們將詳細(xì)介紹UNER英語(yǔ)語(yǔ)料庫(kù)及其評(píng)估活動(dòng),該活動(dòng)旨在檢查數(shù)據(jù)的整體質(zhì)量。
1.4.1 基本信息
英文維基百科由6,188,204篇文章組成(3.3 GB)。在應(yīng)用所提出工作流程的主要處理后,我們獲得了分文件夾存儲(chǔ)的標(biāo)注文本文件(17,150個(gè)文件,分布在172個(gè)文件夾中)(Alves等,2021)。
通過(guò)應(yīng)用前述的后處理步驟,我們獲得了關(guān)于語(yǔ)料庫(kù)的統(tǒng)計(jì)信息。表1.3展示了關(guān)于詞元和實(shí)體數(shù)量的主要統(tǒng)計(jì)數(shù)據(jù)。在UNER英語(yǔ)語(yǔ)料庫(kù)中,8.9%的詞元是實(shí)體。表1.4則展示了最頻繁出現(xiàn)的NERC類(lèi)別的統(tǒng)計(jì)數(shù)據(jù)。
如第1.2.2節(jié)所述,用于標(biāo)注英文維基百科文本的UNER層級(jí)結(jié)構(gòu)由124個(gè)不同的多層次標(biāo)簽組成,這些標(biāo)簽與DBpedia類(lèi)別具有對(duì)應(yīng)關(guān)系。然而,在UNER英語(yǔ)語(yǔ)料庫(kù)中,僅出現(xiàn)了99個(gè)不同的UNER標(biāo)簽(占總數(shù)的80%)。
如前所述,UNER層級(jí)結(jié)構(gòu)由類(lèi)別、類(lèi)型和子類(lèi)型組成。UNER在其第二層級(jí)中包含了NERC中最常用的類(lèi)別(人物、地點(diǎn)、組織)。因此,可以基于這些廣泛使用的通用類(lèi)別對(duì)生成的語(yǔ)料庫(kù)進(jìn)行分析。這三個(gè)類(lèi)別覆蓋了生成語(yǔ)料庫(kù)中68.2%的命名實(shí)體。
1.4.2 定性評(píng)估
為了評(píng)估工作流程的這一步驟,我們對(duì)從UNER英語(yǔ)語(yǔ)料庫(kù)中隨機(jī)選擇的943個(gè)實(shí)體進(jìn)行了分析。對(duì)于每個(gè)實(shí)體,我們檢查了其關(guān)聯(lián)的DBpedia類(lèi)別以及最終選擇的UNER標(biāo)簽。表1.5展示了此次評(píng)估的結(jié)果。
在選定的樣本中,91%的實(shí)體被正確地標(biāo)記了UNER標(biāo)簽。然而,6%的實(shí)體雖然關(guān)聯(lián)了正確的UNER類(lèi)型,但其子類(lèi)型較為泛化。例如,Bengkulu本應(yīng)被標(biāo)記為Name-Location-GPE-City,但卻被標(biāo)記為**Name-Location-GPE-GPE_Other。錯(cuò)誤可能源于與詞元關(guān)聯(lián)的DBpedia類(lèi)別存在錯(cuò)誤,或者是由于DBpedia與UNER之間定義的優(yōu)先級(jí)規(guī)則和等價(jià)關(guān)系所致。
1.4.3 UNER英語(yǔ)黃金數(shù)據(jù)集
除了上述統(tǒng)計(jì)信息外,我們還從生成的語(yǔ)料庫(kù)中選取了一個(gè)樣本,并由一名標(biāo)注者使用WebAnno(Eckart de Castilho等,2016)進(jìn)行了校正。該樣本對(duì)應(yīng)于輸出文件夾中的一個(gè)完整文件,包含519個(gè)句子和105個(gè)不同的UNER標(biāo)簽。標(biāo)注工作由項(xiàng)目組中的一名非英語(yǔ)母語(yǔ)成員完成,遵循客觀的指導(dǎo)原則。在存在多種可能標(biāo)注的情況下,標(biāo)注者會(huì)做出最終選擇,以確保每個(gè)實(shí)體在黃金數(shù)據(jù)集中僅有一個(gè)標(biāo)簽。表1.6展示了用于創(chuàng)建黃金數(shù)據(jù)集的文件的基線(xiàn)標(biāo)注評(píng)估結(jié)果,包括精確率(Precision)、召回率(Recall)和F1值(F1-measure),并考慮了所有105個(gè)標(biāo)簽的均值。
如前所述,特定命名實(shí)體的標(biāo)注依賴(lài)于超鏈接的存在。然而,如果實(shí)體在文章中多次提及,這些鏈接并不總是與詞元相關(guān)聯(lián)。這可能是導(dǎo)致召回率較低的主要原因之一。
1.5 數(shù)據(jù)集改進(jìn)
通過(guò)使用UNER英語(yǔ)黃金數(shù)據(jù)集對(duì)基線(xiàn)標(biāo)注文件進(jìn)行評(píng)估,我們發(fā)現(xiàn)自動(dòng)標(biāo)注工作流程仍有改進(jìn)空間,尤其是在減少假陰性數(shù)量方面。我們采用了基于詞典和知識(shí)圖譜的策略來(lái)完善英語(yǔ)語(yǔ)料庫(kù)的標(biāo)注。以下是實(shí)驗(yàn)設(shè)計(jì)和評(píng)估結(jié)果的詳細(xì)說(shuō)明。
1.5.1 實(shí)驗(yàn)設(shè)計(jì)
我們進(jìn)行了七項(xiàng)不同的實(shí)驗(yàn):
1. 全局詞典:從整個(gè)UNER英語(yǔ)語(yǔ)料庫(kù)中,我們建立了一個(gè)單詞語(yǔ)實(shí)體及其對(duì)應(yīng)UNER標(biāo)簽的詞典。由于同一實(shí)體可能因關(guān)聯(lián)的DBpedia類(lèi)別而在語(yǔ)料庫(kù)中出現(xiàn)不同的UNER標(biāo)簽,我們?yōu)槊總€(gè)實(shí)體選擇了出現(xiàn)次數(shù)最多的標(biāo)簽。該詞典用于補(bǔ)充語(yǔ)料庫(kù)的標(biāo)注。僅考慮長(zhǎng)度超過(guò)兩個(gè)字符的實(shí)體,并排除了數(shù)字實(shí)體。最終全局詞典包含826,371個(gè)實(shí)體。
2. 僅包含多詞語(yǔ)實(shí)體的全局詞典:與前一實(shí)驗(yàn)類(lèi)似,但僅考慮由多個(gè)詞元組成的實(shí)體。全局詞典共包含665,081個(gè)多詞語(yǔ)實(shí)體。
3. 局部詞典:在此設(shè)置中,我們將每個(gè)維基百科轉(zhuǎn)儲(chǔ)文件視為一篇文章,并應(yīng)用“每篇文章一個(gè)含義”的策略。文章中每個(gè)鏈接到UNER的實(shí)體都會(huì)被緩存到局部查找詞典中,以其文本為鍵,UNER類(lèi)別為值。對(duì)于給定文章中鍵的后續(xù)出現(xiàn),我們使用相應(yīng)的UNER類(lèi)別進(jìn)行標(biāo)注。我們推測(cè),實(shí)體更有可能在同一篇文章中重復(fù)出現(xiàn),而不是在完全不相關(guān)的文章中。例如,Barack Obama作為人物更有可能出現(xiàn)在描述他作為總統(tǒng)的文章中,而不是出現(xiàn)在關(guān)于他的虛構(gòu)內(nèi)容的文章中。
4. 全局OEKG詞典:開(kāi)放事件知識(shí)圖譜(OEKG)是一個(gè)多語(yǔ)言的事件中心資源。其實(shí)例具有特定的DBpedia類(lèi)別,因此我們將全局詞典中的所有單詞語(yǔ)條目與OEKG中的元素進(jìn)行了交集處理。對(duì)于每個(gè)實(shí)體,其關(guān)聯(lián)的OEKG中的DBpedia類(lèi)別被映射到UNER。全局OEKG詞典包含128,813個(gè)條目。
5. 僅包含多詞語(yǔ)實(shí)體的全局OEKG詞典:與實(shí)驗(yàn)4類(lèi)似,但僅考慮由多個(gè)詞元組成的實(shí)體(共110,226個(gè)實(shí)體)。
6. 局部詞典后接全局OEKG詞典:將實(shí)驗(yàn)3與使用實(shí)驗(yàn)4建立的詞典進(jìn)行標(biāo)注補(bǔ)充相結(jié)合。
7. 局部詞典后接僅包含多詞語(yǔ)實(shí)體的OEKG詞典:使用實(shí)驗(yàn)5的詞典對(duì)實(shí)驗(yàn)3的語(yǔ)料庫(kù)進(jìn)行補(bǔ)充標(biāo)注。
在所有實(shí)驗(yàn)中,詞典按實(shí)體從長(zhǎng)到短的順序排列(“最長(zhǎng)匹配”策略),以確保優(yōu)先標(biāo)注多詞語(yǔ)實(shí)體而非單詞語(yǔ)實(shí)體。
1.5.2 評(píng)估
評(píng)估使用了之前介紹的黃金語(yǔ)料庫(kù)進(jìn)行。基線(xiàn)是對(duì)應(yīng)文件的自動(dòng)標(biāo)注結(jié)果,其標(biāo)注流程如第1.4節(jié)所述。
黃金語(yǔ)料庫(kù)包含105個(gè)不同的UNER標(biāo)簽,但基線(xiàn)標(biāo)注文件僅包含62個(gè)標(biāo)簽。對(duì)于每個(gè)可能的標(biāo)簽,我們計(jì)算了精確率(Precision)、召回率(Recall)和F1值(F1-measure)。由于采用了IOB格式(Ramshaw和Marcus 1999),每個(gè)UNER標(biāo)簽可以以“B”或“I”開(kāi)頭,非實(shí)體詞元?jiǎng)t標(biāo)記為“O”。
在基線(xiàn)標(biāo)注文件的62個(gè)標(biāo)簽中,只有45個(gè)標(biāo)簽的結(jié)果不為0。因此,下表1.7中的值僅考慮了這些標(biāo)簽,并代表了所有相關(guān)標(biāo)簽的平均值。表1.7展示了基線(xiàn)及前一節(jié)中描述的每個(gè)實(shí)驗(yàn)的評(píng)估指標(biāo)。
全局詞典方法(實(shí)驗(yàn)1)提供了最高的召回率(相比基線(xiàn)提高了+3.7),但精確率顯著降低(-40.8)。當(dāng)僅使用多詞元實(shí)體的全局詞典時(shí)(實(shí)驗(yàn)2),也觀察到類(lèi)似情況。其他實(shí)驗(yàn)并未顯著降低精確率,在某些情況下甚至有所提高。除實(shí)驗(yàn)3、6和7外,所有實(shí)驗(yàn)的召回率均高于基線(xiàn)。使用局部詞典并未有效提升召回率。
從F1值的角度來(lái)看,最佳選擇是使用經(jīng)過(guò)OEKG驗(yàn)證的詞典(實(shí)驗(yàn)4)。其精確率略低于基線(xiàn)(-1.8),但召回率和F1值均有所提高(分別提高了+1.9和+1.6)。
表1.8展示了僅考慮UNER層級(jí)結(jié)構(gòu)頂層時(shí)的各實(shí)驗(yàn)評(píng)估結(jié)果。同樣采用了IOB格式,因此UNER標(biāo)簽可以以“B”或“I”開(kāi)頭,非實(shí)體詞元標(biāo)記為“O”。
在此場(chǎng)景下,基線(xiàn)標(biāo)注的精確率最高。使用全局詞典時(shí)(實(shí)驗(yàn)1)召回率最高,但正如之前觀察到的,這種情況下精確率相比基線(xiàn)大幅下降(-51.0)。實(shí)驗(yàn)4的F1值最高,與之前考慮所有UNER層級(jí)的評(píng)估結(jié)果一致。
因此,在改進(jìn)實(shí)驗(yàn)中,最佳選擇是使用基于開(kāi)放事件知識(shí)圖譜(OEKG)優(yōu)化的詞典。該資源能夠更精確地識(shí)別特定的DBpedia類(lèi)別,從而在不顯著損失精確率的情況下提高召回率。
1.6 結(jié)論與未來(lái)方向
在本章中,我們介紹了UNER層級(jí)結(jié)構(gòu),旨在作為命名實(shí)體識(shí)別與分類(lèi)(NERC)的通用框架。此外,我們描述了一種自動(dòng)工作流程,通過(guò)使用維基百科和DBpedia數(shù)據(jù)并遵循UNER層級(jí)結(jié)構(gòu),生成多語(yǔ)言命名實(shí)體識(shí)別語(yǔ)料庫(kù)。整個(gè)過(guò)程是開(kāi)源的,可應(yīng)用于任何擁有維基百科和DBpedia的語(yǔ)言。
我們還展示了使用所提出流程生成的英語(yǔ)UNER語(yǔ)料庫(kù)。該數(shù)據(jù)集通過(guò)手動(dòng)標(biāo)注的黃金數(shù)據(jù)集進(jìn)行了描述和評(píng)估。盡管精確率得分高于60,但召回率低于30。因此,我們進(jìn)行了一系列實(shí)驗(yàn)以改進(jìn)最終的標(biāo)注數(shù)據(jù)集。
我們發(fā)現(xiàn),最佳結(jié)果是通過(guò)使用實(shí)體詞典并結(jié)合開(kāi)放事件知識(shí)圖譜(OEKG)驗(yàn)證關(guān)聯(lián)的DBpedia類(lèi)別獲得的:精確率為76.9,召回率為31.0,F(xiàn)1值為36.0。然而,這些結(jié)果表明,召回率和F1值仍有改進(jìn)空間。
作為未來(lái)工作的方向,我們的主要重點(diǎn)是提高召回率,以獲得更高效的工作流程,從而能夠?yàn)榫S基百科上所有語(yǔ)言生成UNER語(yǔ)料庫(kù)。利用生成的語(yǔ)料庫(kù),可以訓(xùn)練深度學(xué)習(xí)模型以實(shí)現(xiàn)自動(dòng)命名實(shí)體識(shí)別與分類(lèi)。此外,UNER層級(jí)結(jié)構(gòu)還應(yīng)補(bǔ)充更精細(xì)的時(shí)間標(biāo)簽,這些標(biāo)簽在UNER v.2中被排除在外。
第2章 新聞文檔中的多模態(tài)地理位置估計(jì)
Golsa Tahmasebzadeh, Eric Müller-Budack, Ralph Ewerth
摘要
隨著互聯(lián)網(wǎng)上新聞文檔的激增,在線(xiàn)閱讀新聞已成為人們?nèi)粘I钪蝎@取信息的重要途徑。然而,人們對(duì)日益增多的虛假信息表示擔(dān)憂(yōu)。作為新聞文本的補(bǔ)充,相關(guān)照片為讀者提供了額外的信息,幫助他們更高效地獲取所需內(nèi)容。為了對(duì)全球范圍內(nèi)發(fā)布的大量新聞進(jìn)行情境化分析,地理信息至關(guān)重要。此外,地理信息在新聞推薦中也發(fā)揮著重要作用,能夠更好地滿(mǎn)足用戶(hù)需求。現(xiàn)有的地理位置估計(jì)方法主要基于文本或照片作為獨(dú)立任務(wù)。然而,新聞?wù)掌赡苋狈Φ乩砭€(xiàn)索,而文本可能包含多個(gè)地點(diǎn)。因此,僅依賴(lài)單一模態(tài)來(lái)識(shí)別新聞故事的核心地理位置具有挑戰(zhàn)性。
我們引入了用于新聞文檔多模態(tài)地理位置估計(jì)的新數(shù)據(jù)集,并在基準(zhǔn)數(shù)據(jù)集上評(píng)估了現(xiàn)有方法,同時(shí)提出了利用文本和視覺(jué)內(nèi)容進(jìn)行新聞地理定位的新方法。此外,我們介紹了一個(gè)基于新聞?wù)掌乩韮?nèi)容的新聞檢索系統(tǒng)——**GeoWINE**,以強(qiáng)調(diào)地理位置估計(jì)在新聞?lì)I(lǐng)域的重要性。
2.1 引言
每天,世界各地都會(huì)發(fā)生新的事件,社交媒體和互聯(lián)網(wǎng)以多種形式(如圖像和文本)以及不同語(yǔ)言傳播新聞。因此,找到管理信息流、從多種來(lái)源獲取新聞并保持平衡視角的方法至關(guān)重要。事件的關(guān)鍵組成部分之一是其發(fā)生的地點(diǎn)。由于新聞文檔通常附有照片,確定照片拍攝地點(diǎn)是許多實(shí)際應(yīng)用中的重要環(huán)節(jié)。例如,新聞檢索(Armitage等,2020)、圖像驗(yàn)證(Cheng等,2019)以及新聞中的虛假信息檢測(cè)(Singhal等,2019)等。大多數(shù)現(xiàn)有的照片地理位置預(yù)測(cè)方法僅依賴(lài)于視覺(jué)數(shù)據(jù)(Izbicki等,2019;Kim等,2017;Müller-Budack等,2018),只有少數(shù)技術(shù)利用了多模態(tài)數(shù)據(jù)(Kordopatis-Zilos等,2017,2016)。現(xiàn)有的基于圖像的方法主要集中于特定環(huán)境,如城市(Berton等,2022;Kim等,2017)或地標(biāo)(Avrithis等,2010;Boiarov和Tyantov,2019;Weyand等,2020)。
大多數(shù)多模態(tài)技術(shù)利用Yahoo Flickr Creative Commons 100 Million(YFCC100M)數(shù)據(jù)集(Thomee等,2015),并依賴(lài)于與圖像相關(guān)的標(biāo)簽。然而,這些方法未能充分利用新聞文章中可能暗示照片位置的詳細(xì)文本信息(如圖2.1b1所示)。BreakingNews數(shù)據(jù)集(Ramisa等,2018)是一個(gè)包含地理標(biāo)簽的多模態(tài)新聞文章集合。這些標(biāo)簽主要通過(guò)資源描述框架(RDF)站點(diǎn)摘要(RSS)獲取,或在不可用時(shí)通過(guò)分析出版商位置或故事文本推斷得出。然而,這些地理標(biāo)簽可能不準(zhǔn)確或錯(cuò)誤。此外,BreakingNews數(shù)據(jù)集的一個(gè)局限性是測(cè)試集的標(biāo)簽生成過(guò)程與訓(xùn)練集相同。總體而言,迫切需要提供新聞?wù)掌乩順?biāo)簽的多模態(tài)新聞文章數(shù)據(jù)集,以及準(zhǔn)確確定新聞文檔地理位置的多模態(tài)方法。
在本章中,我們將地理位置估計(jì)任務(wù)定義為一個(gè)多模態(tài)問(wèn)題。我們提出了多模態(tài)方法,整合新聞?wù)掌驼闹械囊曈X(jué)和文本信息,以自動(dòng)識(shí)別整個(gè)新聞故事的核心位置(Tahmasebzadeh等,2022)或照片的地理位置(Tahmasebzadeh等,2023)。主要貢獻(xiàn)總結(jié)如下:(1)我們引入了兩個(gè)用于新聞地理位置估計(jì)任務(wù)的數(shù)據(jù)集。**MMG-NewsPhoto**(新聞?wù)掌亩嗄B(tài)地理位置估計(jì))包含超過(guò)50萬(wàn)篇新聞文章,涵蓋14,000多個(gè)城市和241個(gè)國(guó)家,涉及健康、商業(yè)、社會(huì)和政治等多個(gè)新聞?lì)I(lǐng)域;**MM-Locate-News**(新聞中的多模態(tài)核心位置估計(jì))包含6,395篇新聞文章,涵蓋237個(gè)城市和152個(gè)國(guó)家,涉及多個(gè)領(lǐng)域。(2)我們提出了詳細(xì)的標(biāo)注指南,并識(shí)別了新聞中指示照片地理位置的視覺(jué)概念。(3)我們引入了利用最先進(jìn)的視覺(jué)和文本特征進(jìn)行新聞文檔地理定位的多模態(tài)方法。(4)我們?cè)谝氲臄?shù)據(jù)集上評(píng)估了這些方法,并將其性能與最先進(jìn)技術(shù)及一些基線(xiàn)實(shí)現(xiàn)進(jìn)行了比較。(5)為了強(qiáng)調(diào)地理位置估計(jì)在新聞內(nèi)容分析中的重要性,我們介紹了基于照片地理位置的信息檢索系統(tǒng)(Tahmasebzadeh等,2020)和照片驗(yàn)證系統(tǒng)(Tahmasebzadeh等,2021)。
本章的其余部分結(jié)構(gòu)如下:第2.2節(jié)描述了相關(guān)工作;第2.3節(jié)介紹了我們提出的數(shù)據(jù)集;第2.4節(jié)和第2.5節(jié)分別介紹了多模態(tài)地理位置估計(jì)的模型;第2.6節(jié)討論了信息檢索方法;第2.7節(jié)總結(jié)了本章并指出了局限性和未來(lái)研究方向。
2.2 相關(guān)工作
照片地理位置估計(jì)的方法可以根據(jù)兩個(gè)主要標(biāo)準(zhǔn)進(jìn)行分類(lèi):環(huán)境目標(biāo)和數(shù)據(jù)類(lèi)型(即圖像和多模態(tài)數(shù)據(jù))(Brejcha和Cadík,2017)。在本節(jié)中,我們簡(jiǎn)要回顧了與照片地理位置估計(jì)相關(guān)的工作,主要關(guān)注多模態(tài)方法、現(xiàn)有數(shù)據(jù)集及其局限性。
基于圖像的方法 許多現(xiàn)有的基于圖像地理定位的方法集中于城市環(huán)境(Berton等,2022;Kim等,2017)和自然環(huán)境,如山脈(Baatz等,2012;Tomesek等,2022)。一些嘗試在沒(méi)有環(huán)境先驗(yàn)假設(shè)的情況下在全球范圍內(nèi)估計(jì)照片位置。大多數(shù)方法將地理位置估計(jì)視為分類(lèi)問(wèn)題(Müller-Budack等,2018;Seo等,2018;Theiner等,2022;Weyand等,2016)。例如,通過(guò)利用檢索方法和大型地理標(biāo)記圖像數(shù)據(jù)庫(kù)(Vo等,2017)、使用視覺(jué)相似單元的重疊集(Seo等,2018)、結(jié)合分層單元結(jié)構(gòu)以及環(huán)境場(chǎng)景上下文(Müller-Budack等,2018),或利用對(duì)比學(xué)習(xí)的優(yōu)勢(shì)(Kordopatis-Zilos等,2021)進(jìn)行了改進(jìn)。然而,盡管這些方法僅基于視覺(jué)信息取得了令人矚目的成果,但新聞提供了文本信息,可以進(jìn)一步提高性能,特別是在缺乏明顯地理線(xiàn)索的情況下(如圖2.1b所示)。
多模態(tài)方法 只有少數(shù)方法(Crandall等,2009;Kordopatis-Zilos等,2017,2016;Ramisa等,2018;Serdyukov等,2009)將地理位置估計(jì)視為多模態(tài)問(wèn)題,其中大多數(shù)依賴(lài)于通過(guò)生成基于全球文本標(biāo)簽提及的概率模型來(lái)構(gòu)建大規(guī)模地理語(yǔ)言模型(Kordopatis-Zilos等,2017,2016;Serdyukov等,2009)。Crandall等(2009)在兩種粒度上結(jié)合了圖像內(nèi)容和文本元數(shù)據(jù):城市級(jí)別(≈100公里)和地標(biāo)級(jí)別(≈100米)。Trevisiol等(2013)處理一組視頻的文本信息以確定其地理相關(guān)性并找到頻繁匹配項(xiàng)。在沒(méi)有此類(lèi)信息的情況下,他們依賴(lài)于視覺(jué)特征。隨后,Ramisa等(2018)提出了一種多模態(tài)方法,他們使用最近鄰方法和支持向量回歸(SVR)將視覺(jué)特征與文本結(jié)合。
多模態(tài)數(shù)據(jù)集 大多數(shù)多模態(tài)方法基于YFCC 100M數(shù)據(jù)集(Thomee等,2015)或MediaEval Placing Task基準(zhǔn)數(shù)據(jù)集(Larson等,2017),包括圖像、視頻和元數(shù)據(jù)。Uzkent等(2019)提出的另一個(gè)數(shù)據(jù)集包含來(lái)自維基百科的圖像和文本以及衛(wèi)星圖像。最近,引入了名為多語(yǔ)言和多模態(tài)(MLM)的數(shù)據(jù)集(Armitage等,2020),其中包括來(lái)自Wikidata(Vrandecic和Kr?tzsch,2014)的多語(yǔ)言文本和圖像。與之前的數(shù)據(jù)集不同,Ramisa等(2018)引入的BreakingNews包含多模態(tài)新聞文章,與我們的工作最為相關(guān)。它包括圖像、文本、標(biāo)題和元數(shù)據(jù)(如地理坐標(biāo)和流行度),并涵蓋體育、政治和健康等多個(gè)領(lǐng)域。訓(xùn)練和評(píng)估中提供的地理標(biāo)簽是從RSS、出版商或新聞文本中提取的。但如第2.1節(jié)所述,這些自動(dòng)推導(dǎo)的位置可能不準(zhǔn)確甚至錯(cuò)誤。相反,我們提供了高質(zhì)量的手動(dòng)標(biāo)注照片地理位置,以確保公平和可靠的評(píng)估(Tahmasebzadeh等,2022,2023)。
2.3 提出的數(shù)據(jù)集
本節(jié)概述了為多模態(tài)地理位置估計(jì)任務(wù)提出的兩個(gè)數(shù)據(jù)集:**MMG-NewsPhoto**(Tahmasebzadeh等,2023)和**MM-Locate-News**(Tahmasebzadeh等,2022)。這兩個(gè)數(shù)據(jù)集均由帶有地理標(biāo)簽的新聞文檔圖像-文本對(duì)組成,但標(biāo)簽的具體含義略有不同。在MMG-NewsPhoto數(shù)據(jù)集中,標(biāo)簽僅表示照片的地理位置;而在MM-Locate-News數(shù)據(jù)集中,標(biāo)簽不僅表示照片拍攝地點(diǎn),還表示新聞?wù)牡暮诵奈恢谩R韵虏糠謱⒃敿?xì)討論這兩個(gè)數(shù)據(jù)集。
2.3.1 MMG-NewsPhoto數(shù)據(jù)集
本節(jié)將介紹用于新聞?wù)掌嗄B(tài)地理位置估計(jì)的MMG-NewsPhoto數(shù)據(jù)集的創(chuàng)建和標(biāo)注過(guò)程。
2.3.1.1 數(shù)據(jù)集創(chuàng)建
我們使用了Good News(Biten等,2019)和CC-News(Mackenzie等,2020)數(shù)據(jù)集提供的文章集合。Good News(Biten等,2019)是一個(gè)包含466,000個(gè)圖像-標(biāo)題對(duì)的圖像標(biāo)題生成數(shù)據(jù)集。基于新聞文章的網(wǎng)頁(yè)鏈接,我們提取了所有包含正文、標(biāo)題、圖像鏈接(及其對(duì)應(yīng)標(biāo)題)和領(lǐng)域標(biāo)簽的文章。CC-News(Mackenzie等,2020)包含從約30,000個(gè)獨(dú)特新聞來(lái)源中提取的4,400萬(wàn)篇英文文檔。我們根據(jù)新聞文章數(shù)量對(duì)來(lái)源進(jìn)行排序,并按照上述方法從前20個(gè)來(lái)源中抓取新聞文檔。最后,我們下載了所有圖像,并丟棄了損壞或無(wú)法訪問(wèn)的圖像。最終,我們獲得了約1,000萬(wàn)個(gè)數(shù)據(jù)樣本,包括正文以及每個(gè)樣本中至少一個(gè)圖像-標(biāo)題對(duì)。
初始清理 我們基于正文的TF-IDF(詞頻-逆文檔頻率)余弦相似度(歸一化到[0, 1])移除冗余文檔(僅保留一個(gè)),相似度閾值設(shè)為0.5。接下來(lái),我們手動(dòng)將領(lǐng)域標(biāo)簽分為10個(gè)類(lèi)別,如健康、商業(yè)和政治(完整列表見(jiàn)圖2.2左)。某些領(lǐng)域(如藝術(shù)和技術(shù))包含許多無(wú)效圖像(如廣告或庫(kù)存照片)。我們丟棄了這些類(lèi)型的圖像,因?yàn)樗鼈兺ǔH狈Φ乩韮?nèi)容或與新聞?wù)闹刑岬降牡攸c(diǎn)不符。
位置鏈接 我們假設(shè)標(biāo)題中提到的地點(diǎn)是照片地理位置的候選位置。我們應(yīng)用命名實(shí)體識(shí)別和消歧技術(shù)來(lái)提取標(biāo)題中的所有地點(diǎn)。借鑒相關(guān)工作(Müller-Budack等,2021),我們使用spaCy(Honnibal等,2020)提取命名實(shí)體,并使用Wikifier(Brank等,2018)將它們鏈接到Wikidata實(shí)體。我們僅保留類(lèi)型為“地點(diǎn)”且具有有效地理坐標(biāo)(緯度、經(jīng)度)的實(shí)體,這些坐標(biāo)從Wikidata屬性P625中提取。
照片位置分配 從標(biāo)題中提取的地點(diǎn)實(shí)體并不總是表示照片位置,例如,它們也可能指代實(shí)體屬性(如“美國(guó)總統(tǒng)拜登”)。因此,我們對(duì)標(biāo)題進(jìn)行分詞,提取某些介詞(如“across”、“along”和“in”),這些介詞與地點(diǎn)提及結(jié)合時(shí)更可能指向照片位置。我們保留那些介詞與聲稱(chēng)的照片位置之間的距離最多為兩個(gè)詞元的樣本。此外,刪除具有多個(gè)唯一地點(diǎn)的樣本,確保每個(gè)樣本僅有一個(gè)聲稱(chēng)的照片位置。
位置豐富化 我們應(yīng)用反向地理編碼,使用Nominatim將約50,000個(gè)從標(biāo)題中提取的細(xì)粒度地點(diǎn)(如城市、道路、建筑物等)映射到城市。接下來(lái),我們從Wikidata中提取相關(guān)國(guó)家(屬性P17)、大洲(屬性P30)和地理坐標(biāo)(屬性P625)。
數(shù)據(jù)采樣 為了進(jìn)行手動(dòng)標(biāo)注,我們選擇了3,000個(gè)樣本來(lái)構(gòu)建測(cè)試數(shù)據(jù)集。為避免偏差,樣本選擇遵循以下原則:(1)涵蓋所有領(lǐng)域;(2)涵蓋所有大洲;(3)包括高人口城市(人口至少50萬(wàn))和中等人口城市(人口2萬(wàn)至50萬(wàn));(4)文本中至少提到三個(gè)唯一地點(diǎn);(5)正文中真實(shí)地點(diǎn)的提及次數(shù)不同。最后一點(diǎn)確保包含簡(jiǎn)單案例(真實(shí)地點(diǎn)頻繁提及)和復(fù)雜案例(文本中提到的多個(gè)地點(diǎn)頻率相近)。對(duì)于簡(jiǎn)單案例,僅利用命名實(shí)體頻率的文本方法即可實(shí)現(xiàn)高性能,而無(wú)需考慮圖像。基于復(fù)雜案例,我們可以分析圖像對(duì)多模態(tài)地理位置估計(jì)的直接影響。測(cè)試集的統(tǒng)計(jì)數(shù)據(jù)如圖2.2右側(cè)所示。從剩余樣本中,隨機(jī)選擇10%用于驗(yàn)證,其余用于訓(xùn)練。
2.3.1.2 數(shù)據(jù)注釋過(guò)程
我們?cè)敿?xì)解釋了用于測(cè)試集手動(dòng)標(biāo)注的指南,旨在使評(píng)估過(guò)程公平且透明。標(biāo)注過(guò)程中使用的具體指南可在我們的GitHub頁(yè)面5上找到。
地理代表性概念 對(duì)于照片地理位置估計(jì),地理代表性圖像描繪了有助于識(shí)別其位置的概念。我們將地理代表性概念分為兩類(lèi):**強(qiáng)概念**和**弱概念**。強(qiáng)概念是地點(diǎn)的唯一標(biāo)識(shí),例如圖像中出現(xiàn)的埃菲爾鐵塔可以明確地指向法國(guó)巴黎和歐洲大陸。弱概念則為一個(gè)或幾個(gè)特定地點(diǎn)提供線(xiàn)索,但本身證據(jù)不足。例如,某位總統(tǒng)是一個(gè)國(guó)家的標(biāo)識(shí),但他可能到訪多個(gè)地點(diǎn)。只有圖像中多個(gè)弱概念都指向同一地點(diǎn)時(shí),才能確定新聞?wù)掌牡乩砦恢谩@纾鄠€(gè)車(chē)牌或人群可以代表相應(yīng)的國(guó)家。如表2.1所示,我們基于以下八類(lèi)定義了強(qiáng)或弱視覺(jué)概念:建筑、服裝、事件、人群、自然景觀、物體、公眾人物和場(chǎng)景文本。
標(biāo)注問(wèn)題(Q) 給定一個(gè)圖像-標(biāo)題對(duì)及其鏈接的地點(diǎn),我們向每個(gè)標(biāo)注者提出以下問(wèn)題: Q1:這是一個(gè)有效樣本嗎?????
為了確定樣本是否適合用于識(shí)別照片地理位置,如果圖像是廣告、庫(kù)存照片、網(wǎng)頁(yè)、地圖或數(shù)據(jù)可視化,或者鏈接的地點(diǎn)錯(cuò)誤、不是地點(diǎn)或不是標(biāo)題中聲稱(chēng)的照片位置(見(jiàn)“照片位置分配”段落),則標(biāo)注者選擇“否”。否則,選擇“是”。
Q2:圖像中顯示了哪些弱概念和強(qiáng)概念?
標(biāo)注者選擇圖像中描繪的強(qiáng)概念或弱概念(表2.1)。
Q3:圖像中顯示了鏈接的城市(Q3.1)、國(guó)家(Q3.2)或大洲(Q3.3)嗎?
這些問(wèn)題旨在獲取不同粒度的真實(shí)地點(diǎn)。如果滿(mǎn)足以下條件之一,用戶(hù)選擇“是”:(1)至少一個(gè)強(qiáng)概念可見(jiàn);(2)單個(gè)弱概念高頻出現(xiàn)(例如多個(gè)車(chē)牌);(3)至少兩個(gè)不同的弱概念組合出現(xiàn);(4)提供了單個(gè)弱概念的有效證明(例如證明地點(diǎn)的網(wǎng)頁(yè))。否則,選擇“否”。如果選擇“是”,還需選擇置信度:“非常自信”、“自信”或“不自信”。
Q4:圖像的環(huán)境設(shè)置是什么?
用戶(hù)選擇以下類(lèi)別之一:“室內(nèi)”、“城市戶(hù)外”或“自然戶(hù)外”,以指示圖像的拍攝環(huán)境。
Q5:這是特寫(xiě)嗎?
由于特寫(xiě)圖像通常難以預(yù)測(cè)地點(diǎn),我們要求標(biāo)注者判斷圖像是否為特寫(xiě)。
Q6:你在回答Q3時(shí)是否需要外部資源?
最后一個(gè)問(wèn)題用于確定標(biāo)注者在回答Q3時(shí)是否需要外部資源。如果選擇“是”,我們要求標(biāo)注者提供相關(guān)鏈接。
標(biāo)注者培訓(xùn)
我們聘請(qǐng)了四名具有計(jì)算機(jī)科學(xué)背景的研究生進(jìn)行標(biāo)注工作,每小時(shí)支付10歐元(略高于2022年初德國(guó)的最低工資)。此外,三名專(zhuān)注于計(jì)算機(jī)視覺(jué)和多模態(tài)分析研究的專(zhuān)家(博士和博士后研究人員)也參與了標(biāo)注。所有標(biāo)注者均基于標(biāo)注指南5進(jìn)行了培訓(xùn)。我們使用100個(gè)樣本進(jìn)行了兩次試標(biāo)注,并討論了結(jié)果以完善指南。
標(biāo)注過(guò)程 標(biāo)注任務(wù)分為以下兩步進(jìn)行:
1. 樣本驗(yàn)證:所有標(biāo)注者被要求根據(jù)Q1驗(yàn)證3,000個(gè)樣本。通過(guò)多數(shù)投票,獲得了1,700個(gè)有效樣本。
2. 詳細(xì)標(biāo)注:對(duì)于每個(gè)有效樣本,三名標(biāo)注者對(duì)Q2至Q6進(jìn)行標(biāo)注,并通過(guò)多數(shù)投票選擇每個(gè)問(wèn)題中至少兩名標(biāo)注者達(dá)成一致的樣本。基于Q3.1至Q3.3的選定答案,我們獲得了最終標(biāo)注。對(duì)于所有問(wèn)題,答案應(yīng)為“是”,且置信度為“非常自信”或“自信”。如果至少兩名標(biāo)注者選擇“不自信”,則由專(zhuān)家重新標(biāo)注。最終,我們獲得了Q3.1、Q3.2和Q3.3的最終標(biāo)注,這些標(biāo)注對(duì)應(yīng)于圖像地理位置的粒度。這些粒度被轉(zhuǎn)化為測(cè)試數(shù)據(jù)的三個(gè)變體:Testcity、Testcountry和Testcontinent。請(qǐng)注意,更細(xì)粒度的樣本是更粗粒度樣本的子集。
標(biāo)注研究結(jié)果 我們使用Krippendorff’s alpha(Krippendorff,2011)計(jì)算了Q3的標(biāo)注者間一致性。城市、國(guó)家和大陸的一致性分別為0.41、0.41和0.51,我們認(rèn)為這些值處于低到中等水平。對(duì)Q4和Q5的回答表明,40.2%的圖像是特寫(xiě),37.7%是室內(nèi)圖像,這兩類(lèi)圖像通常描繪的弱地理代表性概念較少,對(duì)照片地理位置任務(wù)具有挑戰(zhàn)性。在49.7%的樣本中,標(biāo)注者需要外部資源(Q6)來(lái)判斷圖像是否顯示了鏈接地點(diǎn)。總體而言,這些數(shù)字表明該任務(wù)對(duì)人類(lèi)來(lái)說(shuō)具有難度,也解釋了Q3的中等標(biāo)注者一致性。
數(shù)據(jù)集統(tǒng)計(jì) MMG-NewsPhoto包含554,768個(gè)訓(xùn)練樣本、60,893個(gè)驗(yàn)證樣本和2,259個(gè)測(cè)試樣本(所有粒度的總和)。數(shù)據(jù)集涵蓋14,331個(gè)城市、241個(gè)國(guó)家和6個(gè)大洲。表2.2顯示了各大洲和前十名國(guó)家的數(shù)據(jù)分布。由于1,700個(gè)測(cè)試樣本(約57%)是有效的,我們假設(shè)訓(xùn)練集和驗(yàn)證集中有效樣本的比例相似。
2.3.2 MM-Locate-News數(shù)據(jù)集
本節(jié)介紹了一個(gè)名為**多模態(tài)新聞核心位置(MM-Locate-News)**的新數(shù)據(jù)集3。接下來(lái),我們將介紹數(shù)據(jù)收集和清理步驟(圖2.3),以及標(biāo)注過(guò)程和數(shù)據(jù)集統(tǒng)計(jì)信息。
2.3.2.1 數(shù)據(jù)集創(chuàng)建
數(shù)據(jù)收集 該數(shù)據(jù)集以弱監(jiān)督的方式收集。為了涵蓋來(lái)自六大洲的多種地點(diǎn),我們從Wikidata(Vrandecic和Kr?tzsch,2014)中提取了所有國(guó)家、首都、高人口城市和中等人口城市。對(duì)于每個(gè)地點(diǎn),我們使用EventRegistry4查詢(xún)2016年至2020年期間的事件,事件類(lèi)別包括體育、商業(yè)、環(huán)境、社會(huì)、健康和政治。需要注意的是,EventRegistry會(huì)自動(dòng)聚類(lèi)報(bào)道相同(或相似)事件的新聞文章,并且聚類(lèi)中心點(diǎn)的新聞標(biāo)題代表事件名稱(chēng)。為確保質(zhì)量,我們過(guò)濾掉名稱(chēng)中未包含地點(diǎn)的事件,或者其類(lèi)別相關(guān)性和查詢(xún)相關(guān)性得分低于每個(gè)查詢(xún)地點(diǎn)所有事件平均得分的事件。此步驟的直覺(jué)是,名稱(chēng)中提到地點(diǎn)的事件更可能提供聚焦于查詢(xún)地點(diǎn)的新聞文章。最后,我們從剩余的事件聚類(lèi)中提取所有新聞文章。
數(shù)據(jù)過(guò)濾 我們采用以下步驟去除不相關(guān)的樣本:
1. 命名實(shí)體-查詢(xún)地點(diǎn)匹配**:我們假設(shè)如果一篇文章至少與一個(gè)命名實(shí)體在地理上接近,則該文章與查詢(xún)地點(diǎn)相關(guān)。借鑒相關(guān)工作(Müller-Budack等,2021),我們使用spaCy(Honnibal等,2020)提取命名實(shí)體,并使用Wikifier(Brank等,2018)將其鏈接到Wikidata以進(jìn)行消歧。我們提取坐標(biāo)位置(Wikidata屬性P625),該屬性主要適用于地點(diǎn)(如地標(biāo)、城市或國(guó)家)。對(duì)于人物,我們提取出生地(Wikidata屬性P19),因?yàn)樗麄兛赡茉谙鄳?yīng)的國(guó)家(甚至城市)活動(dòng)。我們計(jì)算查詢(xún)地點(diǎn)的地理坐標(biāo)與提取的實(shí)體位置之間的大圓距離(GCD)。我們保留包含至少一個(gè)命名實(shí)體的新聞文章,這些實(shí)體的GCD與查詢(xún)地點(diǎn)的距離小于k√a,其中a是查詢(xún)地點(diǎn)的面積(Wikidata屬性P2046),k是第2.4.2節(jié)中定義的超參數(shù)。
2. 事件-新聞文章距離:EventRegistry中的每篇新聞文章都被分配了一個(gè)相似性度量,表示其與事件的接近程度。我們丟棄相似性低于同一聚類(lèi)中所有文章平均相似性的文章,以保留與相應(yīng)事件最相關(guān)的新聞文章。
3. 冗余去除:我們使用TF-IDF向量(詞頻-逆文檔頻率)計(jì)算新聞文章之間的相似性,并在相似性高于0.5時(shí)丟棄其中一篇文章以去除冗余。
4. 罕見(jiàn)地點(diǎn)過(guò)濾:在應(yīng)用過(guò)濾步驟1-3后,我們刪除了少于五篇文章的罕見(jiàn)地點(diǎn)(及相關(guān)文章),因?yàn)檫@些地點(diǎn)包含的文章數(shù)量太少,不適合訓(xùn)練。
數(shù)據(jù)集統(tǒng)計(jì) 我們總共查詢(xún)了853個(gè)地點(diǎn),并提取了13,143篇新聞文章。經(jīng)過(guò)數(shù)據(jù)清理步驟后,我們最終獲得了6,395篇新聞文章,涵蓋389個(gè)地點(diǎn)(237個(gè)城市和152個(gè)國(guó)家)。我們將MM-Locate-News數(shù)據(jù)集按地點(diǎn)均勻劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,如表2.3所示,大致比例為80:10:10(數(shù)據(jù)集樣本見(jiàn)圖2.1)。
2.3.2.2 數(shù)據(jù)標(biāo)注過(guò)程
數(shù)據(jù)標(biāo)注 數(shù)據(jù)集的測(cè)試集部分由人工標(biāo)注。標(biāo)注者根據(jù)表2.4中給出的三個(gè)標(biāo)準(zhǔn)(C1–C3),對(duì)給定的新聞文章及其圖像和查詢(xún)地點(diǎn)進(jìn)行標(biāo)注,提供“是”、“否”或“不確定”的標(biāo)簽。根據(jù)不同的答案,這些標(biāo)準(zhǔn)被轉(zhuǎn)化為不同版本的測(cè)試數(shù)據(jù),用于評(píng)估地理位置估計(jì)模型。在T1版本中,文本聚焦于查詢(xún)地點(diǎn);在T2版本中,圖像和文本都代表查詢(xún)地點(diǎn)。由于很難找到明確顯示查詢(xún)地點(diǎn)的圖像,我們創(chuàng)建了T3版本,其中標(biāo)注者不確定圖像是否顯示了地點(diǎn)。因此,在文本聚焦于地點(diǎn)且圖像與文本相關(guān)的情況下,我們假設(shè)圖像也顯示了該地點(diǎn)。
標(biāo)注者一致性 共有三名用戶(hù)對(duì)測(cè)試集進(jìn)行了標(biāo)注,每篇樣本由兩名用戶(hù)標(biāo)注。根據(jù)Krippendorff’s alpha(Krippendorff,2011),標(biāo)準(zhǔn)C1、C2和C3的標(biāo)注者間一致性分別為0.44、0.38和0.55。盡管一致性得分相對(duì)中等,但我們注意到百分比一致性較高:C2和C3為80%,C1為66.6%。這是由于標(biāo)注者對(duì)所有標(biāo)準(zhǔn)的答案傾向于“是”導(dǎo)致的。
2.4 新聞?wù)掌亩嗄B(tài)地理位置估計(jì)
我們將新聞?wù)掌亩嗄B(tài)地理位置估計(jì)定義為一個(gè)分類(lèi)任務(wù),其中照片位置基于視覺(jué)內(nèi)容和伴隨正文的上下文信息進(jìn)行預(yù)測(cè)。對(duì)于某一粒度g(例如城市、國(guó)家或大洲),數(shù)據(jù)集中可用的|Cg|個(gè)地點(diǎn)被視為目標(biāo)類(lèi)別。|Cg|維的獨(dú)熱編碼向量yg = [y1, y2, ..., y|Cg|] ∈ {0, 1}|Cg|表示真實(shí)地點(diǎn)。在本節(jié)的剩余部分,我們定義了從最先進(jìn)方法中提取的特征,并描述了多模態(tài)架構(gòu)和損失函數(shù)。
文本特征 我們使用預(yù)訓(xùn)練的語(yǔ)言模型BERT(Bidirectional Encoder Representations from Transformers,Devlin等,2019)從新聞文章的正文中提取兩種不同類(lèi)型的文本特征,每種特征的維度均為768。
1. 全局上下文特征:我們平均每個(gè)句子的BERT嵌入,生成一個(gè)單一向量B-Bd ∈ R768,以編碼全局上下文信息。
2. 實(shí)體中心特征:為了創(chuàng)建實(shí)體中心嵌入(記為B-Et ∈ R768),我們借鑒相關(guān)工作(Müller-Budack等,2021),結(jié)合spaCy(Honnibal等,2020)和Wikifier(Brank等,2018)將地點(diǎn)、人物和事件實(shí)體鏈接到Wikidata。基于這些實(shí)體的Wikidata標(biāo)簽提取其BERT嵌入。最后,我們計(jì)算實(shí)體向量的平均值,同時(shí)考慮同一實(shí)體的多次提及,因?yàn)檫@些提及可能對(duì)照片的地理位置更為重要。
視覺(jué)特征 為了表示地理代表性的視覺(jué)概念,我們依賴(lài)于CLIP(Contrastive Language-Image Pretraining,Radford等,2021)。我們使用ViT-B/32圖像編碼器提取512維特征,記為。
網(wǎng)絡(luò)架構(gòu) 在我們提出的模型架構(gòu)中,我們的目標(biāo)是結(jié)合文本和視覺(jué)特征來(lái)預(yù)測(cè)不同粒度(即城市、國(guó)家和大陸級(jí)別)的照片地理位置。由于視覺(jué)和文本特征的維度不同,我們首先使用le個(gè)全連接(FC)層對(duì)每個(gè)特征向量進(jìn)行編碼,每層包含ne個(gè)神經(jīng)元。接下來(lái),我們將這些嵌入連接起來(lái),并將其輸入lo個(gè)輸出FC層。在隱藏輸出層中,我們使用no個(gè)神經(jīng)元,而在最后的輸出層中,神經(jīng)元的數(shù)量對(duì)應(yīng)于給定粒度g的地點(diǎn)數(shù)量|Cg|。為了利用層次信息,我們?yōu)槌鞘小?guó)家和大陸級(jí)別分別使用獨(dú)立的分類(lèi)器,輸出概率,|Ccontinent| = 6。請(qǐng)注意,除使用softmax的最后一層輸出層外,所有層均使用ReLU(Rectified Linear Unit)激活函數(shù)(Nair和Hinton,2010)。更多細(xì)節(jié)可在GitHub5上找到。
損失函數(shù) 為了聚合粒度分類(lèi)器并突出層次屬性,我們構(gòu)建了以下多任務(wù)學(xué)習(xí)損失函數(shù):
其中,λg 是訓(xùn)練過(guò)程中為不同粒度學(xué)習(xí)的相對(duì)權(quán)重,通過(guò)整合對(duì)數(shù)標(biāo)準(zhǔn)差來(lái)考慮損失之間的量級(jí)差異。對(duì)于單個(gè)粒度 g ∈ {城市, 國(guó)家, 大陸},交叉熵?fù)p失 Lg 的定義如下(公式 2.2)。
2.4.1 實(shí)驗(yàn)設(shè)置
本節(jié)介紹了在MMG-NewsPhoto數(shù)據(jù)集和BreakingNews(Ramisa等,2018)數(shù)據(jù)集上的實(shí)驗(yàn)設(shè)置以及不同架構(gòu)的比較。
評(píng)估指標(biāo) 我們使用預(yù)測(cè)位置與真實(shí)位置的地理坐標(biāo)之間的大圓距離(GCD)作為評(píng)估指標(biāo),并在幾個(gè)可容忍誤差半徑下進(jìn)行測(cè)量(Hays和Efros,2008)。對(duì)于城市、國(guó)家和大陸,這些半徑值分別為25公里、200公里和2,500公里。此外,我們還測(cè)量了Accuracy@k,該指標(biāo)表示真實(shí)位置是否在模型預(yù)測(cè)的前k個(gè)結(jié)果中。
超參數(shù)設(shè)置 為了提取文本特征,我們將文本限制為500個(gè)詞元。我們?cè)O(shè)置全連接(FC)層的數(shù)量為le = 2和lo = 2,并選擇ne = 1,024和no = 512個(gè)神經(jīng)元。單任務(wù)學(xué)習(xí)模型變體(用stl表示)使用單一粒度g進(jìn)行優(yōu)化,而其余模型則使用公式(2.1)中提出的多任務(wù)損失來(lái)學(xué)習(xí)層次化地理信息。
基線(xiàn)模型 我們將我們的模型與以下基線(xiàn)模型進(jìn)行比較。需要注意的是,我們沒(méi)有對(duì)這些模型進(jìn)行微調(diào),而是使用了它們的官方模型或?qū)崿F(xiàn)。
2.4.2 MMG-NewsPhoto數(shù)據(jù)集上的結(jié)果
單模態(tài)模型的比較 如表2.5所示,在視覺(jué)模型方面,CLIPi顯著優(yōu)于基線(xiàn)模型base(M, f ?)(Müller-Budack等,2018)。在文本模型方面,B-Bd ⊕ B-Et優(yōu)于單獨(dú)的特征。這表明上下文信息以及命名實(shí)體及其頻率在新聞?wù)掌牡乩砦恢霉烙?jì)中起著至關(guān)重要的作用。表2.7報(bào)告了Accuracy@k的結(jié)果,顯示CLIPi視覺(jué)模型在國(guó)家和大陸級(jí)別上表現(xiàn)優(yōu)異,但在城市級(jí)別上,CLIPi(stl)略勝一籌。在文本模型中,B-Bd ⊕ B-Et在國(guó)家和大陸級(jí)別上優(yōu)于其他模型,但在城市級(jí)別上并未顯著優(yōu)于B-Bd ⊕ B-Et(stl)(表2.6)。
多模態(tài)模型的比較 如表2.5所示,最佳單模態(tài)特征的組合CLIPi ⊕ B-Bd ⊕ B-Et在所有粒度級(jí)別上均顯著優(yōu)于其他模型。關(guān)于Accuracy@k,表2.7也證實(shí)了相同的結(jié)果。對(duì)于多任務(wù)設(shè)置,它在所有粒度上都有效。總之,從較大粒度級(jí)別傳播的層次信息不僅提高了較小粒度(如城市)的性能,還提高了國(guó)家和大陸級(jí)別的性能。
不同領(lǐng)域的比較 圖2.4右側(cè)展示了不同模型在各個(gè)領(lǐng)域上的Accuracy@1表現(xiàn)。如圖所示,多模態(tài)模型在大多數(shù)領(lǐng)域中表現(xiàn)最佳。在金融、健康和體育等領(lǐng)域,視覺(jué)模型優(yōu)于文本模型。在電視節(jié)目和世界領(lǐng)域,添加視覺(jué)信息并沒(méi)有幫助;而在健康領(lǐng)域,額外的文本信息對(duì)性能沒(méi)有顯著影響。
不同概念的比較 圖2.4左側(cè)展示了每個(gè)概念(見(jiàn)表2.1)的Accuracy@1表現(xiàn)。如圖所示,所提出的多模態(tài)模型在除公眾人物和人群之外的所有概念上均優(yōu)于其他模型。此外,基于多模態(tài)模型,事件概念的表現(xiàn)最差,而場(chǎng)景文本的表現(xiàn)最佳。
定性結(jié)果 圖2.56展示了不同模型的結(jié)果。正如預(yù)期的那樣,當(dāng)圖像中僅包含弱地理代表性概念時(shí),視覺(jué)模型會(huì)失敗(圖2.5a)。然而,在以下情況下,視覺(jué)模型能夠成功:(1)存在強(qiáng)概念(如圖2.5b中的地標(biāo));(2)弱概念高頻出現(xiàn),例如圖2.5d中的士兵。文本模型在以下情況下會(huì)失敗:(1)未提及相關(guān)地點(diǎn)(圖2.5b);(2)提及了各種不相關(guān)的實(shí)體,例如圖2.5d中的美國(guó)。正如預(yù)期的那樣,如果文本中提到了許多與地點(diǎn)相關(guān)的實(shí)體,文本模型會(huì)成功(圖2.5a,c)。當(dāng)文本提到許多與圖像無(wú)關(guān)的主題時(shí),多模態(tài)模型會(huì)失敗(圖2.5d)。相反,在以下任一條件下,多模態(tài)模型能夠成功:(1)文本提供了豐富的信息(包括實(shí)體和內(nèi)容),例如圖2.5a,c;(2)圖像展示了強(qiáng)視覺(jué)概念,例如圖2.5b。
2.4.3 BreakingNews數(shù)據(jù)集上的結(jié)果
盡管BreakingNews(Ramisa等,2018)提供的地理位置可能不準(zhǔn)確(如第2.1節(jié)所述),我們?nèi)栽谠摂?shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)以進(jìn)行比較。BreakingNews包含33,376個(gè)訓(xùn)練樣本、11,209個(gè)驗(yàn)證樣本和10,580個(gè)測(cè)試樣本。Ramisa等(2018)將該任務(wù)視為回歸問(wèn)題,其模型輸出地理坐標(biāo)。在我們的實(shí)驗(yàn)中,我們將該問(wèn)題作為分類(lèi)任務(wù)處理,以預(yù)測(cè)特定的城市、國(guó)家或大陸。因此,我們基于大圓距離(GCD)將地理坐標(biāo)映射到MMG-NewsPhoto中最接近的城市、國(guó)家和大陸類(lèi)別。表2.6展示了我們提出的模型與BreakingNews(縮寫(xiě)為BN,Ramisa等,2018)方法的比較。比較基于平均和中位數(shù)的GCD值(Ramisa等,2018)。我們?cè)趦煞N設(shè)置下評(píng)估了我們的方法。在零樣本設(shè)置中,模型在MMG-NewsPhoto上訓(xùn)練并在BreakingNews上測(cè)試,無(wú)需進(jìn)一步優(yōu)化。在第二種配置中,我們?cè)贛MG-NewsPhoto上表現(xiàn)最佳的模型在BreakingNews上進(jìn)行了微調(diào)和測(cè)試。B-Bd ⊕ B-Et模型在零樣本設(shè)置中具有最低的中位數(shù)值(470公里),優(yōu)于VGG19 + Places + W2V矩陣(Ramisa等,2018)(880公里)。總體而言,比較結(jié)果證實(shí)了將所提出的模型應(yīng)用于未見(jiàn)樣本的可行性。在第二種設(shè)置(MMG → BN)中,CLIPi ⊕ B-Bd ⊕ B-Et在所有BreakingNews基線(xiàn)上表現(xiàn)最佳,中位數(shù)值降低了180-380公里。正如觀察到的,我們的模型在中位數(shù)指標(biāo)上表現(xiàn)更好,即我們的模型對(duì)大多數(shù)樣本表現(xiàn)更優(yōu)。
2.5 新聞的多模態(tài)核心位置估計(jì)
2.5.1 實(shí)驗(yàn)設(shè)置
在本節(jié)中,我們報(bào)告了實(shí)驗(yàn)結(jié)果,包括使用GCD評(píng)估指標(biāo)(第2.4.1節(jié))在MM-Locate-News數(shù)據(jù)集(第2.3.2節(jié))上與最先進(jìn)方法的比較。
對(duì)比系統(tǒng) 我們基于特征模態(tài)評(píng)估了所提出模型的不同組合。我們還與兩種流行的基于文本的方法(Cliff-clavin,D’Ignazio等,2014;Mordecai,Halterman,2018)和一種基于圖像的最先進(jìn)模型(ISNs,Individual Scene Networks,Müller-Budack等,2018)進(jìn)行了比較。
2.5.2 MM-Locate-News數(shù)據(jù)集上的結(jié)果
結(jié)果如表2.8所示,并在下文討論。
文本模型 對(duì)于較小的GCD閾值(特別是城市和區(qū)域),在T2中,B-Et ⊕ B-Bd組合提高了性能;而在T1和T3中,B-Et模型提供了最佳結(jié)果。單獨(dú)使用時(shí),B-Et比B-Bd的影響更大,這表明命名實(shí)體及其頻率在預(yù)測(cè)新聞核心位置中起著至關(guān)重要的作用。雖然Mordecai和Cliff-clavin分別在T1和T3的國(guó)家和大陸級(jí)別上取得了最佳結(jié)果,但與我們的模型相比,這些基線(xiàn)在更細(xì)粒度級(jí)別上要么不適用(Mordecai),要么表現(xiàn)較差(Cliff-clavin)。
視覺(jué)模型 結(jié)果表明,CLIPi在所有測(cè)試變體中表現(xiàn)良好,在T1和T3上提供了最佳結(jié)果,并且與場(chǎng)景特征(Sc ⊕ CLIPi)和地點(diǎn)特征(Lo ⊕ Sc ⊕ CLIPi)的組合可以進(jìn)一步提高結(jié)果。專(zhuān)門(mén)為照片地理定位訓(xùn)練的ISNs在T2上表現(xiàn)優(yōu)異,因?yàn)門(mén)2中的圖像描繪了查詢(xún)地點(diǎn)并提供了足夠的地理線(xiàn)索。與CLIPi不同,ISNs在其他測(cè)試變體上泛化能力較差。
多模態(tài)模型 與單模態(tài)模型相比,CLIPi與多模態(tài)信息的組合在所有測(cè)試數(shù)據(jù)變體和距離閾值上顯著提高了結(jié)果。盡管我們的視覺(jué)模型在T2中未能超越ISNs,但當(dāng)與文本特征(Lo ⊕ Sc ⊕ B-Bd ⊕ B-Et)結(jié)合時(shí),結(jié)果顯著改善。這些結(jié)果表明,多模態(tài)架構(gòu)對(duì)新聞核心位置估計(jì)是有益的。
2.6 信息檢索
在本節(jié)中,我們簡(jiǎn)要回顧了新聞檢索領(lǐng)域中提出的多種方法。討論的核心是強(qiáng)調(diào)新聞文章中地理信息的重要性。這些地理數(shù)據(jù)通常在定制和優(yōu)化檢索過(guò)程中起著關(guān)鍵作用。此外,我們研究了從新聞?wù)掌驼闹刑崛〉亩嗄B(tài)信息如何增強(qiáng)檢索任務(wù)。
2.6.1 GeoWINE:基于地理位置的維基、圖像、新聞和事件檢索
提出的GeoWINE(Tahmasebzadeh等,2021)是一個(gè)基于地理位置的多模態(tài)檢索系統(tǒng),包含五個(gè)模塊(見(jiàn)圖2.6)。給定一張圖像作為輸入,它首先應(yīng)用最先進(jìn)的地理位置估計(jì)模型,從Wikidata(Vrandecic和Kr?tzsch,2014)、EventRegistry4和OEKG(Gottschalk等,2021)中檢索數(shù)據(jù)。地理位置估計(jì)模型預(yù)測(cè)輸入圖像的坐標(biāo)。第二個(gè)模塊在Wikidata上執(zhí)行地理空間查詢(xún),以檢索距離預(yù)測(cè)坐標(biāo)不超過(guò)指定半徑的所有特定類(lèi)型的實(shí)體。這里,實(shí)體類(lèi)型和半徑作為系統(tǒng)的輸入。第三個(gè)模塊利用從地理位置估計(jì)和地點(diǎn)識(shí)別任務(wù)中派生的三種不同的圖像嵌入表示,以及用于圖像分類(lèi)的ImageNet模型。這些嵌入用于對(duì)與輸入圖像最相似的實(shí)體進(jìn)行排序。最后兩個(gè)模塊從EventRegistry和OEKG中檢索相似的新聞和事件。
評(píng)估 我們?cè)贕oogle Landmarks數(shù)據(jù)集(Weyand等,2020)上評(píng)估了GeoWINE,其在預(yù)測(cè)查詢(xún)圖像的實(shí)體標(biāo)簽方面表現(xiàn)良好。GeoWINE通過(guò)簡(jiǎn)潔直觀的用戶(hù)界面(UI)和交互式響應(yīng)時(shí)間,使用戶(hù)能夠檢索與圖像相關(guān)的實(shí)體、新聞和事件。據(jù)我們所知,這是第一個(gè)公開(kāi)且開(kāi)源的基于地理位置的多模態(tài)檢索演示,支持多種數(shù)據(jù)源。為了促進(jìn)可重復(fù)性和重用,所有材料均已公開(kāi)7。
局限性 盡管GeoWINE在地標(biāo)照片的地理定位方面取得了令人矚目的成果,但其在預(yù)測(cè)具有新聞特征的文檔中照片位置的效果可能有限。為了改進(jìn)新聞?lì)I(lǐng)域的地理定位和檢索任務(wù),地理位置估計(jì)模塊可以替換為結(jié)合視覺(jué)特征和文本信息的多模態(tài)方法,特別是針對(duì)新聞?wù)掌O(shè)計(jì)的模型,如第2.4節(jié)和第2.5節(jié)中提出的方法。
2.6.2 多模態(tài)新聞檢索
Tahmasebzadeh等(2020)提出了一種基于零樣本的新聞檢索系統(tǒng),該系統(tǒng)使用了第2.5節(jié)中介紹的各種視覺(jué)和文本特征。檢索任務(wù)應(yīng)用于一個(gè)包含英語(yǔ)和德語(yǔ)新聞文檔的數(shù)據(jù)集,分別有348和263個(gè)樣本,涵蓋多個(gè)領(lǐng)域。
評(píng)估 實(shí)驗(yàn)結(jié)果表明,在英語(yǔ)新聞中,盡管視覺(jué)特征并不優(yōu)于文本特征,但它們幫助文本特征在環(huán)境和健康等領(lǐng)域提高了整體性能(見(jiàn)表2.9中的T ⊕ V列)。另一方面,在政治和金融領(lǐng)域,文本特征優(yōu)于視覺(jué)特征和組合特征。原因之一是這些領(lǐng)域的照片內(nèi)容在地點(diǎn)、地理位置或物體方面并不顯著。另一個(gè)原因是與照片相比,文本內(nèi)容更為豐富。由于這兩個(gè)領(lǐng)域涉及非常具體的事件,如大眾排放丑聞和希臘政府債務(wù)危機(jī),文本中存在的特定實(shí)體使得實(shí)體重疊特征優(yōu)于其他四種特征類(lèi)型,包括所有視覺(jué)特征。
局限性 總體而言,實(shí)驗(yàn)結(jié)果證實(shí)了視覺(jué)和文本特征的結(jié)合可以增強(qiáng)新聞檢索任務(wù)。然而,在使用高級(jí)視覺(jué)描述符來(lái)表征新聞圖像的視覺(jué)內(nèi)容方面仍存在差距,特別是在金融和政治等領(lǐng)域。利用能夠識(shí)別照片中特定人物的面部檢測(cè)器可能會(huì)帶來(lái)益處,尤其是在這些新聞?lì)I(lǐng)域的圖像中經(jīng)常出現(xiàn)重要人物的情況下。
2.7 局限性與未來(lái)工作
在本章中,我們介紹了用于提取新聞文檔地理位置的各種數(shù)據(jù)集和多模態(tài)方法(第2.5節(jié)和第2.4節(jié))。此外,我們強(qiáng)調(diào)了地理定位在信息檢索中的潛力(第2.6.1節(jié)和第2.6.2節(jié))。
視覺(jué)特征 我們使用了多種圖像描述符(如CLIPi、場(chǎng)景、地點(diǎn)和物體)來(lái)表示照片。所有這些描述符都為整張照片提供了一個(gè)特征向量作為通用表示。為了獲得更好的多模態(tài)表示,能夠?qū)⒄掌母鱾€(gè)方面與文本匹配,可以表示新聞?wù)掌械膫€(gè)體概念,如人物、事件類(lèi)型和物體。此外,可以從照片中提取結(jié)構(gòu)化特征,例如表示事件參數(shù)關(guān)系的場(chǎng)景圖。
文本特征 在文本特征方面,我們依賴(lài)于spaCy(Honnibal等,2020)、Wikifier(Brank等,2018)和BERT(Devlin等,2019)嵌入來(lái)提取兩種類(lèi)型的特征B-Bd和B-Et,每種類(lèi)型作為一個(gè)單一向量。為了增強(qiáng)新聞?wù)牡谋硎荆梢园ㄍ獠恐R(shí),如知識(shí)圖譜信息(例如實(shí)體類(lèi)型、事件參數(shù)、事件日期)。此外,來(lái)自圖像和/或文本的上下文信息(如事件參數(shù)和角色、新聞主題和情感)可能對(duì)新聞檢索非常有影響。
多語(yǔ)言性 目前,所提出的多模態(tài)地理位置估計(jì)模型僅限于英語(yǔ)。為了推廣到更多語(yǔ)言,需要在系統(tǒng)中集成命名實(shí)體識(shí)別工具以及相應(yīng)語(yǔ)言的文本編碼器。或者,可以集成文本翻譯工具,將任何語(yǔ)言的輸入文本轉(zhuǎn)換為英語(yǔ)。
應(yīng)用 我們介紹了利用照片地理定位的信息檢索系統(tǒng)(Tahmasebzadeh等,2021,2020)。作為未來(lái)的方向,可以研究新聞文檔地理定位在新聞?lì)I(lǐng)域各種任務(wù)中的影響,例如假新聞檢測(cè)或基于位置需求的新聞推薦。另一方面,所提出的照片地理定位系統(tǒng)可以集成到OEKG(Gottschalk等,2021)中,例如通過(guò)相應(yīng)的圖像擴(kuò)展節(jié)點(diǎn),或基于地理位置將視覺(jué)上相似的實(shí)體連接到節(jié)點(diǎn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.