NLP技術(shù)落地最普遍的場(chǎng)景就是智能客服,如阿里的”小蜜“,京東的“JIMI”等等。NLP 技術(shù)也廣泛應(yīng)用于搜索系統(tǒng)。無(wú)論是“智能客服”,還是“搜索系統(tǒng)”,構(gòu)建的前提是擁有“高質(zhì)量的QA知識(shí)庫(kù)”。今天聊聊“如何構(gòu)建高質(zhì)量QA知識(shí)庫(kù)。
歷史對(duì)話數(shù)據(jù)分布分析。
基于公司現(xiàn)有系統(tǒng)積累的大規(guī)模對(duì)話文本數(shù)據(jù),需要對(duì)文本數(shù)據(jù)進(jìn)行歸類處理,分析每個(gè)部分?jǐn)?shù)據(jù)的占比,挖掘出有價(jià)值的文本通過(guò) NLP 相關(guān)技術(shù)進(jìn)行商業(yè)價(jià)值轉(zhuǎn)化。下文以醫(yī)療領(lǐng)域來(lái)舉例說(shuō)明,通過(guò)輸入對(duì)象,可以將文本分為客服輸入和用戶輸入兩部分。挖掘相關(guān)問(wèn)題,主要從用戶輸入文本出發(fā),用戶輸入文本根據(jù)問(wèn)題的類型大致可以分為以下幾種):
- 基本常識(shí)相關(guān)問(wèn)題。比如:孕婦飲食需要注意什么?如何進(jìn)行體檢預(yù)約?
- 業(yè)務(wù)相關(guān)問(wèn)題。比如:(婦科問(wèn)診)肚子疼怎么辦?針對(duì)該問(wèn)題,醫(yī)生不能盲目下結(jié)論,需要詢問(wèn)用戶的一些信息(是否孕期,具體哪里痛等等)。
- 閑聊問(wèn)題。閑聊文本占比蠻多,不在分析范圍內(nèi)。
通過(guò)文本歸納以及數(shù)據(jù)分析,在用戶輸入文本中,基本問(wèn)題占比34%,業(yè)務(wù)問(wèn)題占比28%,閑聊問(wèn)題占比48%。基本問(wèn)題和業(yè)務(wù)問(wèn)題是具有價(jià)值的部分,通過(guò)挖掘基本問(wèn)題,我們可以構(gòu)建知識(shí)庫(kù),提供知識(shí)問(wèn)答檢索系統(tǒng);通過(guò)挖掘業(yè)務(wù)問(wèn)題,可以設(shè)計(jì)業(yè)務(wù)相關(guān)的多輪對(duì)話模板,完成多輪對(duì)話問(wèn)答系統(tǒng)。
基本問(wèn)答對(duì)挖掘。
基本問(wèn)答對(duì)挖掘分為兩個(gè)步驟第一步:挖掘出高質(zhì)量的疑問(wèn)句,第二步:挖掘出高質(zhì)量疑問(wèn)句對(duì)應(yīng)的答案。
如何挖掘出高質(zhì)量疑問(wèn)句。
1、問(wèn)題的初步篩選:需要將用戶文本中疑問(wèn)句挖掘出來(lái),方法包括規(guī)則表達(dá)式和疑問(wèn)句判別分類模型。
- 規(guī)則表達(dá)式:發(fā)現(xiàn)中文問(wèn)句的表達(dá)規(guī)律,建立規(guī)則表達(dá)式庫(kù),通過(guò)規(guī)則引擎進(jìn)行匹配。比如以“嗎、?什么”等結(jié)尾的句子。
- 疑問(wèn)句判別分類模型:將疑問(wèn)句挖掘轉(zhuǎn)換為分類模型:即疑問(wèn)句和非疑問(wèn)句,通過(guò)人工標(biāo)注數(shù)據(jù),訓(xùn)練模型,完成疑問(wèn)句判別任務(wù)。常用的分類模型如TextCNN等。
2、領(lǐng)域詞——問(wèn)題過(guò)濾:通過(guò)問(wèn)句是否含有領(lǐng)域詞完成第 1 步知識(shí)庫(kù)的過(guò)濾。領(lǐng)域詞庫(kù)的建立可以使用如下方法:
- 卡方特征選擇提取領(lǐng)域詞。
- 命名實(shí)體識(shí)別模型完成領(lǐng)域詞的抽取。常用方法:BILSTM+CRF等。
3、相似疑問(wèn)句的挖掘。
- 聚類分析,挖掘相似的疑問(wèn)句。
- 句子向量相似度分析
- 答案相似,也可以認(rèn)為問(wèn)題是相似問(wèn)題。
接下來(lái)我們舉個(gè)例子來(lái)說(shuō)明上述挖掘高質(zhì)量疑問(wèn)句的方法,假設(shè)領(lǐng)域詞集合:{腹痛},用戶輸入的文本集合如下:
- 1、腹痛如何治療?
- 2、我能不能退貨?
- 3、肚子疼怎么辦呀
- 4、我已經(jīng)完成了訂單支付。
通過(guò)第 1 步,獲取的問(wèn)句如下(第 4 句不是疑問(wèn)句):
- 1、腹痛如何治療?
- 2、我能不能退貨?
- 3、肚子疼怎么辦呀?
通過(guò)第 2 步,獲取的問(wèn)句如下(第 2、3 句不含有領(lǐng)域詞)
- 1、腹痛如何治療?
通過(guò)第 3 步,聚類分析,可以發(fā)現(xiàn)第 1 句 和第 3 句是相似的。
- 1、腹痛如何治療?
- 3、肚子疼怎么辦呀?
- 最終完成問(wèn)句庫(kù)的建立即“腹痛如何治療?”對(duì)應(yīng)的疑問(wèn)句“肚子疼怎么辦呀”。
高質(zhì)量疑問(wèn)答案選擇。
1、問(wèn)答拼接。將疑問(wèn)句對(duì)應(yīng)客服的陳述句作為答案。如果答案長(zhǎng)度較短,則按照“就近”原則拼接2-3個(gè)陳述句作為答案。客服回答問(wèn)題,可能針對(duì)一個(gè)問(wèn)題通過(guò)多個(gè)字句進(jìn)行回答,所以按照“就近”原則將陳述句進(jìn)行拼接。 2、問(wèn)答對(duì)篩選。針對(duì)第 1 步挖掘出來(lái)的QA對(duì),通過(guò)判斷Q和A中是否包含相同的領(lǐng)域詞或者是否擁有相同的子串等策略,完成問(wèn)答對(duì)的篩選。 3、同類問(wèn)題如果擁有多種不同的答案,則保留高頻答案。4、運(yùn)營(yíng)人員協(xié)助,完成 QA 知識(shí)庫(kù)的質(zhì)檢。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.