領(lǐng)域知識融合與共建研究-AET-電子技術(shù)應(yīng)用

領(lǐng)域知識融合與共建研究

2019年電子技術(shù)應(yīng)用第12期

楊維

國家電網(wǎng)客服中心信息技術(shù)部，天津300000

摘要： 為建設(shè)國家電網(wǎng)客戶服務(wù)中心的智能對話系統(tǒng)，需要從大量文檔、知識庫、對話等數(shù)據(jù)中提煉知識形成知識圖譜，提出一種融合事實(shí)圖譜和事理圖譜的新型知識圖譜框架，能夠基于多源異構(gòu)數(shù)據(jù)共建新型知識圖譜，在國網(wǎng)領(lǐng)域精準(zhǔn)問答、客服系統(tǒng)知識支撐、對話管理引導(dǎo)、知識推理等方面均有較好性能。融合后的圖譜及應(yīng)用系統(tǒng)在國網(wǎng)客服中心問答平臺中投入使用，大幅提升了客服人員工作效率和服務(wù)質(zhì)量。

關(guān)鍵詞： 知識圖譜事理圖譜對話系統(tǒng)

中圖分類號： TN711；TP311
文獻(xiàn)標(biāo)識碼： A
DOI：10.16157/j.issn.0258-7998.191130
中文引用格式： 楊維. 領(lǐng)域知識融合與共建研究[J].電子技術(shù)應(yīng)用，2019，45(12)：47-50.
英文引用格式： Yang Wei. Domain knowledge fusion and knowledge co-construction research[J]. Application of Electronic Technique，2019，45(12)：47-50.

Domain knowledge fusion and knowledge co-construction research

Yang Wei

IT Department，State Grid Customer Service Center，Tianjin 300000，China

Abstract： In order to serve the customer service intelligent dialogue system of the State Grid Customer Service Center, it is necessary to extract knowledge from a large number of documents and traditional knowledge base as well as dialog data. This paper proposes a new knowledge graph framework that integrates fact graph and event evolutionary graph, which can be based on multiple sourcea data. The constructed knowledge graph has good performance in the vertical domain of accurate question and answer, customer service system knowledge support, dialogue management guidance, knowledge reasoning and so on. New knowledge graph was put into use in the customer service center question and answer system, which changed the working mode of the customer service and greatly improved efficiency of the customer service.

Key words : knowledge graph；event evolutionary graph；dialogue system

0 引言

近年來，隨著人工智能和自然語言處理方法的研究進(jìn)一步深入和應(yīng)用進(jìn)一步落地，基于知識圖譜的對話系統(tǒng)及其衍生應(yīng)用在越來越多的場景中開始發(fā)揮其作用。國家電網(wǎng)客服中心的人工智能研究中心AI Lab成立后，也就國網(wǎng)客服的相關(guān)場景做了很多知識圖譜和對話系統(tǒng)的相關(guān)研究。當(dāng)前國網(wǎng)客服對話面臨的最大的困難即為傳統(tǒng)知識圖譜構(gòu)建方法和架構(gòu)均需大量相關(guān)優(yōu)質(zhì)數(shù)據(jù)支撐，而在實(shí)際生產(chǎn)情況下，只存在大量非結(jié)構(gòu)化、清洗困難的異構(gòu)數(shù)據(jù)。如何組織和處理這些數(shù)據(jù)就成為了國網(wǎng)客服的知識圖譜構(gòu)建和對話系統(tǒng)建立的關(guān)鍵挑戰(zhàn)。

在解決痛點(diǎn)前，先要明確基于國網(wǎng)客服中心的對話系統(tǒng)^[1]和知識圖譜的核心需求。在設(shè)計(jì)知識圖譜的架構(gòu)時(shí)，本文考慮了對話類應(yīng)用對知識圖譜^[2]的下述需求：

(1)實(shí)例關(guān)聯(lián)需求：即語義解析獲得了相關(guān)解析結(jié)果后能夠?qū)⒔馕鼋Y(jié)果和圖譜中相應(yīng)實(shí)體、屬性、關(guān)系等建立映射關(guān)系并消歧；

(2)答案獲取需求：即根據(jù)相應(yīng)實(shí)例、關(guān)系和屬性等查詢相應(yīng)值和答案；

(3)邏輯推理需求：即基于已知語義信息，根據(jù)推理邏輯規(guī)則獲取精準(zhǔn)語義推理或運(yùn)算結(jié)果；

(4)指導(dǎo)對話管理需求：即根據(jù)已知語義信息反哺對話管理，基于靜態(tài)的對話策略和動態(tài)的知識內(nèi)容產(chǎn)生動態(tài)、可變化的圖譜對話。

前兩個(gè)需求在傳統(tǒng)KBQA^[3]的相關(guān)研究中，基于RDF/OWL標(biāo)準(zhǔn)的事實(shí)圖譜，業(yè)界一般稱為知識圖譜，但由于本文需要區(qū)分和融合，根據(jù)其特征稱為事實(shí)圖譜。事實(shí)圖譜已經(jīng)被大量的研究證實(shí)了其可用性和實(shí)用性，然而這種類型的圖譜對推理和指導(dǎo)對話管理的支持性能上均由于其本身知識組織形式的局限性，需要額外人工設(shè)計(jì)大量的規(guī)則，且由于基于預(yù)設(shè)好的邏輯規(guī)則，在靈活性和普適性上都很難有較好的表現(xiàn)。因此大數(shù)據(jù)時(shí)代以來，很多研究從數(shù)據(jù)出發(fā)，基于自底向上的思路，從實(shí)際圖譜推理和應(yīng)用的角度做了一些探索，提出了依托事件挖掘算法構(gòu)建的事理圖譜，并利用事理圖譜的相關(guān)架構(gòu)在金融、法律等領(lǐng)域?qū)崿F(xiàn)了一些應(yīng)用，有很不錯(cuò)的表現(xiàn)，得到了業(yè)內(nèi)研究人員的高度認(rèn)可。但也不得不承認(rèn)，由于其本身基于統(tǒng)計(jì)學(xué)習(xí)算法、概率分布計(jì)算關(guān)系概率，且以抽象泛化后的事理為元數(shù)據(jù)，因此，實(shí)例映射、消歧和答案獲取等功能的精準(zhǔn)性和可解釋性就遠(yuǎn)低于事實(shí)圖譜。因此，本文從目標(biāo)應(yīng)用即垂直領(lǐng)域任務(wù)型對話的角度出發(fā)，考慮兩類圖譜架構(gòu)的相關(guān)特性，結(jié)合實(shí)際研究和工作中的經(jīng)驗(yàn)，提出了融合事實(shí)圖譜和事理的思路，來發(fā)揮兩類圖譜的優(yōu)勢，從而提升任務(wù)型對話性能的目標(biāo)。

1 事實(shí)圖譜和事理圖譜

要解決事實(shí)圖譜的融合和事理圖譜的融合，需要先簡單介紹其概念、研究現(xiàn)狀等內(nèi)容。

1.1 事實(shí)圖譜

事實(shí)圖譜是一種描述事實(shí)知識內(nèi)容的知識庫，一般節(jié)點(diǎn)代表概念，邊代表概念的相關(guān)性質(zhì)。本文構(gòu)建標(biāo)準(zhǔn)為RDF/RDFS標(biāo)準(zhǔn)。這兩類標(biāo)準(zhǔn)是用來表現(xiàn)萬維網(wǎng)上各類資源的信息的一種語言，RDF通過類、屬性和值來描述資源。RDF Schema(RDFS)是對RDF的一種擴(kuò)展,應(yīng)用程序?qū)Ｓ玫念惡蛯傩员仨毷褂脤DF的擴(kuò)展來定義。RDF Schema就是這樣一種擴(kuò)展。RDFS不提供實(shí)際的應(yīng)用程序?qū)Ｓ玫念惡蛯傩裕翘峁┝嗣枋鰬?yīng)用程序?qū)Ｓ玫念惡蛯傩缘目蚣堋DFS中的類與面向?qū)ο缶幊陶Z言中的類非常相似，這就使得資源能夠作為類的實(shí)例和類的子類來被定義。

事實(shí)圖譜的知識獲取有很多成果卓然的研究，從實(shí)體級的實(shí)體挖掘^[4]、實(shí)體發(fā)現(xiàn)、實(shí)體鏈接，到關(guān)系抽取^[5]，主要目標(biāo)是找到各類事實(shí)知識信息，并將它們按照三元組的結(jié)構(gòu)組織起來，用以描述事物本身性質(zhì)及其相關(guān)關(guān)系，在國網(wǎng)客服場景下，利用實(shí)際生產(chǎn)中的機(jī)房、設(shè)備、人員、應(yīng)用功能、服務(wù)等既定事實(shí)構(gòu)建了事實(shí)圖譜。

圖1展示了一個(gè)局部場景的事實(shí)圖譜。

1.2 事理圖譜

事理圖譜^[6]是一種描述事件之間的演化規(guī)律和模式的邏輯知識庫。從結(jié)構(gòu)上來說事理圖譜是一個(gè)有向有環(huán)圖，節(jié)點(diǎn)代表事件，有向邊代表事件之間的順承、因果等關(guān)系。

事理圖譜的構(gòu)建方法也有不少相關(guān)研究，主要是基于大規(guī)模事件密集型數(shù)據(jù)(例如：新聞)的抽取和泛化，并計(jì)算相關(guān)邊的轉(zhuǎn)移概率，最后生成相應(yīng)事理的拓?fù)鋱D。因此，在國網(wǎng)場景中，本文將指導(dǎo)性文檔中的操作步驟、方法、故障實(shí)例等涉及大量實(shí)踐且事件具有一定邏輯關(guān)系的知識內(nèi)容形成了事理圖譜。圖2是某業(yè)務(wù)流程的事理圖譜表示。

2 圖譜架構(gòu)和融合方法

在垂直領(lǐng)域下，常常很難有大量事件密集型數(shù)據(jù)，尤其是基于具體行業(yè)、公司場景下，往往只有一些規(guī)范性文檔、操作手冊作為基礎(chǔ)數(shù)據(jù)來源。因此，獲得的事理圖譜和事實(shí)圖譜在常規(guī)融合的情況下，往往會出現(xiàn)大量孤島節(jié)點(diǎn)，實(shí)現(xiàn)不了在對話過程中支撐對話知識的作用。因此，在垂直領(lǐng)域特定場景下的知識融合和知識共建是相互耦合的，需要以專家知識的種子圖譜為基礎(chǔ)，融合事理圖譜，并在融合過程中讓事理和事實(shí)互相校驗(yàn)互相補(bǔ)充，才能不斷豐富圖譜內(nèi)容，保證圖譜對整個(gè)對話支持^[7]的性能。

圖譜融合實(shí)際上就是節(jié)點(diǎn)消歧并建立鏈接。為了對事實(shí)圖譜和事理圖譜建立相互鏈接，使之融合成為一個(gè)大圖譜，本文提出下述架構(gòu)：

以實(shí)體粒度的知識為核心，將語義角色中的實(shí)體、謂詞、事件等關(guān)系鏈接成網(wǎng)絡(luò)狀態(tài)，其中實(shí)體稱之為概念(concept)，通常為名詞和領(lǐng)域核心詞等事實(shí)知識內(nèi)容，以父類-類-實(shí)體的形式來組織上下位關(guān)系，概念通過謂詞關(guān)系鏈接到相關(guān)事件上，具體的類和大類鏈接到具體泛化事理上。

這樣的架構(gòu)既可以實(shí)現(xiàn)從知識圖譜中獲得的詳細(xì)的語義信息、實(shí)體、詳細(xì)事件，也可以根據(jù)實(shí)體上下文關(guān)系及其事理的邏輯推理，指導(dǎo)對話管理。

這樣架構(gòu)有下述優(yōu)點(diǎn)：

(1)最大限度利用問句中的語義信息；

(2)最大限度地利用知識圖譜中的上下位信息；

(3)只需要定義較少的事理邏輯推理和上下位邏輯推理，即可實(shí)現(xiàn)對對話的引導(dǎo)和跟蹤；

(4)能夠獲取精準(zhǔn)的當(dāng)前語義事件（如：買蘋果，而非買水果）；

(5)構(gòu)建過程中實(shí)體挖掘、事件挖掘、事件泛化等算法的相互校驗(yàn)提高整個(gè)圖譜的知識的精準(zhǔn)性；

(6)概念相匹配的謂詞體系校驗(yàn)語義解析結(jié)果，輔助解析結(jié)果的重排序。

總言之，這樣的框架是從應(yīng)用的角度出發(fā)，從構(gòu)建過程中融合兩類圖譜，將更多更精準(zhǔn)的關(guān)系和語義信息融入知識圖譜中，并利用在融合共建中產(chǎn)生的謂詞、實(shí)體、事件等資源輔助識別、檢索、排序等算法。其架構(gòu)如圖3所示。

如圖3所示，在事實(shí)圖譜中，實(shí)體和類展現(xiàn)了核心的上下位關(guān)系；事理圖譜中通過事件到事理的泛化，體現(xiàn)事件的上下位關(guān)系。事實(shí)圖譜中的類和子類通過謂詞關(guān)系連接到事理圖譜中的具體事理中，事實(shí)圖譜中的實(shí)體通過謂詞關(guān)系連接到具體事件上，將兩類圖譜有機(jī)地連接起來。

所以融合本質(zhì)就是通過謂詞關(guān)系，將事理圖譜和對應(yīng)概念的事實(shí)圖譜鏈接成一個(gè)語義內(nèi)容和邏輯關(guān)系更豐富的知識圖譜。顯然，融合過程中可以利用已有信息不斷補(bǔ)充和反向校驗(yàn)其他信息，所以知識融合的過程也是一個(gè)不斷互相補(bǔ)充互相完善的過程。

首先，在構(gòu)建過程中需要一些通用資源，例如：中文動詞詞典、同義詞典、來自于通用知識庫(例如：wikipedia、freebase等)的同義詞、語義上下位關(guān)系等資源。

其次，用以構(gòu)建的數(shù)據(jù)源主要是兩類，一類是功能文檔、產(chǎn)品文檔等帶有場景和邏輯順承關(guān)系的文檔類數(shù)據(jù)；另一類是問答對話類帶有大量領(lǐng)域關(guān)鍵詞和謂詞邏輯關(guān)系的數(shù)據(jù)。事實(shí)圖譜和事理圖譜的分別建立也都是基于這類數(shù)據(jù)。

這里主要介紹在已建立了基礎(chǔ)的事實(shí)圖譜和事理圖譜，融合和共建新架構(gòu)圖譜的流程：

(1)利用動詞詞典，構(gòu)造謂詞關(guān)系集。

(2)利用事實(shí)同義詞典，從事理圖譜中發(fā)現(xiàn)相關(guān)實(shí)體并篩選。

例如：事實(shí)圖譜中存在Class=(員工)，事理圖譜中存在Event=<通知相關(guān)人員>，利用同義詞“員工：人員，發(fā)現(xiàn)，<通知相關(guān)人員>-[通知]-(員工)”這樣的連接關(guān)系，并關(guān)聯(lián)。

(3)孤島事件中挖掘新實(shí)體，并歸類新類。

(4)篩選事實(shí)-謂詞組合，產(chǎn)生新的事件/事理。

例如：事實(shí)：(服務(wù)器)(交換機(jī))(刀片機(jī))…結(jié)合謂詞：

“重啟”，產(chǎn)生新的事件，<重啟服務(wù)器><重啟交換機(jī)>

<重啟刀片機(jī)>

(5)事件泛化找到新的事理。

例如：事實(shí)：(服務(wù)器)，在Class=設(shè)備，<重啟服務(wù)器>，

泛化為<重啟設(shè)備>

(6)計(jì)算事理間的邏輯關(guān)系。

3 研究成果

本文實(shí)驗(yàn)基于國網(wǎng)客服人工智能中心和清華大學(xué)智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室聯(lián)合構(gòu)建知識圖譜和對應(yīng)對話系統(tǒng)，其中基礎(chǔ)事實(shí)圖譜數(shù)據(jù)和事理圖譜數(shù)據(jù)分別由國網(wǎng)培訓(xùn)文檔、標(biāo)準(zhǔn)運(yùn)維解決方案文檔、故障分析報(bào)告、客服常見問答問題等文檔數(shù)據(jù)構(gòu)造。實(shí)驗(yàn)最后獲得如表1所示成果。

圖4展示了局部融合圖譜。

本文在該知識圖譜和清華語義平臺的基礎(chǔ)上建立了針對客服系統(tǒng)的相應(yīng)知識管理及對話系統(tǒng)，在客服應(yīng)答、故障查修、運(yùn)維狀態(tài)跟蹤等場景下均獲得了較好的應(yīng)用效果。

4 結(jié)論

本文提出了一套基于事實(shí)圖譜和事理圖譜融合的新型知識圖譜構(gòu)建框架，該框架不僅包含了相關(guān)垂直領(lǐng)域的各類知識信息，還將基礎(chǔ)語義信息和推理信息融入其中。該框架構(gòu)建過程中能夠不斷鏈接映射并互相補(bǔ)充，達(dá)到圖譜動態(tài)擴(kuò)展的目標(biāo)，有效提高了圖譜構(gòu)建效率，降低了圖譜構(gòu)建的人工成本。最后成功建設(shè)了一個(gè)較為完善的垂直領(lǐng)域混合型圖譜，并在相關(guān)問答知識類應(yīng)用中對其性能進(jìn)行了較好的驗(yàn)證。

參考文獻(xiàn)

[1] MCTEAR M F.Spoken dialogue technology：enabling the conversational user interface[J].ACM Computing Surveys，2002，34(1)：90-169.

[2] 代文韜，林詩璐，朱小燕，等.基于知識圖譜的保險(xiǎn)領(lǐng)域?qū)υ捪到y(tǒng)構(gòu)建[J].電子技術(shù)應(yīng)用，2019，45(9)：18-21，27.

[3] LEE C，JUNG S，KIM K，et al.Recent approaches to dialog management for spoken dialog systems[J].Journal of Computing Science and Engineering，2010，4(1)：1-22.

[4] 李剛，黃永峰.一種面向微博文本的命名實(shí)體識別方法[J].電子技術(shù)應(yīng)用，2018，44(1)：118-120，124.

[5] 金鵬，楊忠良，黃永峰.基于卷積神經(jīng)網(wǎng)絡(luò)的詩詞隱寫檢測方法[J].電子技術(shù)應(yīng)用，2018，44(10)：114-117，126.

[6] Ding Xiao，Qin Bing，Liu Ting. Building Chinese event type paradigm based on trigger clustering[C].Proceedings of the 6th International Joint Conference on Natural LanguageProcessing(IJCNLP)，2013：311-319.

[7] HUANG M，ZHU X，HAO Y，et al.Discovering patterns to extract protein-protein interactions from full texts[J].Bioinformatics，2004，20(18)：3604-3612.

作者信息:

楊維

(國家電網(wǎng)客服中心信息技術(shù)部，天津300000)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容