文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.191130
中文引用格式: 楊維. 領(lǐng)域知識(shí)融合與共建研究[J].電子技術(shù)應(yīng)用,,2019,,45(12):47-50.
英文引用格式: Yang Wei. Domain knowledge fusion and knowledge co-construction research[J]. Application of Electronic Technique,2019,,45(12):47-50.
0 引言
近年來(lái),,隨著人工智能和自然語(yǔ)言處理方法的研究進(jìn)一步深入和應(yīng)用進(jìn)一步落地,,基于知識(shí)圖譜的對(duì)話系統(tǒng)及其衍生應(yīng)用在越來(lái)越多的場(chǎng)景中開(kāi)始發(fā)揮其作用。國(guó)家電網(wǎng)客服中心的人工智能研究中心AI Lab成立后,,也就國(guó)網(wǎng)客服的相關(guān)場(chǎng)景做了很多知識(shí)圖譜和對(duì)話系統(tǒng)的相關(guān)研究,。當(dāng)前國(guó)網(wǎng)客服對(duì)話面臨的最大的困難即為傳統(tǒng)知識(shí)圖譜構(gòu)建方法和架構(gòu)均需大量相關(guān)優(yōu)質(zhì)數(shù)據(jù)支撐,而在實(shí)際生產(chǎn)情況下,,只存在大量非結(jié)構(gòu)化,、清洗困難的異構(gòu)數(shù)據(jù),。如何組織和處理這些數(shù)據(jù)就成為了國(guó)網(wǎng)客服的知識(shí)圖譜構(gòu)建和對(duì)話系統(tǒng)建立的關(guān)鍵挑戰(zhàn),。
在解決痛點(diǎn)前,先要明確基于國(guó)網(wǎng)客服中心的對(duì)話系統(tǒng)[1]和知識(shí)圖譜的核心需求,。在設(shè)計(jì)知識(shí)圖譜的架構(gòu)時(shí),,本文考慮了對(duì)話類(lèi)應(yīng)用對(duì)知識(shí)圖譜[2]的下述需求:
(1)實(shí)例關(guān)聯(lián)需求:即語(yǔ)義解析獲得了相關(guān)解析結(jié)果后能夠?qū)⒔馕鼋Y(jié)果和圖譜中相應(yīng)實(shí)體、屬性,、關(guān)系等建立映射關(guān)系并消歧,;
(2)答案獲取需求:即根據(jù)相應(yīng)實(shí)例、關(guān)系和屬性等查詢相應(yīng)值和答案,;
(3)邏輯推理需求:即基于已知語(yǔ)義信息,,根據(jù)推理邏輯規(guī)則獲取精準(zhǔn)語(yǔ)義推理或運(yùn)算結(jié)果;
(4)指導(dǎo)對(duì)話管理需求:即根據(jù)已知語(yǔ)義信息反哺對(duì)話管理,基于靜態(tài)的對(duì)話策略和動(dòng)態(tài)的知識(shí)內(nèi)容產(chǎn)生動(dòng)態(tài),、可變化的圖譜對(duì)話,。
前兩個(gè)需求在傳統(tǒng)KBQA[3]的相關(guān)研究中,基于RDF/OWL標(biāo)準(zhǔn)的事實(shí)圖譜,,業(yè)界一般稱(chēng)為知識(shí)圖譜,,但由于本文需要區(qū)分和融合,根據(jù)其特征稱(chēng)為事實(shí)圖譜,。事實(shí)圖譜已經(jīng)被大量的研究證實(shí)了其可用性和實(shí)用性,,然而這種類(lèi)型的圖譜對(duì)推理和指導(dǎo)對(duì)話管理的支持性能上均由于其本身知識(shí)組織形式的局限性,需要額外人工設(shè)計(jì)大量的規(guī)則,,且由于基于預(yù)設(shè)好的邏輯規(guī)則,,在靈活性和普適性上都很難有較好的表現(xiàn)。因此大數(shù)據(jù)時(shí)代以來(lái),,很多研究從數(shù)據(jù)出發(fā),,基于自底向上的思路,從實(shí)際圖譜推理和應(yīng)用的角度做了一些探索,,提出了依托事件挖掘算法構(gòu)建的事理圖譜,,并利用事理圖譜的相關(guān)架構(gòu)在金融、法律等領(lǐng)域?qū)崿F(xiàn)了一些應(yīng)用,,有很不錯(cuò)的表現(xiàn),,得到了業(yè)內(nèi)研究人員的高度認(rèn)可。但也不得不承認(rèn),,由于其本身基于統(tǒng)計(jì)學(xué)習(xí)算法,、概率分布計(jì)算關(guān)系概率,且以抽象泛化后的事理為元數(shù)據(jù),,因此,,實(shí)例映射、消歧和答案獲取等功能的精準(zhǔn)性和可解釋性就遠(yuǎn)低于事實(shí)圖譜,。因此,,本文從目標(biāo)應(yīng)用即垂直領(lǐng)域任務(wù)型對(duì)話的角度出發(fā),考慮兩類(lèi)圖譜架構(gòu)的相關(guān)特性,,結(jié)合實(shí)際研究和工作中的經(jīng)驗(yàn),,提出了融合事實(shí)圖譜和事理的思路,來(lái)發(fā)揮兩類(lèi)圖譜的優(yōu)勢(shì),,從而提升任務(wù)型對(duì)話性能的目標(biāo),。
1 事實(shí)圖譜和事理圖譜
要解決事實(shí)圖譜的融合和事理圖譜的融合,需要先簡(jiǎn)單介紹其概念,、研究現(xiàn)狀等內(nèi)容,。
1.1 事實(shí)圖譜
事實(shí)圖譜是一種描述事實(shí)知識(shí)內(nèi)容的知識(shí)庫(kù),一般節(jié)點(diǎn)代表概念,邊代表概念的相關(guān)性質(zhì),。本文構(gòu)建標(biāo)準(zhǔn)為RDF/RDFS標(biāo)準(zhǔn),。這兩類(lèi)標(biāo)準(zhǔn)是用來(lái)表現(xiàn)萬(wàn)維網(wǎng)上各類(lèi)資源的信息的一種語(yǔ)言,RDF通過(guò)類(lèi),、屬性和值來(lái)描述資源,。RDF Schema(RDFS)是對(duì)RDF的一種擴(kuò)展,應(yīng)用程序?qū)S玫念?lèi)和屬性必須使用對(duì)RDF的擴(kuò)展來(lái)定義。RDF Schema就是這樣一種擴(kuò)展,。RDFS不提供實(shí)際的應(yīng)用程序?qū)S玫念?lèi)和屬性,,而是提供了描述應(yīng)用程序?qū)S玫念?lèi)和屬性的框架。RDFS中的類(lèi)與面向?qū)ο缶幊陶Z(yǔ)言中的類(lèi)非常相似,,這就使得資源能夠作為類(lèi)的實(shí)例和類(lèi)的子類(lèi)來(lái)被定義,。
事實(shí)圖譜的知識(shí)獲取有很多成果卓然的研究,從實(shí)體級(jí)的實(shí)體挖掘[4],、實(shí)體發(fā)現(xiàn),、實(shí)體鏈接,到關(guān)系抽取[5],,主要目標(biāo)是找到各類(lèi)事實(shí)知識(shí)信息,,并將它們按照三元組的結(jié)構(gòu)組織起來(lái),用以描述事物本身性質(zhì)及其相關(guān)關(guān)系,,在國(guó)網(wǎng)客服場(chǎng)景下,,利用實(shí)際生產(chǎn)中的機(jī)房、設(shè)備,、人員,、應(yīng)用功能、服務(wù)等既定事實(shí)構(gòu)建了事實(shí)圖譜,。
圖1展示了一個(gè)局部場(chǎng)景的事實(shí)圖譜,。
1.2 事理圖譜
事理圖譜[6]是一種描述事件之間的演化規(guī)律和模式的邏輯知識(shí)庫(kù)。從結(jié)構(gòu)上來(lái)說(shuō)事理圖譜是一個(gè)有向有環(huán)圖,,節(jié)點(diǎn)代表事件,,有向邊代表事件之間的順承、因果等關(guān)系,。
事理圖譜的構(gòu)建方法也有不少相關(guān)研究,,主要是基于大規(guī)模事件密集型數(shù)據(jù)(例如:新聞)的抽取和泛化,并計(jì)算相關(guān)邊的轉(zhuǎn)移概率,,最后生成相應(yīng)事理的拓?fù)鋱D。因此,,在國(guó)網(wǎng)場(chǎng)景中,,本文將指導(dǎo)性文檔中的操作步驟、方法、故障實(shí)例等涉及大量實(shí)踐且事件具有一定邏輯關(guān)系的知識(shí)內(nèi)容形成了事理圖譜,。圖2是某業(yè)務(wù)流程的事理圖譜表示,。
2 圖譜架構(gòu)和融合方法
在垂直領(lǐng)域下,常常很難有大量事件密集型數(shù)據(jù),,尤其是基于具體行業(yè),、公司場(chǎng)景下,往往只有一些規(guī)范性文檔,、操作手冊(cè)作為基礎(chǔ)數(shù)據(jù)來(lái)源,。因此,獲得的事理圖譜和事實(shí)圖譜在常規(guī)融合的情況下,,往往會(huì)出現(xiàn)大量孤島節(jié)點(diǎn),,實(shí)現(xiàn)不了在對(duì)話過(guò)程中支撐對(duì)話知識(shí)的作用。因此,,在垂直領(lǐng)域特定場(chǎng)景下的知識(shí)融合和知識(shí)共建是相互耦合的,,需要以專(zhuān)家知識(shí)的種子圖譜為基礎(chǔ),融合事理圖譜,,并在融合過(guò)程中讓事理和事實(shí)互相校驗(yàn)互相補(bǔ)充,,才能不斷豐富圖譜內(nèi)容,保證圖譜對(duì)整個(gè)對(duì)話支持[7]的性能,。
圖譜融合實(shí)際上就是節(jié)點(diǎn)消歧并建立鏈接,。為了對(duì)事實(shí)圖譜和事理圖譜建立相互鏈接,使之融合成為一個(gè)大圖譜,,本文提出下述架構(gòu):
以實(shí)體粒度的知識(shí)為核心,,將語(yǔ)義角色中的實(shí)體、謂詞,、事件等關(guān)系鏈接成網(wǎng)絡(luò)狀態(tài),,其中實(shí)體稱(chēng)之為概念(concept),通常為名詞和領(lǐng)域核心詞等事實(shí)知識(shí)內(nèi)容,,以父類(lèi)-類(lèi)-實(shí)體的形式來(lái)組織上下位關(guān)系,,概念通過(guò)謂詞關(guān)系鏈接到相關(guān)事件上,具體的類(lèi)和大類(lèi)鏈接到具體泛化事理上,。
這樣的架構(gòu)既可以實(shí)現(xiàn)從知識(shí)圖譜中獲得的詳細(xì)的語(yǔ)義信息,、實(shí)體、詳細(xì)事件,,也可以根據(jù)實(shí)體上下文關(guān)系及其事理的邏輯推理,,指導(dǎo)對(duì)話管理。
這樣架構(gòu)有下述優(yōu)點(diǎn):
(1)最大限度利用問(wèn)句中的語(yǔ)義信息,;
(2)最大限度地利用知識(shí)圖譜中的上下位信息,;
(3)只需要定義較少的事理邏輯推理和上下位邏輯推理,,即可實(shí)現(xiàn)對(duì)對(duì)話的引導(dǎo)和跟蹤;
(4)能夠獲取精準(zhǔn)的當(dāng)前語(yǔ)義事件(如:買(mǎi)蘋(píng)果,,而非買(mǎi)水果),;
(5)構(gòu)建過(guò)程中實(shí)體挖掘、事件挖掘,、事件泛化等算法的相互校驗(yàn)提高整個(gè)圖譜的知識(shí)的精準(zhǔn)性,;
(6)概念相匹配的謂詞體系校驗(yàn)語(yǔ)義解析結(jié)果,輔助解析結(jié)果的重排序,。
總言之,,這樣的框架是從應(yīng)用的角度出發(fā),從構(gòu)建過(guò)程中融合兩類(lèi)圖譜,,將更多更精準(zhǔn)的關(guān)系和語(yǔ)義信息融入知識(shí)圖譜中,,并利用在融合共建中產(chǎn)生的謂詞、實(shí)體,、事件等資源輔助識(shí)別,、檢索、排序等算法,。其架構(gòu)如圖3所示,。
如圖3所示,在事實(shí)圖譜中,,實(shí)體和類(lèi)展現(xiàn)了核心的上下位關(guān)系,;事理圖譜中通過(guò)事件到事理的泛化,體現(xiàn)事件的上下位關(guān)系,。事實(shí)圖譜中的類(lèi)和子類(lèi)通過(guò)謂詞關(guān)系連接到事理圖譜中的具體事理中,,事實(shí)圖譜中的實(shí)體通過(guò)謂詞關(guān)系連接到具體事件上,將兩類(lèi)圖譜有機(jī)地連接起來(lái),。
所以融合本質(zhì)就是通過(guò)謂詞關(guān)系,,將事理圖譜和對(duì)應(yīng)概念的事實(shí)圖譜鏈接成一個(gè)語(yǔ)義內(nèi)容和邏輯關(guān)系更豐富的知識(shí)圖譜。顯然,,融合過(guò)程中可以利用已有信息不斷補(bǔ)充和反向校驗(yàn)其他信息,,所以知識(shí)融合的過(guò)程也是一個(gè)不斷互相補(bǔ)充互相完善的過(guò)程。
首先,,在構(gòu)建過(guò)程中需要一些通用資源,,例如:中文動(dòng)詞詞典、同義詞典,、來(lái)自于通用知識(shí)庫(kù)(例如:wikipedia,、freebase等)的同義詞、語(yǔ)義上下位關(guān)系等資源,。
其次,,用以構(gòu)建的數(shù)據(jù)源主要是兩類(lèi),,一類(lèi)是功能文檔,、產(chǎn)品文檔等帶有場(chǎng)景和邏輯順承關(guān)系的文檔類(lèi)數(shù)據(jù),;另一類(lèi)是問(wèn)答對(duì)話類(lèi)帶有大量領(lǐng)域關(guān)鍵詞和謂詞邏輯關(guān)系的數(shù)據(jù)。事實(shí)圖譜和事理圖譜的分別建立也都是基于這類(lèi)數(shù)據(jù),。
這里主要介紹在已建立了基礎(chǔ)的事實(shí)圖譜和事理圖譜,,融合和共建新架構(gòu)圖譜的流程:
(1)利用動(dòng)詞詞典,構(gòu)造謂詞關(guān)系集,。
(2)利用事實(shí)同義詞典,,從事理圖譜中發(fā)現(xiàn)相關(guān)實(shí)體并篩選。
例如:事實(shí)圖譜中存在Class=(員工),,事理圖譜中存在Event=<通知相關(guān)人員>,,利用同義詞“員工:人員,發(fā)現(xiàn),,<通知相關(guān)人員>-[通知]-(員工)”這樣的連接關(guān)系,,并關(guān)聯(lián)。
(3)孤島事件中挖掘新實(shí)體,,并歸類(lèi)新類(lèi),。
(4)篩選事實(shí)-謂詞組合,產(chǎn)生新的事件/事理,。
例如:事實(shí):(服務(wù)器)(交換機(jī))(刀片機(jī))…結(jié)合謂詞:
“重啟”,,產(chǎn)生新的事件,<重啟服務(wù)器><重啟交換機(jī)>
<重啟刀片機(jī)>
(5)事件泛化找到新的事理,。
例如:事實(shí):(服務(wù)器),,在Class=設(shè)備,<重啟服務(wù)器>,,
泛化為<重啟設(shè)備>
(6)計(jì)算事理間的邏輯關(guān)系,。
3 研究成果
本文實(shí)驗(yàn)基于國(guó)網(wǎng)客服人工智能中心和清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室聯(lián)合構(gòu)建知識(shí)圖譜和對(duì)應(yīng)對(duì)話系統(tǒng),其中基礎(chǔ)事實(shí)圖譜數(shù)據(jù)和事理圖譜數(shù)據(jù)分別由國(guó)網(wǎng)培訓(xùn)文檔,、標(biāo)準(zhǔn)運(yùn)維解決方案文檔,、故障分析報(bào)告、客服常見(jiàn)問(wèn)答問(wèn)題等文檔數(shù)據(jù)構(gòu)造,。實(shí)驗(yàn)最后獲得如表1所示成果,。
圖4展示了局部融合圖譜。
本文在該知識(shí)圖譜和清華語(yǔ)義平臺(tái)的基礎(chǔ)上建立了針對(duì)客服系統(tǒng)的相應(yīng)知識(shí)管理及對(duì)話系統(tǒng),,在客服應(yīng)答,、故障查修、運(yùn)維狀態(tài)跟蹤等場(chǎng)景下均獲得了較好的應(yīng)用效果,。
4 結(jié)論
本文提出了一套基于事實(shí)圖譜和事理圖譜融合的新型知識(shí)圖譜構(gòu)建框架,,該框架不僅包含了相關(guān)垂直領(lǐng)域的各類(lèi)知識(shí)信息,,還將基礎(chǔ)語(yǔ)義信息和推理信息融入其中。該框架構(gòu)建過(guò)程中能夠不斷鏈接映射并互相補(bǔ)充,,達(dá)到圖譜動(dòng)態(tài)擴(kuò)展的目標(biāo),,有效提高了圖譜構(gòu)建效率,降低了圖譜構(gòu)建的人工成本,。最后成功建設(shè)了一個(gè)較為完善的垂直領(lǐng)域混合型圖譜,,并在相關(guān)問(wèn)答知識(shí)類(lèi)應(yīng)用中對(duì)其性能進(jìn)行了較好的驗(yàn)證。
參考文獻(xiàn)
[1] MCTEAR M F.Spoken dialogue technology:enabling the conversational user interface[J].ACM Computing Surveys,,2002,,34(1):90-169.
[2] 代文韜,林詩(shī)璐,,朱小燕,,等.基于知識(shí)圖譜的保險(xiǎn)領(lǐng)域?qū)υ捪到y(tǒng)構(gòu)建[J].電子技術(shù)應(yīng)用,2019,,45(9):18-21,,27.
[3] LEE C,JUNG S,,KIM K,,et al.Recent approaches to dialog management for spoken dialog systems[J].Journal of Computing Science and Engineering,2010,,4(1):1-22.
[4] 李剛,,黃永峰.一種面向微博文本的命名實(shí)體識(shí)別方法[J].電子技術(shù)應(yīng)用,2018,,44(1):118-120,,124.
[5] 金鵬,楊忠良,,黃永峰.基于卷積神經(jīng)網(wǎng)絡(luò)的詩(shī)詞隱寫(xiě)檢測(cè)方法[J].電子技術(shù)應(yīng)用,,2018,44(10):114-117,,126.
[6] Ding Xiao,,Qin Bing,Liu Ting. Building Chinese event type paradigm based on trigger clustering[C].Proceedings of the 6th International Joint Conference on Natural LanguageProcessing(IJCNLP),,2013:311-319.
[7] HUANG M,,ZHU X,HAO Y,,et al.Discovering patterns to extract protein-protein interactions from full texts[J].Bioinformatics,,2004,20(18):3604-3612.
作者信息:
楊 維
(國(guó)家電網(wǎng)客服中心 信息技術(shù)部,,天津300000)