《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模擬設(shè)計(jì) > 設(shè)計(jì)應(yīng)用 > 基于Lucene的中文是非問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于Lucene的中文是非問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
2020年信息技術(shù)與網(wǎng)絡(luò)安全第11期
羅東霞,,卿粼波,,吳曉紅
四川大學(xué) 電子信息學(xué)院,四川 成都610065
摘要: 針對(duì)中文是非問(wèn)句,,設(shè)計(jì)并實(shí)現(xiàn)了基于Lucene的問(wèn)答系統(tǒng),主要包括問(wèn)句預(yù)處理,、索引創(chuàng)建和答案整理三部分,。問(wèn)句預(yù)處理部分,引入句法成分權(quán)重和命名實(shí)體權(quán)重改進(jìn)TextRank算法,,得到一種提取問(wèn)句核心詞的方法,。在索引創(chuàng)建部分,,針對(duì)本地的多源數(shù)據(jù)進(jìn)行文檔融合創(chuàng)建索引,降低數(shù)據(jù)多樣性帶來(lái)的復(fù)雜度,。在答案整理部分,,對(duì)查詢索引結(jié)果進(jìn)行答案判決,輸出肯定或否定含義的答案,。實(shí)驗(yàn)結(jié)果表明,,數(shù)據(jù)融合能有效減少索引創(chuàng)建耗時(shí),改進(jìn)TextRank的核心詞提取方法準(zhǔn)確率明顯高于TextRank,,系統(tǒng)具有較為不錯(cuò)的性能,。
中圖分類號(hào): TP391.1
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2020.11.012
引用格式: 羅東霞,卿粼波,,吳曉紅. 基于Lucene的中文是非問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息技術(shù)與網(wǎng)絡(luò)安全,,2020,39(11):74-78.
Design and implementation of Chinese yes-no question answering system based on Lucene
Luo Dongxia,,Qing Linbo,,Wu Xiaohong
College of Electronic Information,Sichuan University,,Chengdu 610065,,China
Abstract: A Chinese yes-no question answering system based on Lucene around Chinese yes-no questions is designed and implemented,and this system includes three parts:question preprocessing,,index creation, and answer sorting. In the first part, introducing the syntactic component weights and named entity weights to improve the TextRank algorithm, a method for extracting the core words of the question sentence is obtained. In the second part, the document fusion is created for the multi-source data to reduce the complexity which is caused by data diversity. In the last section, the query index results are judged by the answer,,and then the answers with positive or negative meanings are output. The experimental results show that data fusion can effectively reduce the index creation time, and the accuracy rate of the improved TextRank core word extraction method is significantly higher than TextRank, which means the system has good performance.
Key words : yes-no question answering;Lucene,;TextRank,;core word extraction

0 引言

    隨著人工智能技術(shù)的飛速發(fā)展,傳統(tǒng)搜索引擎已不能滿足用戶需求,,自動(dòng)問(wèn)答系統(tǒng)逐漸成為信息檢索領(lǐng)域的研究熱點(diǎn),,并具有廣泛應(yīng)用前景[1]。自動(dòng)問(wèn)答系統(tǒng)指允許用戶以自然語(yǔ)言的形式描述問(wèn)句,,并將簡(jiǎn)潔答案返回給用戶的一種信息檢索系統(tǒng)[2],。

    近年來(lái),自動(dòng)問(wèn)答系統(tǒng)相關(guān)的研究和應(yīng)用十分廣泛,。2011年,,IBM公司的深度問(wèn)答系統(tǒng)首次將自然語(yǔ)言處理與深度學(xué)習(xí)結(jié)合起來(lái),使得眾多機(jī)構(gòu)和企業(yè)紛紛效仿,。2013年3月,,京東上線京東JIMI 客服機(jī)器人,提供客戶常規(guī)咨詢服務(wù);2016年10月,,百度推出百度醫(yī)療大腦,,實(shí)現(xiàn)健康在線咨詢[3]。但目前關(guān)于中文自動(dòng)問(wèn)答系統(tǒng)的研究多是圍繞特指問(wèn)句,,其開(kāi)放性的回答方式不適用于是非問(wèn)句的二值答案,。例如,對(duì)JIMI提問(wèn):“京東自營(yíng)滿88包郵對(duì)嗎,?”,,JIMI的答案是京東自營(yíng)商品包郵的詳細(xì)說(shuō)明,而非是非問(wèn)句要求的“對(duì)”或“不對(duì)”的二值答案,。中文是非問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),,能夠彌補(bǔ)目前中文自動(dòng)問(wèn)答僅能作答特指問(wèn)句的不足,幫助用戶快速獲取簡(jiǎn)潔的答案,,對(duì)自動(dòng)問(wèn)答系統(tǒng)的研究和應(yīng)用有著極其重要的意義,。

    本文利用Lucene設(shè)計(jì)并實(shí)現(xiàn)一種中文是非問(wèn)答系統(tǒng),主要工作包括:(1)引入句法成分權(quán)重和命名實(shí)體權(quán)重,,改進(jìn)TextRank算法[4-5],,提出一種問(wèn)句核心詞提取方法;(2)針對(duì)MySQL,、Neo4j和本地新聞文件中的多源數(shù)據(jù),,提出一種多源數(shù)據(jù)融合索引創(chuàng)建方法,減少索引創(chuàng)建耗時(shí),;(3)查詢索引并對(duì)索引結(jié)果判決,,獲得是非問(wèn)句的二值答案。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://forexkbc.com/resource/share/2000003183




作者信息:

羅東霞,,卿粼波,吳曉紅

(四川大學(xué) 電子信息學(xué)院,,四川 成都610065)

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。