文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.223323
中文引用格式: 袁金斗,潘明明,,張騰,,等. 基于規(guī)則和詞典的用電安全領(lǐng)域命名實(shí)體識別[J].電子技術(shù)應(yīng)用,2022,,48(12):22-27.
英文引用格式: Yuan Jindou,,Pan Mingming,Zhang Teng,,et al. Electricity safety domain named entity recognition based on rules and dictionaries[J]. Application of Electronic Technique,,2022,48(12):22-27.
0 引言
命名實(shí)體識別[1-3](Named Entity Recognition,NER)在通用領(lǐng)域中主要是指識別文本中的人名,、地名,、機(jī)構(gòu)名、時(shí)間,、貨幣等具有特定意義的實(shí)體,。目前,命名實(shí)體識別的主要方法包括三類:基于規(guī)則[4]和詞典[5-6]的方法,、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法[7]和基于深度神經(jīng)網(wǎng)絡(luò)的方法[8],。
目前,用電安全領(lǐng)域缺乏權(quán)威數(shù)據(jù)集[9],,命名實(shí)體識別研究工作首先需要對語料集進(jìn)行序列標(biāo)注,,標(biāo)記非結(jié)構(gòu)文本中的相關(guān)實(shí)體,、無關(guān)字符、詞性序列等,,在此研究背景下,,采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)的方法較難獲取大規(guī)模的訓(xùn)練語料集,。因此,,本文主要基于規(guī)則和詞典的方法對實(shí)體命名識別進(jìn)行第一階段研究,發(fā)掘用電安全領(lǐng)域?qū)嶓w構(gòu)詞規(guī)則及詞性特征,,構(gòu)建領(lǐng)域詞典及規(guī)則模板,,進(jìn)一步擴(kuò)充語料庫,為后續(xù)用電安全領(lǐng)域命名實(shí)體識別的機(jī)器學(xué)習(xí),、神經(jīng)網(wǎng)絡(luò)方法的研究奠定基礎(chǔ),。
從技術(shù)角度分析,如果構(gòu)建的領(lǐng)域詞典能夠覆蓋待識別文本中絕大多數(shù)相關(guān)實(shí)體,,那么,,基于詞典的命名實(shí)體識別方法將具有高準(zhǔn)確度及高響應(yīng)度。但是,,領(lǐng)域?qū)嶓w的多樣性,、復(fù)雜性、衍生性導(dǎo)致構(gòu)建覆蓋全面的高質(zhì)量詞典較為困難,。因此,,基于詞典的方法通常是基于規(guī)則方法的輔助補(bǔ)充手段[10]?;谝?guī)則的實(shí)體命名識別多采用人工歸納并構(gòu)造規(guī)則模板,,選用特征包括標(biāo)點(diǎn)符號、關(guān)鍵字,、指示詞和方向詞、位置詞(如前后綴),、中心詞等,,以規(guī)則模板的正則匹配為主要手段[11]。當(dāng)語料規(guī)模不大且提取的規(guī)則能比較精確地反映語言現(xiàn)象時(shí),,基于規(guī)則和詞典的方法其性能要優(yōu)于基于統(tǒng)計(jì)的方法[12],。
另一方面,物聯(lián)網(wǎng)設(shè)備和數(shù)據(jù)的爆發(fā)式增長,,使得基于云計(jì)算模型的聚合性服務(wù)逐漸顯露出其在實(shí)時(shí)性,、網(wǎng)絡(luò)制約、資源開銷等方面的不足,。為彌補(bǔ)集中式云計(jì)算的不足,,本文采用邊緣計(jì)算架構(gòu),,其優(yōu)勢在于能夠在數(shù)據(jù)產(chǎn)生側(cè)快捷、高效地響應(yīng)業(yè)務(wù)需求,,減小服務(wù)對網(wǎng)絡(luò)的依賴,,在離線狀態(tài)下也能夠提供基礎(chǔ)業(yè)務(wù)服務(wù)。
本文詳細(xì)內(nèi)容請下載:http://forexkbc.com/resource/share/2000005035,。
作者信息:
袁金斗1,,潘明明1,張 騰2,,姜 玨1
(1.中國電力科學(xué)研究院有限公司,,北京100192;2.國網(wǎng)江蘇省電力有限公司,,江蘇 南京210000)