文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.223323
中文引用格式: 袁金斗,,潘明明,張騰,,等. 基于規(guī)則和詞典的用電安全領(lǐng)域命名實體識別[J].電子技術(shù)應(yīng)用,,2022,48(12):22-27.
英文引用格式: Yuan Jindou,Pan Mingming,,Zhang Teng,,et al. Electricity safety domain named entity recognition based on rules and dictionaries[J]. Application of Electronic Technique,2022,,48(12):22-27.
0 引言
命名實體識別[1-3](Named Entity Recognition,,NER)在通用領(lǐng)域中主要是指識別文本中的人名,、地名、機構(gòu)名,、時間,、貨幣等具有特定意義的實體。目前,,命名實體識別的主要方法包括三類:基于規(guī)則[4]和詞典[5-6]的方法,、基于統(tǒng)計機器學(xué)習(xí)的方法[7]和基于深度神經(jīng)網(wǎng)絡(luò)的方法[8]。
目前,,用電安全領(lǐng)域缺乏權(quán)威數(shù)據(jù)集[9],,命名實體識別研究工作首先需要對語料集進行序列標注,標記非結(jié)構(gòu)文本中的相關(guān)實體,、無關(guān)字符,、詞性序列等,在此研究背景下,,采用統(tǒng)計機器學(xué)習(xí),、深度神經(jīng)網(wǎng)絡(luò)的方法較難獲取大規(guī)模的訓(xùn)練語料集。因此,,本文主要基于規(guī)則和詞典的方法對實體命名識別進行第一階段研究,,發(fā)掘用電安全領(lǐng)域?qū)嶓w構(gòu)詞規(guī)則及詞性特征,,構(gòu)建領(lǐng)域詞典及規(guī)則模板,進一步擴充語料庫,,為后續(xù)用電安全領(lǐng)域命名實體識別的機器學(xué)習(xí),、神經(jīng)網(wǎng)絡(luò)方法的研究奠定基礎(chǔ)。
從技術(shù)角度分析,,如果構(gòu)建的領(lǐng)域詞典能夠覆蓋待識別文本中絕大多數(shù)相關(guān)實體,,那么,基于詞典的命名實體識別方法將具有高準確度及高響應(yīng)度,。但是,,領(lǐng)域?qū)嶓w的多樣性、復(fù)雜性,、衍生性導(dǎo)致構(gòu)建覆蓋全面的高質(zhì)量詞典較為困難,。因此,基于詞典的方法通常是基于規(guī)則方法的輔助補充手段[10],。基于規(guī)則的實體命名識別多采用人工歸納并構(gòu)造規(guī)則模板,,選用特征包括標點符號,、關(guān)鍵字、指示詞和方向詞,、位置詞(如前后綴),、中心詞等,以規(guī)則模板的正則匹配為主要手段[11],。當語料規(guī)模不大且提取的規(guī)則能比較精確地反映語言現(xiàn)象時,,基于規(guī)則和詞典的方法其性能要優(yōu)于基于統(tǒng)計的方法[12]。
另一方面,,物聯(lián)網(wǎng)設(shè)備和數(shù)據(jù)的爆發(fā)式增長,,使得基于云計算模型的聚合性服務(wù)逐漸顯露出其在實時性、網(wǎng)絡(luò)制約,、資源開銷等方面的不足,。為彌補集中式云計算的不足,本文采用邊緣計算架構(gòu),,其優(yōu)勢在于能夠在數(shù)據(jù)產(chǎn)生側(cè)快捷,、高效地響應(yīng)業(yè)務(wù)需求,減小服務(wù)對網(wǎng)絡(luò)的依賴,,在離線狀態(tài)下也能夠提供基礎(chǔ)業(yè)務(wù)服務(wù),。
本文詳細內(nèi)容請下載:http://forexkbc.com/resource/share/2000005035。
作者信息:
袁金斗1,,潘明明1,,張 騰2,,姜 玨1
(1.中國電力科學(xué)研究院有限公司,北京100192,;2.國網(wǎng)江蘇省電力有限公司,,江蘇 南京210000)