文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.223323
中文引用格式: 袁金斗,,潘明明,,張騰,等. 基于規(guī)則和詞典的用電安全領域命名實體識別[J].電子技術應用,,2022,,48(12):22-27.
英文引用格式: Yuan Jindou,Pan Mingming,,Zhang Teng,,et al. Electricity safety domain named entity recognition based on rules and dictionaries[J]. Application of Electronic Technique,2022,,48(12):22-27.
0 引言
命名實體識別[1-3](Named Entity Recognition,,NER)在通用領域中主要是指識別文本中的人名、地名,、機構名,、時間,、貨幣等具有特定意義的實體。目前,,命名實體識別的主要方法包括三類:基于規(guī)則[4]和詞典[5-6]的方法,、基于統(tǒng)計機器學習的方法[7]和基于深度神經(jīng)網(wǎng)絡的方法[8]。
目前,,用電安全領域缺乏權威數(shù)據(jù)集[9],,命名實體識別研究工作首先需要對語料集進行序列標注,標記非結構文本中的相關實體,、無關字符,、詞性序列等,在此研究背景下,,采用統(tǒng)計機器學習,、深度神經(jīng)網(wǎng)絡的方法較難獲取大規(guī)模的訓練語料集。因此,,本文主要基于規(guī)則和詞典的方法對實體命名識別進行第一階段研究,,發(fā)掘用電安全領域實體構詞規(guī)則及詞性特征,構建領域詞典及規(guī)則模板,,進一步擴充語料庫,,為后續(xù)用電安全領域命名實體識別的機器學習、神經(jīng)網(wǎng)絡方法的研究奠定基礎,。
從技術角度分析,,如果構建的領域詞典能夠覆蓋待識別文本中絕大多數(shù)相關實體,那么,,基于詞典的命名實體識別方法將具有高準確度及高響應度,。但是,領域實體的多樣性,、復雜性,、衍生性導致構建覆蓋全面的高質(zhì)量詞典較為困難。因此,,基于詞典的方法通常是基于規(guī)則方法的輔助補充手段[10],。基于規(guī)則的實體命名識別多采用人工歸納并構造規(guī)則模板,,選用特征包括標點符號,、關鍵字、指示詞和方向詞,、位置詞(如前后綴),、中心詞等,以規(guī)則模板的正則匹配為主要手段[11]。當語料規(guī)模不大且提取的規(guī)則能比較精確地反映語言現(xiàn)象時,,基于規(guī)則和詞典的方法其性能要優(yōu)于基于統(tǒng)計的方法[12],。
另一方面,物聯(lián)網(wǎng)設備和數(shù)據(jù)的爆發(fā)式增長,,使得基于云計算模型的聚合性服務逐漸顯露出其在實時性,、網(wǎng)絡制約、資源開銷等方面的不足,。為彌補集中式云計算的不足,,本文采用邊緣計算架構,其優(yōu)勢在于能夠在數(shù)據(jù)產(chǎn)生側快捷,、高效地響應業(yè)務需求,,減小服務對網(wǎng)絡的依賴,在離線狀態(tài)下也能夠提供基礎業(yè)務服務,。
本文詳細內(nèi)容請下載:http://forexkbc.com/resource/share/2000005035,。
作者信息:
袁金斗1,潘明明1,,張 騰2,,姜 玨1
(1.中國電力科學研究院有限公司,北京100192,;2.國網(wǎng)江蘇省電力有限公司,,江蘇 南京210000)