中文引用格式: 吳磊,汪杭軍. 基于預(yù)訓(xùn)練模型的基層治理敏感實(shí)體識(shí)別方法[J]. 電子技術(shù)應(yīng)用,,2023,,49(9):109-114.
英文引用格式: Wu Lei,,Wang Hangjun. Identification method of sensitive entities in grassroots governance based on pre-training models[J]. Application of Electronic Technique,2023,,49(9):109-114.
0 引言
隨著中國(guó)特色社會(huì)主義進(jìn)入新時(shí)代,,構(gòu)建現(xiàn)代化的基層治理體系對(duì)鄉(xiāng)村振興和國(guó)家長(zhǎng)治久安意義重大,,而治理體系現(xiàn)代化需要信息化要素的融入[1]?;鶎又卫頂?shù)字化產(chǎn)生的大量數(shù)據(jù)經(jīng)過數(shù)據(jù)分析與挖掘,,可用于鄉(xiāng)、鎮(zhèn),、街道的信息化,、智慧化建設(shè)。這些數(shù)據(jù)難以避免地會(huì)包含個(gè)人隱私信息,,且在現(xiàn)有安全條件下這些數(shù)據(jù)采集和使用可能存在數(shù)據(jù)泄露風(fēng)險(xiǎn)[2],。數(shù)據(jù)脫敏是一種將結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中的敏感信息按照一定脫敏規(guī)則進(jìn)行數(shù)據(jù)變形的技術(shù),經(jīng)過脫敏后的數(shù)據(jù)兼顧了可用性和安全性,,能夠在保護(hù)隱私的前提下正常應(yīng)用于各個(gè)場(chǎng)景,。文獻(xiàn)[3]闡述司法領(lǐng)域結(jié)構(gòu)化文本和非結(jié)構(gòu)化文本的脫敏問題,并以匈牙利法律文件作為案例研究可能的方案,。該文獻(xiàn)提供了一種思路,,即將命名實(shí)體識(shí)別與數(shù)據(jù)脫敏聯(lián)系起來。結(jié)構(gòu)化數(shù)據(jù)中敏感數(shù)據(jù)較為明確,,可依據(jù)不同的數(shù)據(jù)列劃分,,但非結(jié)構(gòu)化數(shù)據(jù)需要將敏感數(shù)據(jù)從大量文本中識(shí)別出來,這就需要命名實(shí)體識(shí)別技術(shù)應(yīng)用于基層治理文本的數(shù)據(jù)脫敏過程中,。
命名實(shí)體識(shí)別[4]是一種從非結(jié)構(gòu)化文本中識(shí)別出具有特定意義實(shí)體的技術(shù),,為自然語言處理中的一項(xiàng)基礎(chǔ)任務(wù)。該任務(wù)有助于關(guān)系抽取、知識(shí)圖譜等下游任務(wù)[5],。常見的實(shí)體有人名,、地名、機(jī)構(gòu)名等,,例如在“李彥宏在北京舉辦了百度AI開發(fā)大會(huì)”識(shí)別出李彥宏(人名)、北京(地名),、百度(機(jī)構(gòu)名)3個(gè)實(shí)體,。命名實(shí)體識(shí)別技術(shù)的發(fā)展可劃分為3個(gè)階段:基于詞典和規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法[4],。除了通用語料的實(shí)體識(shí)別,,還存在面向特定應(yīng)用場(chǎng)景的領(lǐng)域命名實(shí)體識(shí)別(Domain Named Entity Recognition,DNER),,例如醫(yī)療,、生物、金融,、司法,、農(nóng)業(yè)等領(lǐng)域[6]。雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory Networks,BiLSTM)和條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)的組合模型由于良好的表現(xiàn),,在不同領(lǐng)域都被作為最經(jīng)典的模型而廣泛使用,。本文將基層治理非結(jié)構(gòu)化文本的敏感詞識(shí)別任務(wù)轉(zhuǎn)換為命名實(shí)體識(shí)別任務(wù),沿用常規(guī)的序列標(biāo)注方法,。
英文單詞之間有空格劃分,,分詞邊界明確,以及首字母,、詞根,、后綴等區(qū)分信息使得命名實(shí)體識(shí)別表現(xiàn)較好。而中文最明顯的特點(diǎn)是詞界模糊,,沒有分隔符來表示詞界[7],。由于中文字詞之間沒有空格分隔,中文命名實(shí)體識(shí)別若以詞粒度劃分,,必須先進(jìn)行分詞,。分詞錯(cuò)誤導(dǎo)致的誤差傳遞使得詞粒度識(shí)別效果差于字粒度。因此,,中文命名實(shí)體識(shí)別常采用字粒度進(jìn)行識(shí)別,。文獻(xiàn)[8]綜述了中文命名實(shí)體識(shí)別的方法、難點(diǎn)問題和未來研究方向,。文獻(xiàn)[9]通過在中文詞嵌入加入語義,、語音信息以提升識(shí)別效果。目前,,命名實(shí)體識(shí)別廣泛應(yīng)用于各個(gè)領(lǐng)域,,但在基層治理領(lǐng)域的相關(guān)應(yīng)用較少,。與通用領(lǐng)域數(shù)據(jù)相比,基層治理過程中的敏感信息識(shí)別實(shí)體嵌套,、一詞多義和字詞錯(cuò)誤等問題更為嚴(yán)重,。
此外,通用領(lǐng)域的命名實(shí)體識(shí)別雖包含了人名,、地名和機(jī)構(gòu)名等部分敏感實(shí)體,,但未能將身份證號(hào)、手機(jī)號(hào)和銀行卡號(hào)等數(shù)字類型的敏感實(shí)體作為數(shù)據(jù)標(biāo)注,,難以包含基層治理過程中產(chǎn)生的眾多敏感實(shí)體類型,。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://forexkbc.com/resource/share/2000005647
作者信息:
吳磊1,汪杭軍2
(1.浙江農(nóng)林大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,,浙江 杭州 311300,;2.浙江農(nóng)林大學(xué)暨陽(yáng)學(xué)院 工程技術(shù)學(xué)院,浙江 諸暨 311800)