基于預(yù)訓(xùn)練模型的基層治理敏感實體識別方法
所屬分類:技術(shù)論文
上傳者:zhoubin333
文檔大?。?span>3658 K
標(biāo)簽: 預(yù)訓(xùn)練語言模型 基層治理 中文命名實體識別
所需積分:0分積分不夠怎么辦,?
文檔介紹:基層治理產(chǎn)生的大量敏感數(shù)據(jù)可通過數(shù)據(jù)脫敏去除隱私內(nèi)容,但這些數(shù)據(jù)包含較多非結(jié)構(gòu)化文本數(shù)據(jù),,難以直接進行數(shù)據(jù)脫敏,。因此,需要對非結(jié)構(gòu)化文本數(shù)據(jù)進行命名實體識別以提取敏感數(shù)據(jù),。首先把敏感實體分為16類并對信訪文本進行標(biāo)注,,輸入層表示采用預(yù)訓(xùn)練模型BERT,,編碼層利用雙向長短時記憶網(wǎng)絡(luò)汲取上下文信息,,解碼層通過條件隨機場模型優(yōu)化序列,構(gòu)建了較高精度的基層治理敏感實體識別模型,。針對脫敏工作需要,,改變假陰性和假陽性的loss權(quán)重,并采用敏感實體框選率輔助評價模型性能,。在基層治理信訪數(shù)據(jù)集和公共數(shù)據(jù)集MSRA上進行實驗,,F(xiàn)1值分別為88.38%和90.11%,相較于基準(zhǔn)模型提升了4.64%和3.78%,。該模型可應(yīng)用于非結(jié)構(gòu)化文本的敏感實體識別,,識別成功率高。現(xiàn)有評價指標(biāo)未能較好地反映敏感實體的間接推理關(guān)系,,應(yīng)當(dāng)探索更完善的敏感實體評價體系,。
現(xiàn)在下載
VIP會員,AET專家下載不扣分,;重復(fù)下載不扣分,,本人上傳資源不扣分。