文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.19358/j.issn.2097-1788.2023.08.012
引用格式:裴卓雄,,楊敏,楊婧.基于TextCNN-Bert融合模型的不良信息識(shí)別技術(shù)[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,,2023,,42(8):72-76.
0 引言
隨著互聯(lián)網(wǎng)行業(yè)蓬勃發(fā)展,網(wǎng)絡(luò)上不良信息的泛濫引發(fā)了諸多社會(huì)問題,,特別是歷史,、時(shí)政新聞等敏感領(lǐng)域的不良信息,通過編排,、篡改,、杜撰、偽造的方式,,具有極強(qiáng)的迷惑性和欺騙性,,腐蝕人們的思想,影響人們的價(jià)值觀和判斷能力,,危害社會(huì)安全[1],。文本作為主要傳播方式,研究敏感領(lǐng)域不良信息的識(shí)別技術(shù)具有深遠(yuǎn)意義,。
自然語言處理技術(shù)( Natural Language Processing, NLP)能夠?qū)ξ谋具M(jìn)行深入分析和理解,,從而實(shí)現(xiàn)文本的分類和識(shí)別。Kim[2]提出一種用于文本分類的卷積神經(jīng)網(wǎng)絡(luò)模型TextCNN,,可以在一定程度上避免梯度消失的問題,,而且在處理短文本和固定長(zhǎng)度文本時(shí)表現(xiàn)良好。Lai[3]提出了文本分類模型RCNN,,同時(shí)結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),。Wang[4]比較不同循環(huán)神經(jīng)網(wǎng)絡(luò)模型在文本分類任務(wù)中的性能,表明了LSTM模型在文本分類的優(yōu)勢(shì),。Devlin[5]提出了BERT模型,,該模型是一種基于Transformer網(wǎng)絡(luò)的預(yù)訓(xùn)練模型,可用于自然語言處理任務(wù),,如文本分類,、語言推斷等。Chen[6]提出了一種基于雙向情感表情符號(hào)嵌入和基于注意力的LSTM的Twitter情感分析方法,該方法使用雙向LSTM來學(xué)習(xí)句子中的上下文信息,,使用注意力機(jī)制來加強(qiáng)對(duì)重要信息的關(guān)注,,使用情感表情符號(hào)來增強(qiáng)情感分類的精度。李志杰[7]提出一種基于 LSTM 和 TextCNN 的聯(lián)合模型,,捕捉文本中的上下文關(guān)系和局部特征,,提高短文本分類的準(zhǔn)確性。Sanagavarapu[8]提出BiLSTM和人工神經(jīng)網(wǎng)絡(luò)ANN組成的混合模型,,通過上下位詞的概念獲取新聞的語義并映射到ANN模型上,,提升對(duì)新聞文章分類的準(zhǔn)確性。Rehman[9]提出了一種基于CNNLSTM的混合模型,,用于提高電影評(píng)論情感分析的準(zhǔn)確性,。該模型利用CNN提取局部特征,LSTM則用于學(xué)習(xí)序列信息,,從而結(jié)合了兩種模型的優(yōu)點(diǎn)。
敏感領(lǐng)域?qū)儆趯I(yè)領(lǐng)域,,不良信息的識(shí)別技術(shù)研究十分有限,,通用的識(shí)別技術(shù)可以直接應(yīng)用于識(shí)別,但存在以下問題:一是領(lǐng)域特定語言和術(shù)語問題,。敏感領(lǐng)域具有豐富的領(lǐng)域特定語言和術(shù)語,,這些語言和術(shù)語可能對(duì)于通用模型不易理解,從而導(dǎo)致文本識(shí)別準(zhǔn)確率下降,。二是背景知識(shí)問題,。敏感領(lǐng)域涉及敏感事件、人物和背景等方面的知識(shí),,這些知識(shí)對(duì)于模型來說可能是未知的,,需要進(jìn)行特殊的處理才能進(jìn)行識(shí)別和理解。三是文本復(fù)雜性的問題,。敏感領(lǐng)域文本非常復(fù)雜,,包含大量的隱喻、比喻和引申意義,,這些都需要模型具備識(shí)別和理解的能力,。
因此,本文將敏感領(lǐng)域不良信息的識(shí)別問題轉(zhuǎn)化為敏感領(lǐng)域主題識(shí)別任務(wù)和情感隱喻識(shí)別任務(wù),,提出一種基于TextCNNBert融合模型,,既利用TextCNN對(duì)關(guān)鍵詞和局部特征更加敏感的優(yōu)勢(shì),準(zhǔn)確識(shí)別敏感領(lǐng)域的特定語言和術(shù)語,;又能利用Bert的預(yù)訓(xùn)練能力和自注意力機(jī)制,,提升對(duì)隱喻、比喻和引申意的識(shí)別。實(shí)驗(yàn)結(jié)果表明,,本模型在準(zhǔn)確率,、召回率、精確率等方面識(shí)別效果良好,。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://forexkbc.com/resource/share/2000005470
作者信息:
裴卓雄1,,楊敏2,楊婧2
(1.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,,北京100032,;2.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心山西分中心,山西太原044400)