文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2020.07.009
引用格式: 吳習(xí)沫,朱廣宇,,張雷. 安全類(lèi)文章的多文本分類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息技術(shù)與網(wǎng)絡(luò)安全,,2020,
39(7):52-56,60.
互聯(lián)網(wǎng)已成為信息傳播的普遍途徑,,然而,由于互聯(lián)網(wǎng)中的冗余信息過(guò)多,,各網(wǎng)站提供的標(biāo)簽沒(méi)有統(tǒng)一的分類(lèi)標(biāo)準(zhǔn),,使得整合某一特定類(lèi)的文章信息所消耗的時(shí)間成本和人力成本增加。但目前為止,,針對(duì)網(wǎng)絡(luò)安全類(lèi)網(wǎng)站的技術(shù)類(lèi)文章,,還沒(méi)有一套系統(tǒng)能夠很好地解決上述對(duì)應(yīng)問(wèn)題。
為迅速掌握最新的網(wǎng)絡(luò)安全信息,,本文設(shè)計(jì)并實(shí)現(xiàn)了基于CNN和LSTM混合模型的安全類(lèi)文章多文本分類(lèi)系統(tǒng),,該系統(tǒng)從多種來(lái)源收集安全類(lèi)技術(shù)文本,并將它們以特定格式匯總,,自動(dòng)標(biāo)記匯總后的文章內(nèi)容,。就信息收集而言,系統(tǒng)主要采集近一年的安全類(lèi)技術(shù)文本,,收集的目標(biāo)內(nèi)容主要包括文章內(nèi)容和網(wǎng)頁(yè)自帶的標(biāo)簽,,對(duì)于各網(wǎng)站自定義的文章標(biāo)簽,可作為多標(biāo)簽的一部分,,供用戶參考,。安全類(lèi)文本與普通文本對(duì)比需要由多個(gè)標(biāo)簽對(duì)其進(jìn)行標(biāo)記分類(lèi)處理。因此安全類(lèi)文本的分類(lèi)要難于普通文本分類(lèi)處理,。
面向網(wǎng)絡(luò)安全數(shù)據(jù)高并發(fā)的安全類(lèi)網(wǎng)站,本文設(shè)計(jì)和實(shí)現(xiàn)了信息采集模塊,,該模塊主要實(shí)現(xiàn)了基于Scrapy框架的分布式爬蟲(chóng)程序設(shè)計(jì),,完成了多個(gè)安全類(lèi)網(wǎng)站技術(shù)類(lèi)文章的文本信息數(shù)據(jù)采集。
本文設(shè)計(jì)并實(shí)現(xiàn)了信息分類(lèi)模塊,,它負(fù)責(zé)對(duì)所獲得的數(shù)據(jù)進(jìn)行預(yù)處理,、文本表示以及文本分類(lèi),其中文本分類(lèi)模塊具體提出了一種基于CNN和LSTM的混合分類(lèi)模型,,它綜合了CNN與LSTM的優(yōu)點(diǎn),,提高了模型的特征提取能力。實(shí)驗(yàn)結(jié)果表明,,基于CNN和LSTM的混合分類(lèi)模型達(dá)到了比較高的準(zhǔn)確率,,CNN和LSTM的混合模型的準(zhǔn)確率為91.99%,。CNN-LSTM與CNN、LSTM相比分類(lèi)準(zhǔn)確率提高了1.79%和1.54%,。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://forexkbc.com/resource/share/2000003231
作者信息:
吳習(xí)沫,,朱廣宇,張 雷
(華北計(jì)算機(jī)系統(tǒng)工程研究所,,北京100083)