文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.180439
中文引用格式: 金鵬,,楊忠良,,黃永峰. 基于卷積神經(jīng)網(wǎng)絡(luò)的詩(shī)詞隱寫(xiě)檢測(cè)方法[J].電子技術(shù)應(yīng)用,2018,,44(10):114-117,,126.
英文引用格式: Jin Peng,Yang Zhongliang,,Huang Yongfeng. Poetry steganalysis based on convolutional neural network[J]. Application of Electronic Technique,,2018,44(10):114-117,126.
0 引言
隱寫(xiě)術(shù)是信息安全領(lǐng)域的一個(gè)非常重要的研究熱點(diǎn),,它通過(guò)難以察覺(jué)的方式將秘密信息隱藏到數(shù)字載體中。它可以用來(lái)建立秘密信道,,并通過(guò)互聯(lián)網(wǎng)在連接受到限制或監(jiān)控的雙方之間傳遞隱蔽信息[1],。密碼術(shù)主要通過(guò)設(shè)計(jì)加密技術(shù),使保密信息不可讀,,但同時(shí)也暴露了數(shù)據(jù)的重要性,,使其更容易遭受攔截、破解等攻擊,。而隱寫(xiě)術(shù)則致力于通過(guò)設(shè)計(jì)精妙的方法,,使其根本不會(huì)引起非授權(quán)者的注意并且無(wú)從得知保密信息的存在與否。由此可以看出,,隱寫(xiě)術(shù)的最大特征就是具有極強(qiáng)的隱蔽性,。基于此,,設(shè)計(jì)并實(shí)現(xiàn)自動(dòng)隱寫(xiě)檢測(cè)方法成為一件非常具有挑戰(zhàn)性的任務(wù),。
信息載體的形式多種多樣,因此有基于不同載體的信息隱藏方法,,比如基于圖像[2],、語(yǔ)音[3]、文本[4-5]等,。這些隱寫(xiě)技術(shù)在信息安全保障體系的諸多方面發(fā)揮著重要作用,。但隱寫(xiě)術(shù)也有可能被用于非法目的。因此,,急需解決非法信息的檢測(cè)問(wèn)題,,阻止非法信息的傳輸。由于圖像和語(yǔ)音相比于文本具有更大的信息冗余度,使其成為非常常用的信息隱藏載體,,相關(guān)的信息隱藏技術(shù)[6-7]也已經(jīng)比較成熟,。
文本中可用于隱藏?cái)?shù)據(jù)的冗余空間非常有限,導(dǎo)致在文本中嵌入信息非常困難,,但也吸引了大量研究者對(duì)其進(jìn)行研究?,F(xiàn)有的基于文本的信息隱藏方法大致可以分為兩大類(lèi),一類(lèi)是基于文本格式[5,,8-9],,一類(lèi)是基于文本內(nèi)容[10-11]?;谖谋靖袷降男畔㈦[寫(xiě)方法一般將文本當(dāng)成一種特殊編碼的圖像進(jìn)行處理,,它們通過(guò)調(diào)整文本的字符間距[8]、字詞的偏移[5],、字符編碼方式[9]等實(shí)現(xiàn)信息隱藏,。這一類(lèi)方法通常容量較大、實(shí)現(xiàn)簡(jiǎn)單,,但魯棒性不強(qiáng),。基于文本內(nèi)容的方法,,通常通過(guò)對(duì)文本進(jìn)行詞匯,、句法、語(yǔ)義等方面的修改,,盡量保持文本局部以及全局語(yǔ)義不變、語(yǔ)法正確的方式來(lái)實(shí)現(xiàn)信息的嵌入,。例如,,文獻(xiàn)[12]利用馬爾科夫模型進(jìn)行自然文本生成并通過(guò)對(duì)生成過(guò)程中轉(zhuǎn)移概率進(jìn)行編碼實(shí)現(xiàn)信息隱藏,但存在的缺點(diǎn)是生成的文本都不太自然,。然而,,隨著近些年自然語(yǔ)言處理技術(shù)的發(fā)展,出現(xiàn)了越來(lái)越多基于文本自動(dòng)生成的信息隱藏方法,,例如一些隱寫(xiě)技術(shù)能自動(dòng)生成大量的詩(shī)詞并在生成過(guò)程中實(shí)現(xiàn)大容量秘密信息嵌入[13-15],,同時(shí)最終生成的詩(shī)很難與真實(shí)詩(shī)人寫(xiě)的詩(shī)區(qū)分開(kāi)。這一類(lèi)方法比基于格式的方法具有更強(qiáng)的魯棒性和更好的隱蔽性,。目前基于文本語(yǔ)義內(nèi)容的信息隱藏技術(shù)是文本信息隱藏技術(shù)發(fā)展的研究重點(diǎn)和熱點(diǎn),。本文主要針對(duì)這一類(lèi)方法,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本自動(dòng)隱寫(xiě)檢測(cè)方法,,實(shí)現(xiàn)對(duì)文本中是否隱藏信息的自動(dòng)識(shí)別,。
1 相關(guān)研究工作
隱寫(xiě)分析技術(shù)是和隱寫(xiě)術(shù)相對(duì)抗的一種技術(shù)。通常認(rèn)為判定某個(gè)數(shù)據(jù)載體中隱藏信息的存在即可認(rèn)為該隱寫(xiě)系統(tǒng)被攻破。因此,,本文重點(diǎn)研究自動(dòng)檢測(cè)文本中是否含有隱藏信息,。
目前,已有的文本隱藏信息檢測(cè)研究要么是主要針對(duì)一些特定的隱藏算法進(jìn)行研究,,要么是根據(jù)人為定義的統(tǒng)計(jì)規(guī)則進(jìn)行判別,。針對(duì)前一類(lèi)方法的研究有:吳明巧僅僅針對(duì)Stego工具,提出了基于標(biāo)記特征與統(tǒng)計(jì)特征相結(jié)合的檢測(cè)方法[16],;KWON H等針對(duì)基于文檔結(jié)構(gòu)數(shù)據(jù)的隱藏信息,,利用微軟復(fù)合文檔格式特征的分析,檢測(cè)利用未用空間和插入流數(shù)據(jù)隱藏的信息的存在性[17],。針對(duì)后一類(lèi)方法的研究有:周繼軍借鑒概念圖的思想,,提出了基于句間相關(guān)性度量判定法的自然語(yǔ)言隱藏信息檢測(cè)算法[18];HUANG L S研究團(tuán)隊(duì)也提出了基于詞位置分布統(tǒng)計(jì)特征[19]以及基于統(tǒng)計(jì)詞的頻度,、檢測(cè)熵的方法[20],。這些文本隱寫(xiě)檢測(cè)方法最大的缺點(diǎn)在于,它們的針對(duì)性太強(qiáng),,覆蓋的可檢測(cè)的信息隱藏方法有限,。
隨著技術(shù)的發(fā)展,已經(jīng)有很多研究將信息隱藏和特殊文本的生成相結(jié)合起來(lái),,取得了不錯(cuò)的效果,。比如DESOKY A利用很多特殊的文本形式,例如筆記[15],、笑話[21]等來(lái)隱藏信息,。文獻(xiàn)[14]中提出的模型利用計(jì)算機(jī)自動(dòng)生成詩(shī)詞實(shí)現(xiàn)信息隱藏。文獻(xiàn)[4]和[13]中也通過(guò)利用馬爾科夫模型和循環(huán)神經(jīng)網(wǎng)絡(luò)算法生成符合規(guī)則的詩(shī)詞,。這一類(lèi)方法生成的詩(shī)詞對(duì)于未經(jīng)訓(xùn)練的人很難區(qū)分開(kāi),,因此具有極高的隱蔽性。現(xiàn)在還沒(méi)有針對(duì)這一類(lèi)隱寫(xiě)算法的隱寫(xiě)檢測(cè)算法,,本文的目的就在于解決這個(gè)問(wèn)題,。
2 基于卷積神經(jīng)網(wǎng)絡(luò)的詩(shī)詞隱寫(xiě)檢測(cè)方法
近兩年,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度神經(jīng)網(wǎng)絡(luò)模型在計(jì)算機(jī)視覺(jué)[22]和自然語(yǔ)言處理[23]等領(lǐng)域取得非常大的成功,。大量的研究顯示卷積神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的特征抽取和表達(dá)能力,,能自動(dòng)從大量數(shù)據(jù)中學(xué)習(xí)得到特征[22]。本文中設(shè)計(jì)并實(shí)現(xiàn)了一套基于卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)文本隱寫(xiě)檢測(cè)算法,,它能自動(dòng)對(duì)待檢測(cè)的文本進(jìn)行特征抽取進(jìn)而判斷是否隱藏信息,。
本文最終采用的卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如下:一個(gè)輸入層、一個(gè)包含多個(gè)不同尺寸卷積核的卷積層,、一個(gè)平均池化層,、一個(gè)全連接層以及一個(gè)Softmax分類(lèi)器,。輸入層將輸入文本轉(zhuǎn)換成一個(gè)適合后續(xù)卷積層操作的二維矩陣。卷積層用來(lái)對(duì)輸入矩陣進(jìn)行特征抽取,,不同尺寸的卷積核能學(xué)到不同的上下文相關(guān)特征,。平均池化層用來(lái)對(duì)學(xué)習(xí)的特征進(jìn)行下采樣,它能增強(qiáng)模型的魯棒性并顯著提升模型性能,。全連接層用來(lái)對(duì)學(xué)習(xí)到的特征進(jìn)行融合并送給Softmax分類(lèi)器,。Softmax分類(lèi)器的參數(shù)通過(guò)自學(xué)習(xí)完成之后,對(duì)輸入的特征向量進(jìn)行分類(lèi),,判斷是否發(fā)生了信息隱寫(xiě),。卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。
模型的輸入是待檢測(cè)的文本,,輸出是判斷是否發(fā)生隱寫(xiě)的概率,。對(duì)于每一個(gè)輸入的待檢測(cè)文本S,將其表示成如式(1)所示的矩陣,,其中矩陣的第i行表示文本S中第i個(gè)詞,,每個(gè)詞表示成一個(gè)隨機(jī)初始化的D維的向量,即:
其中,,P和T向量的維度都是2,,分別表示有/沒(méi)有隱藏信息。T是輸入文本的標(biāo)簽,,如:可以用向量[0,,1]表示有隱寫(xiě),[1,,0]表示沒(méi)有隱寫(xiě),。
模型的訓(xùn)練過(guò)程是通過(guò)在訓(xùn)練數(shù)據(jù)集上最小化LOSS函數(shù),采用的是帶動(dòng)量項(xiàng)的隨機(jī)梯度下降算法(SGD),。對(duì)模型中參數(shù)w的更新公式如下:
3 實(shí)驗(yàn)結(jié)果及評(píng)估
3.1 實(shí)驗(yàn)數(shù)據(jù)
在本次實(shí)驗(yàn)中,,為了測(cè)試本文模型的性能,收集了全唐詩(shī)共13 342首五言詩(shī)作為正樣本,,即不含隱藏信息的樣本。然后利用文獻(xiàn)[4]中的算法生成10 000首隱藏信息的五言詩(shī)作為負(fù)樣本,。因此整個(gè)實(shí)驗(yàn)所用到的數(shù)據(jù)集共含有23 342首五言詩(shī),,利用其中17 000首作為訓(xùn)練集訓(xùn)練本文模型,剩下6 342首作為測(cè)試集測(cè)試本文模型,,具體劃分如表1所示,。
3.2 實(shí)驗(yàn)設(shè)置
對(duì)于每首輸入模型的樣本,首先對(duì)其進(jìn)行去結(jié)構(gòu)化,。具體來(lái)說(shuō),,即去掉每首詩(shī)的標(biāo)題,,并將剩下的4句話首尾相連,因此每首詩(shī)都轉(zhuǎn)化為一個(gè)包含20個(gè)字的文本,。其次,,將每個(gè)字映射成一個(gè)300維隨機(jī)初始化的向量,因此實(shí)際上模型的輸入是一個(gè)20×300的矩陣,。卷積層中卷積核的寬度和輸入矩陣寬度一致,,即300維。而卷積核的高度是可變的,,實(shí)驗(yàn)中采用的卷積核高度是1,,2,3,,并且每個(gè)尺寸包含56個(gè)卷積核,。最后輸出層的維度是2,對(duì)應(yīng)是否隱藏信息,。訓(xùn)練過(guò)程中,,采用隨機(jī)梯度下降方法訓(xùn)練模型參數(shù),初始學(xué)習(xí)率為0.01,。
3.3 實(shí)驗(yàn)結(jié)果及分析
采用幾種分類(lèi)任務(wù)中常用的指標(biāo)來(lái)評(píng)價(jià)本文模型最后的性能,,即Precision、Recall,、F1-score和Accuracy,。計(jì)算公式如下:
其中,TP表示正樣本被預(yù)測(cè)為正樣本的數(shù)量,,F(xiàn)P表示負(fù)樣本被預(yù)測(cè)成正樣本的數(shù)量,,F(xiàn)N表示正樣本預(yù)測(cè)成負(fù)樣本的數(shù)量,TN表示負(fù)樣本預(yù)測(cè)成負(fù)樣本的數(shù)量,。
表2中展示了本文模型以及其他3種機(jī)器學(xué)習(xí)算法的測(cè)試結(jié)果,,其中CNN表示本文模型的結(jié)果。從結(jié)果中可以看到,,本文模型在各個(gè)指標(biāo)上取得了最好的實(shí)驗(yàn)結(jié)果,,這充分證明了本文模型強(qiáng)大的特征抽取能力,能非常有效地應(yīng)用于文本隱寫(xiě)檢測(cè)任務(wù)上,。
4 結(jié)論
文中提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本隱寫(xiě)分析算法,。它能自動(dòng)從大量數(shù)據(jù)中提取到高層次的語(yǔ)義信息,并判斷輸入文本中是否隱藏信息,。同時(shí),,利用大量的數(shù)據(jù)訓(xùn)練并測(cè)試本文模型,結(jié)果反映該模型能非常高準(zhǔn)確率地檢測(cè)出文本中是否含有隱藏信息,,證明了模型的有效性,。
參考文獻(xiàn)
[1] PETITCOLAS F A P,,ANDERSON R J,KUHN M G.Information hiding-a survey[J].Proceedings of the IEEE,,1999,,87(7):1062-1078.
[2] ZHOU Z,SUN H,,HARIT R,,et al.Coverless image stega-nography without embedding[C].International Conference on Cloud Computing and Security Nanjing University of Aeronautics and Astronautics,2015.
[3] PENG X,,HUANG Y,,LI F.A steganography scheme in a low-bit rate speech codec based on 3d-sudoku matrix[C].IEEE International Conference on Communication Software and Networks,2016:13-18.
[4] LUO Y,,HUANG Y.Text steganography with high embedding rate: using recurrent neural networks to generate Chinese classic poetry[C].ACM Workshop on Information Hiding and Multimedia Security,,2017:99-104.
[5] SHIRALI-SHAHREZA M H,SHIRALI-SHAHREZA M.A new approach to persian/arabic text steganography[C]. IEEE/ACIS International Conference on Computer and Information Science and IEEE/ACIS International Workshop on Component-Based Software Engineering,,Software Architecture and Reuse,,2006:310-315.
[6] KER A D,BOHME R.Revisiting weighted stego-image steganalysis[J].Proceedings of SPIE-The International Society for Optical Engineering,,2008,,6819:681905.
[7] ALTUN O,SHARMA G,,CELIK M,,et al.Morphological steganalysis of audio signals and the principle of diminishing marginal distortions[C].Proceedings of IEEE International Conference on Acoustics,Speech,,and Signal Processing,,2005,2:21-24.
[8] CHOTIKAKAMTHORN N.Electronic document data hiding technique using inter-character space[C].The 1998 IEEE Asia-Pacific Conference on Circuits and Systems,,1998.IEEE APCCAS 1998,,1998:419-422.
[9] LOW S H,MAXEMCHUK N F,,LAPONE A M.Document identification for copyright protection using centroid detection[J].IEEE Transactions on Commun.1998,,46(3):372-383.
[10] MAHATO S,KHAN D A,,YADAV D K.A modified approach to data hiding in microsoft word documents by change-tracking technique[J/OL].Journal of King Saud University.(2017-08-30)[2018-02-08].https://www.sciencedirect.com/science/article/pii/S1319157817300939?via%3Dihub.
[11] MURPHY B,,VOGE C.The syntax of concealment: reliable methods for plain text information hiding[C].Proceedings of SPIE,2007:6505.
[12] GE X,,JIAO R,TIAN H,,et al.Research on information hiding[J].US-China Education Review,,2006,,3(5):77-81.
[13] LUO Y,HUANG Y,,LI F,,et al.Text steganography based on ci-poetry generation using markov chain model[J].Ksii Transactions on Internet & Information Systems,2016,,10(9):4568-4584.
[14] YU Z S,,HUANG L S.High embedding ratio text steganography by ci-poetry of the song dynasty[J].Journal of Chinese Information Processing,2009,,23(4):55-62.
[15] DESOKY A.Notestega:notes-based steganography methodology[J].Information Systems Security Journal,,A Global Perspective,2009,,18(4):178-193.
[16] 吳明巧,,金士堯.針對(duì)文本隱寫(xiě)工具Stego的隱寫(xiě)分析方法[J].計(jì)算機(jī)工程,2006,,32(23):10-12.
[17] KWON H,,KIM Y,LEE S,,et al.A tool for the detection of hidden data in microsoft compound document file format[C].International Conference on Information Science and Security.IEEE,,2008:141-146.
[18] 周繼軍,楊著,,鈕心忻,,等.文本信息隱藏檢測(cè)算法研究[J].通信學(xué)報(bào),2004,,25(12):97-101.
[19] CHEN Z L,,HUANG L S,YU Z S,,et al.A statistical algorithm for linguistic steganography detection based on distribution of words[C].Third International Conference on Availability, Reliability and Security.IEEE Computer Society,,2008:558-563.
[20] CHEN Z L,HUANG L S,,YU Z S,,et al.Effective linguistic steganography detection[C].IEEE,International Conference on Computer and Information Technology Workshops,,2008,,Cit Workshops.IEEE,2008:224-229.
[21] DESOKY A.Jokestega:automatic joke generation-based steganography methodology[J].International Journal of Security and Networks,,2012,,7(3):148-160.
[22] KRIZHEVSKY A,SUTSKEVER I,,HINTON G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.2012:1097-1105.
[23] KIM Y.Convolutional neural networks for sentence classification[Z].arXiv:1408.5882,,2014.
作者信息:
金 鵬1,,2,楊忠良1,,2,,黃永峰1,2
(1.清華大學(xué) 電子工程系,,北京100084,;2.清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室,北京100084)