文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2016.03.032
中文引用格式: 周晶晶,陳慶虎,,彭文花,,等. 基于多特征的打印文件層級分類研究[J].電子技術(shù)應用,2016,,42(3):113-115,,119.
英文引用格式: Zhou Jingjing,Chen Qinghu,,Peng Wenhua,et al. Printed document identification with cascade classifier based on multi-feature[J].Application of Electronic Technique,,2016,,42(3):113-115,119.
0 引言
隨著信息時代的發(fā)展,,各類圖像處理軟件及高質(zhì)量激光打印機應運而生,,與此同時激光打印機的成本越來越低,這導致其越來越普遍,。激光打印機的使用數(shù)量增長,,犯罪分子制造偽證的技術(shù)更加高明,所以取證技術(shù)變得非常重要,。打印文件的鑒別是一種廣泛應用于安全領(lǐng)域的取證技術(shù),,可以通過對打印文件的分析判別打印設(shè)備的特性,當發(fā)現(xiàn)打印設(shè)備偽造假文件時,,即可幫助抓獲犯罪分子,。
自打印機應用以來,打印文件鑒別相關(guān)的研究有很多,,針對傳統(tǒng)的噴墨打印機多通過分析打印文件中的墨粉,、墨水等打印材料,查找打印機在打印文件中留下的痕跡,,有基于墨粉紋理進行的研究[1],。隨著激光打印機的普遍,越來越多的研究從打印機文件中提取打印特性的各種特征,,Delp等人[2]提出了利用不同激光打印機的不同條帶頻率進行識別的方案,,然而這種方法并不適用于文本文檔。由于條帶頻率方案不能用于文本文檔,,Deng等人[3]提出了一種激光打印機識別文本文檔的方法,,他們通過字符匹配來進行識別。Mikkilineni 等人[4]利用灰度共生矩陣特征(GLCM)方法,, 通過提取特定字體的打印字符“e”的紋理特征來鑒別打印文件的源打印機,。Choi等人[5]提出基于小波變換的打印機識別方案。
本文算法思想是基于多特征融合和層級分類器來提高準確率,,通過源于10臺打印機的4 000張圖片來進行驗證,,證明該方法能在一定程度上提高檢測準確率和速度。
1 圖像特征提取
1.1 高斯混合模型
高斯混合模型(GMM)是一種利用多個單高斯函數(shù)建模的方式,,其概率密度函數(shù)是由多個高斯概率密度函數(shù)加權(quán)求和得到的,,如下所示:
對于打印字符,字符、字符邊緣以及背景三部分具有顯著的差異,,這是典型的聚類問題,。圖1(a)所示為原始圖像,圖1(b)所示為三階高斯混合模型建模后的圖像,,圖中灰度值為零(黑色)的部分表示字符本身,,灰度值為255(白色)的部分表示字符邊緣,灰度值為128(灰色)的部分表示紙張背景,,可以看出三階高斯混合模型描述出了字符圖像的三部分信息,。
1.2 LBP算子
局部二值模式(LBP)是由OJALA T[6]等人提出的一種簡單但非常有效的描述圖像局部紋理特征的算子,原始的LBP特征提取是通過在3×3的矩形框內(nèi),,以矩形框中心點gc的灰度值作為閾值,,與周圍領(lǐng)域內(nèi)像素點(g0,g1…gp-1)的灰度值進行比較,,得到的二進制碼來表征圖像的紋理特征,。gc的LBP特征值LBP(P,R)定義為:
本文采用圓域均勻模式的LBP算子,,對于測試圖像集X={x1,,x2…xN},通過將字符圖像劃分為若干個區(qū)域,,計算該區(qū)域內(nèi)所有像素點的LBP特征值,,再統(tǒng)計該區(qū)域的LBP特征直方圖,最后將LBP特征譜的統(tǒng)計直方圖作為紋理分類的依據(jù),,最終的LBP圖譜直方圖如圖2所示,。
2 多分類器級聯(lián)算法
多分類器級聯(lián)訓練算法如圖3所示,SVM作為基分類器,,每一級訓練結(jié)果作為一個分類器模版,,使用boosting[7]策略集成融合,具體訓練步驟如下:
(1)輸入樣本集X={x1,,x2…xN},,對應的Y={y1,y2…yM}為類別矩陣,。
(2)初始化樣本權(quán)重,。
(3)設(shè)置級聯(lián)層級T,對于t=1,,2…T,,根據(jù)樣本權(quán)重選擇訓練樣本,訓練每一級分類器Ht,,新一層分類器會側(cè)重上一輪分錯的樣本,也就是難以區(qū)分的樣本,下文稱之為hard樣本,。同時每一輪訓練會加入部分新樣本,,提高級聯(lián)分類器的穩(wěn)定性和適應性。
(4)測試所有訓練樣本,,計算每一輪的錯誤率et,。
(5)當滿足錯誤率小于0.5時,計算分類器權(quán)重
(6)更新權(quán)重,,分類錯誤的樣本權(quán)重增加,,分類正確的樣本權(quán)重減少,計算公式為 :
3 實驗與分析
為了測試本文的方法,,建立了包含10臺激光打印機的打印文件數(shù)據(jù)庫,,該數(shù)據(jù)庫共有4 000張完整圖像集,分別使用單一SVM分類器與級聯(lián)分類器作對比性研究,,選取原始數(shù)據(jù)的3/4作為訓練集,,剩下的作為測試集。由于訓練樣本是隨機挑選的,,實際試驗中在相等訓練集大小的情況下做了10次測試,,并取測試的平均值作為識別率。具體實現(xiàn)步驟如下:
(1)特征提取,。本文采用三階高斯混合模型,,每一個高斯模型有均值、均方差,、權(quán)重3個參數(shù),,最終特征集為9維。LBP特征提取采用圓域均勻模式LBP算子,,圓域半徑r=2.5,,取樣點p=12,LBP紋理特征向量以圖像的分塊LBP直方圖表示,,其中N=14,。
(2)特征融合。實驗中采用的是加權(quán)融合的辦法,,具體思路是:
①歸一化:為了消除量綱影響,,對數(shù)據(jù)集進行歸一化操作,統(tǒng)一數(shù)據(jù)的標準,,歸一化操作之后,,GMM和LBP特征集就會被統(tǒng)一到一個特定的區(qū)間中。
②加權(quán):通過循環(huán)判定,,找出最優(yōu)權(quán)重,,權(quán)重計算公式如下:
其中,,wGMM表示GMM特征集的權(quán)重,wLBP表示LBP特征集的權(quán)重,,w0x(x=0,,1)表示權(quán)重,初始值為w00=0,,w01=1,,步長step=0.01,k的取值為0,,1,,2…,50,。最終取得的最優(yōu)權(quán)重為wGMM=0.54 ,,wLBP=0.46。
③融合:GMM特征集的大小為4 000×9,,LBP特征集大小為4 000×14,,本文將GMM 的9維特征和LBP的14維特征融合成23維特征,圖像特征數(shù)量和種類的增加會更好地改善分類結(jié)果,。特征融合模型圖4所示,。
通過上述加權(quán)融合算法將GMM特征和LBP特征融合在同一特征空間中,分別對GMM和LBP單一特征集及融合特征集做分類研究,,表1所示為SVM分類器的鑒別結(jié)果,,GMM特征集和LBP特征集鑒別的準確率分別為85.5%和84.7%。因為打印機自身的差異性以及打印設(shè)備使用過程中的不穩(wěn)定性,,導致鑒別結(jié)果有一定的誤差,,例如打印過程中可能出現(xiàn)的噴墨漏墨以及斷筆等情況,會一定程度上影響鑒別結(jié)果,。融合特征集鑒別的準確率為94.45%,,說明高斯混合模型和局部二值模式相結(jié)合的算法可以提高打印文件識別率。
表2所示為GMM特征集,、LBP特征集和融合特征集輸入級聯(lián)分類器的結(jié)果,。對比表1的數(shù)據(jù),級聯(lián)分類器一定程度上提高了分類的準確度,,融合特征集的識別率高達97.10%,,驗證了本文算法的可行性。圖5所示的混淆矩陣描述了每一類打印樣本的識別效果,。分類器級聯(lián)層數(shù)會影響分類的速度,,圖6為訓練10輪得到的層級分類器錯誤率,三層級聯(lián)即可取得較好的處理效果,,級聯(lián)五層之后分類的準確率變化不大,,基本趨于平穩(wěn),,本文選取的是五層SVM分類器級聯(lián)。
4 結(jié)語
眾所周知,,紋理分析有許多潛在的應用,,比如金屬表面、遙感圖片等,,紋理分析應用于打印文件鑒別中常用的是灰度共生矩陣,但是灰度共生矩陣的計算量太大,,本文采用GMM和LBP特征集相結(jié)合的方法,,特征集維度為23維,大大降低了計算量,。同時,,由于單一特征集包含的圖片信息不全,鑒別準確率不高,,采用多特征會大大提高鑒別的準確率與速度,。
GMM特征多用于語音識別,LBP特征常見的應用場景是人臉識別,,本文將這兩種特征應用于打印文件鑒別,,是一個重大突破。同時訓練了基于AdaBoost的SVM級聯(lián)分類器,,提高了分類的準確度,,使得打印文件鑒別工作的研究在安全領(lǐng)域的應用更加可靠。
參考文獻
[1] 鄧偉.基于打印墨粉紋理分析的打印文件檢驗研究[J].電子測量技術(shù),,2014,,37(2):70-74.
[2] MIKKILINENI A K,KHANNA N,,DELP E J.Texture based attacks on intrinsic signature based printer identification[C].IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics,,2010:175-178.
[3] DENG W,CHEN Q,,YUAN F,,et al.Printer identification based on distance transform[C].First International Conference on Intelligent Networks and Intelligent Systems.IEEE Computer Society,2008:565-568.
[4] MIKKILINENI A K,,CHIANG P J,,ALI G N,et al.Printer identification based on graylevel co-occurrence features for security and forensic applications[C].Proceedings of SPIE-The International Society for Optical Engineering,,2005,,5681:430-440.
[5] CHOI J H,IM D H,,LEE H Y,,et al.Color laser printer identification by analyzing statistical features on discrete wavelet transform[C].Image Processing(ICIP),,2009 16th IEEE International Conference on.IEEE,2009:1505-1508.
[6] OJALA T,,PIETIKAINEN M,,HARWOOD D.Performance evaluation of texture measures with classification based on Kullback discrimination of distributions[C].Pattern Recognition,1994.Vol.1-Conference A:Computer Vision & Image Processing.,,Proceedings of the 12th IAPR International Conference on.IEEE,,1994,1:582-585.
[7] VIOLA P,,JONES M.Fast and robust classification using asymmetric AdaBoost and a detector cascade[C].Advances in Neural Information Processing Systems,,2002,14:1311-1318.