文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.05.014
引用格式: 王濤. 基于顏色分割的發(fā)票識(shí)別與自校正系統(tǒng)研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,,2021,40(5):80-85.
0 引言
發(fā)票是企業(yè)經(jīng)營(yíng)或人們?nèi)粘OM(fèi)生活中不可或缺的一部分。面對(duì)日益增長(zhǎng)的發(fā)票管理需求,,無(wú)論是紙質(zhì)發(fā)票還是電子發(fā)票,,企業(yè)或個(gè)人都需要在發(fā)票信息的錄入,、存儲(chǔ)及后續(xù)管理上花費(fèi)很多時(shí)間。因此,,應(yīng)用現(xiàn)代技術(shù)對(duì)發(fā)票內(nèi)容信息進(jìn)行自動(dòng)掃描識(shí)別并提取成為財(cái)務(wù)會(huì)計(jì),、計(jì)算機(jī)和軟件應(yīng)用等多個(gè)領(lǐng)域共同希望解決的課題。何文琦[1]在分析了高校財(cái)務(wù)報(bào)銷(xiāo)難題后,,提出了直接采用OCR技術(shù)對(duì)票據(jù)圖片進(jìn)行識(shí)別,,提取發(fā)票中的關(guān)鍵信息,減少網(wǎng)上報(bào)銷(xiāo)過(guò)程中的手工錄入環(huán)節(jié),。王林水[2]等提出了一個(gè)自動(dòng)票據(jù)識(shí)別系統(tǒng),,采用圖像預(yù)處理技術(shù)將圖像進(jìn)行二值化,通過(guò)版面分析后進(jìn)行字符識(shí)別,。王貴新[3]等人建立了利用隱態(tài)馬爾可夫模型(HMMs)的銀行票據(jù)識(shí)別系統(tǒng),,系統(tǒng)首先通過(guò)光電掃描設(shè)備將用戶填寫(xiě)的票據(jù)掃描成灰度圖像,然后去掉票據(jù)的底色,,使之變?yōu)楹诎讏D像,,對(duì)黑白圖像進(jìn)行去噪處理后,再進(jìn)行文字的分割,。
縱觀上述文獻(xiàn),,現(xiàn)有的研究都是將采集的發(fā)票圖像進(jìn)行二值化處理,忽略掉圖片本身的顏色信息,,其次不區(qū)分二維碼,、印章等圖片組成,直接采用版式分析的方法或者OCR的方法對(duì)圖片中的文字進(jìn)行識(shí)別,,這必然帶來(lái)識(shí)別準(zhǔn)確率的降低,。而且上述方法都是對(duì)票面信息進(jìn)行提取,并不進(jìn)行驗(yàn)證,,這導(dǎo)致存在最終結(jié)果上的差錯(cuò)率,,在實(shí)際使用過(guò)程中還需要輔助人工驗(yàn)證。鑒于此,,本文提出通過(guò)顏色分割方法對(duì)發(fā)票圖片進(jìn)行信息分層,,得到二維碼、印章區(qū)域和文字區(qū)域,,針對(duì)文字區(qū)域按照預(yù)設(shè)的格式進(jìn)行文字識(shí)別,,獲得發(fā)票上所記載的發(fā)票代碼、發(fā)票號(hào)碼,、開(kāi)票日期,、購(gòu)方稅號(hào)、銷(xiāo)方稅號(hào),、金額和稅額等信息,;針對(duì)二維碼圖片進(jìn)行自動(dòng)掃描從互聯(lián)網(wǎng)服務(wù)器獲取發(fā)票代碼,、發(fā)票號(hào)碼、開(kāi)票日期,、購(gòu)方稅號(hào),、銷(xiāo)方稅號(hào)、金額和稅額等信息,。然后將兩部分信息進(jìn)行比對(duì)驗(yàn)證發(fā)票的真?zhèn)?。?yàn)證為正確的發(fā)票分別將原始圖片和信息數(shù)據(jù)存入數(shù)據(jù)庫(kù),對(duì)用戶的發(fā)票憑證進(jìn)行統(tǒng)一的信息管理,。驗(yàn)證為錯(cuò)誤的信息以二維碼獲取得信息為準(zhǔn)存入數(shù)據(jù)庫(kù),,并在數(shù)據(jù)中進(jìn)行標(biāo)記以備后續(xù)查詢。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://forexkbc.com/resource/share/2000003556
作者信息:
王 濤
(同濟(jì)大學(xué)浙江學(xué)院 電子與信息工程系,,浙江 嘉興314000)