《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于OCR技術(shù)的主數(shù)據(jù)管理功能研究與實(shí)現(xiàn)
基于OCR技術(shù)的主數(shù)據(jù)管理功能研究與實(shí)現(xiàn)
2015《電子技術(shù)應(yīng)用》智能電網(wǎng)增刊
馬思碩1,張 冰2,張 瑩3
(1.國(guó)網(wǎng)北京市電力公司 信息通信分公司,,北京 100071; 2.國(guó)家電網(wǎng)公司信息通信分公司,北京 100761; 3. 北京國(guó)電通網(wǎng)絡(luò)技術(shù)有限公司,北京 100761)
摘要: 主數(shù)據(jù)的應(yīng)用與數(shù)據(jù)質(zhì)量息息相關(guān),。國(guó)家電網(wǎng)公司為進(jìn)一步完善業(yè)務(wù)應(yīng)用數(shù)據(jù)的質(zhì)量和安全管理,,推進(jìn)建設(shè)了主數(shù)據(jù)管理系統(tǒng),。然而目前主數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)創(chuàng)建效率有待提升,供應(yīng)商主數(shù)據(jù)的審核依舊采用人工審核方式,。本文通過采用漢字OCR技術(shù)實(shí)現(xiàn)了供應(yīng)商主數(shù)據(jù)的自動(dòng)輔助審核功能,,提高了數(shù)據(jù)質(zhì)量和維護(hù)效率,提升了用戶體驗(yàn),,獲得了較高的用戶滿意度,。
Abstract:
Key words :

  馬思碩1,張  冰2,張  瑩3

  (1.國(guó)網(wǎng)北京市電力公司 信息通信分公司,北京 100071;

  2.國(guó)家電網(wǎng)公司信息通信分公司,北京 100761,; 3. 北京國(guó)電通網(wǎng)絡(luò)技術(shù)有限公司,北京 100761)

  摘  要主數(shù)據(jù)的應(yīng)用與數(shù)據(jù)質(zhì)量息息相關(guān),。國(guó)家電網(wǎng)公司為進(jìn)一步完善業(yè)務(wù)應(yīng)用數(shù)據(jù)的質(zhì)量和安全管理,推進(jìn)建設(shè)了主數(shù)據(jù)管理系統(tǒng),。然而目前主數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)創(chuàng)建效率有待提升,供應(yīng)商主數(shù)據(jù)的審核依舊采用人工審核方式,。本文通過采用漢字OCR技術(shù)實(shí)現(xiàn)了供應(yīng)商主數(shù)據(jù)的自動(dòng)輔助審核功能,,提高了數(shù)據(jù)質(zhì)量和維護(hù)效率,提升了用戶體驗(yàn),,獲得了較高的用戶滿意度,。

  關(guān)鍵詞: 主數(shù)據(jù);數(shù)據(jù)質(zhì)量,;OCR技術(shù)

0 引言

  隨著國(guó)家電網(wǎng)公司信息化工程的進(jìn)一步深化和推進(jìn),,公司對(duì)業(yè)務(wù)數(shù)據(jù)和信息化數(shù)據(jù)進(jìn)一步重視,數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全已成為公司關(guān)注的重中之重,。當(dāng)前信息行業(yè)越來越重視對(duì)大數(shù)據(jù)的應(yīng)用,,利用目前已有的業(yè)務(wù)數(shù)據(jù)對(duì)行業(yè)和公司的發(fā)展進(jìn)行判斷和預(yù)測(cè),未來服務(wù)中心和咨詢中心的核心也將是對(duì)數(shù)據(jù)的分析和處理,,這對(duì)信息數(shù)據(jù)的規(guī)范性和質(zhì)量提出了更高的要求,。通過進(jìn)一步規(guī)范數(shù)據(jù)和提升數(shù)據(jù)質(zhì)量,,滿足大數(shù)據(jù)時(shí)代對(duì)于數(shù)據(jù)更加嚴(yán)格的要求[1]。

  主數(shù)據(jù)的應(yīng)用與數(shù)據(jù)質(zhì)量相輔相成,、互相推動(dòng),。主數(shù)據(jù)管理系統(tǒng)的構(gòu)建和執(zhí)行是提升公司數(shù)據(jù)管理與應(yīng)用水平、保障可靠數(shù)據(jù)質(zhì)量的關(guān)鍵措施,。為了提升數(shù)據(jù)的一致性,、完整性、相關(guān)性和精確性,,國(guó)家電網(wǎng)公司推進(jìn)建設(shè)了主數(shù)據(jù)管理系統(tǒng),,實(shí)現(xiàn)了對(duì)大部分主數(shù)據(jù)的統(tǒng)一管理[2]。從公司層面把從多個(gè)業(yè)務(wù)系統(tǒng)中抽取的主數(shù)據(jù)并進(jìn)行整合,,集中進(jìn)行數(shù)據(jù)清洗,,并以服務(wù)的方式把統(tǒng)一、完整,、準(zhǔn)確的主數(shù)據(jù)分發(fā)給企業(yè)的操作型和分析型應(yīng)用,。使公司能夠有效地管理存儲(chǔ)在分布系統(tǒng)中的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證,。

1 主數(shù)據(jù)管理系統(tǒng)應(yīng)用現(xiàn)狀

  國(guó)家電網(wǎng)主數(shù)據(jù)管理系統(tǒng)依托數(shù)據(jù)資源管理平臺(tái),,建立了主數(shù)據(jù)管理的標(biāo)準(zhǔn)規(guī)范和管理體系。自上線運(yùn)行以來,,公司通過主數(shù)據(jù)管理系統(tǒng)先后實(shí)現(xiàn)了對(duì)物資,、財(cái)務(wù)、項(xiàng)目,、人資,、營(yíng)銷等五大類主數(shù)據(jù)的集中管理和維護(hù)[3-4],為業(yè)務(wù)系統(tǒng)提供實(shí)時(shí),、完整,、準(zhǔn)確的主數(shù)據(jù)信息。

  主數(shù)據(jù)管理系統(tǒng)的建設(shè)目標(biāo)是創(chuàng)建低成本,、高擴(kuò)展性,、標(biāo)準(zhǔn)、優(yōu)質(zhì)的可共享主數(shù)據(jù),。主數(shù)據(jù)管理系統(tǒng)需在保證高數(shù)據(jù)質(zhì)量的前提下,,實(shí)現(xiàn)數(shù)據(jù)在不同業(yè)務(wù)系統(tǒng)之間傳輸和同步的自動(dòng)化。為保證數(shù)據(jù)的準(zhǔn)確性,,國(guó)家電網(wǎng)公司主數(shù)據(jù)管理系統(tǒng)創(chuàng)建了數(shù)據(jù)審批機(jī)制,,數(shù)據(jù)的審核包含自動(dòng)校驗(yàn)和人工審批兩方面。主數(shù)據(jù)創(chuàng)建申請(qǐng)?zhí)峤缓?,系統(tǒng)將通過數(shù)據(jù)查重等簡(jiǎn)單規(guī)則進(jìn)行規(guī)范性,、唯一性校驗(yàn),。經(jīng)過系統(tǒng)自動(dòng)校驗(yàn)后的主數(shù)據(jù)申請(qǐng)需按工作流完成在線審批后,方可入庫(kù),。

  主數(shù)據(jù)創(chuàng)建效率和準(zhǔn)確性是衡量系統(tǒng)的重要標(biāo)準(zhǔn)之一,。為了保證數(shù)據(jù)的創(chuàng)建效率,對(duì)于數(shù)據(jù)規(guī)范性要求比較高的主數(shù)據(jù)均設(shè)置了至少兩級(jí)的審批環(huán)節(jié),,主數(shù)據(jù)的維護(hù)準(zhǔn)確性得到了大大提升,,但是創(chuàng)建效率上并不十分令人滿意。供應(yīng)商主數(shù)據(jù)是主數(shù)據(jù)管理系統(tǒng)中最重要的數(shù)據(jù)類型,,供應(yīng)商主數(shù)據(jù)從提報(bào)數(shù)據(jù),、經(jīng)過兩級(jí)審批通過,到最終統(tǒng)一分發(fā)最少需要1天的時(shí)間,,如遇數(shù)據(jù)量大或工作繁忙等情況,,整體流程甚至?xí)娱L(zhǎng)至多天。對(duì)于入庫(kù)緊急程度較高的主數(shù)據(jù),,目前的審核流程還無法滿足用戶的使用需求,。

  本文對(duì)該問題進(jìn)行重點(diǎn)分析和研究,提出一套基于OCR技術(shù)的優(yōu)化方案,,利用技術(shù)創(chuàng)新對(duì)以上問題進(jìn)行了功能優(yōu)化,,并通過了方案論證、測(cè)試部署驗(yàn)證,,有效地提升工作效率,,改善了主數(shù)據(jù)管理系統(tǒng)的功能。

2 利用OCR技術(shù)實(shí)現(xiàn)供應(yīng)商主數(shù)據(jù)自動(dòng)審核功能

  2.1 供應(yīng)商主數(shù)據(jù)審批功能

  主數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)管理模塊是本系統(tǒng)的核心,,該模塊包含主數(shù)據(jù)的查詢,、申請(qǐng)、審批等主要功能,,以及數(shù)據(jù)和配置的管理,,數(shù)據(jù)分發(fā)和報(bào)表管理等功能。

  當(dāng)用戶對(duì)供應(yīng)商主數(shù)據(jù)提出申請(qǐng)后,,將通過省(市)公司運(yùn)維和總部主數(shù)據(jù)運(yùn)維兩級(jí)審批,,審批通過后將創(chuàng)建或更新主數(shù)據(jù),。經(jīng)統(tǒng)計(jì),僅2014年通過主數(shù)據(jù)管理平臺(tái)申請(qǐng)創(chuàng)建和更新的供應(yīng)商主數(shù)據(jù)就有82 000條,,其中公司類數(shù)據(jù)占到90%以上,,而該類數(shù)據(jù)需上傳的信息包括組織機(jī)構(gòu)代碼證、稅務(wù)登記證,、營(yíng)業(yè)執(zhí)照三類電子掃描圖片,,兩級(jí)審批人員都需對(duì)這三項(xiàng)信息進(jìn)行人工對(duì)比審核,,效率低且需大量的人力支持??偛窟\(yùn)維情況如表1所示,。

001.jpg

  從以上表格可以看出,需要運(yùn)維人員為3-6人,,且長(zhǎng)時(shí)間的重復(fù)工作必然導(dǎo)致效率和準(zhǔn)確率的下降,。此外,運(yùn)維組還需承擔(dān)其他種類主數(shù)據(jù)的審批,、電話咨詢,、工單處理、應(yīng)用分析以及專項(xiàng)工作等多項(xiàng)工作,,工作量繁重,,運(yùn)維效率亟待提升。

  2.2 OCR技術(shù)介紹

  光學(xué)字符識(shí)別(Optical Character Recognition,,OCR)技術(shù)是通過檢測(cè)印刷或手寫文字的暗,、亮模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程[5],。

002.jpg

  目前,,OCR技術(shù)已經(jīng)在圖書業(yè)、印刷業(yè)等相關(guān)產(chǎn)業(yè)廣泛使用,,對(duì)數(shù)字和西文字母印刷字體的識(shí)別率達(dá)到99.99%以上[6],。我國(guó)從上世紀(jì)70年代末起開始研究漢字識(shí)別技術(shù)(Chinese Character Recognition),目前國(guó)內(nèi)已經(jīng)有多項(xiàng)成熟的漢字識(shí)別技術(shù)在廣泛使用,,對(duì)印刷漢字的識(shí)別成功率都在99.96%左右[7],,如北京信息工程學(xué)院研制的BI-OCR和清華大學(xué)研制的TH-OCR等。漢字識(shí)別OCR技術(shù)的原理框圖如圖1所示,。

003.jpg

  由圖1可以看出,,漢字識(shí)別的具體步驟為:先對(duì)文字進(jìn)行前處理,將灰度值變換為黑白二值,,之后對(duì)漢字文本進(jìn)行圖像處理,、分析、行切分,、字切分,、規(guī)范化(文字尺寸、位置,、筆畫粗細(xì)等規(guī)范),,在抽取特征后, 跟存儲(chǔ)在字典中已知的標(biāo)準(zhǔn)漢字特征集匹配判別,就可以識(shí)別出輸入的漢字。最后,利用上下文匹配關(guān)系或機(jī)器學(xué)習(xí)等方法進(jìn)行后處理,,進(jìn)一步提高識(shí)別的準(zhǔn)確率,。

  2.3 供應(yīng)商主數(shù)據(jù)自動(dòng)審核功能實(shí)現(xiàn)步驟

  本研究的具體思路為,在不改變?cè)袑徟鞒毯蜏?zhǔn)確率的基礎(chǔ)上,,進(jìn)一步提升審批工作的效率,。按照這種思路,設(shè)計(jì)如下的自動(dòng)審核步驟,。

 ?。?)規(guī)范供應(yīng)商材料格式

  由于使用的掃描儀型號(hào)不同,操作人員水平有差異,,所以需要對(duì)上傳的圖像質(zhì)量在分辨率,、清晰程度以及掃描方法等各方面提出要求,通過對(duì)輸入圖像格式的要求,,可以極大地提升自動(dòng)審核的準(zhǔn)確率和成功率,。

  分辨率:統(tǒng)一分辨率為300 dpi;

  清晰度:彩色掃描,,文字清晰,,邊框邊線清晰;

  掃描方法:摘除封面,,將掃描儀設(shè)置成原稿紙掃描模式,。

  在用戶上傳供應(yīng)商數(shù)據(jù)資料時(shí),系統(tǒng)進(jìn)行預(yù)判,,如不滿足格式要求,,將要求用戶重新上傳。

 ?。?)OCR技術(shù)自動(dòng)審批

  為了更好地適應(yīng)當(dāng)前系統(tǒng),,并保證準(zhǔn)確率,自動(dòng)審批環(huán)節(jié)保留原有的?。ㄊ校┕竞涂偛?jī)杉?jí)人工審批,。自動(dòng)審批有可能出現(xiàn)3種情況,見表2,。

  由于主數(shù)據(jù)審批存在正確對(duì)照文字,,前兩種情況對(duì)于審批準(zhǔn)確率不會(huì)產(chǎn)生影響。為了盡可能的杜絕第三種情況的發(fā)生,,使用了BI-OCR和TH-OCR兩種OCR技術(shù)進(jìn)行自動(dòng)識(shí)別,,進(jìn)一步降低了審批的錯(cuò)誤率。由于兩種技術(shù)對(duì)于印刷漢字的成功率都很高,,所以兩種識(shí)別技術(shù)都驗(yàn)證正確后即可認(rèn)為審批通過,,如果機(jī)器兩次識(shí)別結(jié)果不同,則將自動(dòng)審批不通過的文件加標(biāo)識(shí)后轉(zhuǎn)到人工審批,。具體的審批流程如圖2所示,。

004.jpg

  (3)OCR自動(dòng)審批界面設(shè)計(jì)

  在系統(tǒng)界面中,,除在供應(yīng)商主數(shù)據(jù)申請(qǐng)環(huán)節(jié)對(duì)數(shù)據(jù)格式進(jìn)行一定的約束外,,在省(市)和總部主數(shù)據(jù)運(yùn)維兩步審批環(huán)節(jié),,均設(shè)置自動(dòng)審批按鈕,,通過調(diào)用OCR的自動(dòng)識(shí)別開發(fā)包(SDK)對(duì)圖片中的文字進(jìn)行識(shí)別審批,如圖3所示,。

005.jpg

  2.4 供應(yīng)商主數(shù)據(jù)自動(dòng)審核功能實(shí)現(xiàn)測(cè)試

  通過對(duì)供應(yīng)商主數(shù)據(jù)自動(dòng)審核功能的多次設(shè)計(jì)實(shí)驗(yàn),,使用單一的自動(dòng)審核已經(jīng)可以達(dá)到較高的識(shí)別率。對(duì)隨機(jī)選取的110份原稿掃描文件進(jìn)行了測(cè)試,,其中工商登記證,、稅務(wù)登記證各30份,組織機(jī)構(gòu)代碼證40份,,身份證10份,,字符識(shí)別率達(dá)到94%,字段識(shí)別率為90%,。而通過使用主數(shù)據(jù)自動(dòng)輔助審批流程,,使用人工和自動(dòng)雙審批機(jī)制,準(zhǔn)確率達(dá)到100%,。

3 效益分析

  通過以上的功能優(yōu)化,,使得工作效率得到極大的提升,通過應(yīng)用采用OCR技術(shù),,使得大量的日常審批工作可以由機(jī)器自動(dòng)完成,,節(jié)省了人工成本。通過該項(xiàng)功能優(yōu)化,,在提升效率的同時(shí)也提高的用戶滿意度,。下面對(duì)功能優(yōu)化帶來的效率提升和準(zhǔn)確率提升分別進(jìn)行量化分析。

  3.1 效率提升

  由于熟練運(yùn)維人員的工作效率一定,,本研究使用工作量進(jìn)行效率分析,。

  在供應(yīng)商主數(shù)據(jù)審批功能優(yōu)化中,利用兩種技術(shù)對(duì)一副圖片的識(shí)別審批速度都在1 s左右,,對(duì)應(yīng)于一個(gè)供應(yīng)商的公司類數(shù)據(jù)有三份必須資料,,利用兩項(xiàng)技術(shù)獨(dú)立串行審批需6 s左右,并行審批只需3 s左右,。對(duì)于這三份必須資料,,兩次自動(dòng)審批都通過的比率大概占到60%左右,,而轉(zhuǎn)人工審批的資料文件中,存在關(guān)鍵字段字體重疊,、印刷位置錯(cuò)誤等現(xiàn)象而無法自動(dòng)審批的文件占50%左右,。即機(jī)器總的審批數(shù)能占到80%左右。機(jī)器輔助審批工作量統(tǒng)計(jì)見表3,,效率提升統(tǒng)計(jì)見表4,。

007.jpg

006.jpg

  通過表4可以看出,審批效率提升了5倍左右,,而且審批條數(shù)越多,,效率越高,對(duì)于一般的審批工作量,,一個(gè)運(yùn)維人員已經(jīng)可以完全勝任,。

  3.2 準(zhǔn)確率提升

  眾所周知,人的注意力處于一個(gè)變化的狀態(tài),,而且受身體狀況,、心情、睡眠狀況等多種因素影響[8],,而機(jī)器的注意力可以認(rèn)為是不會(huì)下降,,甚至隨著機(jī)器學(xué)習(xí)的進(jìn)展,識(shí)別準(zhǔn)確率會(huì)有進(jìn)一步的提升,。

  由于經(jīng)過了兩級(jí)審批,,人工的識(shí)別準(zhǔn)確率在99%左右。而機(jī)器輔助審批經(jīng)過兩種算法的判斷識(shí)別,,識(shí)別準(zhǔn)確率保持在99.99%以上,。

4 結(jié)束語

  主數(shù)據(jù)管理作為數(shù)據(jù)治理中最為核心的一環(huán),是企業(yè)獲得一個(gè)完整,、可信的數(shù)據(jù)視圖的必經(jīng)途徑,。本文通過對(duì)國(guó)家電網(wǎng)公司主數(shù)據(jù)管理系統(tǒng)相關(guān)功能進(jìn)行研究,采用先進(jìn)的OCR技術(shù)實(shí)現(xiàn)了數(shù)據(jù)的自動(dòng)輔助審批,。在實(shí)際應(yīng)用中,,大幅度提升了運(yùn)維效率和運(yùn)維質(zhì)量,經(jīng)測(cè)算,,運(yùn)維效率提升了3倍左右,,使得運(yùn)維資源能夠更多的向咨詢和應(yīng)用分析等工作傾斜,在提升運(yùn)維質(zhì)量的同時(shí),,提升了用戶的服務(wù)滿意度,。

  下一步的建設(shè)和運(yùn)維工作將著眼于建立行之有效的主數(shù)據(jù)運(yùn)維體系,挖掘主數(shù)據(jù)運(yùn)維的潛力,,有效提升主數(shù)據(jù)運(yùn)維的質(zhì)量,,從而充分體現(xiàn)數(shù)據(jù)這項(xiàng)無形資產(chǎn)在企業(yè)中的核心價(jià)值,。

參考文獻(xiàn)

  [1]張當(dāng)中.漢字識(shí)別技術(shù)綜述[J]. 語言文字應(yīng)用,1997(2): 77-86.

  [2]馬玲. 基于主數(shù)據(jù)管理的電網(wǎng)調(diào)度數(shù)據(jù)整合[D].昆明:云南大學(xué).2014.

  [3]岳曉峰,焦圣喜,韓立強(qiáng),等.模式識(shí)別中的光字符識(shí)別技術(shù)及應(yīng)用綜述[J].河北工業(yè)科技,2006, 23(5):312-316.

  [4]呂冬.山東電力ERP與SG-MDM實(shí)現(xiàn)項(xiàng)目主數(shù)據(jù)縱向貫通[J]. 電力信息化.2011,9(3):28-31.

  [5]張仰森,俞士汶.文本自動(dòng)校對(duì)技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2006,06: 8-12.

  [6]李成城,白濤, 趙述芳等. 基于OCR的縱向文字校對(duì)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2006,(4):234-236.

  [7]賈紅龍.面向服務(wù)體系架構(gòu)(SOA)的主數(shù)據(jù)管理(MDM)和流程監(jiān)控(PM)研究[J].信息技術(shù)與信息化,2010(2):78-82.

  [8]顏魯林.利用SPSS對(duì)大學(xué)生學(xué)習(xí)注意力集中程度進(jìn)行多元線性回歸分析[D].蘭州:蘭州大學(xué).2012.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載,。