《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 基于圖像識(shí)別的閱卷系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于圖像識(shí)別的閱卷系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
來源:微型機(jī)與應(yīng)用2011年第4期
張 站1,2, 劉政怡1,2, 吳建國(guó)2,3
(1. 安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥230039; 2. 安徽大學(xué) 計(jì)算智能與信號(hào)處理
摘要: 設(shè)計(jì)了一種閱卷系統(tǒng),允許使用者使用任何顏色的圓珠筆,、鋼筆或鉛筆在一般紙張的固定位置上涂寫如“√”,、“╳”、“○”等手寫符號(hào)完成答題,,由閱卷系統(tǒng)采用圖像識(shí)別技術(shù)對(duì)答題卡圖像進(jìn)行預(yù)處理,、符號(hào)識(shí)別、統(tǒng)計(jì)判分,,實(shí)現(xiàn)閱卷自動(dòng)化,。實(shí)驗(yàn)表明,由于結(jié)構(gòu)方面的相似性,本閱卷系統(tǒng)識(shí)別錯(cuò)誤集中在符號(hào)“√”,、“╳”上,,而對(duì)符號(hào)“○”的識(shí)別基本無誤。
Abstract:
Key words :

摘  要: 設(shè)計(jì)了一種閱卷系統(tǒng),,允許使用者使用任何顏色的圓珠筆,、鋼筆或鉛筆在一般紙張的固定位置上涂寫如“√”、“╳”,、“○”等手寫符號(hào)完成答題,,由閱卷系統(tǒng)采用圖像識(shí)別技術(shù)對(duì)答題卡圖像進(jìn)行預(yù)處理、符號(hào)識(shí)別,、統(tǒng)計(jì)判分,,實(shí)現(xiàn)閱卷自動(dòng)化。實(shí)驗(yàn)表明,,由于結(jié)構(gòu)方面的相似性,,本閱卷系統(tǒng)識(shí)別錯(cuò)誤集中在符號(hào)“√”、“╳”上,,而對(duì)符號(hào)“○”的識(shí)別基本無誤,。
關(guān)鍵詞: 圖像識(shí)別;字符識(shí)別,;閱卷系統(tǒng)

 高校學(xué)生的期末考試是普通高等學(xué)校管理的一項(xiàng)重要工作,,它是根據(jù)國(guó)家對(duì)高等學(xué)校學(xué)生德智體全面發(fā)展的要求,按照統(tǒng)一的原則,、方法和程序,,對(duì)學(xué)生學(xué)習(xí)和行為的表現(xiàn)進(jìn)行階段和全程的質(zhì)量考核、記載,、評(píng)價(jià)和處理,。目前客觀題型較多的英語(yǔ)考試或計(jì)算機(jī)基礎(chǔ)考試均實(shí)現(xiàn)了閱卷自動(dòng)化,無需教師干預(yù),,既能加快試卷反饋的速度,,又能保證公平公正。傳統(tǒng)的閱卷系統(tǒng)利用光學(xué)標(biāo)記閱讀機(jī)的光電變換原理,,對(duì)填涂在答題卡上的內(nèi)容進(jìn)行高速采集,,然后進(jìn)入計(jì)算機(jī)處理[1]。但是它對(duì)答題卡紙張和印刷質(zhì)量要求太高,,如套印誤差和剪切誤差必須分別控制在0.1 mm和0.2 mm以內(nèi),;對(duì)使用者涂寫要求太高,限制太多,,如需要用專用鉛筆涂滿長(zhǎng)方條,,不得涂出長(zhǎng)方條外,,整張答題卡涂寫要深淺一致等;機(jī)械傳動(dòng)機(jī)構(gòu)復(fù)雜,、使用壽命短,、維護(hù)量大、設(shè)備一致性差[2],。
 本文提出一種基于圖像識(shí)別的閱卷系統(tǒng),,允許使用者使用任何顏色的圓珠筆、鋼筆或鉛筆在一般紙張的固定位置上涂寫如“√”,、“╳”,、“○”等手寫符號(hào)完成答題,由閱卷系統(tǒng)采用圖像識(shí)別技術(shù)自動(dòng)識(shí)別答題卡信息,,實(shí)現(xiàn)閱卷自動(dòng)化,。本系統(tǒng)與傳統(tǒng)的光學(xué)標(biāo)記閱讀機(jī)閱卷系統(tǒng)的不同之處在于,本閱卷系統(tǒng)對(duì)答題卡紙張和填涂符號(hào)均無特殊要求,,無需特制答題卡,,無特殊涂寫要求[3]。
1 系統(tǒng)實(shí)現(xiàn)流程及模塊組成
 (1)設(shè)計(jì)和定義答題卡,,將允許用戶填寫的手寫符號(hào)限定在一定的矩形區(qū)域內(nèi);
   (2)通過CCD采像設(shè)備采集答題卡圖像,,經(jīng)掃描、采樣,、量化等過程,,同時(shí)將答題卡圖像以JPG格式保存在主機(jī)內(nèi)存和硬盤里;
 (3)對(duì)答題卡圖像進(jìn)行預(yù)處理,包括粘連字符分割,、灰度變換,、二值化、圖像偏斜糾正,、平滑和細(xì)化等過程,,以將答題卡固有的紙張問題,、書寫不規(guī)范,、答題卡傳動(dòng)機(jī)械定位精度所帶來的干擾因素排除掉,并為后續(xù)的識(shí)別工作做好準(zhǔn)備[4];
 (4)對(duì)答題卡信息進(jìn)行識(shí)別,。通過圖像分析抽取圖像,,并經(jīng)過綜合特征提取,結(jié)合答題卡表格的邏輯結(jié)構(gòu)和幾何結(jié)構(gòu),,準(zhǔn)確識(shí)別填涂在矩形塊位置上的“√”,、“╳”、“○”等手寫符號(hào)得到答題信息,。答題卡識(shí)別算法的優(yōu)劣決定了整個(gè)系統(tǒng)的性能(如識(shí)別的精度,、可靠性等),是整個(gè)軟件系統(tǒng)中最重要的部分;
 (5)對(duì)識(shí)別的答題信息進(jìn)行加工、整理,、分析和統(tǒng)計(jì),,結(jié)合軟件的設(shè)置對(duì)答題卡信息進(jìn)行判分。
 綜上所述,,系統(tǒng)實(shí)現(xiàn)流程如圖1所示,。

 為了便于學(xué)生和教師查詢和分析閱卷結(jié)果,本閱卷系統(tǒng)還設(shè)置了用戶登錄模塊,、學(xué)生信息管理模塊,、課程基本信息管理模塊、試卷分析模塊,、成績(jī)查詢模塊,、答題卡圖像查詢模塊、報(bào)表打印模塊和補(bǔ)考管理模塊,。其中試卷分析模塊對(duì)試卷的各項(xiàng)數(shù)據(jù)進(jìn)行分析和統(tǒng)計(jì),,包括最高分、最低分,、平均數(shù),、及格率方差、標(biāo)準(zhǔn)差等,,完成試卷分析功能,;答題卡圖像查詢模塊允許學(xué)生通過姓名查詢存儲(chǔ)在硬盤中的答題卡圖片;補(bǔ)考管理模塊統(tǒng)計(jì)不及格,、缺考或舞弊學(xué)生信息,,生成補(bǔ)考表;報(bào)表打印模塊完成答題卡圖片,、成績(jī)報(bào)告單,、試卷分析報(bào)告和補(bǔ)考表等的打印功能。系統(tǒng)模塊組成如圖2所示,。

2 系統(tǒng)主要實(shí)現(xiàn)技術(shù)
2.1答題卡設(shè)計(jì)

 答題卡設(shè)計(jì)成表格的形式,,由試卷答題卡基本信息、考生基本信息,、答題卡填寫說明及題目選項(xiàng)列表組成,,考生用“√”、“╳”,、“○”等手寫符號(hào)在相應(yīng)的矩形框中選擇答案,。答題卡示例如圖3所示。

 答題卡版面與普通表格一樣具有幾何結(jié)構(gòu)和邏輯結(jié)構(gòu),,幾何結(jié)構(gòu)反映了所填寫的信息區(qū)域的位置和大小,,邏輯結(jié)構(gòu)則表示答題卡中所填寫信息的實(shí)際意義以及填寫信息與填寫項(xiàng)之間的對(duì)應(yīng)關(guān)系,。
 在傳統(tǒng)的光學(xué)標(biāo)記閱讀機(jī)閱卷系統(tǒng)中,答題卡的幾何結(jié)構(gòu)大部分都是采用定位標(biāo)記塊進(jìn)行描述,,這種描述方法具有很多缺點(diǎn),,如浪費(fèi)版面空間、缺乏靈活性,、版面設(shè)計(jì)比較復(fù)雜,、對(duì)印刷質(zhì)量要求高、不便于修改等,,而且定位標(biāo)記塊看起來也不美觀,。在本系統(tǒng)答題卡版面中,填寫信息在幾何結(jié)構(gòu)上可以看成由若干個(gè)互不相交的矩形塊組成,,它們組成了答題卡版面的最小單位[5],,可以以答題卡的邊框線建立二維坐標(biāo)系,以矩形的對(duì)角頂點(diǎn)坐標(biāo)來描述矩形塊的位置和大小,,完成對(duì)答題卡的幾何結(jié)構(gòu)描述,,該方法簡(jiǎn)潔、靈活,,便于識(shí)別,。
  答題卡的邏輯結(jié)構(gòu)描述是定義矩形塊的屬性。矩形塊的屬性包括對(duì)填寫項(xiàng)以“√”,、“╳”,、“○”表示的選擇或者不選擇。
  本系統(tǒng)采用文檔結(jié)構(gòu)描述語(yǔ)言同時(shí)對(duì)幾何結(jié)構(gòu)和邏輯結(jié)構(gòu)進(jìn)行描述,。設(shè)一張答題卡包含n個(gè)填寫有信息的矩形塊B1,,B2,...,Bn, 矩形塊之間存在著上下結(jié)構(gòu)和左右結(jié)構(gòu)的幾何位置關(guān)系,其邏輯順序一般是從上到下,、從左到右,,在描述文檔結(jié)構(gòu)時(shí)也采用這種順序,則文檔結(jié)構(gòu)描述語(yǔ)言DDL 表示如下:

其中i 是答題卡的序號(hào),;n是矩形塊的總數(shù),;xi為矩形塊在水平方向的位置;yi為矩形塊在垂直方向的位置,;li為矩形塊的長(zhǎng)度,;wi為矩形塊的寬度,;attri表示矩形塊的屬性,,當(dāng)attri為0時(shí),表示該矩形塊的填寫內(nèi)容為待識(shí)別的字符,attri為1時(shí),矩形塊作為圖像保存,。
 將答題卡設(shè)計(jì)成常見的表格形式,,一方面它和一般考試用到的答題卡的形式類似,,符合人們的使用習(xí)慣和書寫習(xí)慣;另一方面可以利用文檔描述語(yǔ)言對(duì)它的幾何結(jié)構(gòu)和邏輯結(jié)構(gòu)進(jìn)行描述,,以便更好地對(duì)矩形框內(nèi)的字符特征進(jìn)行提取與識(shí)別,,辨別矩形框中的字符,與標(biāo)準(zhǔn)答案比對(duì),,對(duì)考生客觀題進(jìn)行判分,。
2.2 答題卡信息識(shí)別
 本系統(tǒng)采用漢字識(shí)別方法中的統(tǒng)計(jì)決策方法對(duì)手寫字符進(jìn)行識(shí)別,如圖4所示,,首先提取字符特征,,對(duì)字符進(jìn)行分類判別,經(jīng)過訓(xùn)練和識(shí)別兩個(gè)階段,,最后識(shí)別出字符[6],。訓(xùn)練階段,收集日常人們習(xí)慣的手寫符號(hào)為樣本,,經(jīng)過篩選分類建立樣本庫(kù),,以便對(duì)待識(shí)別字符進(jìn)行分類和識(shí)別。識(shí)別階段,,將待識(shí)別符號(hào)的特征與訓(xùn)練階段中所建立的標(biāo)準(zhǔn)樣本特征比較,計(jì)算最大相似度以判別該手寫符號(hào)所屬的類別[7],。

2.2.1 字符特征提取
 學(xué)生在答題過程中由于緊張和個(gè)人原因,寫出的√,、╳,、○等答題符號(hào)往往千變?nèi)f化。為準(zhǔn)確識(shí)別這些手寫符號(hào),,需要進(jìn)行字符結(jié)構(gòu)特征提取,,將最能體現(xiàn)這個(gè)字符特點(diǎn)和字符間差異的結(jié)構(gòu)特征提取出來。本系統(tǒng)提取的特征是以下特征的組合,。
 (1)點(diǎn)特征
 點(diǎn)特征是一種重要的結(jié)構(gòu)特征,,是指字符筆畫中的端點(diǎn)。端點(diǎn)反映了字符中筆畫的起點(diǎn)和終點(diǎn)信息,,與該點(diǎn)相連的點(diǎn)數(shù)為 1,。
 (2)筆畫密度特征
 筆畫密度特征是取得符號(hào)水平方向筆畫密度函數(shù)d(x)和垂直方向的筆畫密度函數(shù)d(y),然后進(jìn)行相同項(xiàng)合并[1]。如圖5所示,,符號(hào)“○”水平方向筆劃密度函數(shù)d(x)和垂直方向的筆劃密度函數(shù)d(y)分別是: d(x)=(1,...,1,2,...,2,1,...,1),,d(y)=(1,...,1,2,...,2,1,...,1),則合并后筆畫密度可表示為d(x)=d(y)=(1,2,1),。

    (3)基于鏈碼方法的結(jié)構(gòu)特征
 從曲線起點(diǎn)開始與其相連的像素點(diǎn)有8種可能的方向:k×45°(k=0,1,…,7),,如圖6所示, 如果兩個(gè)像素點(diǎn)間的連線方向?yàn)閗×45°,就用“k”作為這條連線的代碼,,則一條曲線最終可近似地用下式表示:
    An=a1a2…an,ai∈{0,1,2,…,7}, i=1,2,…,n

    (4)孔洞特征
 在二值圖像中,,被目標(biāo)像素1包圍的背景像素0(的集合)稱為孔洞(hole),。在字符的骨架線的鏈碼形成過程中,若搜索到的下一點(diǎn)就是該骨架線的搜索起始點(diǎn),,同時(shí)己形成的骨架鏈碼碼長(zhǎng)超過了一定的閾值,,則認(rèn)為搜索到一個(gè)孔洞[5]。
 (5)橫豎方向交叉特征
 橫向或縱向掃描字符,,某一行或列的像素由白變黑的次數(shù)就是該行或列的橫或縱向交叉特征,。本系統(tǒng)將橫豎兩個(gè)方向距離不等的7條線作用于字符,計(jì)算水平和垂直方向與字符的交叉數(shù),,如圖7所示,。

2.2.2 符號(hào)模型庫(kù)建立
 答題卡信息識(shí)別的訓(xùn)練階段需要建立符號(hào)模型庫(kù),以便對(duì)待識(shí)別手寫符號(hào)進(jìn)行分類和識(shí)別,。符號(hào)模型庫(kù)建立的好壞直接影響分類器的應(yīng)用,,從而影響手寫符號(hào)識(shí)別效果[5]。
 由于手寫符號(hào)的多樣性,,需要選擇某一類手寫符號(hào)中具有代表性的多個(gè)樣本來構(gòu)造標(biāo)準(zhǔn)樣本,,本系統(tǒng)采用手寫字符樣本特征向量的均值來描述類目標(biāo)。設(shè)有n個(gè)符號(hào)類,,每個(gè)符號(hào)類中有a個(gè)訓(xùn)練樣本,每個(gè)樣本有b個(gè)符號(hào)特征,,每個(gè)符號(hào)類中樣本的特征記為fkj,k為樣本特征序號(hào),,j為各個(gè)手寫符號(hào)的樣本序號(hào),,則第i個(gè)目標(biāo)類特征的均值為P(i),即:

 每次計(jì)算Pik時(shí),,k為大于等于1小于等于b的固定值,。Pik為對(duì)于第i個(gè)目標(biāo)類中a個(gè)樣本中各個(gè)樣本對(duì)應(yīng)第k個(gè)特征值的均值。
2.2.3 手寫符號(hào)識(shí)別
 對(duì)答題卡中矩形框信息識(shí)別包括兩個(gè)方面,,一是識(shí)別矩形框中是否有字符,,二是識(shí)別具體是哪種字符。其中識(shí)別是否書寫了字符比較簡(jiǎn)單,,只要比較增強(qiáng)對(duì)比度后的矩形框圖像與已知填有信息的矩形框的均方差大小,,即可識(shí)別是否有字符,因?yàn)榭瞻椎木匦慰蚝捅粫鴮懙木匦慰蚓讲畈顒e很大。下面主要介紹怎樣識(shí)別矩形框中的具體字符,。
 手寫符號(hào)識(shí)別就是在提取到符號(hào)的特征向量之后,,依據(jù)一定的判別函數(shù)來判定出某一圖形點(diǎn)陣具體代表的是哪一個(gè)手寫符號(hào)。
 判別函數(shù)可以先簡(jiǎn)單地作如下定義:考慮有P1,P2,,...,,Pm個(gè)符號(hào)類別,假使每類有一個(gè)標(biāo)準(zhǔn)樣本,則共有m個(gè)標(biāo)準(zhǔn)樣本,,分別表示為k1,,k2,,...,,km。任意一符號(hào)特征向量X和第i個(gè)(i=1,,2,,...,m)標(biāo)準(zhǔn)樣本間的“相似度”為Ri,。計(jì)算待識(shí)別的符號(hào)特征向量X與每類標(biāo)準(zhǔn)樣本之間的“相似度”[7],,并將X分到與它“相似度”最大的類別,即對(duì)所有的j不等于i,,若Di>Dj,,則X就屬于Pi類符號(hào)。
 系統(tǒng)采用基于最鄰近域分類器的模板匹配算法來對(duì)手寫符號(hào)進(jìn)行識(shí)別,。
 首先定義字符特征向量,,經(jīng)過前面的特征提取分析,該特征向量為一個(gè)16維向量,X={x1,x2,..,x16},,具體定義為:
 x1:孔洞數(shù),;
 x2:端點(diǎn)數(shù);
 x3~x9:7條水平線與字符的交叉次數(shù),;
 x10~x16:7條豎直線與字符的交叉次數(shù),。
 通過度量待識(shí)別字符和樣本庫(kù)中樣本字符的接近程度,確立最近分類的一個(gè)準(zhǔn)則,。在最鄰近分類中,,經(jīng)常使用的是相似度。如圖8所示,,在提取了待識(shí)字符的特征向量并建立了字符庫(kù)后,,將待識(shí)別字符和樣本庫(kù)中第i個(gè)樣本的特征向量之間求近似度R(X,G),。R(X,,G)定義如下:

式中,xi為待識(shí)別符號(hào)特征向量的第i個(gè)分量,gik為樣本庫(kù)中第i個(gè)標(biāo)準(zhǔn)樣本的第k個(gè)分量,m為樣本類別數(shù)。分子為向量X,G之間的內(nèi)積,,分母分別為向量X,、G的模。α是向量X,G在m維空間的夾角,。顯然,,當(dāng)X、G兩個(gè)向量完全相同時(shí),,其夾角為0,,R(X,G)=1,,它們的距離D(X,G)=0,即相似度最大,。求出最大Rr(X,G),,若Rr(X,G)≥給定閾值,即可找到與待識(shí)別字符最接近的樣本類別,,否則人工干預(yù)并修改樣本庫(kù)[7],。
3 實(shí)驗(yàn)結(jié)果與分析
 實(shí)驗(yàn)采用CCD攝像頭采集答題卡圖像,經(jīng)圖像預(yù)處理,、若干特征提取,、信息識(shí)別等過程,判定矩形框中有無字符,、是什么字符,,最后對(duì)答題卡信息分析和統(tǒng)計(jì)。實(shí)驗(yàn)采用100份試卷作為樣本,,對(duì)20份試卷進(jìn)行測(cè)試,,結(jié)果發(fā)現(xiàn)識(shí)別錯(cuò)誤的手寫符號(hào)主要是“√”和“╳”,原因在于這兩者在結(jié)構(gòu)方面相似,,而符號(hào)“○”的識(shí)別率達(dá)到100%,。
 本系統(tǒng)將圖像預(yù)處理、字符特征提取與圖像識(shí)別等技術(shù)應(yīng)用于閱卷系統(tǒng)的開發(fā),,實(shí)現(xiàn)了閱卷自動(dòng)化,,加快了成績(jī)考核的速度,改善了教學(xué)管理環(huán)境,。相比于傳統(tǒng)的基于光學(xué)標(biāo)記閱讀機(jī)的閱卷系統(tǒng),,本系統(tǒng)利用圖像識(shí)別技術(shù)實(shí)現(xiàn)閱卷自動(dòng)化,不需要特殊的答題卡,,考生也可以隨意使用各種“√”,、“╳”、“○”等手寫符號(hào)進(jìn)行答題,,不必用指定的2B鉛筆填涂矩形塊,,更符合人們的習(xí)慣。
參考文獻(xiàn)
[1] 王虎.基于圖像識(shí)別的標(biāo)記閱讀機(jī)及選舉計(jì)票系統(tǒng)研究[D].合肥:安徽大學(xué),2006.
[2] 張婷.基于圖像識(shí)別技術(shù)的光學(xué)標(biāo)記閱讀機(jī)的研究與應(yīng)用[D].合肥:安徽大學(xué),2007.
[3] 吳元君,張婷,雷驚鵬.一種改進(jìn)的OMR 技術(shù)在標(biāo)準(zhǔn)化考試中的應(yīng)用[J].計(jì)算機(jī)教育,2007(13):250-272.
[4] 丁慧東.脫機(jī)手寫體漢字識(shí)別研究[D].長(zhǎng)春:東北師范大學(xué),2006.
[5] 龐東虎,金偉杰.英文字符特征提取系統(tǒng)[J].計(jì)算機(jī)仿真,2007,24(12):208-210.
[6] 楊玲,毛以芳,吳天愛.基于多特征多分類器的脫機(jī)手寫漢字識(shí)別研究[J].計(jì)算機(jī)與網(wǎng)絡(luò),2008(01):217-217.
[7] 覃勝,劉曉明.基于圖像的OMR技術(shù)的實(shí)現(xiàn)[J].電子技術(shù)應(yīng)用,2003,29(10):17-19.
[8] 翁功平.光標(biāo)閱讀機(jī)OMR原理的設(shè)計(jì)與實(shí)現(xiàn)[J].工業(yè)控制計(jì)算機(jī),2010,,23(04):61-62.

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。