基于顏色識(shí)別的手指多點(diǎn)跟蹤人機(jī)交互系統(tǒng)-AET-電子技術(shù)應(yīng)用

基于顏色識(shí)別的手指多點(diǎn)跟蹤人機(jī)交互系統(tǒng)

來(lái)源：微型機(jī)與應(yīng)用2012年第1期

王鵬程，官洪運(yùn)，許文杰，鄔曉琳

（東華大學(xué) 信息學(xué)院，上海 201620）

摘要： 基于英特爾凌動(dòng)處理器的嵌入式平臺(tái)和Windows操作系統(tǒng)，以O(shè)penCV2.0庫(kù)為圖形識(shí)別處理基礎(chǔ)，運(yùn)用顏色識(shí)別、膚色識(shí)別、手指動(dòng)作識(shí)別等非接觸式實(shí)現(xiàn)跟蹤技術(shù)，構(gòu)建了一個(gè)基于手指動(dòng)作識(shí)別的多點(diǎn)人機(jī)交互系統(tǒng)。該系統(tǒng)能夠跟蹤雙手共四個(gè)手指的動(dòng)作，實(shí)現(xiàn)圖片的多點(diǎn)“觸控”、畫圖、PDF文件瀏覽功能。

關(guān)鍵詞： 軟件多點(diǎn)跟蹤顏色識(shí)別 opencv 人機(jī)交互

Abstract：

Key words :

摘要： 基于英特爾凌動(dòng)處理器的嵌入式平臺(tái)和Windows操作系統(tǒng)，以OpenCV2.0庫(kù)為圖形識(shí)別處理基礎(chǔ)，運(yùn)用顏色識(shí)別、膚色識(shí)別、手指動(dòng)作識(shí)別等非接觸式實(shí)現(xiàn)跟蹤技術(shù)，構(gòu)建了一個(gè)基于手指動(dòng)作識(shí)別的多點(diǎn)人機(jī)交互系統(tǒng)。該系統(tǒng)能夠跟蹤雙手共四個(gè)手指的動(dòng)作，實(shí)現(xiàn)圖片的多點(diǎn)“觸控”、畫圖、PDF文件瀏覽功能。
關(guān)鍵詞： 多點(diǎn)跟蹤；顏色識(shí)別；OpenCV；人機(jī)交互

　隨著計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展以及人們對(duì)新的交互手段的需求，基于計(jì)算機(jī)視覺(jué)的交互系統(tǒng)也逐漸發(fā)展起來(lái)。傳統(tǒng)的交互方式如鼠標(biāo)、鍵盤、手柄等在某些特殊領(lǐng)域己經(jīng)無(wú)法發(fā)揮便利的作用。本系統(tǒng)將計(jì)算機(jī)視覺(jué)技術(shù)做新的應(yīng)用，帶來(lái)了人機(jī)交互的便利，實(shí)現(xiàn)如畫圖、圖片瀏覽等功能，將電視棒連接到處理器后還可實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)電視的頻道切換和音量控制。本系統(tǒng)是基于顏色識(shí)別的多點(diǎn)跟蹤識(shí)別系統(tǒng)，可以通過(guò)識(shí)別手部的動(dòng)作（如拉伸、靠近等動(dòng)作）實(shí)現(xiàn)對(duì)計(jì)算機(jī)及與其連接設(shè)備的控制功能，讓用戶完全擺脫對(duì)遙控器和鼠標(biāo)的依賴，實(shí)現(xiàn)更加便捷、人性化的人機(jī)交互。
　傳統(tǒng)的人機(jī)交互方式在使用過(guò)程中確定性比較強(qiáng)，比如按下鍵盤的按鈕或者點(diǎn)擊鼠標(biāo)的左右鍵，計(jì)算機(jī)都己將此關(guān)聯(lián)到一定的系統(tǒng)事件中。
而基于顏色識(shí)別的手指多點(diǎn)跟蹤交互方式表達(dá)的意義豐富。如帶上顏色標(biāo)記的指套后，通過(guò)不同手勢(shì)、位置、方向等可以組合出多種信息，更能符合人的操作習(xí)慣。整個(gè)交互的流程為：先通過(guò)攝像頭拍攝手勢(shì)圖像視頻流，然后從圖像中根據(jù)特定算法提取出手指的顏色和識(shí)別點(diǎn)以及位置信息，之后把這些信息點(diǎn)進(jìn)行相應(yīng)分類取舍，接著基于Windows API將這些提取出的信息點(diǎn)根據(jù)需求驅(qū)動(dòng)相應(yīng)的系統(tǒng)動(dòng)作。
1 常用的色彩模型及轉(zhuǎn)換
1.1 常用的色彩模型
　本系統(tǒng)涉及到的色彩空間有：
　（1）RGB顏色模型
　RGB彩色系統(tǒng)為一直角坐標(biāo)系統(tǒng)，其中的三個(gè)基量是選擇可見(jiàn)光中的三原色光，為使色光定義能夠統(tǒng)一，CIE定出三原色的波長(zhǎng)為紅（700 nm）、綠（546.1 nm）和藍(lán)（435.8 nm）。通常不直接處理RGB彩色影像，例如欲從一個(gè)彩色影像中找出物體的邊緣，如果分別對(duì)R、G和B以邊緣強(qiáng)化處理，如此得到的為一個(gè)別成份的邊緣而非物體的真正邊緣。直接處理RGB影像的情況只有在每個(gè)成份改變的情形都一樣時(shí)，才不會(huì)造成顏色失真。
　（2）HSV顏色模型
　HSV色彩屬性模式是根據(jù)色彩的三個(gè)基本屬性：色相、飽和度和亮度來(lái)確定顏色的一種方法。
色相（H）是色彩的基本屬性，就是平常所說(shuō)的顏色名稱，如紅色、黃色等，依照在標(biāo)準(zhǔn)色輪上的位置，取0~360°的數(shù)值（也有用100%的方法確定的）。飽和度（S）是指色彩的純度，越高色彩越純，低則逐漸變灰，取0~100%的數(shù)值。明度（V）也叫“亮度”，取0~100%。這種模式是1978年由AlvyRaysmith創(chuàng)立的，它是三原色光模式的一種非線性變換。
1.2 顏色模型轉(zhuǎn)換
　研究表明，雖然不同人的膚色相差很大，但通常不同人的膚色相差主要是亮度，而在色度上的差異并不大。因此需要把圖像中表達(dá)顏色的色度與亮度分開。通常是將獲取的圖像中所用的R、G、B三原色的顏色分量所表達(dá)的色彩空間轉(zhuǎn)換為HSV色彩空間，轉(zhuǎn)換后就可以對(duì)人體膚色的色度進(jìn)行一個(gè)閉值分割來(lái)達(dá)到膚色分割的目的。
　（1）膚色模型
　參考文獻(xiàn)[1]結(jié)合了HSV顏色空間和RGB空間構(gòu)造出混合膚色模型，該論文首先分析了膚色在H-S平面的聚類情況。并通過(guò)大量膚色樣本，發(fā)現(xiàn)膚色像素在H-S平面上表現(xiàn)出的明顯聚類，表明人體膚色的RGB圖像轉(zhuǎn)換到HSV色彩空間后H與S分量的關(guān)系。并且隨光照強(qiáng)度不同，V的取值范圍應(yīng)較大，否則會(huì)忽略某些膚色像素點(diǎn)，同時(shí)也會(huì)引入誤差。
　（2）CamShift顏色跟蹤算法及其改進(jìn)
CamShift算法（即“Continuously Apative Mean-Shift”算法）基本思想是將視頻圖像的所有幀作MeanShift運(yùn)算，并將上一幀的結(jié)果作為搜索窗的初始值，如此迭代下去實(shí)現(xiàn)對(duì)目標(biāo)的跟蹤。
　（3）膚色模型+CamShift跟蹤
　CamShift算法簡(jiǎn)單，跟蹤實(shí)時(shí)效果較好，在簡(jiǎn)單背景下完全勝任跟蹤識(shí)別要求，缺點(diǎn)是復(fù)雜背景圖對(duì)識(shí)別精度有一定的干擾，導(dǎo)致跟蹤不穩(wěn)定。結(jié)合膚色識(shí)別和CamShift顏色跟蹤算法，在每幀同時(shí)得到CamShift顏色跟蹤窗口以及膚色二值圖像，在顏色跟蹤窗口中包含一定數(shù)量膚色二值像素時(shí)才認(rèn)為是有效目標(biāo)。
　合成的方案具有較好的識(shí)別跟蹤效果，使用改進(jìn)的CamShift算法，即便出現(xiàn)跟蹤丟失現(xiàn)象，也會(huì)在數(shù)幀內(nèi)再次跟蹤上目標(biāo)顏色，因此采用此方案為系統(tǒng)的實(shí)施方案。
2 系統(tǒng)功能與指標(biāo)
　系統(tǒng)通過(guò)對(duì)4個(gè)指套顏色的識(shí)別與跟蹤，可以在Windows操作系統(tǒng)中實(shí)現(xiàn)[2]如鼠標(biāo)移動(dòng)、點(diǎn)擊、文檔翻頁(yè)和多點(diǎn)放大縮小。為了方便操作，一般左右手食指和拇指各戴一個(gè)指套，右手手指的移動(dòng)作為鼠標(biāo)移動(dòng)和單擊消息，用右手食指和拇指的“捏”的動(dòng)作實(shí)現(xiàn)單擊操作，而“捏住”并移動(dòng)手指可以實(shí)現(xiàn)拖動(dòng)操作。左手作為多點(diǎn)觸控消息，在左右手的食指拇指同時(shí)“捏住”后，通過(guò)兩手的遠(yuǎn)離拉開和靠近縮回實(shí)現(xiàn)“多點(diǎn)觸控”。
3 實(shí)現(xiàn)原理
3.1 OpenCV基礎(chǔ)
　OpenCV（全稱是Open Source Computer Vision Library）[3]作為一個(gè)基本的計(jì)算機(jī)視覺(jué)、圖像處理和模式識(shí)別的開源項(xiàng)目，可以直接應(yīng)用于很多領(lǐng)域，作為二次開發(fā)的理想工具。
3.2 膚色模型
　先將原圖像RGB色彩空間轉(zhuǎn)換到HSV空間，然后判斷像素點(diǎn)是否在膚色模型HSV取值中，若在范圍內(nèi)，則該像素點(diǎn)置”1”（255），即置為白色，否則設(shè)置為”0”（黑色）。再進(jìn)行相應(yīng)形態(tài)學(xué)處理以及輪廓提取便可得到膚色二值圖像，進(jìn)行深度信息提取。
3.3 CamShift顏色跟蹤算法
　CamShift算法是MeanShift的修改算法，克服了MeanShift不適合實(shí)時(shí)跟蹤的缺點(diǎn)。
　CamShift算法基本實(shí)現(xiàn)流程如下：
　（1）Back Projection背景投影計(jì)算
　計(jì)算Back Projection的步驟如下：
　①根據(jù)目標(biāo)顏色圖像計(jì)算被跟蹤目標(biāo)的色彩直方圖。
　根據(jù)如圖1的目標(biāo)顏色計(jì)算出如圖2的直方圖。

　利用背景投影圖計(jì)算質(zhì)心即跟蹤窗口進(jìn)行顏色跟蹤。
　②根據(jù)獲得的色彩直方圖將原始圖像轉(zhuǎn)化成色彩概率分布圖像，這個(gè)過(guò)程稱為Back Projection。
　（2）MeanShift重心計(jì)算
　MeanShift算法是一種一組數(shù)據(jù)的密度分布中尋找局部極值的穩(wěn)定的方法。若分布是連續(xù)的，處理過(guò)程比較容易，這種情況下本質(zhì)上只需對(duì)密度的直方分布圖應(yīng)用爬山算法即可。然而，對(duì)于離散的數(shù)據(jù)集，這個(gè)問(wèn)題某種程度上是比較麻煩的。
　MeanShift算法步驟如下：
　①選擇搜索窗口。
　·窗口的初始位置；
　·窗口的類型（均勻、多項(xiàng)式、指數(shù)或者高斯類型）；
　·窗口的形狀（對(duì)稱的或歪斜的，可能旋轉(zhuǎn)的，圓形或巨型）；
　·窗口的大小（超出窗口大小則被刪除）。
　②計(jì)算窗口（可能帶權(quán)值的）的重心。
　③將窗口中心設(shè)置在計(jì)算出的重心處。
　④返回第②步，直到窗口的位置不再變化（通常會(huì)）。
　(3)CamShift算法
　將MeanShift算法擴(kuò)展到連續(xù)圖像序列，就形成了CamShift算法。它的基本思想是視頻圖像的所有幀作MeanShift運(yùn)算，并將上一幀的結(jié)果作為下一幀MeanShift算法的Search Window的初始值，如此迭代下去，就可以實(shí)現(xiàn)對(duì)目標(biāo)的跟蹤。整個(gè)算法的具體步驟分5步：
　①將整個(gè)圖像設(shè)為搜尋區(qū)域。
　②初始化Search Window的大小和位置。
　③計(jì)算Search Window內(nèi)的彩色概率分布，此區(qū)域的大小比Search Window要稍微大一點(diǎn)。
　④運(yùn)行MeanShift，獲得Search Window新的位置和大小。
　⑤在下一幀視頻圖像中，用③獲得的值初始化Search Window的位置和大小。跳轉(zhuǎn)到③繼續(xù)運(yùn)行。
　在OpenCV中，有實(shí)現(xiàn)CamShift算法的函數(shù)cvCamShift，使用較方便。
3.4 合成方案：膚色模型+改進(jìn)CamShift跟蹤
　結(jié)合膚色識(shí)別和CamShift顏色跟蹤算法，在每幀同時(shí)得到CamShift顏色跟蹤窗口以及膚色二值圖像，在顏色跟蹤窗口中包含一定數(shù)量膚色二值像素時(shí)才認(rèn)為是有效目標(biāo)。如圖3所示，系統(tǒng)分別識(shí)別出了膚色和目標(biāo)色紅色，并確認(rèn)出介于膚色之間的紅色位置才是目標(biāo)位置。

綜合膚色模型和CamShift顏色跟蹤算法，可以在較復(fù)雜背景下實(shí)現(xiàn)目標(biāo)顏色跟蹤。
4 系統(tǒng)硬件組成
　系統(tǒng)硬件組成包括：核心控制系統(tǒng)、視頻采集系統(tǒng)、USB接口的電視棒、天線、視頻音頻輸出模塊，系統(tǒng)硬件構(gòu)成如圖4所示。

5 系統(tǒng)軟件流程
　整個(gè)軟件系統(tǒng)分為三種狀態(tài)：移動(dòng)狀態(tài)、單點(diǎn)狀態(tài)、多點(diǎn)狀態(tài)。通過(guò)設(shè)置兩個(gè)標(biāo)志位flag來(lái)判斷所處狀態(tài)。只有進(jìn)入單機(jī)狀態(tài)后才能進(jìn)入多點(diǎn)狀態(tài)，而一旦退出多點(diǎn)狀態(tài)將進(jìn)入移動(dòng)狀態(tài)（如圖5）。在圖形界面上，本系統(tǒng)用VS2005的MFC框架，基于Dialog的結(jié)構(gòu)，編寫了友好的人機(jī)交互界面[4]。

    如下代碼介紹了如何在獲取的視頻信號(hào)中識(shí)別紅色指套，其他顏色的指套采用相同的方法可進(jìn)行識(shí)別，由識(shí)別到的手指位置對(duì)Whindows鼠標(biāo)消息進(jìn)行響應(yīng)，從而對(duì)系統(tǒng)進(jìn)行控制[5]。
　（1）構(gòu)建搜索目標(biāo)色的數(shù)據(jù)結(jié)構(gòu)
　histRed=cvCreateHist（1，&hdims，CV_HIST_ARRAY，
　&hranges，1）； //分配直方圖
　imgRed=cvLoadImage（"red.jpg"）；//讀取四色基圖
　cvCvtColor（image，hsv，CV_BGR2HSV）；
　//彩色空間轉(zhuǎn)換 BGR to HSV
　cvScalar（180，256，MAX（_vmin，_vmax），0），mask）；
   //得到二值的MASK
　cvSplit（hsv，hue，0，0，0）；   //只提取HUE分量
　（2）CAMSHIFT算法及形態(tài)學(xué)濾波
　cvCalcBackProject（&hue，backproject，histRed）；
　//使用back project方法
　cvAnd（backproject， mask， backproject，0）；
　cvMorphologyEx（backproject，backproject，0，0，CV_MOP_ OPEN，1）；
　cvMorphologyEx（backproject，backproject，0，0，CV_MOP_ CLOSE，1）；
　cvCamShift（backproject， track_windowRed，
　cvTermCriteria（CV_TERMCRIT_EPS | CV_TERMCRIT_ITER，10，2），
　&track_compRed， &track_boxRed ）；
　本系統(tǒng)最大的特色在于用雙手手指更形象的操作代替原來(lái)鼠標(biāo)單一的左右鍵點(diǎn)擊，并能完成部分鼠標(biāo)單擊無(wú)法完成的多點(diǎn)觸控功能[6]。本系統(tǒng)使用OpenCV技術(shù)，通過(guò)對(duì)顏色的識(shí)別跟蹤，實(shí)現(xiàn)了新型的輸入方式，讓電腦能夠讀懂人的動(dòng)作。本系統(tǒng)的另一個(gè)特色是可以和電視棒、網(wǎng)絡(luò)視頻軟件結(jié)合起來(lái)。多少年來(lái)，電視機(jī)的操作設(shè)備一直是遙控器，用戶每次要對(duì)電視操作時(shí)都要找遙控器，費(fèi)時(shí)費(fèi)力，隨著科學(xué)技術(shù)的發(fā)展，這種方式顯得過(guò)于落后，本系統(tǒng)創(chuàng)新性的將基于顏色的手部動(dòng)作識(shí)別和電視操作結(jié)合在一起，符合智能家居的概念，使得操作更加人性化。在實(shí)際測(cè)試過(guò)程中，本系統(tǒng)穩(wěn)定運(yùn)行，并且效果良好。
參考文獻(xiàn)
[1] 黃菁.基于單目視覺(jué)的觸摸屏技術(shù)研究[D].杭州：浙江工商大學(xué)，2009.
[2] RICHTER J， NASARRE C.Windows核心編程[M].北京：清華大學(xué)出版社，2009.
[3] BRADSKI G， KAEBLER A. Learning OpenCV[M].北京：清華大學(xué)出版社，2009.
[4] PROSISE J. Programing Windows with MFC Windows[M]. Microsoft Press， 2007.05.01.
[5] 郭世龍.基于Camshift算法的移動(dòng)機(jī)器人視覺(jué)跟蹤系統(tǒng)[D].武漢：華中科技大學(xué)，2008.
[6] 齊婷.基于視覺(jué)的多點(diǎn)觸摸基本技術(shù)實(shí)現(xiàn)方法[D].昆明：昆明理工大學(xué)，2009.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容