文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.2017.04.015
中文引用格式: 何騰鵬,,張榮芬,劉超,,等. 基于機(jī)器視覺的智能導(dǎo)盲眼鏡設(shè)計[J].電子技術(shù)應(yīng)用,,2017,43(4):58-61.
英文引用格式: He Tengpeng,,Zhang Rongfen,,Liu Chao,et al. Design of smart seeing glasses based on machine vision[J].Application of Electronic Technique,,2017,,43(4):58-61.
0 引言
據(jù)世界衛(wèi)生組織統(tǒng)計,,截至目前全球約有盲人7 800萬,,其中90%生活在發(fā)展中國家,中國現(xiàn)有盲人數(shù)量占據(jù)世界盲人總數(shù)的18%,,多達(dá)1 400萬,。盲人作為社會中的一種弱勢群體,,視力殘疾、眼部疾病給其生活帶來了諸多不便,。另一方面,,近年來隨著我國老齡化人口的持續(xù)增多,視力障礙者數(shù)量也在急劇上升,,如何保障盲人群體及視障人士安全有效地出行顯得尤為重要,。為此,本文設(shè)計了一種基于機(jī)器視覺[1]的智能導(dǎo)盲眼鏡,,旨在幫助盲人朋友在行走過程中,,安全、有效地避開道路上的目標(biāo)障礙物,,盡最大可能地保障其出行安全,。相較于市場上導(dǎo)盲效率不理想的導(dǎo)盲手杖和價格昂貴的導(dǎo)盲犬,基于機(jī)器視覺的智能導(dǎo)盲眼鏡系統(tǒng)更具競爭力,。
1 智能導(dǎo)盲眼鏡控制系統(tǒng)的總體設(shè)計
本文的智能導(dǎo)盲眼鏡控制系統(tǒng)由前端嵌入式采集傳輸系統(tǒng)和遠(yuǎn)程云平臺服務(wù)器兩大部分組成,。嵌入式采集傳輸系統(tǒng)以三星Cortex-A8架構(gòu)的S5PV210處理器為載體,搭載Linux內(nèi)核,,配備雙目采集,、GPS定位、語音播報,、GSM短信,、語音通話、無線傳輸?shù)群诵墓δ苣K搭建智能導(dǎo)盲眼鏡系統(tǒng)的硬件平臺,,主要完成信息采集傳輸和智能指令導(dǎo)盲功能,。云平臺服務(wù)器作為智能導(dǎo)盲眼鏡的遠(yuǎn)程數(shù)據(jù)處理中心,在服務(wù)器配置上,,選用阿里云作為云端服務(wù)器,,再融入深度學(xué)習(xí)、雙目測距[2]等相關(guān)算法,,實現(xiàn)對智能導(dǎo)盲眼鏡前端場景目標(biāo)的圖像識別,、距離檢測和方位判斷。此外該服務(wù)器還構(gòu)建了GPS衛(wèi)星數(shù)據(jù)匹配平臺,,結(jié)合智能導(dǎo)盲眼鏡實體,,能對眼鏡使用者進(jìn)行實時有效地定位。本系統(tǒng)的總體設(shè)計框圖如圖1所示,。
2 智能導(dǎo)盲眼鏡控制系統(tǒng)硬件設(shè)計
2.1 雙目采集模塊設(shè)計
雙目采集模塊選用兩個性能參數(shù)完全一致的CMOS高清攝像頭,,用于智能導(dǎo)盲眼鏡前方場景信息的采集,幫助盲人獲取前方目標(biāo)和相應(yīng)的場景信息。
2.2 GPS定位模塊設(shè)計
全球定位系統(tǒng)(GPS)能為全球用戶提供低成本,、高精度的三維位置,,可在全球范圍內(nèi)進(jìn)行全天候、全方位的實時定位,。系統(tǒng)選用瑞士Ublox公司的NEO-6M模組作為GPS模塊的核心單元,,主要用于實時獲取盲人所在地理位置的經(jīng)緯度坐標(biāo)。
2.3 無線通信傳輸模塊設(shè)計
無線通信傳輸模塊主要由3G芯片和對應(yīng)的外圍電路組成,,采用3G無線技術(shù),實現(xiàn)智能導(dǎo)盲眼鏡與遠(yuǎn)程云平臺服務(wù)器的雙向通信,。一方面將雙目攝像頭模塊采集到的圖片以及GPS模塊獲取到的地理位置坐標(biāo)信息通過3G網(wǎng)絡(luò)發(fā)到遠(yuǎn)端云服務(wù)器平臺,,另一方面將服務(wù)器的圖片識別和地理位置配對結(jié)果反送回來傳遞給智能導(dǎo)盲眼鏡,進(jìn)行語音播報,,把結(jié)果實時告訴給盲人,。同時利用3G模塊的GSM短信功能,智能導(dǎo)盲眼鏡系統(tǒng)也會將從云服務(wù)器端獲取的結(jié)果,,以短消息的形式及時告知盲人家屬,。另外,在特殊情況下,,盲人也可利用3G的電話功能直接與親屬間進(jìn)行語音通話,。圖2為無線通信傳輸模塊的應(yīng)用電路圖。
2.4 語音播報模塊設(shè)計
智能導(dǎo)盲眼鏡控制系統(tǒng)的語音播報功能主要用于將導(dǎo)盲眼鏡前方目標(biāo)的圖片識別結(jié)果,、距離,、方位信息以及所處的地理位置通過語音模塊播放出來,及時告知盲人所處的周圍環(huán)境狀況,。系統(tǒng)選用SYN6288中文語音合成芯片作為語音播報模塊的主體,,實現(xiàn)文本到聲音的轉(zhuǎn)換,其外圍電路如圖3所示,。
3 智能導(dǎo)盲眼鏡控制系統(tǒng)的軟件設(shè)計
本系統(tǒng)的軟件設(shè)計分為遠(yuǎn)端云平臺服務(wù)器上的程序設(shè)計和智能導(dǎo)盲眼鏡前端的程序設(shè)計兩部分,。遠(yuǎn)程云平臺服務(wù)器上的軟件設(shè)計主要是采用C/C++等高級編程語言將圖片的識別、測距,、方位檢測等相關(guān)算法轉(zhuǎn)換成計算機(jī)系統(tǒng)能夠識別的程序指令,,從而實現(xiàn)智能導(dǎo)盲眼鏡遠(yuǎn)程云服務(wù)器的識別、測距,、方位檢測等功能,。另外GPS的經(jīng)緯度解析也在云服務(wù)器上通過軟件編程實現(xiàn)。導(dǎo)盲眼鏡前端軟件設(shè)計主要包括雙目攝像頭的圖片采集,、GPS地理位置坐標(biāo)的獲取,、無線通信傳輸模塊的數(shù)據(jù)傳輸與接收、語音播報模塊的調(diào)度和按鍵中斷的配置等功能模塊子程序的編寫,其主程序流程圖如圖4所示,。
4 基于深度信念網(wǎng)絡(luò)的自然場景識別
深度信念網(wǎng)絡(luò)(Deep Belief Network,,DBN)[3]作為深度學(xué)習(xí)中最為廣泛應(yīng)用的一種算法模型,多應(yīng)用于手寫字體識別和自然場景識別這兩個方向,。在智能導(dǎo)盲眼鏡控制系統(tǒng)中,,深度信念網(wǎng)絡(luò)主要用在自然場景中常見的物體識別上,這也是深度學(xué)習(xí)在機(jī)器視覺領(lǐng)域中的一種應(yīng)用體現(xiàn),。圖5是一個典型的深度信念網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)模型,。
從圖5可以看出,深度信念網(wǎng)絡(luò)是由多個受限制玻爾茲曼機(jī)(Restricted Boltzmann Machines,,RBM)[4]組成的深層網(wǎng)絡(luò),,在這個網(wǎng)絡(luò)中,DBN的訓(xùn)練過程采用逐層訓(xùn)練的方法,,每一層RBM都單獨訓(xùn)練,,參數(shù)也是單獨調(diào)整[5]。訓(xùn)練完一層后,,將該層的訓(xùn)練結(jié)果作為下一層RBM的輸入,,直至每一層RBM都訓(xùn)練完成,這個過程稱之為預(yù)訓(xùn)練,。當(dāng)深度信念網(wǎng)絡(luò)中的所有RBM訓(xùn)練完成后,,再根據(jù)樣本的標(biāo)簽值,采用反向傳播算法向后微調(diào),。
在智能導(dǎo)盲眼鏡的圖像訓(xùn)練過程中,,采用改進(jìn)型的CIFAR-10自然場景庫作為測試訓(xùn)練樣本。原始的CIFAR-10數(shù)據(jù)集有60 000張32×32的彩色圖像,,分為飛機(jī),、汽車、貓,、鳥,、鹿、狗,、青蛙,、馬、船和卡車共10類,。為了增強(qiáng)智能導(dǎo)盲眼鏡的實用性,,結(jié)合盲人的特殊情況,本文在實際的系統(tǒng)圖像訓(xùn)練中,,加入了餐桌,、椅子,、人、垃圾桶,、樹木等生活中常見的一些目標(biāo)場景,,對原始的CIFAR-10自然場景庫進(jìn)行了改進(jìn),然后采用改進(jìn)型的CIFAR-10自然場景庫通過圖6所示的深度信念網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練識別,。
在上述訓(xùn)練模型中,,改進(jìn)型CIFAR-10自然場景庫中每張圖均為32×32的彩色圖片,因此輸入層大小為3 072個結(jié)點(3 072=32×32×3),,兩個隱含層節(jié)點數(shù)分別為1 000和200,,在經(jīng)過面向多元分類的Softmax分類器[6]后輸出層為10個單元,系統(tǒng)最終模型結(jié)構(gòu)為3072-1000-200-10,。在智能導(dǎo)盲眼鏡系統(tǒng)實際的圖像訓(xùn)練階段,,訓(xùn)練模型中的兩層RBM的訓(xùn)練迭代次數(shù)都設(shè)置為200,學(xué)習(xí)率都設(shè)置成0.1,。訓(xùn)練完成后,將系統(tǒng)學(xué)習(xí)到的權(quán)重用于初始化神經(jīng)網(wǎng)絡(luò),,對網(wǎng)絡(luò)參數(shù)進(jìn)行參數(shù)微調(diào),, 并用Sigmoid函數(shù)[7]激活神經(jīng)網(wǎng)絡(luò)。系統(tǒng)訓(xùn)練過程中,,由于樣本繁多,,數(shù)據(jù)繁雜,隱含層需要相對較多的節(jié)點數(shù)才能學(xué)習(xí)到較好的特征,,加之圖片本身信息量大,,需要較多次的迭代,整個訓(xùn)練過程平均歷時10個小時,,這與深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)[8]以及自動編碼模型[9]相比,,訓(xùn)練時間大幅度縮短,并且還具有較為理想的識別率,,這也是本系統(tǒng)選用深度信念網(wǎng)絡(luò)作為識別訓(xùn)練模型的主要原因,。
5 系統(tǒng)測試結(jié)果與分析
采用上述的深度信念網(wǎng)絡(luò)訓(xùn)練模型先對改進(jìn)型CIFAR-10庫中的10 000張測試圖片隨機(jī)進(jìn)行了示范性測試,表1所示為各類樣本的識別率和平均識別率,。
從表1可以看出改進(jìn)型CIFAR-10庫中的10類測試樣本通過導(dǎo)盲眼鏡系統(tǒng)的深度信念網(wǎng)絡(luò)訓(xùn)練模型后,,其平均識別率為82.9%,與基于支持向量機(jī)[10]訓(xùn)練識別模型的識別率相比,,其平均識別率超出了支持向量機(jī)模型的近10%,,為進(jìn)一步的智能導(dǎo)盲眼鏡整體系統(tǒng)測試奠定了基礎(chǔ)。最后,,針對盲人的生活需要,,結(jié)合智能導(dǎo)盲眼鏡的其他功能,,對智能導(dǎo)盲眼鏡控制系統(tǒng)在實際場景中進(jìn)行了系統(tǒng)聯(lián)調(diào),其中雙目攝像頭的采集幀率設(shè)置為3幀/s,,語音導(dǎo)航頻率設(shè)定為每兩秒鐘導(dǎo)盲一次,,遠(yuǎn)程服務(wù)器端測試結(jié)果如圖7、圖8所示,。通過圖7可以看出智能導(dǎo)盲眼鏡的GPS功能能實時,、準(zhǔn)確地獲取佩戴導(dǎo)盲眼鏡用戶的經(jīng)緯度,并通過無線通信傳輸模塊送至遠(yuǎn)程服務(wù)器,,進(jìn)行地理位置的準(zhǔn)確匹對,。圖8顯示該智能導(dǎo)盲眼鏡在實際場景中,不僅能較準(zhǔn)確識別出前方目標(biāo)的類別,,還能測出目標(biāo)物體到導(dǎo)盲眼鏡的距離,,正確表示出障礙物的方位特征,并在眼鏡端實時以語音導(dǎo)盲的形式幫助盲人及時有效地避開障礙物,,從而保障了盲人的安全出行,。
6 結(jié)語
本系統(tǒng)以S5PV210為主控制器搭建基于機(jī)器視覺的智能導(dǎo)盲眼鏡,通過搭載Linux內(nèi)核,,配備雙目采集,、GPS定位、語音播報,、GSM短信,、語音通話、無線傳輸六大核心功能模塊組成系統(tǒng),,完成了系統(tǒng)的硬件電路設(shè)計和軟件設(shè)計,。通過系統(tǒng)測試,該智能導(dǎo)盲眼鏡不僅能對盲人的獨立出行進(jìn)行實時語音導(dǎo)航,,而且在特殊情況下,,盲人可以通過智能眼鏡上的觸發(fā)按鍵,使用導(dǎo)盲眼鏡的GPS,、GSM短信,、語音通話等功能,及時向親朋好友獲取幫助,。另外由于智能導(dǎo)盲眼鏡還具有圖像識別能力,,能幫助盲人進(jìn)行簡易物品歸類,在一定程度上也使盲人的生活自理能力得以提升,,這對于盲人基數(shù)較大的中國而言,,顯得尤為重要。
參考文獻(xiàn)
[1] Milan Sonka,,Vaclav Hlavac,,Roger Boyle,,等.圖像處理、分析與機(jī)器視覺[M].北京:清華大學(xué)出版社,,2016.
[2] 岳榮剛,,王少萍,李凱,,等.基于相似原理的新型雙目測距法[J].光電工程,,2008,35(4):64-68.
[3] 陳翠平.基于深度信念網(wǎng)絡(luò)的文本分類算法[J].計算機(jī)系統(tǒng)應(yīng)用,,2015,,24(2):121-126.
[4] 張春霞,姬楠楠,,王冠偉.受限波爾茲曼機(jī)簡介[J].工程數(shù)學(xué)學(xué)報,,2013(2):159-173.
[5] HINTON G E,SRIVASTAVA N,,KRIZHEVSKY A,,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,,3(4):212-223.
[6] 王爽,,馬文萍,謝慧明,,等.一種基于棧式編碼和softmax的極化SAR圖像分類方法[P].CN104156728A,2014.
[7] 張雪偉,,王焱.基于Sigmoid函數(shù)參數(shù)調(diào)整的雙隱層BP神經(jīng)網(wǎng)絡(luò)的板形預(yù)測[J].化工自動化及儀表,,2010,37(4):42-44.
[8] 陳先昌.基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D].杭州:浙江工商大學(xué),,2013.
[9] 吳海燕.基于自動編碼器的半監(jiān)督表示學(xué)習(xí)與分類學(xué)習(xí)研究[D].重慶:重慶大學(xué),,2015.
[10] 崔鵬宇.基于支持向量機(jī)的分類器訓(xùn)練研究[J].數(shù)字技術(shù)與應(yīng)用,2016(6):58-58.
作者信息:
何騰鵬,,張榮芬,,劉 超,房樂楠,,劉宇紅
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,,貴州 貴陽550025)