文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.180564
中文引用格式: 林付春,,張榮芬,,何倩倩,等. 機(jī)器視覺中的智能無人零售系統(tǒng)設(shè)計(jì)[J].電子技術(shù)應(yīng)用,,2018,,44(9):96-98,103.
英文引用格式: Lin Fuchun,,Zhang Rongfen,,He Qianqian,et al. Design of intelligent unmanned vending system in machine vision[J]. Application of Electronic Technique,,2018,,44(9):96-98,,103.
0 引言
零售行業(yè)是距離消費(fèi)者最近的行業(yè),,也是對(duì)體驗(yàn)和性能要求最高的行業(yè),。隨著人工智能和深度學(xué)習(xí)技術(shù)的快速發(fā)展,計(jì)算機(jī)視覺被廣泛應(yīng)用到各個(gè)領(lǐng)域,。其中在無人零售中,,計(jì)算機(jī)視覺將前端人貨關(guān)系重構(gòu)表現(xiàn)得淋漓盡致。傳統(tǒng)的無人售貨機(jī)只能銷售少量類別的商品,,或者采用RFID技術(shù)為每件商品貼上標(biāo)簽,,浪費(fèi)資源和人力物力[1]。除此之外,,需要購買者彎腰去拿,,對(duì)顧客很不尊重。而新型無人售貨機(jī)購物者可以開門自己拿想買的各種商品,。在國內(nèi),,阿里巴巴開設(shè)無人超市,人們隨意自由購物,。繽果盒子無人超市內(nèi)置專業(yè)掃描識(shí)別機(jī)器,,用于快速識(shí)別和結(jié)算,效率很高,,但成本也很高[2],。市場上也有一些智能售貨柜企業(yè)以視覺方案切入,不過大多數(shù)產(chǎn)品都還停留在概念階段,,并且產(chǎn)品成本非常高,,無法解決零售的實(shí)際問題。
本系統(tǒng)在無人售貨柜中裝有各種傳感器模塊組與攝像頭,,攝像頭會(huì)對(duì)顧客的動(dòng)作進(jìn)行捕捉,,通過運(yùn)用人工智能(AI)圖像檢測和圖像處理技術(shù)識(shí)別出顧客拿走的商品,同時(shí)配合各種傳感器數(shù)據(jù)與服務(wù)器數(shù)據(jù)進(jìn)行比對(duì),,從而得出最終的結(jié)果,。這種方式不僅可以大幅度地節(jié)省消費(fèi)者的購物時(shí)間,,還可以根據(jù)不同場景快速變化銷售物品種類,解決了目前無人零售的痛點(diǎn),。在人工智能潮流的趨勢下,,新零售行業(yè)被推到風(fēng)口浪尖。人工智能應(yīng)用在新零售行業(yè)是將來零售行業(yè)的大趨勢,。
1 智能無人零售系統(tǒng)的總體設(shè)計(jì)
整體無人零售系統(tǒng)工作流程:顧客掃描,,服務(wù)器收到顧客開門通知,服務(wù)器通知前端硬件開門,。顧客在無人零售柜自由選擇各種商品,,顧客選擇完商品關(guān)門,同時(shí)前端采集商品圖像數(shù)據(jù),,各種傳感器數(shù)據(jù)上傳服務(wù)器,,服務(wù)器對(duì)圖像和數(shù)據(jù)進(jìn)行處理,并與后臺(tái)數(shù)據(jù)庫比對(duì),,得到顧客購買的商品,,并進(jìn)行自動(dòng)結(jié)算。
本文主要介紹視覺系統(tǒng)部分設(shè)計(jì),,系統(tǒng)由基于嵌入式技術(shù)的前端采集,、通信傳輸系統(tǒng)、遠(yuǎn)程云服務(wù)器識(shí)別與數(shù)據(jù)庫計(jì)算系統(tǒng)組成,。前端硬件采集傳輸采用基于三星Cortex-A9架構(gòu)的核心板,,搭載攝像頭模塊組、壓力傳感器模塊組,、紅外傳感器模塊組,、WiFi通信模塊和4G通信模塊構(gòu)建智無人零售系統(tǒng)的硬件平臺(tái),。攝像頭分別拍攝動(dòng)態(tài)和靜態(tài)商品的圖像,,由主控芯片用預(yù)先板載的壓縮算法對(duì)采集的圖像進(jìn)行壓縮,壓縮后的圖像在WiFi或者4G模塊作用下傳送到云服務(wù)器上[3],。采用云平臺(tái)服務(wù)器作為智能無人零售系統(tǒng)的數(shù)據(jù)處理中心,,在服務(wù)器上同時(shí)對(duì)前端靜態(tài)和動(dòng)態(tài)圖像進(jìn)行識(shí)別與分析,然后將結(jié)果返回給數(shù)據(jù)庫,。智能無人零售系統(tǒng)的總體設(shè)計(jì)如圖1所示,。
2 智能無人零售系統(tǒng)硬件系統(tǒng)設(shè)計(jì)
本系統(tǒng)硬件采用基于嵌入式的四核ARM9作為前端圖像采集控制器,利用它實(shí)現(xiàn)對(duì)整個(gè)智能無人零售系統(tǒng)各個(gè)單元模塊上的數(shù)據(jù)信息進(jìn)行匯總分析和處理,,對(duì)各個(gè)功能模塊發(fā)出控制指令,,協(xié)調(diào)整個(gè)系統(tǒng)穩(wěn)定運(yùn)行。每個(gè)無人售貨柜的結(jié)構(gòu)分為4層2列共8個(gè)格子,,每個(gè)格子放一類商品,。在每個(gè)格子上方安裝一個(gè)500萬像素的CMOS攝像頭,,用來靜態(tài)采集每個(gè)格子里商品的數(shù)量。每個(gè)格子下面各安裝一個(gè)壓力傳感器,,用來判斷顧客拿走了哪一類商品,,然后將這個(gè)格子的圖像傳到服務(wù)器進(jìn)行識(shí)別和計(jì)數(shù),以此來精確判斷顧客拿走了幾個(gè)商品,。同時(shí)壓力傳感器的數(shù)據(jù)發(fā)送給服務(wù)器數(shù)據(jù)庫進(jìn)行分析比對(duì),。柜子內(nèi)部頂端安裝一個(gè)1 000萬像素?cái)z像頭,用來動(dòng)態(tài)采集商品種類,。同時(shí)柜子每一層格子前方安裝兩對(duì)紅外傳感器,,當(dāng)紅外傳感器檢測到顧客拿完商品之后,柜子頂端攝像頭對(duì)顧客手中的商品進(jìn)行動(dòng)態(tài)拍攝,,中央控制器對(duì)采集的圖像在前端進(jìn)行壓縮,,通過WiFi或者4G模塊上傳到服務(wù)器。硬件系統(tǒng)流程圖如圖2所示,。
3 智能無人零售系統(tǒng)軟件系統(tǒng)設(shè)計(jì)
近幾年來,,深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)算法在圖像檢測、分割和識(shí)別上表現(xiàn)出越來越卓越的效果,,因此,,許多優(yōu)秀的深度學(xué)習(xí)算法被應(yīng)用在工業(yè)界。本系統(tǒng)軟件設(shè)計(jì)由兩部分組成,,分別是對(duì)商品靜態(tài)識(shí)別和對(duì)商品動(dòng)態(tài)識(shí)別,。采用的是目前流行的深度學(xué)習(xí)框架——Caffe框架[4],主要采用C++/CUDA高級(jí)語言來實(shí)現(xiàn)對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練和圖像的識(shí)別,。商品靜態(tài)識(shí)別算法基于經(jīng)典的YOLO(You Only Look Once)網(wǎng)絡(luò)模型優(yōu)化[5],;商品動(dòng)態(tài)識(shí)別算法基于典型的Alexlet網(wǎng)絡(luò)模型進(jìn)行優(yōu)化。
3.1 對(duì)商品進(jìn)行靜態(tài)識(shí)別
靜態(tài)識(shí)別是服務(wù)器從每個(gè)格子得到壓力傳感器的數(shù)據(jù),,通過數(shù)據(jù)分析質(zhì)量格子質(zhì)量變化,,得到顧客取出的是哪個(gè)格子的那種物品。同時(shí)前端攝像頭拍攝這個(gè)格子的圖像,,在前端處理后上傳到服務(wù)器,。在服務(wù)器上通過深度學(xué)習(xí)算法(YOLO)對(duì)圖像進(jìn)行檢測、定位和識(shí)別,?;诰矸e神經(jīng)網(wǎng)絡(luò)的YOLO模型在2015年被提出,能夠?qū)崟r(shí)地對(duì)物體進(jìn)行檢測和識(shí)別,,是對(duì)物體進(jìn)行位置檢測準(zhǔn)確率和識(shí)別準(zhǔn)確率綜合最好的網(wǎng)絡(luò)模型之一,,同時(shí)也是實(shí)時(shí)性最好的網(wǎng)絡(luò)模型,模型采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),。模型的卷積層提取圖像特征,,全連接層預(yù)測輸出概率,。模型結(jié)構(gòu)類似于GoogleNet網(wǎng)絡(luò)模型,最終輸出為其網(wǎng)絡(luò)模型,,如圖3所示,。本系統(tǒng)在此網(wǎng)絡(luò)模型基礎(chǔ)上對(duì)其進(jìn)行優(yōu)化,分別在其全連接層和卷積層進(jìn)行修改,,減少卷積層和filter,,最終輸出為7×7×18的tensor。其網(wǎng)絡(luò)模型如圖4所示,。
3.2 對(duì)商品動(dòng)態(tài)識(shí)別
動(dòng)態(tài)識(shí)別算法由兩部分組成,,當(dāng)紅外傳感器檢測到信號(hào),1 000萬像素?cái)z像頭拍攝的圖像經(jīng)過壓縮上傳到服務(wù)器后,,在OpenCV庫平臺(tái)下,,先采用傳統(tǒng)視覺算法通過手勢識(shí)別裁剪出商品圖像,然后將圖像放入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別,,以此來提高這個(gè)系統(tǒng)識(shí)別準(zhǔn)確性,。
基于卷積神經(jīng)網(wǎng)絡(luò)的Alexlet網(wǎng)絡(luò)模型是2012年的Imagnet比賽的冠軍[6]。其網(wǎng)絡(luò)模型如圖5所示,,本系統(tǒng)在此網(wǎng)絡(luò)模型基礎(chǔ)上對(duì)其進(jìn)行優(yōu)化,,分別對(duì)其全連接層和卷積層進(jìn)行修改,為了減少過擬合,,優(yōu)化Dropout值為0.5,,對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練測試[7]。其網(wǎng)絡(luò)模型如圖6所示,。
4 系統(tǒng)測試
在智能無人售貨系統(tǒng)中挑選日常生活中常見的可口可樂,、加多寶、壓縮餅干,、酸奶,、香皂、泡面,、洗衣液和茶杯8種商品,,對(duì)其進(jìn)行數(shù)據(jù)集采集,。靜態(tài)識(shí)別中多采用多個(gè)物品在一張圖片上,,共80 000張圖片,其中10 000張圖片做測試集,,70 000張圖片作為訓(xùn)練集,。動(dòng)態(tài)識(shí)別中采用每類10 000張圖片作為訓(xùn)練集,共80 000張圖片,。每類1 000張圖片作為測試,。在靜態(tài)測試中,,運(yùn)用圖4網(wǎng)絡(luò)模型在Caffe框架上對(duì)其進(jìn)行訓(xùn)練和測試,得到如圖7所示的準(zhǔn)確率和loss值,。當(dāng)?shù)螖?shù)達(dá)到27 000左右時(shí),,靜態(tài)測試準(zhǔn)確率達(dá)到99%的準(zhǔn)確率。同時(shí)在迭代次數(shù)達(dá)到31 000左右時(shí),,靜態(tài)測試值損失值減到最小,,并且趨于穩(wěn)定。
動(dòng)態(tài)測試中,,運(yùn)用圖6網(wǎng)絡(luò)模型在Caffe框架上對(duì)其進(jìn)行訓(xùn)練和測試,,得到如圖8所示的準(zhǔn)確率和loss值。當(dāng)?shù)螖?shù)達(dá)到23 000左右時(shí),,動(dòng)態(tài)測試準(zhǔn)確率達(dá)到99%,。同時(shí),在迭代次數(shù)達(dá)到30 000左右時(shí),,動(dòng)態(tài)測試值損失值減到最小,,并且趨于穩(wěn)定。
5 結(jié)論
本文完成了智能無人零售視覺系統(tǒng)的軟件和硬件設(shè)計(jì),;實(shí)現(xiàn)了前端硬件攝像頭模塊組對(duì)圖像的靜態(tài)和動(dòng)態(tài)拍攝,、壓力傳感器組的數(shù)據(jù)傳輸、紅外傳感器組的數(shù)據(jù)采集以及各個(gè)模塊之間的通信,;軟件上完成了神經(jīng)網(wǎng)絡(luò)對(duì)圖像的檢測定位與識(shí)別,;通過與前端APP和后臺(tái)數(shù)據(jù)庫結(jié)合,可實(shí)現(xiàn)新的智能無人新零售系統(tǒng),。本文將人工智能視覺系統(tǒng)應(yīng)用到新零售行業(yè),,能使顧客擁有掃描開門、自己取貨,、關(guān)門自動(dòng)結(jié)算的新體驗(yàn),,方便了顧客,也節(jié)約了產(chǎn)品成本,。未來智能無人新零售將取代傳統(tǒng)售貨機(jī),,分布在城市的各個(gè)角落。
參考文獻(xiàn)
[1] 王汝傳,,馬守明,,葉寧,等.基于射頻識(shí)別標(biāo)簽和傳感器網(wǎng)絡(luò)的智能零售市場構(gòu)建方法:中國,,CN 103714465 B[P].2014-04-09.
[2] 宋杰.無人智能零售店來了[J].中國經(jīng)濟(jì)周刊,,2017(28):86-87.
[3] 何騰鵬,張榮芬,劉超,,等.基于機(jī)器視覺的智能導(dǎo)盲眼鏡設(shè)計(jì)[J].電子技術(shù)應(yīng)用,,2017,43(4):58-61.
[4] JIA Y,,SHELHAMER E,,DONAHUE J,et al.Caffe:convolutional architecture for fast feature embedding[C].Proceedings of ACM International Conference on Multimedia.ACM,,2014:675-678.
[5] REDMON J,,DIVVALA S,GIRSHICK R,,et al.You only look once: unified, real-time object detection[C].Computer Vision and Pattern Recognition.IEEE,,2016:779-788.
[6] KRIZHEVSKY A,SUTSKEVER I,,HINTON G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.,,2012:1097-1105.
[7] HINTON G E,SRIVASTAVA N,,KRIZHEVSKY A,,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,,3(4):212-223.
作者信息:
林付春,,張榮芬,何倩倩,,劉宇紅
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,,貴州 貴陽550025)