2012年,,多倫多大學首次使用深度學習訓練的卷積神經網絡模型在ImageNet的測試表現中取得突破性進展,,并引發(fā)了一連串的基于卷積神經網絡的優(yōu)化并不斷大幅提升ImageNet的測試表現。在2015年,,通過深度學習訓練的卷積神經網絡模型,在ImageNet的測試表現中,,錯誤率已經降到了2.3%,,超越了人類的識別準確率,就此推動了在圖像識別領域進行深度學習的大規(guī)模產業(yè)化應用的熱潮,。
?。ㄉ疃葘W習技術在2015年超越了人類)
以2012年為起點,各大互聯網巨頭開始落地深度學習技術。2013年,,Google通過深度學習來進行街景地圖的門牌號OCR識別,;2014年,Facebook將其基于卷積神經網絡模型的人臉識別技術DeepFace大規(guī)模地應用于其照片應用之中,,識別準確率達到97.3%,。目前深度學習被大規(guī)模應用于人臉識別、自動駕駛汽車等領域,,取得了非常矚目的成績,。作為一種首先在消費互聯網領域廣泛應用的技術,是否可以有效融入到工業(yè)視覺領域呢,?
工業(yè)機器視覺需要處理什么任務
機器視覺作為一種基于2D或者3D相機傳感器的工業(yè)自動化技術,,在工業(yè)視覺領域具有廣泛而成熟的應用。3C,、半導體,、汽車等行業(yè)大量使用機器視覺技術進行異常識別、標簽識別等,、物料定位等工作,。
工業(yè)自動化離不開感知技術和運動控制技術,就像人離不開眼和手,。而人體所獲得的信息,,80%來自于視覺,可想而知,,視覺感知技術一定是工業(yè)自動化領域最重要的技術之一,。
而傳統機器視覺,是存在明顯局限的,。
傳統機器視覺存在什么局限
傳統機器視覺的圖像處理系統,,其工作原理簡單理解起來是這樣:
1、在圖像中找到邊,、角等人為定義的目標特征,;
2、基于目標特征在圖像中存在與否,、多個目標特征之間的距離的數值進行邏輯判斷來完成視覺任務,。
使用這套技術,需要由視覺工程師基于視覺任務的特定需求,,進行目標特征的定義以及數值判斷的閥值定義,,設計好了之后形成程序由機器執(zhí)行。
而傳統機器視覺邏輯簡單的局限性,,則體現在無法適用于隨機性強,、特征復雜的工作任務,。典型任務如:
(隨機出現的復雜外觀缺陷檢測)
由于只能從有限的特征中進行排列組合,,視覺工程師無法通過”邊“,、”角”來表達“密集的點狀凹凸不平”這種綜合的、復雜的判斷目標,?;蛘弑磉_能力很差,導致識別準確度不好,。因此,,傳統機器視覺是無法解決以上問題的。
而這樣的復雜特征問題,,恰恰是深度學習技術最擅長解決的問題,。
深度學習如何解決復雜特征問題
相比傳統機器視覺通過視覺工程師來設計算法模型,深度學習技術最大的不同在于,,程序能夠自主發(fā)現需要用什么特征,,通過什么樣的邏輯關系來完成圖像分析任務,實現由程序來設計算法模型,。
以樂高積木來類比的話,,在傳統機器視覺里,人類的工作是從100個樂高元素里挑出數十個,,組裝起來執(zhí)行人類設計好的邏輯動作,,完成相關任務;而深度學習里,,人類告訴機器需要完成的任務,,由機器從1億個樂高元素里,挑出數萬個,,組裝起來并選擇需要執(zhí)行的邏輯動作來完成該任務。其表達能力遠遠高于人類專家,。
?。ㄉ疃葘W習技術具有遠超人類專家的表達能力)
由于深度學習可以從更多的特征可能性中進行選擇,并自行決定特征之間的邏輯關系,,深度學習就具備了通過從海量像素點中,,選擇一組特征,并通過這組特征表達‘密集的點狀凹凸不平’的能力,。
?。ㄓ绍浖灾鬟x擇特征以及邏輯組合方式)
在實際應用中,使用深度學習訓練的模型可以準確地對圖片中的隨機缺陷進行識別,,并可以準確地將指定的缺陷有效地標識出來,,真正實現了隨機性強,、特征復雜的隨機缺陷的檢測。
?。ㄍㄟ^深度學習可以識別并標識圖像中的隨機缺陷)
正是由于具備了處理這種隨機性強,、特征復雜的圖像識別問題的能力,深度學習就具備了突破傳統機器視覺技術的局限的可能性,。
深度學習能否達到工業(yè)精度要求
我們通常會認為,,工業(yè)應用對于技術精度和穩(wěn)定性的要求要高于民用技術。所以,,在消費領域火熱的深度學習技術,,是否能夠滿足工業(yè)指標呢?我們以外觀缺陷檢測為例,,看看工業(yè)檢測具體需要考慮哪些指標,。
(檢測任務的準確率考核矩陣)
漏判率:漏判會直接造成不良品流向終端客戶,。所以漏判率要求通常低于 100 PPM,。
誤判率:誤判會直接對工業(yè)企業(yè)的良率造成影響,會造成物料的浪費,。企業(yè)對誤判率的要求通常要求在1%-5%之間,。在漏判率達標的前提下,只有大幅降低誤判率,,才能達到減人的目標,。
節(jié)拍:不同行業(yè)有較大差異,如電子行業(yè)的節(jié)拍要求在5秒以內,,機械加工行業(yè)的節(jié)拍要求在幾十秒以內,。
一方面,深度學習目前的行業(yè)普遍技術水平已經能夠達到95%以上的判定準確率,。通過平衡漏判率和誤判率,,更加嚴格地控制漏判,可以讓漏判率降到100PPM以下,,而誤判率降到5%以下,。
另一方面,針對節(jié)拍的要求,,由于目前GPU顯卡可以達成每秒80禎的圖像處理速度,,5秒內可以完成400張圖片的判定。而一般3C行業(yè)的產品較小,,只需要10張以內的照片就可以完成產品的覆蓋,,比如大的機加工產品,也只需不到100張圖片進行產品表面的全覆蓋,。圖像處理的速度完成可以滿足節(jié)拍的要求,。
所以總體來看,,我們認為深度學習技術已經成熟到可以完成復雜工業(yè)視覺任務。
事實上,,深度學習已經產品化了
是的,。UnitX正是基于這樣的一個技術判斷,將深度學習技術融合到傳統機器視覺領域,,解決復雜表觀外觀缺陷檢測問題,。目前,UnitX已經成功在復雜機加工產品的外觀缺陷檢測,、高反光塑料件產品的外觀缺陷檢測等領域實現了產品化,,檢測效果大幅優(yōu)于傳統目檢人員,完成了連續(xù)超過30W件物料無漏判,,檢測節(jié)拍提升40%,,實現了外觀缺陷檢測工作的自動化,用事實證明了深度學習技術可以滿足工業(yè)檢測需求,。