7月15日,在清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)舉辦的“數(shù)據(jù)安全與可信AI”主題學(xué)術(shù)工作坊上,,墨奇科技 CEO 及聯(lián)合創(chuàng)始人邰騁受邀做了主題為“高性能、保護(hù)隱私的生物識別技術(shù)”的報告,。在報告中,,邰騁闡釋了如何將指紋識別問題轉(zhuǎn)化為高精度圖像搜索問題,,業(yè)內(nèi)首次達(dá)到 20 億量級上的秒級、高精度,、自動化比對,,并介紹了保護(hù)隱私的生物識別技術(shù)特性和實(shí)現(xiàn)途徑。
突破大庫衰減的天花板,,高性能生物識別的探索成為當(dāng)務(wù)之急
隨著以指紋識別為代表的生物識別技術(shù)在各類場景的廣泛應(yīng)用,,如何在保證生物識別的性能同時保護(hù)用戶的隱私成為一個亟待解決的時代命題。
生物識別技術(shù)一般來說有兩種類型任務(wù):第一種是驗證,,也稱之為 1:1 的比對,;第二種是識別,也稱之為 1:N 的比對,。1:N 的問題比 1:1 的問題要困難約N 倍,,而且隨著庫容增大到20億級別,這一問題會變得更加困難,。
除了在億級大庫指紋識別任務(wù)中的技術(shù)挑戰(zhàn),,傳統(tǒng)指紋識別流程存在四方面問題:
一是很難自動化處理低質(zhì)量的指紋圖像,仍依賴于指紋專家對細(xì)節(jié)特征進(jìn)行人工標(biāo)注,,技術(shù)門檻很高,,效率卻很低。
二是由于傳統(tǒng)方法都是基于細(xì)節(jié)特征,,而細(xì)節(jié)特征本身的精度就有限,,只覆蓋了指紋信息中的一小部分,曲率和幾何信息都丟失了,。隨著數(shù)據(jù)庫大小的增加,,準(zhǔn)確率會迅速下降,即“大庫衰減”現(xiàn)象,。
三是基于深度學(xué)習(xí)的方法需要大量的訓(xùn)練數(shù)據(jù),,但是這些數(shù)據(jù)并不易于獲得。
四是在大型數(shù)據(jù)庫比對上花費(fèi)的時間過長,。
墨奇科技一直致力于探尋新的技術(shù)路徑來解決這些問題,,并發(fā)現(xiàn)了一種可行的方式:將指紋比對問題轉(zhuǎn)化為高精度圖像搜索問題,并自主研發(fā)出了高精度圖像搜索引擎技術(shù),,它包含三個部分:圖像的自適應(yīng)多尺度表示和索引系統(tǒng),、無標(biāo)注或極少標(biāo)注的自學(xué)習(xí)框架,以及高速異構(gòu)的搜索系統(tǒng),。
圖:多尺度特征
首先通過一個更有效的數(shù)學(xué)框架為指紋圖像構(gòu)建最佳的多尺度表示,,讓高精度、高性能的圖像搜索成為可能,。例如,,在從像素到整體圖像的每一個中間尺度上,,都提取了標(biāo)簽(label)、向量(vector)和圖(graph)等不同的特征,,極大地擴(kuò)充了指紋信息,。
其次,只需要極少樣本的AI自學(xué)習(xí)框架,,讓系統(tǒng)可以自學(xué)習(xí),,且需要的標(biāo)注數(shù)據(jù)減少了幾千至上萬倍。
另外,,超高性能的異構(gòu)系統(tǒng)和架構(gòu),,讓準(zhǔn)確性和速度提升。專門用于視覺搜索的異構(gòu)多層分布式系統(tǒng),,針對多尺度特征進(jìn)行了優(yōu)化,。對于量大且不需要高精度的圖像,可以使用GPU來進(jìn)行運(yùn)算,;而對精度要求較高的圖像則調(diào)用CPU來進(jìn)行運(yùn)算,,從而實(shí)現(xiàn)指紋圖像的高速比對。
上圖:需要人工標(biāo)注細(xì)節(jié)特征
下圖:無標(biāo)注比對自動搜索指紋圖像相似的區(qū)域
憑借這些思路以及底層的技術(shù)創(chuàng)新,,墨奇科技的新一代指紋識別系統(tǒng)徹底改變了傳統(tǒng)系統(tǒng)的工作流程,,突破性地實(shí)現(xiàn)了 20 億量級大庫的秒級、高精度,、自動化比對,。這一技術(shù)目前已運(yùn)用到了指紋以外的更多圖像,如掌紋識別上,,未來將推廣到更廣泛的圖像搜索應(yīng)用中,。
保護(hù)隱私是未來生物識別技術(shù)發(fā)展的關(guān)鍵和難點(diǎn)
生物識別技術(shù)在許多應(yīng)用中帶來了便利,但由此引發(fā)的數(shù)據(jù)和隱私保護(hù)問題也日益凸顯,。生物識別技術(shù)的隱私問題不僅包括數(shù)據(jù)庫泄露所帶來的隱私泄露,,也會面臨著多種外部攻擊:模仿攻擊,設(shè)備替換,,重放攻擊,,暴力破解等。因此,,生物特征識別技術(shù)需要一種更有效的隱私保護(hù)機(jī)制。
墨奇科技認(rèn)為,,一個真正保護(hù)隱私的生物識別系統(tǒng)需要具備如下三點(diǎn):
第一,,不可逆。在給定比對特征的情況下,,恢復(fù)原始的特征模板非常困難,。這一特性防止了濫用存儲的生物特征數(shù)據(jù)進(jìn)行欺騙或重放攻擊,,提高了生物識別認(rèn)證系統(tǒng)的安全性。
第二,,可撤銷,。一旦某一個模板泄露或被認(rèn)為不安全,就可以安全注銷,,然后簽發(fā)一個新模板,,這樣就使得使用生物識別的方式和使用密碼的方式一樣可撤銷。
第三,,非關(guān)聯(lián)性,。這意味著想要確定一個或者多個變換后的模板是源于同一個原始特征,在計算上應(yīng)該是困難的,。也就是說,,用戶有不同的生物識別應(yīng)用,但彼此之間并不關(guān)聯(lián),。
只有滿足上述三點(diǎn)的方案才可被稱為可撤銷的生物識別技術(shù),,其中有三種方案最具代表性:Biohashing 、Fuzzy Commitment 和 Fuzzy Vault,。
第一種方案,,Biohashing。這種方法的優(yōu)點(diǎn)是由于需要同時借助原始生物特征模板和外部密鑰兩個因素驗證,,實(shí)際上提高了準(zhǔn)確性,。然而,該方案的缺點(diǎn)是仍需要記住密鑰,,且一旦密鑰暴露,,原始生物特征數(shù)據(jù)也不安全。
第二種方案,,F(xiàn)uzzy Commitment,,使用糾錯碼技術(shù),優(yōu)點(diǎn)是可以看到用戶不需要記住任何密鑰,,而缺點(diǎn)在于取決于糾錯碼的構(gòu)造,,可撤銷性或者非關(guān)聯(lián)性可能無法完全滿足。
第三種方案,,F(xiàn)uzzy Vault,,實(shí)際上假設(shè)原始生物特征模板包含圖像的許多特征點(diǎn),使用一組網(wǎng)格點(diǎn)對圖像進(jìn)行分區(qū),,并將這些特征點(diǎn)量化到網(wǎng)格,,如果足夠多的特征點(diǎn)是正確的,那多項式可以用Generalized Reed Solomon解碼技術(shù)來恢復(fù),否則,,有很多錯誤點(diǎn)的多項式重建問題,,實(shí)際上是 NP-hard 問題。這種方法的優(yōu)點(diǎn)是多項式重建問題的難度保證了一定的安全屬性,,缺點(diǎn)是比對速度很慢,。
圖:Biohashing 、Fuzzy Commitment 和 Fuzzy Vault
總的來說,,這三種方案各有優(yōu)缺點(diǎn),,在準(zhǔn)確性、安全性,、比對速度等方面不能兼得,。由此可見,研發(fā)保護(hù)隱私的生物識別相當(dāng)困難,,目前業(yè)內(nèi)正在積極探索,。
盡管保護(hù)隱私的生物識別技術(shù)尚未被廣泛采用,但潛力巨大,。這也正是墨奇科技持續(xù)努力的領(lǐng)域,,墨奇科技也將繼續(xù)致力于為數(shù)十億人提供保護(hù)隱私、安全可靠的下一代身份認(rèn)證和識別服務(wù),,引領(lǐng)高性能,、保護(hù)隱私的生物識別,為生物識別行業(yè)演進(jìn)出新的技術(shù)高度,。