0 引 言
根據(jù)麥肯錫全球研究所給出的定義,,大數(shù)據(jù)是“一種規(guī)模大到在獲取,、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn),、多樣的數(shù)據(jù)類型和價(jià)值密度低等特征”,。
隨著云計(jì)算、物聯(lián)網(wǎng)、5G及人工智能等新技術(shù)的迅速發(fā)展,,人們可以通過海量的終端,、感知元件等獲得大量的信息化數(shù)據(jù)。利用這些數(shù)據(jù)對(duì)其進(jìn)行分析,,可以更加便捷地服務(wù)社會(huì),。在2019年全球數(shù)據(jù)量已超過41ZB的情況下,如何實(shí)現(xiàn)這些數(shù)據(jù)以達(dá)到人與物之間的互聯(lián)互通,,是各國(guó)業(yè)界目前都在討論研究的課題,。
發(fā)達(dá)國(guó)家方面,美國(guó)在2019年發(fā)布了《聯(lián)邦數(shù)據(jù)戰(zhàn)略第一年度行動(dòng)計(jì)劃(Federal Data Strategy Year-1 Action Plan)》草案,。該草案包含了美國(guó)如何利用大數(shù)據(jù)來制定未來發(fā)展戰(zhàn)略,,提高整個(gè)社會(huì)效率。此外,,英國(guó)政府正在研究如何利用交通行業(yè)的大數(shù)據(jù)來判定英國(guó)經(jīng)濟(jì)情況和制定經(jīng)濟(jì)政策,。
我國(guó)在大數(shù)據(jù)領(lǐng)域的技術(shù)進(jìn)展也不遑多讓。2019年5月,,我國(guó)成立了國(guó)家電網(wǎng)大數(shù)據(jù)中心,;2019年,三大電信運(yùn)營(yíng)商也完成了全集團(tuán)大數(shù)據(jù)平臺(tái)的建設(shè),。
1 大數(shù)據(jù)環(huán)境下的安全風(fēng)險(xiǎn)
大數(shù)據(jù)在全球各行業(yè)都已取得了重大進(jìn)展,,但同時(shí)帶來了很多問題,其中最大的問題是大數(shù)據(jù)的安全問題,。2019年爆出的Collection#1數(shù)據(jù)集事件泄露了超過27億個(gè)電子郵件/密碼對(duì),;2019年9月6日,杭州魔蝎數(shù)據(jù)科技有限公司因用戶隱私泄露被警方控制,。
國(guó)內(nèi)外用戶隱私泄露事件頻發(fā),,表明大數(shù)據(jù)的安全必須被重視。大數(shù)據(jù)技術(shù)具有5V特征,,即Volume(體量大),、Variety(種類多)、Velocity(速度快),、Velocity(準(zhǔn)度高)和Value(價(jià)值大),,如圖1所示。其中,,體量大是指大數(shù)據(jù)技術(shù)中包含的數(shù)據(jù)規(guī)模巨大,;種類多是指大數(shù)據(jù)技術(shù)來源的數(shù)據(jù)集多種多樣;速度快是指大數(shù)據(jù)技術(shù)需要對(duì)數(shù)據(jù)進(jìn)行快速處理,;準(zhǔn)度高是指大數(shù)據(jù)技術(shù)處理后的結(jié)果需要具有較高的準(zhǔn)確性,;價(jià)值大是指大數(shù)據(jù)技術(shù)可以帶來很大的戰(zhàn)略價(jià)值,。
圖1 大數(shù)據(jù)的5V特征
大數(shù)據(jù)環(huán)境下數(shù)據(jù)的安全概念來自于傳統(tǒng)的信息安全的數(shù)據(jù)安全。傳統(tǒng)的信息安全的目的是保障數(shù)據(jù)的機(jī)密性,、完整性,、可用性及不可否認(rèn)性等。大數(shù)據(jù)環(huán)境下要保障數(shù)據(jù)在整個(gè)生命周期中的安全,,即從數(shù)據(jù)產(chǎn)生階段到數(shù)據(jù)銷毀階段都需要保障數(shù)據(jù)自身的安全和用戶的隱私不被泄露,,而使用密碼技術(shù)是一種通用的手段。同時(shí),,密碼技術(shù)也應(yīng)滿足大數(shù)據(jù)具有的5V特征,并且不影響大數(shù)據(jù)的處理速度,。
大數(shù)據(jù)環(huán)境下,,數(shù)據(jù)擁有者即用戶希望將數(shù)據(jù)加密后上傳至服務(wù)器,使數(shù)據(jù)處理方在不解密的情況下對(duì)密文數(shù)據(jù)進(jìn)行處理,。如此可以使得用戶的隱私不會(huì)泄露,,同時(shí)數(shù)據(jù)處理方也可以獲得數(shù)據(jù)處理后的結(jié)果。當(dāng)用戶需要原始數(shù)據(jù)時(shí),,可以將密文數(shù)據(jù)從服務(wù)器處下載至本地進(jìn)行解密操作得到原始數(shù)據(jù),。但是,這樣會(huì)導(dǎo)致每一次用戶上傳下載都將消耗很多的網(wǎng)絡(luò)帶寬,,同時(shí)加解密操作也需要大量的計(jì)算資源,。為了解決上述問題,可搜索加密,、全同態(tài)加密和安全多方計(jì)算等技術(shù)隨之產(chǎn)生,。
2 可搜索加密技術(shù)
數(shù)據(jù)擁有者將數(shù)據(jù)密文數(shù)據(jù)存儲(chǔ)在云端,可以對(duì)個(gè)人的隱私進(jìn)行良好的保護(hù),。但是,,如果需要訪問搜索自己保存在云端的數(shù)據(jù),需要先將密文數(shù)據(jù)下載至本地再解密,,會(huì)帶來很大的通信和計(jì)算開銷,。如何使得數(shù)據(jù)擁有者在保障隱私的同時(shí)訪問搜索自己的數(shù)據(jù)即密文索引,成為近年來的研究熱點(diǎn),。
可搜索加密技術(shù)(Searchable Encryption,,SE)可以滿足數(shù)據(jù)擁有者既可以確保個(gè)人隱私不被泄露又可以通過索引搜索到存儲(chǔ)在云端的數(shù)據(jù)??伤阉骷用芗夹g(shù)可以達(dá)到只有合法用戶才具備基于關(guān)鍵詞檢索的能力,,提供了加密和檢索兩種服務(wù)。加密保證了數(shù)據(jù)擁有者信息的機(jī)密性,,在數(shù)據(jù)傳輸過程和云端都不會(huì)被泄露,;檢索保證了數(shù)據(jù)擁有者自身的隱私,,同時(shí)提供了查詢檢索功能。
可搜索加密大體上可以分為兩類:對(duì)稱可搜索加密(Symmetric Searchable Encryption,,SSE)和公鑰可搜索加密(Public Key Encryption with Keyword Search,,PEKS)。其中,,對(duì)稱可搜索加密主要是以基于索引的思想構(gòu)建的,,公鑰可搜索加密的典型構(gòu)造一般都是基于身份的公鑰密碼(Identity-Based Cryptography,IBE),。
可搜索加密有多種模式,,下面介紹一種可滿足大數(shù)據(jù)特征的模式,即授權(quán)委托模式,。數(shù)據(jù)擁有者將原始密文和陷門發(fā)送至數(shù)據(jù)中心,,數(shù)據(jù)中心收到密文后進(jìn)行重加密(Re-crypt)步驟生成新的密文,原始密文只允許授權(quán)過的數(shù)據(jù)管理者查詢關(guān)鍵詞,。如果其他的數(shù)據(jù)使用者想獲得需要的明文,,則必須通過數(shù)據(jù)管理者發(fā)送重加密密鑰才能對(duì)新的密文進(jìn)行解密,如圖2所示,。
圖2 滿足大數(shù)據(jù)特征的可搜索加密模式
3 安全多方計(jì)算技術(shù)
安全多方計(jì)算(Secure Multiparty Computation,,SMC)是指有若干位互不信任、相互獨(dú)立的數(shù)據(jù)參與方在分布式環(huán)境下通過共同計(jì)算得到對(duì)于每位數(shù)據(jù)參與方都公開的計(jì)算結(jié)果,,但是無(wú)法獲取其他數(shù)據(jù)參與方的輸入數(shù)據(jù),。
安全多方計(jì)算基于姚期智院士在1982年提出的百萬(wàn)富翁問題。百萬(wàn)富翁問題的描述為“兩個(gè)百萬(wàn)富翁的目的是比較雙方的財(cái)富總量,,但是并不想知道對(duì)方的財(cái)富具體數(shù)量,,如何解決這一問題”。具體來說,,就是為了讓獨(dú)立數(shù)據(jù)擁有者可以在不信任對(duì)方以及第三方的情況下進(jìn)行隱私協(xié)同計(jì)算,。安全多方計(jì)算中,假設(shè)有n位計(jì)算參與者,,這些計(jì)算參與者的數(shù)據(jù)為圖片,。通過計(jì)算這些計(jì)算參與者共同得到一組數(shù)據(jù)圖片,任何一位計(jì)算參與者都可以得圖片,,但是對(duì)于整個(gè)計(jì)算過程他們只能得到這一種結(jié)果,。
正是基于百萬(wàn)富翁問題的假設(shè),安全多方計(jì)算可以滿足大數(shù)據(jù)環(huán)境下用戶數(shù)據(jù)交由數(shù)據(jù)處理方進(jìn)行操作,,數(shù)據(jù)操作方只能得到處理后的結(jié)果而不能獲得用戶的具體數(shù)據(jù)圖片,,從而保護(hù)用戶的隱私。
通常安全多方計(jì)算系統(tǒng)中,,每個(gè)數(shù)據(jù)持有者由數(shù)據(jù)反饋,、數(shù)據(jù)庫(kù)和安全多方計(jì)算節(jié)點(diǎn)構(gòu)成,。所有的數(shù)據(jù)持有者權(quán)限相同,可以同時(shí)執(zhí)行計(jì)算任務(wù),。各個(gè)數(shù)據(jù)持有者之間的數(shù)據(jù)流通稱為數(shù)據(jù)流,,而每個(gè)數(shù)據(jù)持有者在本地完成數(shù)據(jù)的處理并將處理后的結(jié)果發(fā)送給數(shù)據(jù)節(jié)點(diǎn)。這種系統(tǒng)可以保證在大數(shù)據(jù)環(huán)境下用戶的隱私,,如圖3所示,。
圖3 安全多方計(jì)算系統(tǒng)
4 全同態(tài)加密技術(shù)
大數(shù)據(jù)通常與云計(jì)算技術(shù)結(jié)合使用,將大數(shù)據(jù)置于云存儲(chǔ)服務(wù)器上,,提供云服務(wù)的提供者為數(shù)據(jù)擁有者服務(wù),。但是,隨之產(chǎn)生了一個(gè)問題,,即數(shù)據(jù)擁有者需要信任云服務(wù)提供者,,否則將會(huì)泄露數(shù)據(jù)擁有者的隱私。如何解決這一問題,,是大數(shù)據(jù)與云計(jì)算技術(shù)協(xié)同合作的難題。
為解決這一問題,,人們先將數(shù)據(jù)加密為密文,,再將密文存儲(chǔ)在云端進(jìn)行處理,云服務(wù)提供者在不掌握數(shù)據(jù)持有者明文數(shù)據(jù)的情況下為數(shù)據(jù)擁有者提供計(jì)算等服務(wù),,這就是全同態(tài)加密的概念,。
全同態(tài)加密最早是1978年Rivest等人提出的概念,即尋找一種密碼技術(shù)可以對(duì)兩個(gè)密文進(jìn)行加和乘的操作,,再對(duì)操作后的密文進(jìn)行解密,,所得的結(jié)果就是原始明文進(jìn)行同樣操作的結(jié)果。其后專家學(xué)者們?yōu)榱藢ふ业綕M足這一特性的技術(shù)而不斷努力,,直到2009年,,Gentry[9]在其博士論文提出了一種基于可以實(shí)現(xiàn)的全同態(tài)加密技術(shù),被稱為密碼學(xué)界的“圣杯”,。
如果存在一個(gè)適合大數(shù)據(jù)的全同態(tài)加密系統(tǒng),,那么數(shù)據(jù)擁有者可以將數(shù)據(jù)加密為密文,再將密文在云端進(jìn)行處理,。云端無(wú)法查看數(shù)據(jù)擁有者的具體數(shù)據(jù),,只可以對(duì)其進(jìn)行處理,從而實(shí)現(xiàn)數(shù)據(jù)擁有者對(duì)自己隱私的有效保護(hù),。
5 大數(shù)據(jù)環(huán)境下密碼技術(shù)展望
針對(duì)大數(shù)據(jù)環(huán)境下的密碼技術(shù),,目前業(yè)內(nèi)專家學(xué)者們已經(jīng)對(duì)可搜索加密、安全多方計(jì)算和全同態(tài)加密技術(shù)進(jìn)行了廣泛及深入研究,,并在電子投票,、智能電網(wǎng)及區(qū)塊鏈等不同領(lǐng)域取得了一定進(jìn)展,,但是仍然存在效率問題。當(dāng)前認(rèn)為解決效率問題的核心是優(yōu)化算法性能,,對(duì)于特定場(chǎng)景的算法優(yōu)化可以使其在相應(yīng)的應(yīng)用領(lǐng)域提高效率,。大數(shù)據(jù)環(huán)境下在滿足大數(shù)據(jù)5V特征的前提下進(jìn)行算法優(yōu)化,對(duì)于整個(gè)大數(shù)據(jù)的應(yīng)用研究至關(guān)重要,。
另外,,除了對(duì)算法本身研究?jī)?yōu)化外,還應(yīng)該結(jié)合先進(jìn)的分布式計(jì)算技術(shù)和密碼芯片技術(shù),。其中,,分布式計(jì)算可以整合共享算力資源,具有很高的計(jì)算負(fù)載均衡,,并提高容錯(cuò)和可靠性,,也可以提高算法的效率;密碼芯片技術(shù)可以減低算法功耗,,提高性能,,并獲得更高的安全性。
國(guó)家標(biāo)準(zhǔn)有助于規(guī)范行業(yè)的發(fā)展,,提高行業(yè)競(jìng)爭(zhēng)力,。因此,大數(shù)據(jù)環(huán)境下應(yīng)完善國(guó)家相關(guān)標(biāo)準(zhǔn),,保證數(shù)據(jù)本身的安全和數(shù)據(jù)擁有者的隱私安全,,推動(dòng)我國(guó)大數(shù)據(jù)行業(yè)健康發(fā)展。
6 結(jié) 語(yǔ)
大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全是目前大數(shù)據(jù)技術(shù)面臨的重要問題,,解決此問題的手段之一就是應(yīng)用密碼技術(shù),。大數(shù)據(jù)技術(shù)在實(shí)際應(yīng)用場(chǎng)景下通常與云計(jì)算技術(shù)結(jié)合使用,即大數(shù)據(jù)在云端進(jìn)行處理,,但是云端對(duì)于數(shù)據(jù)擁有者而言是不可信的,,最好的解決方法是通過密碼技術(shù)將密文數(shù)據(jù)發(fā)給云服務(wù)提供者。本文對(duì)可搜索加密,、安全多方計(jì)算和全同態(tài)加密技術(shù)進(jìn)行介紹與分析,,可以解決大數(shù)據(jù)安全中的用戶隱私問題。但是,,由于上述3種密碼技術(shù)都需要對(duì)密文進(jìn)行操作,,面臨大數(shù)據(jù)環(huán)境下數(shù)據(jù)規(guī)模巨大、操作流程復(fù)雜的情況,,性能會(huì)急劇下降,。因此,下一步的工作重點(diǎn)是優(yōu)化技術(shù),,使其滿足大數(shù)據(jù)的特征,。