當(dāng)下,,在許多廠商、專家的眼中和口中,,隱私計算儼然成為了解決個人信息安全合規(guī)問題的“萬能解藥”,。三位從事隱私工作的“老兵”基于他們自身的工作經(jīng)歷和感悟,撰寫了這篇反思性的文章,,非常值得一讀,。
清楚記得在2018年,前團(tuán)隊成員為驗證多方計算性能的優(yōu)化,,開發(fā)了多方+SGX的技術(shù)POC,。場景是保護(hù)圖片隱私,,在原圖不可見基礎(chǔ)上實現(xiàn)圖片AI分類。很快,,有一天他興沖沖的告訴我,他的技術(shù)原型比僅使用多方計算性能提升了1000+倍,??粗释畹难凵瘢覇柫怂粋€問題:多方+SGX的計算性能與直接明文計算的性能相差多少,?至今,,那個成員落寞的背影依然讓我記憶深刻:聯(lián)邦學(xué)習(xí)、多方計算,、全同態(tài)等,,既能保護(hù)個人信息,又能實現(xiàn)業(yè)務(wù)目標(biāo),,數(shù)據(jù)可用不可見,,多么完美的一個技術(shù)啊,可性能,、通訊量等等成為橫亙在其應(yīng)用路上的大山,,什么時候才能突破呢?
過去的2020年,,如果說隱私增強(qiáng)技術(shù)領(lǐng)域至少在國內(nèi)個人信息保護(hù)技術(shù)領(lǐng)域只有一抹亮色的話,,那么毫無疑問就是隱私計算技術(shù)在國內(nèi)的興起,眾多初創(chuàng)公司的涌現(xiàn)就是明證,。(國外的亮點就多了,,OneTrust強(qiáng)勢依舊、Collibra等公司的強(qiáng)勢崛起,,Synthetic data的異軍突起等等),。據(jù)說半年前的測試結(jié)果表明,多方安全計算性能只比明文計算平均慢了25倍,,而且計算類別也突破了之前簡單的加,、減和比較三類,而開始支持統(tǒng)計分析,、邏輯函數(shù),、分類算法甚至神經(jīng)網(wǎng)絡(luò)算法等等。隨著眾多力量的介入,,一時間“可用不可見”成為隱私界的最流行語言,,而隱私計算似乎代表了隱私/個人信息保護(hù)的方向。
如果僅作為一個技術(shù)研究人員,,對隱私計算的進(jìn)展,,除了高興還是高興,,感謝有那么多的創(chuàng)新者為此的付出!但在今天,,隨著對個人信息保護(hù)的理解,,依然為技術(shù)進(jìn)步歡欣鼓舞的同時,也需要提醒一下,,隱私計算,,并不是個人信息保護(hù)的全部,它只是試圖解決當(dāng)前個人信息保護(hù)最緊迫的問題之一而已,,也只是個人信息保護(hù)發(fā)展的一個分支,。那么,把隱私計算技術(shù)放在《個人信息保護(hù)法》所涉及到的場景下,,它到底都有哪些問題呢,?
一、隱私計算主要解決數(shù)據(jù)共享與流動的問題
盡管差分隱私等技術(shù),,其實也可應(yīng)用到數(shù)據(jù)的匿名化收集,;聯(lián)邦學(xué)習(xí)算法,亦可實現(xiàn)用戶的個人信息不上云等,;更不用說,,有人亦將常見的data masking等也納入隱私計算的范疇,但當(dāng)前隱私計算最有價值的應(yīng)用場景,,顯然在試圖解決“數(shù)據(jù)的孤島”問題,,解決數(shù)據(jù)共享處理、實現(xiàn)數(shù)據(jù)的合規(guī)流動的問題,,尤其是在信貸的風(fēng)控,、醫(yī)院間信息共享等場景。
但是,,無論是GDPR還是中國的個人信息保護(hù)法,,涉及到了個人信息的收集、存儲,、使用,、加工、傳輸,、提供,、公開等個人信息的全生命周期,企業(yè)的個人信息合規(guī)所面臨著的問題,,顯然不僅僅是數(shù)據(jù)共享和流通問題,,譬如近段時間,從網(wǎng)安,、工信等部門通報APP來看,,更多的是聚集在個人信息收集側(cè),。
《個人信息保護(hù)法》將于8月進(jìn)入人大三審,即將快速落地,,法律制度建設(shè)基本成型,,也意味著將進(jìn)入落實階段,即合規(guī)階段,。近期的幾個重大事件表明,,過去的無法可依、或法不責(zé)眾,,或只是不痛不癢,,那樣的互聯(lián)網(wǎng)發(fā)展時期已經(jīng)過去,,強(qiáng)治理,、強(qiáng)監(jiān)管的時代即將到來。在新的階段,,企業(yè)需要“補(bǔ)課”,,具體在個人信息保護(hù)領(lǐng)域,就是要盡快構(gòu)建涉及個人信息的收集,、處理,、使用、存儲,、刪除或歸檔以及共享交換等全生命周期的合規(guī)管理系統(tǒng),,而這個系統(tǒng),將是企業(yè)所有個人信息行為包括共享與交換“自證清白”的基礎(chǔ),。更主要的是個人信息保護(hù)法正在改變個人信息的數(shù)據(jù)生態(tài),,尤其是明確了消費者查/刪/改/復(fù)制等個人信息的權(quán)利,就如向消費者“發(fā)槍”,。面對人手一槍的消費者,,面臨著大量洶涌而來的請求,對現(xiàn)在的任何一個收集,、使用個人信息的企業(yè)而言,,都將是不得不面對的“合規(guī)噩夢”,不論大小,,無一例外,。
二、隱私計算未徹底解決合規(guī)問題
隱私計算實現(xiàn)“數(shù)據(jù)可用不可見”,,數(shù)據(jù)合作方無法得到真實的用戶數(shù)據(jù),,似乎完美的解決了個人信息使用的合規(guī)問題,但真的如此嗎,?
消費者的授權(quán)同意不可缺,。無論是GDPR還是我們自己國內(nèi)的《個人信息保護(hù)法》,,都明確表明,匿名化處理后的信息不屬于個人信息,,自然也就不受個人信息保護(hù)的限制,。從理論上分析,數(shù)據(jù)合作方使用隱私計算技術(shù),,過程中的數(shù)據(jù)似乎都進(jìn)行了匿名化處理(真的嗎,?),并不實際流轉(zhuǎn)數(shù)據(jù),,或許不需要獲得用戶授權(quán)同意,。但實踐中,原始數(shù)據(jù)采集在前,,采用隱私計算在后,,數(shù)據(jù)合作各方仍需獲得用戶授權(quán)同意收集數(shù)據(jù)。譬如當(dāng)在終端上使用聯(lián)邦學(xué)習(xí)對用戶行為建模時,,需要收集用戶的出行數(shù)據(jù),、購物消費數(shù)據(jù)等進(jìn)行分析。盡管這些原始數(shù)據(jù)并未離開終端,,并不意味著可隨意收集,,用戶依然享有知情同意或者拒絕的權(quán)利,而企業(yè)需自證清白其在數(shù)據(jù)實際處理目的保持在合理的范圍內(nèi),。
在數(shù)據(jù)的使用階段,,多方計算與同態(tài)加密等算法以及可信執(zhí)行環(huán)境等,盡管使用了高強(qiáng)度的加密算法,,保證了數(shù)據(jù)不會泄露,,但依然改變不了其“假名化”的本質(zhì)而非匿名化,加密后的數(shù)據(jù)依然可逆(盡管密鑰保護(hù)極好),,使用加密計算后的結(jié)果在某些場景下依然反映出單個個體的某些特征,,顯然屬于個人信息,將直接影響用戶的切身利益,。在這種場景下,,依然要確定數(shù)據(jù)合作雙方是否都獲得了用戶的授權(quán)同意;是否都未超范圍使用用戶的授權(quán),;授權(quán)同意的證明又是什么等,。總之,,即使“絕對的安全”,,也并不等于“個人信息保護(hù)的合規(guī)”。隱私計算既不能豁免數(shù)據(jù)采集階段的授權(quán),,更不能絕對豁免數(shù)據(jù)使用過程中的授權(quán),,要依據(jù)場景和算法等具體判斷,。
隱私計算實現(xiàn)了數(shù)據(jù)合作方之間的“可用不可見”,但從相關(guān)信息主體(消費者)看來,,數(shù)據(jù)必須是自己“可控且可見”,,這是法律賦予的權(quán)利。除了“授權(quán)同意”,,使用隱私計算在某些情況下將面對另一個合規(guī)困難:數(shù)據(jù)主體權(quán)利請求的響應(yīng),。無論是GDPR還是《個人信息保護(hù)法》,整體傾向于加強(qiáng)對個人信息主體權(quán)益的保護(hù),,都明確了消費者(個人信息主體)擁有對個人信息的查詢,、修改、復(fù)制等權(quán)利,。盡管在計算過程中保證了數(shù)據(jù)的安全性,,但只要采集了用戶的個人信息,隱私計算數(shù)據(jù)合作雙方大部分情況下,,依然要正確的響應(yīng)消費者權(quán)利請求(盡管如何披露以及披露哪些信息依然需要規(guī)范指導(dǎo)),,同時也有可能不得不將對方“暴露”給消費者(如上文中提到,,隱私計算的結(jié)果依然是用戶個人信息的情況),,而這種“暴露”,將給對方帶來合規(guī)壓力,。
總之,,多方計算等算法,解決了數(shù)據(jù)合作方之間互不信任而又可釋放數(shù)據(jù)價值的問題,,但并未解決所涉及個人信息主體的權(quán)利保護(hù),;只解決了個人信息保護(hù)中“數(shù)據(jù)最小化”和“確保安全”(機(jī)密性、完整性等)的要求,,卻無法保證消費者的知情同意,,可知可控的等權(quán)利。所以,,隱私計算技術(shù)的使用過程中,,不僅隱私計算合作方都需要合規(guī)管理系統(tǒng)的支撐,其計算過程中的合規(guī)要求,,依然需根據(jù)具體應(yīng)用場景酌情判斷,,隱私計算無法絕對豁免合規(guī)要求。
三,、隱私計算效率和性能提升問題,,是其不得不面對的最大困難
隱私計算中的多方計算、同態(tài)等算法,,試圖用“絕對安全”解決數(shù)據(jù)的共享“合規(guī)”問題,。這種安全,,顯然是通過計算的復(fù)雜度、多方交互通訊量等的提高來獲得的,,必然帶來使用的性能下降,,也使得大部分的應(yīng)用場景均聚焦于少量數(shù)據(jù)的支持,對海量數(shù)據(jù)場景的支持能力還有待提升,,存在著大系統(tǒng),、高算力、小任務(wù)的窘境,。盡管隱私計算現(xiàn)在的性能提升了1000+倍甚至更高,,但是其原理決定了性能優(yōu)化一定是有天花板的,而且這個天花板還可能不低,。(清楚的記得,,當(dāng)幾年前我們落地差分隱私算法的時候,基本要求之一就是ε<3,性能下降不能超過3%),。要突破隱私計算等算法的限制,,要么是算法革命性突破,要么是DPU等專用芯片的出現(xiàn),。期待隱私計算性能下降或下降的影響度會越來越少,,使得其接受度更高,應(yīng)用場景也更廣,。
基于隱私計算的性能,、算力等要求,隱私計算實現(xiàn)數(shù)據(jù)流動的方式,,其實像現(xiàn)實中的“武裝押運”:數(shù)據(jù)的提供方,、計算服務(wù)提供方、數(shù)據(jù)接收方互不信任,,互相提防,。這種模式,高安全,、高成本,、低效率,顯然只適用于運送金錢,、黃金等高價值目標(biāo),。“武裝押運”模式,,顯然并不適合應(yīng)用于常規(guī)商品的運送,,這時候,普適、高效,、低成本的“快遞公司”才是王道,。那么有“快遞公司”模式嗎?什么是“快遞公司”模式呢,?后續(xù)詳談,。
四、總結(jié)
隱私計算試圖使用互不信任的“絕對安全”在代替合規(guī),,在解決數(shù)據(jù)提供方的自身數(shù)據(jù)安全不泄露來解決合規(guī)問題,,本質(zhì)上還是用安全代替?zhèn)€人信息保護(hù),用安全(狹義)的思維來解決個人保護(hù)問題,,那么,,數(shù)據(jù)安全等于個人信息保護(hù)嗎?顯然不是,。
隱私計算中的多方計算,、同態(tài)算法等的應(yīng)用有一個基本的假設(shè):數(shù)據(jù)提供方對數(shù)據(jù)的任意使用享有控制權(quán)。這在個人信息保護(hù)法的背景下,,顯然是存在問題的,,隱私計算合作方并不能簡單通過技術(shù)豁免責(zé)任,依然需要合規(guī)管理系統(tǒng)的支撐,。
考慮到實用性的問題,,隱私計算性能改進(jìn),譬如多方計算安全性假設(shè)是其一個重要的參數(shù):是基于半誠實假設(shè)還是支持惡意的敵手模型等等,。這些參數(shù)的設(shè)置顯然需要基于場景等進(jìn)行具體分析,,天然依賴于個人信息合規(guī)管理系統(tǒng)的支撐,。
事實上,,如果將數(shù)據(jù)的共享交流不是單獨的割裂開來,而是將其納入個人信息全生命周期的合規(guī)管理之下,,深刻理解個人信息保護(hù)的本質(zhì),,將個人信息共享與流動回歸商業(yè)行為的本來,那么就會發(fā)現(xiàn):隱私計算不是數(shù)據(jù)流動和共享的唯一選擇,?;谛湃误w系的構(gòu)建,基于數(shù)據(jù)使用和流動生態(tài)的改變,,基于數(shù)據(jù)的價值分配等等,,不同的應(yīng)用場景,選擇最合適的數(shù)據(jù)共享和流動策略亦會不同,。
重技術(shù),,輕管理的老毛病,不要再重犯了,,在某個領(lǐng)域的教訓(xùn)還不夠深刻嗎,?