引用格式:李思慧,,戴明超,蔡伍洲. 基于差分隱私的數(shù)據(jù)脫敏技術(shù)研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,,2025,,44(2):39-43.
引言
當前,,人工智能,、大模型、大數(shù)據(jù)技術(shù)飛速發(fā)展,,數(shù)據(jù)是各項技術(shù)構(gòu)建的關(guān)鍵基礎(chǔ)資源,,全球數(shù)據(jù)產(chǎn)業(yè)正在呈爆發(fā)式增長。據(jù)國際數(shù)據(jù)公司(IDC)預(yù)測,,2018~2025年,,全球數(shù)據(jù)量將從33 ZB猛增至175 ZB,而根據(jù)工業(yè)和信息化部相關(guān)預(yù)測,,2021~2025年,,我國的大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將從1.3萬億元突破至3萬億元,數(shù)據(jù)已然成為推動經(jīng)濟社會發(fā)展最重要的基礎(chǔ)生產(chǎn)要素之一[1],。數(shù)據(jù)資源被充分利用的同時,,數(shù)據(jù)安全問題也日益凸顯,,數(shù)據(jù)被非法獲取事件頻頻發(fā)生,給企業(yè)和個人帶來了巨大損失,。因此,,在挖掘數(shù)據(jù)價值的同時,確保數(shù)據(jù)安全,,已成為亟需解決的關(guān)鍵問題,。
傳統(tǒng)的數(shù)據(jù)安全解決方案大多關(guān)注于數(shù)據(jù)的存儲和傳輸,在對數(shù)據(jù)進行挖掘利用時,,仍然需要具有敏感信息的原始數(shù)據(jù),,數(shù)據(jù)非法竊取者可通過身份攻擊、屬性攻擊,、存在性攻擊和概率知識攻擊等,,推斷出個體敏感信息[2]。數(shù)據(jù)脫敏技術(shù)是通過對數(shù)據(jù)進行一定處理來保護隱私的技術(shù),,其目的是在保留輸入數(shù)據(jù)的統(tǒng)計特征以及可用性的同時,,保護數(shù)據(jù)的隱私和安全[3]。差分隱私技術(shù)是數(shù)據(jù)脫敏技術(shù)的一種,,該技術(shù)提供了一種隱私保護方法,,旨在向原始數(shù)據(jù)注入噪聲或擾動,實現(xiàn)在保護個體數(shù)據(jù)隱私的同時,,完成對數(shù)據(jù)的挖掘利用[4],。
差分隱私技術(shù)在國外研究較早,且技術(shù)日趨成熟,。2006年,,Dwork等人[5]首次提出了差分隱私保護方法,該方法通過向原始數(shù)據(jù)添加服從特定分布的噪聲,,用以保護敏感數(shù)據(jù),,解決了傳統(tǒng)數(shù)據(jù)匿名脫敏技術(shù)無法抵抗背景知識攻擊的問題。2016年,,Abadi等人[6]提出了具有差分隱私的深度學(xué)習(xí)算法,,分析了差分隱私在深度學(xué)習(xí)框架內(nèi)的隱私成本,在保護數(shù)據(jù)隱私的同時,,訓(xùn)練出有效的深度學(xué)習(xí)模型,。2019年,Holohan等人[7]設(shè)計了IBM差分隱私庫,,用于Python編程語言中研究,、實驗和開發(fā)差分隱私應(yīng)用程序。2023年,Holohan[8]又提出了差分隱私隨機數(shù)生成器和種子算法,,實現(xiàn)了在差分算法和結(jié)果中進行測試和錯誤修復(fù),,為差分隱私算法選擇提供了有利幫助。
近年來,,國內(nèi)的差分隱私技術(shù)研究也取得了豐碩成果,。2009年,袁進良[9]設(shè)計了統(tǒng)一的差分隱私聯(lián)邦學(xué)習(xí)平臺,,擴展了傳統(tǒng)的隱私預(yù)算組合定理,,實現(xiàn)了隨時間不斷更新的可用預(yù)算,解決了差分隱私的強隱私和聯(lián)邦系統(tǒng)的高吞吐難兼顧問題,。2023年,,張連福[10]提出了一種基于同態(tài)加密與差分隱私的隱私保護聯(lián)邦學(xué)習(xí)方案,利用多種防護措施實現(xiàn)了隱私防護范圍覆蓋聯(lián)邦學(xué)習(xí)全生命周期,。同年,,張旭[11]提出一種兼顧安全防御和隱私保護的分布式學(xué)習(xí)系統(tǒng),該系統(tǒng)實現(xiàn)隱私保護的同時,,提升了訓(xùn)練模型的準確性,。隨著差分隱私技術(shù)的不斷迭代發(fā)展,其在數(shù)據(jù)隱私保護領(lǐng)域得到越來越多的應(yīng)用,。
本文探討基于差分隱私的數(shù)據(jù)脫敏方法,,對數(shù)據(jù)集進行清洗整理后,,利用Laplace機制對敏感數(shù)據(jù)進行處理,,利用神經(jīng)網(wǎng)絡(luò)模型分別對未脫敏數(shù)據(jù)和脫敏后的數(shù)據(jù)進行訓(xùn)練和預(yù)測,對比原始數(shù)據(jù),、差分隱私脫敏數(shù)據(jù)及其他脫敏技術(shù)數(shù)據(jù)生成模型的預(yù)測效果,,為神經(jīng)網(wǎng)絡(luò)預(yù)測模型的數(shù)據(jù)隱私保護問題提供解決方案。
本文詳細內(nèi)容請下載:
http://forexkbc.com/resource/share/2000006341
作者信息:
李思慧1,,戴明超1,,蔡伍洲2
(1.武警吉林省總隊,吉林長春130000,;
2.武警部隊作戰(zhàn)勤務(wù)局,,北京100000)