安卓應(yīng)用隱私合規(guī)檢測(cè)方法研究-AET-電子技術(shù)應(yīng)用

安卓應(yīng)用隱私合規(guī)檢測(cè)方法研究

網(wǎng)絡(luò)安全與數(shù)據(jù)治理 1期

王申奧，王亞龍，王乾旭，賀紫怡，李暉

(西安電子科技大學(xué) 網(wǎng)絡(luò)與信息安全學(xué)院，陜西西安710071)

摘要： 近年來(lái)，移動(dòng)應(yīng)用超范圍收集用戶隱私信息，強(qiáng)制索取敏感權(quán)限等現(xiàn)象屢見不鮮。業(yè)界現(xiàn)有的隱私合規(guī)檢測(cè)產(chǎn)品因缺乏對(duì)隱私政策的分析從而產(chǎn)生較高的誤報(bào)率和漏報(bào)率。針對(duì)國(guó)內(nèi)現(xiàn)行合規(guī)要求，設(shè)計(jì)并實(shí)現(xiàn)了一套大規(guī)模的半自動(dòng)化合規(guī)檢測(cè)框架。通過對(duì)現(xiàn)有應(yīng)用市場(chǎng)中1 941款應(yīng)用進(jìn)行實(shí)證評(píng)估，檢測(cè)到52款典型違法違規(guī)移動(dòng)應(yīng)用。實(shí)驗(yàn)結(jié)果表明，該方法實(shí)用性強(qiáng)，拓展性高，具有廣泛的應(yīng)用前景。

關(guān)鍵詞： 隱私合規(guī) 權(quán)限濫用自然語(yǔ)言處理動(dòng)靜態(tài)程序分析

中圖分類號(hào)： TP311.5
文獻(xiàn)標(biāo)識(shí)碼： A
DOI： 10.19358/j.issn.2097-1788.2023.01.001
引用格式：王申奧，王亞龍，王乾旭，等. 安卓應(yīng)用隱私合規(guī)檢測(cè)方法研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2023，42(1)：4-14.

Research on detection of Android application privacy compliance

Wang Shenao，Wang Yalong，Wang Qianxu，He Ziyi，Li Hui

(School of Cipher Engineering，Xidian University，Xi′an 710071，China)

Abstract： In recent years, it is common for mobile applications to collect user privacy information in excess of the scope and abuse sensitive permissions. The existing privacy compliance detection products in the industry lack the analysis of privacy policies, resulting in high false positive and false negative. This study designs and implements a large-scale semi-automated compliance detection framework to address the current compliance requirements in China. The system extracts permission phrases through automated analysis of privacy policies and identifies sensitive permission calls through hybrid program analysis, ultimately achieving consistent compliance detection of privacy policies and permission calls. The empirical evaluation of 1 941 applications in the existing application market detects 52 typical illegal and non-compliant mobile applications. The experimental results show that the method is practical and highly scalable, and has a wide application prospect.

Key words : privacy compliance；permission abuse；natural language processing；dynamic and static program analysis

0 引言

近年來(lái)，移動(dòng)應(yīng)用超范圍收集用戶隱私信息，強(qiáng)制索取敏感權(quán)限等現(xiàn)象屢見不鮮。為了保護(hù)用戶的個(gè)人隱私信息，監(jiān)管部門要求企業(yè)或組織在隱私政策以簡(jiǎn)潔易讀的方式告知用戶他們?nèi)绾问占⒋鎯?chǔ)和管理用戶的個(gè)人信息。然而，根據(jù)武漢大學(xué)2021年的相關(guān)調(diào)查顯示，77.8%的用戶在安裝App時(shí)“很少或從未”閱讀過隱私協(xié)議，69.69%的用戶會(huì)忽略App隱私協(xié)議的更新提示。盡管一些服務(wù)提供商已經(jīng)提高了其隱私政策的可理解性和可讀性，但這些政策仍然篇幅太長(zhǎng)，難以閱讀。此外，2021年國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心和中國(guó)網(wǎng)絡(luò)空間安全協(xié)會(huì)共同發(fā)布的《App違法違規(guī)收集使用個(gè)人信息監(jiān)測(cè)分析報(bào)告》中也顯示，超范圍收集用戶隱私信息，違反用戶“知情同意”原則的違法違規(guī)應(yīng)用在各主流應(yīng)用市場(chǎng)仍然廣泛存在。

近來(lái)，隱私合規(guī)分析的相關(guān)工作在國(guó)外頗受關(guān)注，逐漸被應(yīng)用到大規(guī)模網(wǎng)站隱私合規(guī)性分析、移動(dòng)應(yīng)用隱私泄露檢測(cè)等領(lǐng)域。移動(dòng)應(yīng)用的隱私合規(guī)分析主要包括隱私政策文本分析與程序分析兩個(gè)部分。靜態(tài)程序分析執(zhí)行效率高，然而由于缺乏運(yùn)行時(shí)路徑信息，靜態(tài)分析往往會(huì)產(chǎn)生一定程度的誤報(bào)。動(dòng)態(tài)污點(diǎn)分析通常是利用插裝和代碼重寫為污點(diǎn)數(shù)據(jù)創(chuàng)建污點(diǎn)標(biāo)記，優(yōu)點(diǎn)是準(zhǔn)確率更高，但插裝和代碼重寫往往帶來(lái)更大的性能開銷。隱私合規(guī)研究往往是在程序分析的基礎(chǔ)上結(jié)合隱私政策文本進(jìn)行合規(guī)性檢查。隱私政策文本分析作為國(guó)外新興的研究熱點(diǎn)，已經(jīng)陸續(xù)建立起豐富的隱私政策語(yǔ)料庫(kù)。然而在中文領(lǐng)域，隱私政策命名實(shí)體識(shí)別的研究仍然缺乏，中文隱私政策的公開語(yǔ)料庫(kù)也仍處于空白。這些問題制約了國(guó)內(nèi)隱私政策與程序分析相結(jié)合的自動(dòng)化合規(guī)檢測(cè)技術(shù)的發(fā)展。

為了解決上述問題，本文通過人工注釋構(gòu)建危險(xiǎn)權(quán)限術(shù)語(yǔ)詞典，提出利用雙向最大匹配算法實(shí)現(xiàn)基于詞典的隱私政策自動(dòng)標(biāo)注，從而構(gòu)建中文隱私政策權(quán)限詞實(shí)體識(shí)別語(yǔ)料庫(kù)。在此基礎(chǔ)上，本文為隱私政策語(yǔ)料構(gòu)建預(yù)訓(xùn)練字嵌入，通過雙向長(zhǎng)短期記憶神經(jīng)-條件隨機(jī)場(chǎng)(Bi-directional Long Short-Term Memory-Conditional Random Field，BiLSTM-CRF)架構(gòu)實(shí)現(xiàn)最優(yōu)標(biāo)簽序列預(yù)測(cè)，從而完成權(quán)限詞實(shí)體識(shí)別任務(wù)。在應(yīng)用程序動(dòng)靜態(tài)混合分析部分，基于Androguard實(shí)現(xiàn)交叉引用并對(duì)程序?qū)嶋H調(diào)用的危險(xiǎn)權(quán)限進(jìn)行靜態(tài)分析。通過隱私政策聲明權(quán)限集與實(shí)際調(diào)用權(quán)限集的一致性分析，實(shí)現(xiàn)了對(duì)超范圍收集敏感信息行為的檢測(cè)。此外，依托 Frida動(dòng)態(tài)插樁與Hook技術(shù)，對(duì)敏感應(yīng)用編程接口(Application Programming Interface，API)進(jìn)行重載，記錄函數(shù)調(diào)用堆棧、調(diào)用頻次、關(guān)鍵參數(shù)等行為日志信息，針對(duì)同意隱私政策前收集、靜默狀態(tài)下頻繁訪問敏感信息實(shí)現(xiàn)運(yùn)行時(shí)狀態(tài)監(jiān)測(cè)。

本文詳細(xì)內(nèi)容請(qǐng)下載：http://forexkbc.com/resource/share/2000005092.

作者信息：

王申奧，王亞龍，王乾旭，賀紫怡，李暉

(西安電子科技大學(xué) 網(wǎng)絡(luò)與信息安全學(xué)院，陜西西安710071)

歡迎關(guān)注電子技術(shù)應(yīng)用2023年2月22日==>>商業(yè)航天研討會(huì)<<

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容