大數(shù)據(jù),、物聯(lián)網(wǎng),、深度學(xué)習(xí)等技術(shù)的發(fā)展,人工智能時(shí)代正在到來(lái),商業(yè)級(jí)的AI應(yīng)用如火如荼不斷深入,。而人工智能的基本特征是需要收集和組合不同規(guī)模的數(shù)據(jù)、提取信息和知識(shí)進(jìn)行自主學(xué)習(xí),、不同程度的自動(dòng)化決策,。一方面,需要海量用戶數(shù)據(jù)訓(xùn)練出高質(zhì)量的模型,,另一方面,,如何保證數(shù)據(jù)的安全和用戶的隱私也面臨巨大的挑戰(zhàn)。本文針對(duì)用戶數(shù)據(jù)用于AI模型訓(xùn)練的場(chǎng)景下的數(shù)據(jù)安全和隱私合規(guī)風(fēng)險(xiǎn),,筆者結(jié)合DPO群里專家的意見(jiàn),,整理該文,拋磚引玉,,希望能共同探討新技術(shù),、新應(yīng)用的不同場(chǎng)景下如何開(kāi)展數(shù)據(jù)安全和隱私合規(guī)。
一,、AI模型訓(xùn)練場(chǎng)景的相關(guān)問(wèn)題探討
1,、AI模型訓(xùn)練過(guò)程用戶數(shù)據(jù)的處理方式
數(shù)據(jù)采集:通過(guò)配合式采集,、獲取公開(kāi)數(shù)據(jù)集的方式合法采集數(shù)據(jù)。
數(shù)據(jù)清洗:對(duì)數(shù)據(jù)進(jìn)行技術(shù)處理,,刪除無(wú)用數(shù)據(jù),、進(jìn)行質(zhì)量檢查、統(tǒng)一數(shù)據(jù)格式,、刪除敏感信息數(shù)據(jù)脫敏,、數(shù)據(jù)標(biāo)注等。
數(shù)據(jù)運(yùn)用:將清洗完畢的數(shù)據(jù)用于算法訓(xùn)練,。
數(shù)據(jù)管理:針對(duì)采集的數(shù)據(jù)及清洗后的數(shù)據(jù),,通過(guò)特定格式將數(shù)據(jù)以加密存儲(chǔ)的方式記錄在存儲(chǔ)介質(zhì)上,并根據(jù)法規(guī)要求及內(nèi)部數(shù)據(jù)合規(guī)制度要求進(jìn)行管理,。
2,、關(guān)于AI模型訓(xùn)練數(shù)據(jù)去標(biāo)識(shí)化
AI模型訓(xùn)練數(shù)據(jù)通常使用用戶使用產(chǎn)品/業(yè)務(wù)過(guò)程產(chǎn)生的數(shù)據(jù),原始數(shù)據(jù)一般不需要用戶身份標(biāo)識(shí)原始數(shù)據(jù),,因此在AI模型訓(xùn)練時(shí)不建議將姓名,、身份證、手機(jī)號(hào)等類型數(shù)據(jù)發(fā)送給使用方或者供應(yīng)商,,必須使用時(shí)需要對(duì)此類數(shù)據(jù)做去標(biāo)識(shí)處理,。
3、關(guān)于數(shù)據(jù)用于模型訓(xùn)練的再次授權(quán)
個(gè)人數(shù)據(jù)用于模型訓(xùn)練沒(méi)有豁免個(gè)人信息處理者的義務(wù),,所以仍然基于個(gè)人信息的敏感程度,,獲取用戶的不同類別的授權(quán),并且告知用戶訓(xùn)練的基本邏輯,,訓(xùn)練后個(gè)人數(shù)據(jù)的后續(xù)處理方式(刪除/存留期),。但如涉及個(gè)人數(shù)據(jù)量大,無(wú)法做到對(duì)每個(gè)用戶進(jìn)行再次詢問(wèn)和獲取授權(quán),。此時(shí)考慮用戶原始授權(quán)的兼容性,,及數(shù)據(jù)使用范圍是否擴(kuò)大,綜合考慮是否需要再次獲取授權(quán),。
二,、數(shù)據(jù)合規(guī)評(píng)估要點(diǎn)
1、業(yè)務(wù)必要性評(píng)估
遵循非必要不外發(fā)的原則,,確認(rèn)業(yè)務(wù)價(jià)值和必要性,,數(shù)據(jù)外發(fā)是否為必要方式。業(yè)務(wù)方主管確認(rèn)是否有數(shù)據(jù)外發(fā)的替代方案,,確認(rèn)數(shù)據(jù)外發(fā)的必要性,。
業(yè)務(wù)方需詳細(xì)說(shuō)明數(shù)據(jù)外發(fā)的業(yè)務(wù)邏輯和必要性,包括但不限于:業(yè)務(wù)場(chǎng)景描述、數(shù)據(jù)字段,、渠道或方式,、采取的安全控制措施、是否涉及數(shù)據(jù)交易,、是否涉及用戶數(shù)據(jù)或用戶敏感數(shù)據(jù),、是否跨境、是否有用戶授權(quán),、與數(shù)據(jù)接收方的合作協(xié)議等內(nèi)容,。
在此基礎(chǔ)上,安全人員評(píng)估數(shù)據(jù)外發(fā)的業(yè)務(wù)必要性,。
示例:
——在數(shù)據(jù)外發(fā)供應(yīng)商,,供應(yīng)商用于AI模型訓(xùn)練場(chǎng)景,,用于定位客戶的明確的信息,,例如手機(jī)號(hào)、身份證號(hào)等,,不是訓(xùn)練數(shù)據(jù),,訓(xùn)練數(shù)據(jù)通常為用戶產(chǎn)生的數(shù)據(jù),此時(shí)如需外發(fā)客戶身份證號(hào),、手機(jī)號(hào)等信息時(shí)評(píng)估結(jié)果為業(yè)務(wù)非必要,。
——AI模型盡量在本地部署,避免用戶數(shù)據(jù)外發(fā),。
涉及數(shù)據(jù)出境時(shí),,應(yīng)按照相關(guān)法律、法規(guī)和國(guó)家標(biāo)準(zhǔn)要求處理,,并且外發(fā)審批流程須升級(jí)處理,。
2、數(shù)據(jù)使用的合法性評(píng)估
業(yè)務(wù)必要性評(píng)估結(jié)果通過(guò)后,,需要評(píng)估數(shù)據(jù)用于AI技術(shù)或模型訓(xùn)練是否合法,,即數(shù)據(jù)使用合法性評(píng)估。
數(shù)據(jù)接收方使用數(shù)據(jù)的目的和用途需要在用戶授權(quán)相關(guān)條款說(shuō)明告知,,獲得用戶授權(quán),。
合法性評(píng)估建議由法務(wù)、安全共同評(píng)估,。
3,、如涉及數(shù)據(jù)外發(fā)須評(píng)估數(shù)據(jù)接收方的資質(zhì)
數(shù)據(jù)發(fā)送方須對(duì)開(kāi)展數(shù)據(jù)合作的供應(yīng)商或合作方在合作前進(jìn)行安全評(píng)估,且簽署供應(yīng)商保密協(xié)議,。
應(yīng)在保密協(xié)議或合同中,,明確雙方在數(shù)據(jù)安全方面的責(zé)任及義務(wù)。明確說(shuō)明數(shù)據(jù)使用的限制,包括使用目的,、使用后立即刪除數(shù)據(jù),、處理結(jié)果僅用于某些產(chǎn)品、數(shù)據(jù)安全措施,、以及違法協(xié)議的責(zé)任等,。
示例:數(shù)據(jù)外發(fā)用于模型訓(xùn)練的場(chǎng)景,應(yīng)在保密協(xié)議或合同中明確數(shù)據(jù)的使用僅限于訓(xùn)練,,不能用于其他目的,。明確模型的使用限制,數(shù)據(jù)使用結(jié)束后立即刪除用戶數(shù)據(jù),。
如有可能數(shù)據(jù)發(fā)送方應(yīng)建立供應(yīng)商或合作方誠(chéng)信檔案,,如有違反協(xié)議行為采取相應(yīng)的處罰措施。
4,、數(shù)據(jù)外發(fā)共享的安全要求
在必要性,、合法性、接收方資質(zhì)都評(píng)估通過(guò)的情況下,,數(shù)據(jù)外發(fā)或共享渠道應(yīng)加密傳輸,。
數(shù)據(jù)外發(fā)或共享時(shí),如涉及姓名,、身份證等用戶唯一標(biāo)識(shí)類數(shù)據(jù),,應(yīng)進(jìn)行去標(biāo)識(shí)處理。
數(shù)據(jù)加密,、去標(biāo)識(shí)的加密算法應(yīng)滿足安全要求,。
示例:身份證號(hào)經(jīng)過(guò)MD5哈希處理后外發(fā)給供應(yīng)商,存在客戶身份證號(hào)被破解,,重新定位用戶的可能,。
用戶數(shù)據(jù)發(fā)送前,應(yīng)與接收方明確告知隱私合規(guī)安全要求,,明確數(shù)據(jù)期限和到期后清理刪除,。
如數(shù)據(jù)接收方為企業(yè)供應(yīng)商或合作伙伴,客戶數(shù)據(jù)進(jìn)行訓(xùn)練后的模型,,建議在合同中約束模型使用的范圍,。
以上是筆者總結(jié)的關(guān)于數(shù)據(jù)用于AI模型訓(xùn)練需要進(jìn)行數(shù)據(jù)外發(fā)或共享時(shí)需要進(jìn)行的合規(guī)操作或評(píng)估要點(diǎn),如有遺漏或錯(cuò)誤,,還望探討指正,。(完)