數(shù)據(jù)安全：算法的局限性-AET-電子技術(shù)應(yīng)用

數(shù)據(jù)安全：算法的局限性

日期： 2021-08-08

來(lái)源：計(jì)算機(jī)與網(wǎng)絡(luò)安全

關(guān)鍵詞： 數(shù)據(jù)安全算法局限性

　　大數(shù)據(jù)時(shí)代，數(shù)據(jù)給人類生產(chǎn)、生活等各方面帶來(lái)巨大便利的同時(shí)，也誘發(fā)了很多問(wèn)題。數(shù)據(jù)濫用層面，最典型的表現(xiàn)是價(jià)格操縱問(wèn)題，商家利用算法的不透明性及局限性開(kāi)展“千人千價(jià)”“動(dòng)態(tài)定價(jià)”“大數(shù)據(jù)殺熟”等，以不正當(dāng)方式賺取巨額利潤(rùn)。數(shù)據(jù)安全層面，個(gè)人信息收集亂象叢生，商家利用用戶畫像技術(shù)深度挖掘個(gè)人信息，諸多移動(dòng)互聯(lián)網(wǎng)應(yīng)用利用隱私條款的默認(rèn)勾選、霸王條款獲取用戶信息，甚至未經(jīng)授權(quán)奪取用戶信息。另外，不法分子利用信息系統(tǒng)漏洞和黑客技術(shù)盜取個(gè)人信息，造成個(gè)人信息泄露嚴(yán)重。泄露數(shù)據(jù)被放在黑市中銷售，導(dǎo)致“撞庫(kù)”攻擊頻發(fā)，進(jìn)一步加劇了個(gè)人信息泄露現(xiàn)象，數(shù)據(jù)黑產(chǎn)已發(fā)展成一條成熟的產(chǎn)業(yè)鏈。這些數(shù)據(jù)濫用和數(shù)據(jù)安全問(wèn)題將成為影響數(shù)據(jù)價(jià)值釋放的“絆腳石”。

　　1. 認(rèn)同、偏見(jiàn)與從眾

　　大數(shù)據(jù)時(shí)代，網(wǎng)絡(luò)上的內(nèi)容呈現(xiàn)出爆炸式的增長(zhǎng)趨勢(shì)，如何從紛繁復(fù)雜的網(wǎng)絡(luò)內(nèi)容中挑選出自己需要的信息，成為諸多互聯(lián)網(wǎng)用戶的煩惱。起初，搜索引擎的出現(xiàn)緩解了這種問(wèn)題。但是，搜索引擎往往需要用戶知道自己想要獲取哪方面的內(nèi)容，才能通過(guò)搜索尋找目標(biāo)。例如，電影愛(ài)好者需要知道自己喜歡哪種類型的電影才能進(jìn)一步搜索，但問(wèn)題在于很多時(shí)候我們對(duì)自己的喜好也不甚了解。此時(shí)，數(shù)據(jù)挖掘算法應(yīng)運(yùn)而生。相關(guān)算法通過(guò)用戶的歷史數(shù)據(jù)推送符合用戶偏好的內(nèi)容，并已廣泛應(yīng)用在微博、豆瓣、今日頭條等社交和資訊類應(yīng)用中。數(shù)據(jù)挖掘算法就像是“通人性”的機(jī)器，接收人類已有的數(shù)據(jù)進(jìn)行學(xué)習(xí)，推理和產(chǎn)出內(nèi)容也是按照人類的思考方式開(kāi)展，因此輸出內(nèi)容也帶有人類的價(jià)值觀與偏好。

　　既然數(shù)據(jù)挖掘算法“通人性”，那么算法很可能也存在人性中認(rèn)識(shí)局限的成份。所以，我們很有必要先從社會(huì)心理學(xué)的角度，看看人類社會(huì)中存在的認(rèn)同、偏見(jiàn)和從眾等認(rèn)識(shí)局限現(xiàn)象。

　　認(rèn)同是指?jìng)€(gè)體對(duì)比自己地位或成就高的人的肯定，以消除個(gè)體在現(xiàn)實(shí)生活中因無(wú)法獲得成功或滿足時(shí)產(chǎn)生的挫折和焦慮。認(rèn)同可借由心理上分享他人的成功，為個(gè)人帶來(lái)不易得到的滿足感或增強(qiáng)個(gè)人的自信。例如，“狐假虎威”“東施效顰”都是認(rèn)同的例子。認(rèn)同有時(shí)也可能是認(rèn)同一個(gè)組織。例如，一個(gè)自幼失學(xué)的人加入某學(xué)術(shù)研究團(tuán)體，成為該團(tuán)體的榮譽(yù)會(huì)員，并且不斷向人炫耀他在該團(tuán)體中的重要性。

　　偏見(jiàn)是對(duì)某一個(gè)人或團(tuán)體所持有的一種不公平、不合理的消極否定的態(tài)度，是人們脫離客觀事實(shí)而建立起來(lái)的對(duì)人和事物的消極認(rèn)識(shí)。大多數(shù)情況下，偏見(jiàn)是根據(jù)某些社會(huì)群體的成員身份而對(duì)其成員形成的一種態(tài)度，并且往往是不正確的否定或懷有敵意的態(tài)度。例如，人容易根據(jù)性別、膚色、宗教信仰等對(duì)其他人或團(tuán)體產(chǎn)生偏見(jiàn)和歧視。

　　從眾是指?jìng)€(gè)人的觀念與行為由于群體的引導(dǎo)和壓力，不知不覺(jué)或不由自主地與多數(shù)人保持一致的社會(huì)心理現(xiàn)象。通常情況下，多數(shù)人的意見(jiàn)往往是對(duì)的，服從多數(shù)一般不會(huì)錯(cuò)，但這會(huì)導(dǎo)致個(gè)人缺乏分析，不做獨(dú)立思考，不管是非曲直地一概服從多數(shù)，產(chǎn)生一種消極的盲目從眾心理。法國(guó)社會(huì)心理學(xué)家古斯塔夫·勒龐的著作《烏合之眾：大眾心理研究》就是一本研究大眾心理學(xué)的作品。勒龐在書(shū)中闡述了群體以及群體心理的特征，指出當(dāng)個(gè)人是一個(gè)孤立的個(gè)體時(shí)，他有著自己鮮明的個(gè)性化特征；但當(dāng)這個(gè)人融入了群體后，他的所有個(gè)性都會(huì)被這個(gè)群體淹沒(méi)，他的思想立刻就會(huì)被群體的思想取代。

　　2. 只讓你看到認(rèn)同的內(nèi)容

　　目前，算法有一個(gè)很明顯的特點(diǎn)，也是一個(gè)局限性，就是只讓人們看到認(rèn)同的內(nèi)容。以常用的個(gè)性化推薦算法為例，個(gè)性化推薦算法發(fā)揮作用需要兩方面的基礎(chǔ)，一方面是算法訓(xùn)練數(shù)據(jù)，另一方面是算法模型設(shè)計(jì)。從算法訓(xùn)練數(shù)據(jù)來(lái)看，往往需要采集諸多用戶的個(gè)人偏好數(shù)據(jù)。例如，對(duì)電影、手機(jī)、新聞的喜好。從算法模型設(shè)計(jì)來(lái)看，該算法的原理在于根據(jù)用戶的個(gè)人偏好數(shù)據(jù)尋找興趣類似的用戶，進(jìn)而做出推薦。以推薦電影為例，通過(guò)對(duì)比個(gè)人偏好數(shù)據(jù)，可能會(huì)發(fā)現(xiàn)張三和李四喜歡看同樣的幾部電影，而且都不喜歡看同樣的另外幾部電影。由此可以判斷，兩個(gè)用戶在電影方面的喜好極為類似。于是，將張三喜歡但李四還未看過(guò)的電影推薦給李四，也就實(shí)現(xiàn)了個(gè)性化推薦。這種推薦算法是基于對(duì)用戶的協(xié)同過(guò)濾，如圖1所示。它運(yùn)用了日常生活中“物以類聚，人以群分”的特性，不需要判斷目標(biāo)用戶的喜好，重點(diǎn)在于發(fā)現(xiàn)目標(biāo)用戶認(rèn)同的用戶群體，然后在喜好類似的群體內(nèi)部互相開(kāi)展推薦活動(dòng)。該算法在學(xué)術(shù)界和企業(yè)界得到了廣泛的認(rèn)可，基于此而加以改進(jìn)的各類算法層出不窮。

　　圖1 協(xié)同過(guò)濾算法原理示意圖

　　但是，如果這類個(gè)性化推薦持續(xù)開(kāi)展，算法就可能陷入一個(gè)怪圈——只讓您看到認(rèn)同的內(nèi)容。例如，一款為用戶推送資訊的App，每天會(huì)為用戶推送符合其喜好或被其認(rèn)同的資訊。用戶高度關(guān)注體育新聞，則最終App推送的新聞會(huì)越來(lái)越聚焦于體育資訊，無(wú)形中會(huì)減少用戶對(duì)社會(huì)民生、國(guó)家大事等內(nèi)容的關(guān)注。這也就是為什么人們有時(shí)候打開(kāi)社交和資訊類App發(fā)現(xiàn)推送的基本都是某一類內(nèi)容的原因。

　　從這個(gè)意義上講，盡管個(gè)性化推薦算法設(shè)計(jì)的本意在于幫助用戶發(fā)掘信息，但同時(shí)也會(huì)限制用戶的眼界和思維，使用戶固步自封在自我認(rèn)同的圈子里。這與人類固有的認(rèn)同、偏見(jiàn)和從眾心理狀態(tài)及社會(huì)屬性有關(guān)。由于人類的認(rèn)知有先天的局限性，根據(jù)人類思維創(chuàng)造的算法也不可避免地存在局限性。這個(gè)問(wèn)題正逐步被計(jì)算機(jī)學(xué)者和工程師認(rèn)識(shí)，他們?yōu)樗惴ǖ脑u(píng)判增加了多樣性指標(biāo)、新穎性指標(biāo)和覆蓋率指標(biāo)，即算法的推薦結(jié)果不能僅僅集中于某一類內(nèi)容。不過(guò)，目前學(xué)術(shù)界更看重準(zhǔn)確性指標(biāo)，而企業(yè)界在利益驅(qū)使下缺乏優(yōu)化多樣性指標(biāo)、新穎性指標(biāo)和覆蓋率指標(biāo)的動(dòng)力。各項(xiàng)指標(biāo)的簡(jiǎn)介如表1所示。

　　表2 個(gè)性化推薦算法評(píng)價(jià)指標(biāo)簡(jiǎn)介

　　有人可能會(huì)問(wèn)，即便如此，這又能對(duì)個(gè)人和社會(huì)產(chǎn)生多大的影響呢？這個(gè)影響可不小！因?yàn)閭€(gè)性化推薦算法并不僅僅在資訊類App中運(yùn)用，有些以內(nèi)容創(chuàng)作為主的行業(yè)也正在運(yùn)用這種算法。網(wǎng)飛（Nexflix）公司創(chuàng)立于1997年，最初主要經(jīng)營(yíng)DVD租賃業(yè)務(wù)。1998年3月，公司上線了全球第一家線上DVD租賃商店，擁有925部電影，幾乎是當(dāng)時(shí)所有的DVD電影存量。1999年，公司推出了按月訂閱的模式，迅速在行業(yè)里建立起口碑。隨后，由于DVD機(jī)的價(jià)格日益便宜，成為普通百姓都能消費(fèi)得起的產(chǎn)品，其用戶量也得到巨幅增長(zhǎng)。2005年，公司開(kāi)始提供在線視頻流媒體服務(wù)，后來(lái)又推出了Netflix Prize算法大賽，出資100萬(wàn)美元獎(jiǎng)勵(lì)開(kāi)發(fā)者為他們的優(yōu)化電影推薦算法。2012年底，網(wǎng)飛公司已在全球擁有2940萬(wàn)訂閱用戶。當(dāng)年，網(wǎng)飛公司開(kāi)始嘗試自制內(nèi)容，并于2013年推出《紙牌屋》。超高的內(nèi)容質(zhì)量和一次放出整季內(nèi)容的發(fā)行方式讓它瞬間風(fēng)靡全球。如今，網(wǎng)飛公司的市值已超越迪士尼，在全球互聯(lián)網(wǎng)企業(yè)中排名前十位。

　　回顧網(wǎng)飛公司20多年來(lái)的快速發(fā)展史，個(gè)性化推薦起到了舉足輕重的作用。以《紙牌屋》為例，網(wǎng)飛公司曾經(jīng)專門記錄過(guò)觀眾在觀劇時(shí)的相關(guān)操作，包括在哪個(gè)場(chǎng)景暫停、在什么劇情快進(jìn)及反復(fù)看了哪幾分鐘等，由此判斷劇迷們喜歡的演員、喜聞樂(lè)見(jiàn)的情節(jié)和對(duì)劇情走勢(shì)的期待，并根據(jù)這一系列“情報(bào)”指導(dǎo)《紙牌屋》后續(xù)劇情的拍攝、演員的選取和臺(tái)詞的撰寫。可以說(shuō)，《紙牌屋》獲得的巨大成功正是基于個(gè)性化算法推薦和大數(shù)據(jù)的應(yīng)用。網(wǎng)飛公司的推薦算法到底有多厲害？根據(jù)網(wǎng)飛公司產(chǎn)品創(chuàng)新副總裁卡洛斯·尤瑞貝·戈麥斯（Carlos Uribe-Gomez）和首席產(chǎn)品官尼爾·亨特（Neil Hunt）的一份報(bào)告，算法能夠?yàn)榫W(wǎng)飛公司每年節(jié)省10億美元。不過(guò)，我們也應(yīng)該看到一個(gè)結(jié)果，那就是這種完全投觀眾所好的算法讓人們只看到自己喜好或認(rèn)同的東西，因而會(huì)進(jìn)一步加劇人們認(rèn)知中的局限性。

　　3. 公平性缺失愈發(fā)嚴(yán)重

　　隨著數(shù)據(jù)挖掘算法的廣泛應(yīng)用，還出現(xiàn)了另一個(gè)突出的問(wèn)題，即算法輸出可能具有不公正性，甚至歧視性。2018年，IG奪冠的喜訊讓互聯(lián)網(wǎng)沸騰。IG戰(zhàn)隊(duì)老板隨即在微博抽獎(jiǎng)，隨機(jī)抽取113位用戶，給每人發(fā)放1萬(wàn)元現(xiàn)金作為獎(jiǎng)勵(lì)。可是抽獎(jiǎng)結(jié)果令人驚奇，獲獎(jiǎng)名單包含112名女性獲獎(jiǎng)?wù)吆?名男性獲獎(jiǎng)?wù)撸垣@獎(jiǎng)?wù)邤?shù)量是男性的112倍。然而，官方數(shù)據(jù)顯示，在本次抽獎(jiǎng)中，所有參與用戶的男女比率是1: 1.2，性別比并不存在懸殊差異。于是，不少網(wǎng)友開(kāi)始質(zhì)疑微博的抽獎(jiǎng)算法，甚至有用戶主動(dòng)測(cè)試抽獎(jiǎng)算法，設(shè)置獲獎(jiǎng)人數(shù)大于參與人數(shù)，發(fā)現(xiàn)依然有大量用戶無(wú)法獲獎(jiǎng)。這些無(wú)法獲獎(jiǎng)的用戶很有可能已經(jīng)被抽獎(jiǎng)算法判斷為“機(jī)器人”，在未來(lái)的任何抽獎(jiǎng)活動(dòng)中都可能沒(méi)有中獎(jiǎng)機(jī)會(huì)，因而引起網(wǎng)友們紛紛測(cè)算自己是否為“垃圾用戶”。“微博算法事件”一時(shí)鬧得滿城風(fēng)雨。

　　其實(shí)，這并非人們第一次質(zhì)疑算法背后的公正性。近幾年，眾多科技公司的算法都被檢測(cè)出帶有歧視性：在谷歌搜索中，男性會(huì)比女性有更多的機(jī)會(huì)看到高薪招聘消息；微軟公司的人工智能聊天機(jī)器人Tay出乎意料地被“教”成了一個(gè)集性別歧視、種族歧視等于一身的“不良少女”……這些事件都曾引發(fā)人們的廣泛關(guān)注。即使算法設(shè)計(jì)者的本意是希望為用戶推薦有用信息、對(duì)圖片進(jìn)行機(jī)器識(shí)別、使聊天機(jī)器人能夠源源不斷地學(xué)習(xí)人類對(duì)話的方式，但往往是在算法決策的“黑匣子”面前，人們無(wú)法了解算法的決策過(guò)程，只能了解最終結(jié)果。

　　為什么大數(shù)據(jù)算法會(huì)出現(xiàn)歧視呢？計(jì)算機(jī)領(lǐng)域有個(gè)縮寫詞語(yǔ)——GIGO （Garbage in,Garbage Out），大意是“輸入的如果是垃圾數(shù)據(jù)，那么輸出的也將會(huì)是垃圾數(shù)據(jù)”。在大數(shù)據(jù)領(lǐng)域也有類似的說(shuō)法，《自然》雜志曾用BIBO（Bias In,Bias Out，即“偏見(jiàn)進(jìn)，偏見(jiàn)出”）表示數(shù)據(jù)的質(zhì)量與算法結(jié)果準(zhǔn)確程度的強(qiáng)關(guān)聯(lián)性。在選擇使用什么樣的數(shù)據(jù)時(shí)，人們往往容易存在歧視心態(tài)，這會(huì)直接影響輸出的結(jié)果。例如，在導(dǎo)航系統(tǒng)最快的路線選擇中，系統(tǒng)設(shè)計(jì)者只考慮到關(guān)于道路的信息，而不包含公共交通時(shí)刻表或自行車路線，從而使沒(méi)有車輛的人處于不利狀況。另外，可能在收集數(shù)據(jù)時(shí)就缺乏技術(shù)嚴(yán)密性和全面性，存在誤報(bào)、漏報(bào)等現(xiàn)象，也會(huì)影響結(jié)果的精準(zhǔn)性。因此，基于數(shù)據(jù)和算法推斷出來(lái)的結(jié)果會(huì)使有些人獲得意想不到的優(yōu)勢(shì)，而另一些人則處于不公平的劣勢(shì)——這是一種人們難以接受的不公平。

　　除了造成不公平性，算法歧視還會(huì)不斷剝削消費(fèi)者的個(gè)人財(cái)富。《經(jīng)濟(jì)學(xué)家》雜志顯示，2014年在排名前100的最受歡迎的網(wǎng)站中，超過(guò)1300家企業(yè)在追蹤消費(fèi)者。利用算法技術(shù)，企業(yè)利潤(rùn)獲得大幅增加。但是，羊毛出在羊身上，這些利潤(rùn)實(shí)際均來(lái)自消費(fèi)者。尤其是隨著算法在自動(dòng)駕駛、犯罪風(fēng)險(xiǎn)評(píng)估、疾病預(yù)測(cè)等領(lǐng)域中越來(lái)越廣泛和深入的應(yīng)用，算法歧視甚至?xí)?duì)個(gè)體生命構(gòu)成潛在的威脅。

　　在國(guó)外，算法歧視也備受關(guān)注。2014年，美國(guó)白宮發(fā)布的大數(shù)據(jù)研究報(bào)告就提到算法歧視問(wèn)題，認(rèn)為算法歧視可能是無(wú)意的，也可能是對(duì)弱勢(shì)群體的蓄意剝削。2016年，美國(guó)白宮專門發(fā)布《大數(shù)據(jù)報(bào)告：算法系統(tǒng)、機(jī)會(huì)和公民權(quán)利》，重點(diǎn)考察了在信貸、就業(yè)、教育和刑事司法領(lǐng)域存在的算法歧視問(wèn)題，提醒人們要在立法、技術(shù)和倫理方面予以補(bǔ)救。對(duì)于算法歧視問(wèn)題，企業(yè)界和學(xué)術(shù)界正在嘗試技術(shù)和制度層面的解決方案。技術(shù)層面，例如，微軟程序員亞當(dāng)·卡萊（Adam Kalai）與波士頓大學(xué)的科學(xué)家合作研究一種名為“詞向量”的技術(shù)，目的是分解算法中存在的性別歧視。除了技術(shù)層面，制度和規(guī)則也至關(guān)重要。在人類社會(huì)中，人們可以通過(guò)訴訟、審查等程序來(lái)修正許多不公平的行為和事件。對(duì)于算法而言，類似的規(guī)則同樣必不可少。事后對(duì)算法進(jìn)行審查不是一件容易的事，最好的辦法是提前構(gòu)建相關(guān)制度和規(guī)則，這應(yīng)該成為未來(lái)社會(huì)各界共同努力的方向。

電子技術(shù)圖片.png

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

數(shù)據(jù)安全：算法的局限性

日期： 2021-08-08

來(lái)源：計(jì)算機(jī)與網(wǎng)絡(luò)安全

相關(guān)內(nèi)容