大數(shù)據(jù)時(shí)代,數(shù)據(jù)給人類(lèi)生產(chǎn),、生活等各方面帶來(lái)巨大便利的同時(shí),,也誘發(fā)了很多問(wèn)題。數(shù)據(jù)濫用層面,,最典型的表現(xiàn)是價(jià)格操縱問(wèn)題,,商家利用算法的不透明性及局限性開(kāi)展“千人千價(jià)”“動(dòng)態(tài)定價(jià)”“大數(shù)據(jù)殺熟”等,以不正當(dāng)方式賺取巨額利潤(rùn),。數(shù)據(jù)安全層面,,個(gè)人信息收集亂象叢生,商家利用用戶畫(huà)像技術(shù)深度挖掘個(gè)人信息,,諸多移動(dòng)互聯(lián)網(wǎng)應(yīng)用利用隱私條款的默認(rèn)勾選,、霸王條款獲取用戶信息,甚至未經(jīng)授權(quán)奪取用戶信息,。另外,,不法分子利用信息系統(tǒng)漏洞和黑客技術(shù)盜取個(gè)人信息,造成個(gè)人信息泄露嚴(yán)重,。泄露數(shù)據(jù)被放在黑市中銷(xiāo)售,,導(dǎo)致“撞庫(kù)”攻擊頻發(fā),進(jìn)一步加劇了個(gè)人信息泄露現(xiàn)象,,數(shù)據(jù)黑產(chǎn)已發(fā)展成一條成熟的產(chǎn)業(yè)鏈,。這些數(shù)據(jù)濫用和數(shù)據(jù)安全問(wèn)題將成為影響數(shù)據(jù)價(jià)值釋放的“絆腳石”。
1. 認(rèn)同,、偏見(jiàn)與從眾
大數(shù)據(jù)時(shí)代,,網(wǎng)絡(luò)上的內(nèi)容呈現(xiàn)出爆炸式的增長(zhǎng)趨勢(shì),如何從紛繁復(fù)雜的網(wǎng)絡(luò)內(nèi)容中挑選出自己需要的信息,,成為諸多互聯(lián)網(wǎng)用戶的煩惱,。起初,,搜索引擎的出現(xiàn)緩解了這種問(wèn)題。但是,,搜索引擎往往需要用戶知道自己想要獲取哪方面的內(nèi)容,,才能通過(guò)搜索尋找目標(biāo)。例如,,電影愛(ài)好者需要知道自己喜歡哪種類(lèi)型的電影才能進(jìn)一步搜索,,但問(wèn)題在于很多時(shí)候我們對(duì)自己的喜好也不甚了解。此時(shí),,數(shù)據(jù)挖掘算法應(yīng)運(yùn)而生,。相關(guān)算法通過(guò)用戶的歷史數(shù)據(jù)推送符合用戶偏好的內(nèi)容,并已廣泛應(yīng)用在微博,、豆瓣,、今日頭條等社交和資訊類(lèi)應(yīng)用中。數(shù)據(jù)挖掘算法就像是“通人性”的機(jī)器,,接收人類(lèi)已有的數(shù)據(jù)進(jìn)行學(xué)習(xí),,推理和產(chǎn)出內(nèi)容也是按照人類(lèi)的思考方式開(kāi)展,因此輸出內(nèi)容也帶有人類(lèi)的價(jià)值觀與偏好,。
既然數(shù)據(jù)挖掘算法“通人性”,,那么算法很可能也存在人性中認(rèn)識(shí)局限的成份。所以,,我們很有必要先從社會(huì)心理學(xué)的角度,,看看人類(lèi)社會(huì)中存在的認(rèn)同、偏見(jiàn)和從眾等認(rèn)識(shí)局限現(xiàn)象,。
認(rèn)同是指?jìng)€(gè)體對(duì)比自己地位或成就高的人的肯定,,以消除個(gè)體在現(xiàn)實(shí)生活中因無(wú)法獲得成功或滿足時(shí)產(chǎn)生的挫折和焦慮。認(rèn)同可借由心理上分享他人的成功,,為個(gè)人帶來(lái)不易得到的滿足感或增強(qiáng)個(gè)人的自信,。例如,“狐假虎威”“東施效顰”都是認(rèn)同的例子,。認(rèn)同有時(shí)也可能是認(rèn)同一個(gè)組織,。例如,一個(gè)自幼失學(xué)的人加入某學(xué)術(shù)研究團(tuán)體,,成為該團(tuán)體的榮譽(yù)會(huì)員,并且不斷向人炫耀他在該團(tuán)體中的重要性,。
偏見(jiàn)是對(duì)某一個(gè)人或團(tuán)體所持有的一種不公平,、不合理的消極否定的態(tài)度,是人們脫離客觀事實(shí)而建立起來(lái)的對(duì)人和事物的消極認(rèn)識(shí),。大多數(shù)情況下,,偏見(jiàn)是根據(jù)某些社會(huì)群體的成員身份而對(duì)其成員形成的一種態(tài)度,并且往往是不正確的否定或懷有敵意的態(tài)度。例如,,人容易根據(jù)性別,、膚色、宗教信仰等對(duì)其他人或團(tuán)體產(chǎn)生偏見(jiàn)和歧視,。
從眾是指?jìng)€(gè)人的觀念與行為由于群體的引導(dǎo)和壓力,,不知不覺(jué)或不由自主地與多數(shù)人保持一致的社會(huì)心理現(xiàn)象。通常情況下,,多數(shù)人的意見(jiàn)往往是對(duì)的,,服從多數(shù)一般不會(huì)錯(cuò),但這會(huì)導(dǎo)致個(gè)人缺乏分析,,不做獨(dú)立思考,,不管是非曲直地一概服從多數(shù),產(chǎn)生一種消極的盲目從眾心理,。法國(guó)社會(huì)心理學(xué)家古斯塔夫·勒龐的著作《烏合之眾:大眾心理研究》就是一本研究大眾心理學(xué)的作品,。勒龐在書(shū)中闡述了群體以及群體心理的特征,指出當(dāng)個(gè)人是一個(gè)孤立的個(gè)體時(shí),,他有著自己鮮明的個(gè)性化特征,;但當(dāng)這個(gè)人融入了群體后,他的所有個(gè)性都會(huì)被這個(gè)群體淹沒(méi),,他的思想立刻就會(huì)被群體的思想取代,。
2. 只讓你看到認(rèn)同的內(nèi)容
目前,算法有一個(gè)很明顯的特點(diǎn),,也是一個(gè)局限性,,就是只讓人們看到認(rèn)同的內(nèi)容。以常用的個(gè)性化推薦算法為例,,個(gè)性化推薦算法發(fā)揮作用需要兩方面的基礎(chǔ),,一方面是算法訓(xùn)練數(shù)據(jù),另一方面是算法模型設(shè)計(jì),。從算法訓(xùn)練數(shù)據(jù)來(lái)看,,往往需要采集諸多用戶的個(gè)人偏好數(shù)據(jù)。例如,,對(duì)電影,、手機(jī)、新聞的喜好,。從算法模型設(shè)計(jì)來(lái)看,,該算法的原理在于根據(jù)用戶的個(gè)人偏好數(shù)據(jù)尋找興趣類(lèi)似的用戶,進(jìn)而做出推薦,。以推薦電影為例,,通過(guò)對(duì)比個(gè)人偏好數(shù)據(jù),,可能會(huì)發(fā)現(xiàn)張三和李四喜歡看同樣的幾部電影,而且都不喜歡看同樣的另外幾部電影,。由此可以判斷,,兩個(gè)用戶在電影方面的喜好極為類(lèi)似。于是,,將張三喜歡但李四還未看過(guò)的電影推薦給李四,,也就實(shí)現(xiàn)了個(gè)性化推薦。這種推薦算法是基于對(duì)用戶的協(xié)同過(guò)濾,,如圖1所示,。它運(yùn)用了日常生活中“物以類(lèi)聚,人以群分”的特性,,不需要判斷目標(biāo)用戶的喜好,,重點(diǎn)在于發(fā)現(xiàn)目標(biāo)用戶認(rèn)同的用戶群體,然后在喜好類(lèi)似的群體內(nèi)部互相開(kāi)展推薦活動(dòng),。該算法在學(xué)術(shù)界和企業(yè)界得到了廣泛的認(rèn)可,,基于此而加以改進(jìn)的各類(lèi)算法層出不窮。
圖1 協(xié)同過(guò)濾算法原理示意圖
但是,,如果這類(lèi)個(gè)性化推薦持續(xù)開(kāi)展,,算法就可能陷入一個(gè)怪圈——只讓您看到認(rèn)同的內(nèi)容。例如,,一款為用戶推送資訊的App,,每天會(huì)為用戶推送符合其喜好或被其認(rèn)同的資訊。用戶高度關(guān)注體育新聞,,則最終App推送的新聞會(huì)越來(lái)越聚焦于體育資訊,,無(wú)形中會(huì)減少用戶對(duì)社會(huì)民生、國(guó)家大事等內(nèi)容的關(guān)注,。這也就是為什么人們有時(shí)候打開(kāi)社交和資訊類(lèi)App發(fā)現(xiàn)推送的基本都是某一類(lèi)內(nèi)容的原因,。
從這個(gè)意義上講,盡管個(gè)性化推薦算法設(shè)計(jì)的本意在于幫助用戶發(fā)掘信息,,但同時(shí)也會(huì)限制用戶的眼界和思維,,使用戶固步自封在自我認(rèn)同的圈子里。這與人類(lèi)固有的認(rèn)同,、偏見(jiàn)和從眾心理狀態(tài)及社會(huì)屬性有關(guān),。由于人類(lèi)的認(rèn)知有先天的局限性,根據(jù)人類(lèi)思維創(chuàng)造的算法也不可避免地存在局限性,。這個(gè)問(wèn)題正逐步被計(jì)算機(jī)學(xué)者和工程師認(rèn)識(shí),,他們?yōu)樗惴ǖ脑u(píng)判增加了多樣性指標(biāo)、新穎性指標(biāo)和覆蓋率指標(biāo),,即算法的推薦結(jié)果不能僅僅集中于某一類(lèi)內(nèi)容,。不過(guò),目前學(xué)術(shù)界更看重準(zhǔn)確性指標(biāo),,而企業(yè)界在利益驅(qū)使下缺乏優(yōu)化多樣性指標(biāo),、新穎性指標(biāo)和覆蓋率指標(biāo)的動(dòng)力。各項(xiàng)指標(biāo)的簡(jiǎn)介如表1所示,。
表2 個(gè)性化推薦算法評(píng)價(jià)指標(biāo)簡(jiǎn)介
有人可能會(huì)問(wèn),,即便如此,這又能對(duì)個(gè)人和社會(huì)產(chǎn)生多大的影響呢,?這個(gè)影響可不?。∫?yàn)閭€(gè)性化推薦算法并不僅僅在資訊類(lèi)App中運(yùn)用,,有些以?xún)?nèi)容創(chuàng)作為主的行業(yè)也正在運(yùn)用這種算法,。網(wǎng)飛(Nexflix)公司創(chuàng)立于1997年,最初主要經(jīng)營(yíng)DVD租賃業(yè)務(wù),。1998年3月,,公司上線了全球第一家線上DVD租賃商店,擁有925部電影,,幾乎是當(dāng)時(shí)所有的DVD電影存量,。1999年,公司推出了按月訂閱的模式,,迅速在行業(yè)里建立起口碑,。隨后,由于DVD機(jī)的價(jià)格日益便宜,,成為普通百姓都能消費(fèi)得起的產(chǎn)品,,其用戶量也得到巨幅增長(zhǎng)。2005年,,公司開(kāi)始提供在線視頻流媒體服務(wù),,后來(lái)又推出了Netflix Prize算法大賽,出資100萬(wàn)美元獎(jiǎng)勵(lì)開(kāi)發(fā)者為他們的優(yōu)化電影推薦算法,。2012年底,,網(wǎng)飛公司已在全球擁有2940萬(wàn)訂閱用戶。當(dāng)年,,網(wǎng)飛公司開(kāi)始嘗試自制內(nèi)容,,并于2013年推出《紙牌屋》。超高的內(nèi)容質(zhì)量和一次放出整季內(nèi)容的發(fā)行方式讓它瞬間風(fēng)靡全球,。如今,,網(wǎng)飛公司的市值已超越迪士尼,在全球互聯(lián)網(wǎng)企業(yè)中排名前十位,。
回顧網(wǎng)飛公司20多年來(lái)的快速發(fā)展史,,個(gè)性化推薦起到了舉足輕重的作用,。以《紙牌屋》為例,網(wǎng)飛公司曾經(jīng)專(zhuān)門(mén)記錄過(guò)觀眾在觀劇時(shí)的相關(guān)操作,,包括在哪個(gè)場(chǎng)景暫停,、在什么劇情快進(jìn)及反復(fù)看了哪幾分鐘等,由此判斷劇迷們喜歡的演員,、喜聞樂(lè)見(jiàn)的情節(jié)和對(duì)劇情走勢(shì)的期待,,并根據(jù)這一系列“情報(bào)”指導(dǎo)《紙牌屋》后續(xù)劇情的拍攝、演員的選取和臺(tái)詞的撰寫(xiě),??梢哉f(shuō),《紙牌屋》獲得的巨大成功正是基于個(gè)性化算法推薦和大數(shù)據(jù)的應(yīng)用,。網(wǎng)飛公司的推薦算法到底有多厲害,?根據(jù)網(wǎng)飛公司產(chǎn)品創(chuàng)新副總裁卡洛斯·尤瑞貝·戈麥斯(Carlos Uribe-Gomez)和首席產(chǎn)品官尼爾·亨特(Neil Hunt)的一份報(bào)告,算法能夠?yàn)榫W(wǎng)飛公司每年節(jié)省10億美元,。不過(guò),,我們也應(yīng)該看到一個(gè)結(jié)果,那就是這種完全投觀眾所好的算法讓人們只看到自己喜好或認(rèn)同的東西,,因而會(huì)進(jìn)一步加劇人們認(rèn)知中的局限性,。
3. 公平性缺失愈發(fā)嚴(yán)重
隨著數(shù)據(jù)挖掘算法的廣泛應(yīng)用,還出現(xiàn)了另一個(gè)突出的問(wèn)題,,即算法輸出可能具有不公正性,,甚至歧視性。2018年,,IG奪冠的喜訊讓互聯(lián)網(wǎng)沸騰,。IG戰(zhàn)隊(duì)老板隨即在微博抽獎(jiǎng),隨機(jī)抽取113位用戶,,給每人發(fā)放1萬(wàn)元現(xiàn)金作為獎(jiǎng)勵(lì),。可是抽獎(jiǎng)結(jié)果令人驚奇,,獲獎(jiǎng)名單包含112名女性獲獎(jiǎng)?wù)吆?名男性獲獎(jiǎng)?wù)?,女性獲獎(jiǎng)?wù)邤?shù)量是男性的112倍。然而,,官方數(shù)據(jù)顯示,,在本次抽獎(jiǎng)中,所有參與用戶的男女比率是1: 1.2,,性別比并不存在懸殊差異,。于是,不少網(wǎng)友開(kāi)始質(zhì)疑微博的抽獎(jiǎng)算法,甚至有用戶主動(dòng)測(cè)試抽獎(jiǎng)算法,,設(shè)置獲獎(jiǎng)人數(shù)大于參與人數(shù),,發(fā)現(xiàn)依然有大量用戶無(wú)法獲獎(jiǎng)。這些無(wú)法獲獎(jiǎng)的用戶很有可能已經(jīng)被抽獎(jiǎng)算法判斷為“機(jī)器人”,,在未來(lái)的任何抽獎(jiǎng)活動(dòng)中都可能沒(méi)有中獎(jiǎng)機(jī)會(huì),,因而引起網(wǎng)友們紛紛測(cè)算自己是否為“垃圾用戶”?!拔⒉┧惴ㄊ录币粫r(shí)鬧得滿城風(fēng)雨。
其實(shí),,這并非人們第一次質(zhì)疑算法背后的公正性,。近幾年,眾多科技公司的算法都被檢測(cè)出帶有歧視性:在谷歌搜索中,,男性會(huì)比女性有更多的機(jī)會(huì)看到高薪招聘消息,;微軟公司的人工智能聊天機(jī)器人Tay出乎意料地被“教”成了一個(gè)集性別歧視、種族歧視等于一身的“不良少女”……這些事件都曾引發(fā)人們的廣泛關(guān)注,。即使算法設(shè)計(jì)者的本意是希望為用戶推薦有用信息,、對(duì)圖片進(jìn)行機(jī)器識(shí)別、使聊天機(jī)器人能夠源源不斷地學(xué)習(xí)人類(lèi)對(duì)話的方式,,但往往是在算法決策的“黑匣子”面前,,人們無(wú)法了解算法的決策過(guò)程,只能了解最終結(jié)果,。
為什么大數(shù)據(jù)算法會(huì)出現(xiàn)歧視呢,?計(jì)算機(jī)領(lǐng)域有個(gè)縮寫(xiě)詞語(yǔ)——GIGO (Garbage in,Garbage Out),大意是“輸入的如果是垃圾數(shù)據(jù),,那么輸出的也將會(huì)是垃圾數(shù)據(jù)”,。在大數(shù)據(jù)領(lǐng)域也有類(lèi)似的說(shuō)法,《自然》雜志曾用BIBO(Bias In,Bias Out,,即“偏見(jiàn)進(jìn),,偏見(jiàn)出”)表示數(shù)據(jù)的質(zhì)量與算法結(jié)果準(zhǔn)確程度的強(qiáng)關(guān)聯(lián)性。在選擇使用什么樣的數(shù)據(jù)時(shí),,人們往往容易存在歧視心態(tài),,這會(huì)直接影響輸出的結(jié)果。例如,,在導(dǎo)航系統(tǒng)最快的路線選擇中,,系統(tǒng)設(shè)計(jì)者只考慮到關(guān)于道路的信息,而不包含公共交通時(shí)刻表或自行車(chē)路線,,從而使沒(méi)有車(chē)輛的人處于不利狀況,。另外,可能在收集數(shù)據(jù)時(shí)就缺乏技術(shù)嚴(yán)密性和全面性,,存在誤報(bào),、漏報(bào)等現(xiàn)象,,也會(huì)影響結(jié)果的精準(zhǔn)性。因此,,基于數(shù)據(jù)和算法推斷出來(lái)的結(jié)果會(huì)使有些人獲得意想不到的優(yōu)勢(shì),,而另一些人則處于不公平的劣勢(shì)——這是一種人們難以接受的不公平。
除了造成不公平性,,算法歧視還會(huì)不斷剝削消費(fèi)者的個(gè)人財(cái)富,。《經(jīng)濟(jì)學(xué)家》雜志顯示,,2014年在排名前100的最受歡迎的網(wǎng)站中,,超過(guò)1300家企業(yè)在追蹤消費(fèi)者。利用算法技術(shù),,企業(yè)利潤(rùn)獲得大幅增加,。但是,羊毛出在羊身上,,這些利潤(rùn)實(shí)際均來(lái)自消費(fèi)者,。尤其是隨著算法在自動(dòng)駕駛、犯罪風(fēng)險(xiǎn)評(píng)估,、疾病預(yù)測(cè)等領(lǐng)域中越來(lái)越廣泛和深入的應(yīng)用,,算法歧視甚至?xí)?duì)個(gè)體生命構(gòu)成潛在的威脅。
在國(guó)外,,算法歧視也備受關(guān)注,。2014年,美國(guó)白宮發(fā)布的大數(shù)據(jù)研究報(bào)告就提到算法歧視問(wèn)題,,認(rèn)為算法歧視可能是無(wú)意的,,也可能是對(duì)弱勢(shì)群體的蓄意剝削。2016年,,美國(guó)白宮專(zhuān)門(mén)發(fā)布《大數(shù)據(jù)報(bào)告:算法系統(tǒng),、機(jī)會(huì)和公民權(quán)利》,重點(diǎn)考察了在信貸,、就業(yè),、教育和刑事司法領(lǐng)域存在的算法歧視問(wèn)題,提醒人們要在立法,、技術(shù)和倫理方面予以補(bǔ)救,。對(duì)于算法歧視問(wèn)題,企業(yè)界和學(xué)術(shù)界正在嘗試技術(shù)和制度層面的解決方案,。技術(shù)層面,,例如,微軟程序員亞當(dāng)·卡萊(Adam Kalai)與波士頓大學(xué)的科學(xué)家合作研究一種名為“詞向量”的技術(shù),目的是分解算法中存在的性別歧視,。除了技術(shù)層面,,制度和規(guī)則也至關(guān)重要。在人類(lèi)社會(huì)中,,人們可以通過(guò)訴訟,、審查等程序來(lái)修正許多不公平的行為和事件。對(duì)于算法而言,,類(lèi)似的規(guī)則同樣必不可少,。事后對(duì)算法進(jìn)行審查不是一件容易的事,最好的辦法是提前構(gòu)建相關(guān)制度和規(guī)則,,這應(yīng)該成為未來(lái)社會(huì)各界共同努力的方向,。