大數(shù)據(jù)時代,,數(shù)據(jù)給人類生產,、生活等各方面帶來巨大便利的同時,,也誘發(fā)了很多問題,。數(shù)據(jù)濫用層面,最典型的表現(xiàn)是價格操縱問題,,商家利用算法的不透明性及局限性開展“千人千價”“動態(tài)定價”“大數(shù)據(jù)殺熟”等,,以不正當方式賺取巨額利潤。數(shù)據(jù)安全層面,,個人信息收集亂象叢生,,商家利用用戶畫像技術深度挖掘個人信息,諸多移動互聯(lián)網應用利用隱私條款的默認勾選,、霸王條款獲取用戶信息,,甚至未經授權奪取用戶信息。另外,,不法分子利用信息系統(tǒng)漏洞和黑客技術盜取個人信息,,造成個人信息泄露嚴重。泄露數(shù)據(jù)被放在黑市中銷售,,導致“撞庫”攻擊頻發(fā),,進一步加劇了個人信息泄露現(xiàn)象,,數(shù)據(jù)黑產已發(fā)展成一條成熟的產業(yè)鏈。這些數(shù)據(jù)濫用和數(shù)據(jù)安全問題將成為影響數(shù)據(jù)價值釋放的“絆腳石”,。
1. 認同,、偏見與從眾
大數(shù)據(jù)時代,網絡上的內容呈現(xiàn)出爆炸式的增長趨勢,,如何從紛繁復雜的網絡內容中挑選出自己需要的信息,,成為諸多互聯(lián)網用戶的煩惱。起初,,搜索引擎的出現(xiàn)緩解了這種問題,。但是,搜索引擎往往需要用戶知道自己想要獲取哪方面的內容,,才能通過搜索尋找目標,。例如,電影愛好者需要知道自己喜歡哪種類型的電影才能進一步搜索,,但問題在于很多時候我們對自己的喜好也不甚了解。此時,,數(shù)據(jù)挖掘算法應運而生,。相關算法通過用戶的歷史數(shù)據(jù)推送符合用戶偏好的內容,并已廣泛應用在微博,、豆瓣,、今日頭條等社交和資訊類應用中。數(shù)據(jù)挖掘算法就像是“通人性”的機器,,接收人類已有的數(shù)據(jù)進行學習,,推理和產出內容也是按照人類的思考方式開展,因此輸出內容也帶有人類的價值觀與偏好,。
既然數(shù)據(jù)挖掘算法“通人性”,,那么算法很可能也存在人性中認識局限的成份。所以,,我們很有必要先從社會心理學的角度,,看看人類社會中存在的認同、偏見和從眾等認識局限現(xiàn)象,。
認同是指個體對比自己地位或成就高的人的肯定,,以消除個體在現(xiàn)實生活中因無法獲得成功或滿足時產生的挫折和焦慮。認同可借由心理上分享他人的成功,,為個人帶來不易得到的滿足感或增強個人的自信,。例如,“狐假虎威”“東施效顰”都是認同的例子,。認同有時也可能是認同一個組織,。例如,,一個自幼失學的人加入某學術研究團體,成為該團體的榮譽會員,,并且不斷向人炫耀他在該團體中的重要性,。
偏見是對某一個人或團體所持有的一種不公平、不合理的消極否定的態(tài)度,,是人們脫離客觀事實而建立起來的對人和事物的消極認識,。大多數(shù)情況下,偏見是根據(jù)某些社會群體的成員身份而對其成員形成的一種態(tài)度,,并且往往是不正確的否定或懷有敵意的態(tài)度,。例如,人容易根據(jù)性別,、膚色,、宗教信仰等對其他人或團體產生偏見和歧視。
從眾是指個人的觀念與行為由于群體的引導和壓力,,不知不覺或不由自主地與多數(shù)人保持一致的社會心理現(xiàn)象,。通常情況下,多數(shù)人的意見往往是對的,,服從多數(shù)一般不會錯,,但這會導致個人缺乏分析,不做獨立思考,,不管是非曲直地一概服從多數(shù),,產生一種消極的盲目從眾心理。法國社會心理學家古斯塔夫·勒龐的著作《烏合之眾:大眾心理研究》就是一本研究大眾心理學的作品,。勒龐在書中闡述了群體以及群體心理的特征,,指出當個人是一個孤立的個體時,他有著自己鮮明的個性化特征,;但當這個人融入了群體后,,他的所有個性都會被這個群體淹沒,他的思想立刻就會被群體的思想取代,。
2. 只讓你看到認同的內容
目前,,算法有一個很明顯的特點,也是一個局限性,,就是只讓人們看到認同的內容,。以常用的個性化推薦算法為例,個性化推薦算法發(fā)揮作用需要兩方面的基礎,,一方面是算法訓練數(shù)據(jù),,另一方面是算法模型設計。從算法訓練數(shù)據(jù)來看,,往往需要采集諸多用戶的個人偏好數(shù)據(jù),。例如,,對電影、手機,、新聞的喜好,。從算法模型設計來看,該算法的原理在于根據(jù)用戶的個人偏好數(shù)據(jù)尋找興趣類似的用戶,,進而做出推薦,。以推薦電影為例,通過對比個人偏好數(shù)據(jù),,可能會發(fā)現(xiàn)張三和李四喜歡看同樣的幾部電影,,而且都不喜歡看同樣的另外幾部電影。由此可以判斷,,兩個用戶在電影方面的喜好極為類似,。于是,將張三喜歡但李四還未看過的電影推薦給李四,,也就實現(xiàn)了個性化推薦,。這種推薦算法是基于對用戶的協(xié)同過濾,如圖1所示,。它運用了日常生活中“物以類聚,,人以群分”的特性,不需要判斷目標用戶的喜好,,重點在于發(fā)現(xiàn)目標用戶認同的用戶群體,然后在喜好類似的群體內部互相開展推薦活動,。該算法在學術界和企業(yè)界得到了廣泛的認可,,基于此而加以改進的各類算法層出不窮。
圖1 協(xié)同過濾算法原理示意圖
但是,,如果這類個性化推薦持續(xù)開展,,算法就可能陷入一個怪圈——只讓您看到認同的內容。例如,,一款為用戶推送資訊的App,,每天會為用戶推送符合其喜好或被其認同的資訊。用戶高度關注體育新聞,,則最終App推送的新聞會越來越聚焦于體育資訊,,無形中會減少用戶對社會民生、國家大事等內容的關注,。這也就是為什么人們有時候打開社交和資訊類App發(fā)現(xiàn)推送的基本都是某一類內容的原因,。
從這個意義上講,盡管個性化推薦算法設計的本意在于幫助用戶發(fā)掘信息,,但同時也會限制用戶的眼界和思維,,使用戶固步自封在自我認同的圈子里,。這與人類固有的認同、偏見和從眾心理狀態(tài)及社會屬性有關,。由于人類的認知有先天的局限性,,根據(jù)人類思維創(chuàng)造的算法也不可避免地存在局限性。這個問題正逐步被計算機學者和工程師認識,,他們?yōu)樗惴ǖ脑u判增加了多樣性指標,、新穎性指標和覆蓋率指標,即算法的推薦結果不能僅僅集中于某一類內容,。不過,,目前學術界更看重準確性指標,而企業(yè)界在利益驅使下缺乏優(yōu)化多樣性指標,、新穎性指標和覆蓋率指標的動力,。各項指標的簡介如表1所示。
表2 個性化推薦算法評價指標簡介
有人可能會問,,即便如此,,這又能對個人和社會產生多大的影響呢?這個影響可不??!因為個性化推薦算法并不僅僅在資訊類App中運用,有些以內容創(chuàng)作為主的行業(yè)也正在運用這種算法,。網飛(Nexflix)公司創(chuàng)立于1997年,,最初主要經營DVD租賃業(yè)務。1998年3月,,公司上線了全球第一家線上DVD租賃商店,,擁有925部電影,幾乎是當時所有的DVD電影存量,。1999年,,公司推出了按月訂閱的模式,迅速在行業(yè)里建立起口碑,。隨后,,由于DVD機的價格日益便宜,成為普通百姓都能消費得起的產品,,其用戶量也得到巨幅增長,。2005年,公司開始提供在線視頻流媒體服務,,后來又推出了Netflix Prize算法大賽,,出資100萬美元獎勵開發(fā)者為他們的優(yōu)化電影推薦算法。2012年底,網飛公司已在全球擁有2940萬訂閱用戶,。當年,,網飛公司開始嘗試自制內容,并于2013年推出《紙牌屋》,。超高的內容質量和一次放出整季內容的發(fā)行方式讓它瞬間風靡全球,。如今,網飛公司的市值已超越迪士尼,,在全球互聯(lián)網企業(yè)中排名前十位,。
回顧網飛公司20多年來的快速發(fā)展史,個性化推薦起到了舉足輕重的作用,。以《紙牌屋》為例,,網飛公司曾經專門記錄過觀眾在觀劇時的相關操作,包括在哪個場景暫停,、在什么劇情快進及反復看了哪幾分鐘等,,由此判斷劇迷們喜歡的演員、喜聞樂見的情節(jié)和對劇情走勢的期待,,并根據(jù)這一系列“情報”指導《紙牌屋》后續(xù)劇情的拍攝,、演員的選取和臺詞的撰寫??梢哉f,,《紙牌屋》獲得的巨大成功正是基于個性化算法推薦和大數(shù)據(jù)的應用。網飛公司的推薦算法到底有多厲害,?根據(jù)網飛公司產品創(chuàng)新副總裁卡洛斯·尤瑞貝·戈麥斯(Carlos Uribe-Gomez)和首席產品官尼爾·亨特(Neil Hunt)的一份報告,,算法能夠為網飛公司每年節(jié)省10億美元。不過,,我們也應該看到一個結果,,那就是這種完全投觀眾所好的算法讓人們只看到自己喜好或認同的東西,因而會進一步加劇人們認知中的局限性,。
3. 公平性缺失愈發(fā)嚴重
隨著數(shù)據(jù)挖掘算法的廣泛應用,還出現(xiàn)了另一個突出的問題,,即算法輸出可能具有不公正性,,甚至歧視性。2018年,,IG奪冠的喜訊讓互聯(lián)網沸騰,。IG戰(zhàn)隊老板隨即在微博抽獎,隨機抽取113位用戶,,給每人發(fā)放1萬元現(xiàn)金作為獎勵,。可是抽獎結果令人驚奇,獲獎名單包含112名女性獲獎者和1名男性獲獎者,,女性獲獎者數(shù)量是男性的112倍,。然而,官方數(shù)據(jù)顯示,,在本次抽獎中,,所有參與用戶的男女比率是1: 1.2,性別比并不存在懸殊差異,。于是,,不少網友開始質疑微博的抽獎算法,甚至有用戶主動測試抽獎算法,,設置獲獎人數(shù)大于參與人數(shù),,發(fā)現(xiàn)依然有大量用戶無法獲獎。這些無法獲獎的用戶很有可能已經被抽獎算法判斷為“機器人”,,在未來的任何抽獎活動中都可能沒有中獎機會,,因而引起網友們紛紛測算自己是否為“垃圾用戶”?!拔⒉┧惴ㄊ录币粫r鬧得滿城風雨,。
其實,這并非人們第一次質疑算法背后的公正性,。近幾年,,眾多科技公司的算法都被檢測出帶有歧視性:在谷歌搜索中,男性會比女性有更多的機會看到高薪招聘消息,;微軟公司的人工智能聊天機器人Tay出乎意料地被“教”成了一個集性別歧視,、種族歧視等于一身的“不良少女”……這些事件都曾引發(fā)人們的廣泛關注。即使算法設計者的本意是希望為用戶推薦有用信息,、對圖片進行機器識別,、使聊天機器人能夠源源不斷地學習人類對話的方式,但往往是在算法決策的“黑匣子”面前,,人們無法了解算法的決策過程,,只能了解最終結果。
為什么大數(shù)據(jù)算法會出現(xiàn)歧視呢,?計算機領域有個縮寫詞語——GIGO (Garbage in,Garbage Out),,大意是“輸入的如果是垃圾數(shù)據(jù),那么輸出的也將會是垃圾數(shù)據(jù)”,。在大數(shù)據(jù)領域也有類似的說法,,《自然》雜志曾用BIBO(Bias In,Bias Out,即“偏見進,,偏見出”)表示數(shù)據(jù)的質量與算法結果準確程度的強關聯(lián)性,。在選擇使用什么樣的數(shù)據(jù)時,,人們往往容易存在歧視心態(tài),這會直接影響輸出的結果,。例如,,在導航系統(tǒng)最快的路線選擇中,系統(tǒng)設計者只考慮到關于道路的信息,,而不包含公共交通時刻表或自行車路線,,從而使沒有車輛的人處于不利狀況。另外,,可能在收集數(shù)據(jù)時就缺乏技術嚴密性和全面性,,存在誤報、漏報等現(xiàn)象,,也會影響結果的精準性,。因此,基于數(shù)據(jù)和算法推斷出來的結果會使有些人獲得意想不到的優(yōu)勢,,而另一些人則處于不公平的劣勢——這是一種人們難以接受的不公平,。
除了造成不公平性,算法歧視還會不斷剝削消費者的個人財富,?!督洕鷮W家》雜志顯示,2014年在排名前100的最受歡迎的網站中,,超過1300家企業(yè)在追蹤消費者,。利用算法技術,企業(yè)利潤獲得大幅增加,。但是,,羊毛出在羊身上,這些利潤實際均來自消費者,。尤其是隨著算法在自動駕駛,、犯罪風險評估、疾病預測等領域中越來越廣泛和深入的應用,,算法歧視甚至會對個體生命構成潛在的威脅,。
在國外,算法歧視也備受關注,。2014年,,美國白宮發(fā)布的大數(shù)據(jù)研究報告就提到算法歧視問題,認為算法歧視可能是無意的,,也可能是對弱勢群體的蓄意剝削。2016年,,美國白宮專門發(fā)布《大數(shù)據(jù)報告:算法系統(tǒng),、機會和公民權利》,重點考察了在信貸、就業(yè),、教育和刑事司法領域存在的算法歧視問題,,提醒人們要在立法、技術和倫理方面予以補救,。對于算法歧視問題,,企業(yè)界和學術界正在嘗試技術和制度層面的解決方案。技術層面,,例如,,微軟程序員亞當·卡萊(Adam Kalai)與波士頓大學的科學家合作研究一種名為“詞向量”的技術,目的是分解算法中存在的性別歧視,。除了技術層面,,制度和規(guī)則也至關重要。在人類社會中,,人們可以通過訴訟,、審查等程序來修正許多不公平的行為和事件。對于算法而言,,類似的規(guī)則同樣必不可少,。事后對算法進行審查不是一件容易的事,最好的辦法是提前構建相關制度和規(guī)則,,這應該成為未來社會各界共同努力的方向,。