1. 數(shù)據(jù)采集:讓數(shù)據(jù)匯聚到一起
當前,,以大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能為核心的數(shù)字化浪潮正席卷全球,,全世界每時每刻都在產(chǎn)生大量的數(shù)據(jù),人類產(chǎn)生的數(shù)據(jù)總量呈指數(shù)級增長,。面對如此巨大的數(shù)據(jù)規(guī)模,,如何采集并進行轉換、存儲以及分析,,是人們在數(shù)據(jù)開發(fā)利用過程中面臨的巨大挑戰(zhàn),。其中,數(shù)據(jù)采集又是所有數(shù)據(jù)處理行為的前提,。
數(shù)據(jù)采集是指從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的過程,。數(shù)據(jù)采集系統(tǒng)整合了信號、傳感器,、激勵器等數(shù)據(jù)采集設備和一系列應用軟件,。目前,數(shù)據(jù)采集廣泛應用于互聯(lián)網(wǎng)及分布式領域,,如攝像頭,、麥克風都是數(shù)據(jù)采集工具。
數(shù)據(jù)采集并不是隨隨便便,、雜亂無章地采集數(shù)據(jù),,而是對數(shù)據(jù)有一定的要求。例如,,要求數(shù)據(jù)量是全面的,,具有足夠的分析價值;是多維度和多類型的,,能夠滿足不同的需求,;是高效的,具有比較明確的針對性和時效性,。常用的數(shù)據(jù)采集方法主要有傳感器采集,、日志文件采集,、網(wǎng)絡爬蟲采集。
傳感器采集:傳感器通常用于測量物理變量,,一般包括聲音,、溫濕度、距離,、電流等,,將測量值轉化為數(shù)字信號并傳送到數(shù)據(jù)采集點,讓物體擁有“觸覺”“味覺”和“嗅覺”等“感官”,,變得鮮活起來,。
日志文件采集:日志文件數(shù)據(jù)一般由數(shù)據(jù)源系統(tǒng)產(chǎn)生,用于記錄對數(shù)據(jù)源的各種操作活動,,如網(wǎng)絡監(jiān)控的流量管理,、金融應用中的股票記賬和Web服務器記錄的用戶訪問行為。很多互聯(lián)網(wǎng)企業(yè)采用日志文件采集方式,,如Hadoop的Chukwa,、Cloudera的Flume、Facebook的Scribe等,。這些工具均使用分布式架構,,能滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求。
網(wǎng)絡爬蟲采集:網(wǎng)絡爬蟲是指為搜索引擎下載并存儲網(wǎng)頁的程序,,它是針對搜索引擎和Web緩存的主要數(shù)據(jù)采集方法,。該方法將非結構化數(shù)據(jù)從網(wǎng)頁中抽取出來,以結構化的形式將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,,支持圖片,、音頻、視頻等文件或附件的采集,,附件與正文可以自動關聯(lián),。
由于所采集數(shù)據(jù)的種類錯綜復雜,因此對不同種類的數(shù)據(jù)進行分析必須運用提取技術,。通過不同方式,,可以獲得各種類型的結構化、半結構化及非結構化的海量數(shù)據(jù),。在現(xiàn)實生活中,,數(shù)據(jù)的種類有很多。而且,,不同種類的數(shù)據(jù),,其產(chǎn)生的方式不同。針對大數(shù)據(jù)采集,目前主要流行運用以下技術,。
Hive:Hive是由Facebook開發(fā)的數(shù)據(jù)倉庫,,可支持SQL相似的查詢聲明性語言(HiveQL),可自定義插入相關腳本(Map-Reduce),,并且支持基本數(shù)據(jù)類型,、多種集合和組合等。只需要一些簡單的查詢語句,,就能分析計算數(shù)據(jù)倉庫中的數(shù)據(jù)。
Transform:Transform操作是大數(shù)據(jù)采集中的一個關鍵流程,,利用多種數(shù)據(jù)分析和計算系統(tǒng)對清洗后的數(shù)據(jù)進行處理和分析,。
Apache Sqoop:將數(shù)據(jù)在Hadoop HDFS分布式文件系統(tǒng)和生產(chǎn)數(shù)據(jù)庫相互轉換,需要考慮數(shù)據(jù)是否一致,,以及資源配置等問題,。為了防止使用效率不高的腳本進行傳輸,將使用Apache Sqoop,。Apache Sqoop能快速實現(xiàn)導入和導出數(shù)據(jù),,解決數(shù)據(jù)來回轉換中暴露的問題,還可通過數(shù)據(jù)庫元數(shù)據(jù)預測數(shù)據(jù)類型,。
數(shù)據(jù)采集是挖掘數(shù)據(jù)價值的第一步,,當數(shù)據(jù)量越來越大時,可提取出來的有用數(shù)據(jù)必然也就更多,。只要善用數(shù)據(jù)化處理平臺,,便能夠保證數(shù)據(jù)分析結果的有效性,助力實現(xiàn)數(shù)據(jù)驅動,。
2. 數(shù)據(jù)分析:機器學習和深度挖掘
數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計方法對數(shù)據(jù)進行分析,,將它們加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)功能,。數(shù)據(jù)分析的目的是把隱藏在一大批看似雜亂無章的數(shù)據(jù)背后的信息提煉出來,,并總結出內(nèi)在規(guī)律。
數(shù)據(jù)分析的概念不難理解,,但數(shù)據(jù)分析是通過什么方法來實現(xiàn)的呢,?這就要借助機器學習。機器學習是研究如何用機器來模擬人類學習活動的一門學科,,它是研究機器如何獲取新知識和新技能并識別現(xiàn)有知識的學問,。此處所說的“機器”是指計算機、電子計算機,、中子計算機,、光子計算機或神經(jīng)計算機等。機器學習主要包括三種類型:監(jiān)督學習、無監(jiān)督學習及強化學習,。
監(jiān)督學習從給定的訓練數(shù)據(jù)集中學習一個函數(shù),,當有新數(shù)據(jù)時,可以根據(jù)這個函數(shù)預測結果,,如圖1,、圖2所示。監(jiān)督學習的訓練集要求包括輸入和輸出,,也可以說是特征和目標,。訓練集中的目標是由人標注的。監(jiān)督學習分為回歸和分類兩種類型,,包括線性回歸,、Logistic回歸、CART,、樸素貝葉斯,、KNN等幾種算法?;貧w是精確值預測,。例如,根據(jù)已有的銷售價格和銷售數(shù)量建立模型,,預測新銷售價格對應的銷售數(shù)量,,就是回歸的過程。
圖1 監(jiān)督學習模型
圖2 監(jiān)督學習預測模型
無監(jiān)督學習就是輸入一些并不知道輸出的數(shù)據(jù),,然后給這些數(shù)據(jù)打上標簽,,如圖3所示。它主要有關聯(lián),、群集及維度降低三種類型,,集中使用Apriori、K-means,、PCA三種算法,。其實,我們每天看的新聞分類就是一個無監(jiān)督學習,,由新聞網(wǎng)站收集網(wǎng)絡新聞,,根據(jù)主題將新聞分成各類鏈接,讀者點擊鏈接時會展現(xiàn)相關的新聞,,而這些新聞的關聯(lián)性不是人工實現(xiàn)的,,是算法自動分的。簡單地說,,監(jiān)督學習是根據(jù)已經(jīng)存在的數(shù)據(jù),,如現(xiàn)有銷售價格和銷售數(shù)量,,預測在新的銷售價格下能賣出多少數(shù)量的商品;而無監(jiān)督學習則是在不知道數(shù)據(jù)的輸出是什么的情況下,,根據(jù)特征進行分類和預測,。
圖3 無監(jiān)督學習模型
強化學習是讓機器通過不斷的測試,在環(huán)境中獲得高分,。在這個過程中,,機器會一而再、再而三地出錯,,從而獲取規(guī)律,。近兩年比較有名的Alpha Go事件,其實就是機器通過不斷學習游戲和變換新步驟而得到高分的實例,。那么,,計算機是怎樣學習的呢?其實,,計算機就像一位虛擬的老師,只是這位老師比較嚴厲,,它不會提前告訴你怎樣移動,,不會教你怎樣學習,就像學校的教導主任一樣只對你的行為進行監(jiān)督和打分,,而不負責教學,。在這種情況下,我們怎樣獲得高分呢,?我們只需要記住高分和低分分別對應的行為,,在下一次打分時盡量表示出高分行為,避免低分行為,,就能夠做到,。據(jù)此,機器學習主要是從歷史數(shù)據(jù)獲得模型來預測未知屬性,,而人類是通過經(jīng)驗總結規(guī)律以預測未來,,如圖4所示。
圖4 機器學習與人類思考對比
說到機器學習,,不能不提到近年來出現(xiàn)的一個新詞——信息機器,。信息機器與信息技術密切相關,它不是傳統(tǒng)意義上的機械機器,,而是接收信息,、處理信息的新型機器,誕生于媒介新技術的革新和變遷,,更多地體現(xiàn)出人類與機器的交互性,。例如,在機器學習的過程中,實際上機器也不斷地產(chǎn)生數(shù)據(jù)和信息,,這種現(xiàn)象值得人們高度關注和研究,。
除了機器學習,還要提到數(shù)據(jù)分析的另一種方法——深度挖掘,。這就好比挖掘機挖土,,挖得越深,就越有可能挖到有價值的東西,。數(shù)據(jù)領域的深度挖掘,,就是從大量數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程。深度挖掘本質上類似于機器學習和人工智能的基礎,,其主要目的是從各種各樣的數(shù)據(jù)來源中提取有用信息,,然后將這些信息合并,深度分析其中的規(guī)律和內(nèi)在關聯(lián),。這就意味著深度挖掘不是一種用來證明假說的方法,,而是用于構建各種各樣假說的方法。深度挖掘不能告訴人們這些問題的答案,,只能說明A和B可能存在相關關系,,但是無法說出A和B存在什么樣的相關關系。與機器學習相比,,深度挖掘的概念更廣,,機器學習只是深度挖掘領域的一個分支領域。
深度挖掘廣泛應用于商務管理,、生產(chǎn)控制,、市場分析、工程設計和科學探索中,,通過各種方法來挖掘數(shù)據(jù),,主要包括分類、回歸分析,、聚類,、關聯(lián)規(guī)則、特征,、變化和偏差分析,、Web頁挖掘等,它們分別從不同的角度對數(shù)據(jù)進行挖掘,。
數(shù)據(jù)挖掘是一種決策支持過程,,它通過高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,,從中挖掘出潛在的模式,,幫助決策者調(diào)整市場策略,,減少風險,做出正確的決策,。在市場經(jīng)濟比較發(fā)達的國家和地區(qū),,許多企業(yè)都開始在原有信息系統(tǒng)的基礎上通過深度挖掘對業(yè)務信息進行深加工,以構筑自己的競爭優(yōu)勢,,擴大自己的營業(yè)額,。美國運通公司(American Express)有一個用于記錄信用卡業(yè)務的數(shù)據(jù)庫,其數(shù)據(jù)量已達到5GB,,并仍在隨著業(yè)務發(fā)展而不斷更新,。運通公司通過對這些數(shù)據(jù)進行挖掘,制定了“關聯(lián)結算(Relation ship Billing)優(yōu)惠”的促銷策略,,即如果顧客在一家商店用運通卡購買一套時裝,,那么在同一家商店再買一雙鞋就可以得到比較大的折扣。這樣既可以增加商店的銷售量,,也可以增加運通卡在該商店的使用率,。類似的方法在食品行業(yè)也備受青睞。全球著名的卡夫(Kraft)食品公司建立了一個擁有3000萬條客戶資料的數(shù)據(jù)庫,。數(shù)據(jù)庫是通過收集對公司發(fā)出優(yōu)惠券等促銷手段做出積極反應的客戶和銷售記錄而建立起來的,。卡夫公司通過深度挖掘了解特定客戶的興趣和口味,,以此為基礎向他們發(fā)送特定產(chǎn)品的優(yōu)惠券,并推薦符合他們口味和健康狀況的卡夫產(chǎn)品食譜,。此外,,出版業(yè)也是數(shù)據(jù)深度挖掘的受益者。例如,,美國讀者文摘(Reader's Digest)出版公司運行著一個已有40年積累的業(yè)務數(shù)據(jù)庫,,里面包含遍布全球的1億多個訂戶的資料,數(shù)據(jù)庫每天24小時連續(xù)運行,,保證數(shù)據(jù)不斷實時更新,。正是基于對客戶資料數(shù)據(jù)庫進行深度挖掘的優(yōu)勢,讀者文摘出版公司的業(yè)務才能夠從通俗雜志擴展到專業(yè)雜志,、書刊和音像制品的出版和發(fā)行,。
3. 數(shù)據(jù)關聯(lián):因果關系or相關關系
大數(shù)據(jù)時代,紛繁蕪雜的數(shù)據(jù)描述的是一個混沌的世界,,只有找出看似不相干的數(shù)據(jù)背后隱藏的邏輯關系和本質規(guī)律,,才可能看清楚許多真相。目前,,對于數(shù)據(jù)之間的關系,,存在兩種較主流的看法,,即因果關系和相關關系。
對于因果關系,,通俗地解釋是指一個事件(即“因”)和另一個事件(即“果”)之間的作用關系,,其中后一事件被認為是前一事件的結果。從西方哲學的角度來看,,亞里士多德較早提出的“四因說”,,即質料因、形式因,、動力因,、目的因,歸納了一般導致結果發(fā)生的幾個原因解釋,。后來,,在亞里士多德宇宙論的基礎上,托馬斯· 阿奎那又對這四種原因進行了等級排列,,認為目的因>動力因>質料因>形式因,。阿奎那把第一因歸為上帝,認為塵世的很多事件都是在上帝的設計或計劃之中,。這種觀點流傳了很久,。不過,在后來的歷史中,,亞里士多德的“四因說”遭到了后世學者的批評,。當代西方哲學中廣為流傳的關于因果關系的定義出自大衛(wèi)· 休謨的理論。他提出,,人們只是發(fā)展了一個思考習慣,,把前后相繼的兩類客體或事件聯(lián)系起來,除此之外,,人們是無法感知到原因和結果的,。然而,雖然圍繞因果關系是否存在的爭論一直延綿不絕,,但不可否認的是在傳統(tǒng)社會中,,因果關系的確對人們分析事物的原因起著巨大的潛移默化的作用。
大數(shù)據(jù)時代,,由于數(shù)據(jù)對經(jīng)濟生活各個方面的影響,,有學者對事物之間的關聯(lián)提出了新的詮釋。例如,,舍恩伯格在《大數(shù)據(jù)時代》一書中一再強調(diào),,人們應該在很大程度上從對因果關系的追求中解脫出來,轉而將注意力放在相關關系的發(fā)現(xiàn)和使用上,。他提出,,相關關系是指當一個數(shù)據(jù)發(fā)生變化時,,另一個數(shù)據(jù)也可能隨之變化,這兩個數(shù)據(jù)有時候沒有必然聯(lián)系,。兩者可能是正相關,,也可能是負相關;可能是強相關,,也可能是弱相關,。“我們沒有必要非得知道現(xiàn)象背后的原因,,而是要讓數(shù)據(jù)自己發(fā)聲”“相關關系能夠幫助我們更好地了解這個世界”,,他認為建立在相關關系分析法上的預測是大數(shù)據(jù)的核心。通過找到關聯(lián)物并監(jiān)控它,,人們就能夠預測未來,。在大數(shù)據(jù)的背景下,相關關系較因果關系能在預測功能上展現(xiàn)出更大的優(yōu)勢,。對于人們來說,,大數(shù)據(jù)最關鍵的作用就是利用相關關系進行研究,把數(shù)據(jù)里面的金子挖出來,,或者利用相關性預防或促成某些結果的發(fā)生,。由于數(shù)據(jù)超級海量,需要一定的速度應對信息社會“數(shù)據(jù)爆炸”和諸多涌現(xiàn)出來的“復雜性”,,然后才是對其過程和背后原因的探詢,。
舍恩伯格提到的相關關系與因果關系有很明顯的不同。因果關系中,,當一個表示原因的數(shù)據(jù)發(fā)生變化時,,它對應的結果數(shù)據(jù)也會發(fā)生變化,這兩個數(shù)據(jù)一定是必然關系,。但是,有的時候追求因果關系顯得既無必要又無可能,。例如,,在實際生活中,如果要證明熬夜導致禿頭,,可以找兩組身體狀況基本一樣的人,,讓一組熬夜,另一組在正常時間睡覺,。如果熬夜組禿頭的概率大于不熬夜組,,那么基本可以證明熬夜和禿頭存在因果關系。但是,,這種實驗在現(xiàn)實中很難做到,,因為連原本的客觀環(huán)境都不能保持一致,。而且,這種實驗也違背道德,,因為很難逼大家熬夜,,也無法實時追蹤是否熬夜。因此,,用因果關系來證明和解釋這個現(xiàn)象有待商榷,。
那么,大數(shù)據(jù)時代的關系到底是因果關系,、相關關系,,還是因果關系和相關關系并存呢?這大概還是取決于人們對數(shù)據(jù)功能的定位,。在相關關系中,,預測是大數(shù)據(jù)的核心功能。對于快速變化的世界來說,,探究相關關系的確比因果關系成本更低,,耗時更少,而且也更顯必要,。例如,,全球最大的零售商沃爾瑪擁有一個超大型的歷史交易記錄數(shù)據(jù)庫,這個數(shù)據(jù)庫包括每位顧客的購物清單,、消費額,、購物籃中的商品、具體的購買時間以及購物時的天氣,。經(jīng)過分析發(fā)現(xiàn)一個規(guī)律,,就是每當季節(jié)性颶風來臨之前,不僅手電筒的銷量增加,,蛋撻的銷量也會增加,。因此,后來每當季節(jié)性颶風來臨時,,沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置,,這樣既方便了行色匆匆的顧客,又大幅增加了商品的銷量,。在這樣的案例中,,并沒有必要探究為什么手電筒和蛋撻的銷量會增加,只要知道這種相關關系就行,。
通過相關關系進行預測的案例還有很多,。美國折扣零售商塔吉特曾經(jīng)做過一項關于懷孕女性的預測。公司分析團隊查看了登記在嬰兒禮物登記簿上的女性消費記錄,,發(fā)現(xiàn)這些準媽媽會在懷孕第三個月左右的時候買很多無香乳液,,之后還會陸續(xù)買些營養(yǎng)品,,整個孕期大概能產(chǎn)生對20多種關聯(lián)物的需求。通過這些關聯(lián)物,,公司分析團隊可以看出準媽媽們的懷孕趨勢,,甚至能夠據(jù)此準確地推測出她們的預產(chǎn)期,這樣就能夠在她們孕期的每個階段給她們寄送相應的優(yōu)惠券,,從而增加銷售額,。所以,不論是追求相關關系,,還是因果關系,,歸根結底都是看其能為主體提供什么樣的價值,以及主體需要實現(xiàn)什么樣的價值,。
4. 數(shù)據(jù)質量:“清洗”后的數(shù)據(jù)更可靠
大數(shù)據(jù)時代,,人們關注的焦點是如何發(fā)揮數(shù)據(jù)的價值,卻鮮有人關注數(shù)據(jù)質量這個最根本的問題,。實際上,,大數(shù)據(jù)處理的關鍵是解決數(shù)據(jù)質量問題?!洞髷?shù)據(jù)資產(chǎn):聰明的企業(yè)怎樣致勝于數(shù)據(jù)治理》一書的作者托尼·費舍爾(Tony Fisher)曾提到:“如果基本數(shù)據(jù)不可靠,,大多數(shù)企業(yè)的大數(shù)據(jù)計劃要么會失敗,要么效果會低于預期,。造成上述結果的關鍵原因在于,,數(shù)據(jù)生命周期之中流入了不一致、不準確,、不可靠的數(shù)據(jù),。”糟糕的數(shù)據(jù)質量常常意味著糟糕的業(yè)務決策,,將直接導致數(shù)據(jù)統(tǒng)計分析不準確,、監(jiān)管業(yè)務難、高層領導難以決策等問題,。據(jù)IBM統(tǒng)計,,錯誤或不完整的數(shù)據(jù)會導致業(yè)務系統(tǒng)不能正常發(fā)揮優(yōu)勢甚至失效;數(shù)據(jù)分析員每天有30%的時間浪費在辨別數(shù)據(jù)是否是“壞數(shù)據(jù)”上,;低劣的數(shù)據(jù)質量嚴重降低了全球企業(yè)的年收入,。因此,,只有規(guī)避數(shù)據(jù)錯誤,、保障數(shù)據(jù)質量,才能真正讓各數(shù)據(jù)使用方從大數(shù)據(jù)應用中獲益,。
近年來,,數(shù)據(jù)質量管理應運而生,。所謂數(shù)據(jù)質量管理,是指對在數(shù)據(jù)存在的各個周期中出現(xiàn)的一系列數(shù)據(jù)質量問題,,利用識別監(jiān)控等措施改善和提高數(shù)據(jù)質量的管理水平,。
其中,數(shù)據(jù)清洗是數(shù)據(jù)質量管理中重要的一環(huán),,主要是對數(shù)據(jù)進行重新核驗,,修正錯誤數(shù)據(jù)和去除重復數(shù)據(jù),通過過濾掉這些“臟數(shù)據(jù)”,,盡可能地使數(shù)據(jù)保持一致性和準確性,,提高數(shù)據(jù)質量。
關于數(shù)據(jù)質量管理,,不同的主體有不同思路,。曾有篇文章以古人治理黃河水患為例來說明如何管理數(shù)據(jù)質量,令人印象深刻,。
文章提到,,現(xiàn)在的數(shù)據(jù)集成融合就和古人筑堤壩一樣:古人筑堤壩是為了約束河水,拓展人類的生存空間,;今人做數(shù)據(jù)集成融合是為了挖掘數(shù)據(jù)價值,,拓展企業(yè)的生存空間。古人提出:在修筑大堤前,,黃河“左右游蕩,,寬緩而不迫”;筑堤后河道變窄,,發(fā)生洪水時泄流不暢,,常決口為患。如今的企業(yè)在信息化初期,,各類業(yè)務系統(tǒng)恣意生長,,這個階段就像修筑大堤前的黃河雖然有問題,但是不明顯,。后來,,企業(yè)業(yè)務需求增長,需要按照統(tǒng)一的架構和標準把各類數(shù)據(jù)集成起來,,這個階段就像筑堤束水之后的黃河,,各種問題撲面而來。古人治理黃河水患,,主要有兩種方式,,一種是“疏通”,另一種是“圍堵”。數(shù)據(jù)質量治理也可以借鑒古人“疏”與“堵”的智慧和考量,?!笆琛本褪情_展頂層設計,制定統(tǒng)一數(shù)據(jù)架構,、數(shù)據(jù)標準,,設計數(shù)據(jù)質量的管理機制,建立相應的組織架構和管理制度,,采用分類處理的方式持續(xù)提升數(shù)據(jù)質量,。“堵”就是依賴技術手段,,通過增加數(shù)據(jù)清洗處理邏輯的復雜度,,使用數(shù)據(jù)質量工具來發(fā)現(xiàn)數(shù)據(jù)處理中的問題。
5. 數(shù)據(jù)反壟斷:避免數(shù)據(jù)孤島的新手段
在2018年12月25日舉行的新興科技中國全球峰會上,,被譽為“互聯(lián)網(wǎng)之父”的麻省理工學院教授蒂姆·伯納斯·李發(fā)表了重要講話,。1991年,他提出了互聯(lián)網(wǎng)的基石協(xié)議——超文本傳輸協(xié)議,,并進一步發(fā)明了互聯(lián)網(wǎng),。然而,在此次會議上,,“互聯(lián)網(wǎng)之父”對當前的互聯(lián)網(wǎng)表示了失望,,稱“已經(jīng)失去了原有的精神,需要破而后立”,。
伯納斯·李指出,,互聯(lián)網(wǎng)的發(fā)展曾經(jīng)有一個非常重要的長尾效應。不同規(guī)模的企業(yè)都有自己的生存空間,。但是今天,,長尾效應失敗了。目前,,互聯(lián)網(wǎng)世界的頭部效應是明顯的,,一些網(wǎng)站占據(jù)了主導地位及大部分市場份額。他指出,,人類仍然面臨許多“數(shù)據(jù)孤島”,。每個人都在互聯(lián)網(wǎng)上產(chǎn)生了很多數(shù)據(jù),但是這些數(shù)據(jù)都在像Facebook這樣的大公司手里,,而且無法連接,。這些孤立的“島嶼”不尊重個人,令人沮喪,?;ヂ?lián)網(wǎng)誕生的初衷是人們可以在互聯(lián)網(wǎng)世界中形成一個“自由開放的社區(qū)”來展示自己的個人想象力,。然而,在目睹了一系列個人數(shù)據(jù)濫用丑聞后,,他對互聯(lián)網(wǎng)的現(xiàn)狀感到失望。
伯納斯·李對現(xiàn)在互聯(lián)網(wǎng)的不滿可以歸根于一個很時髦的詞——數(shù)據(jù)壟斷?,F(xiàn)在,,人們提到數(shù)據(jù)壟斷,主要形容“重要數(shù)據(jù)被控制在少數(shù)人手中,,并被不合理地分配和使用”的一種狀態(tài),,而且主要針對互聯(lián)網(wǎng)巨頭企業(yè)而言。其實,,最早出現(xiàn)的“數(shù)據(jù)壟斷”一詞是針對政府的,,與“數(shù)據(jù)民主”相對應。近年來,,美國,、英國、澳大利亞,、新西蘭等國家相繼建立了政府數(shù)據(jù)門戶,,將以前由政府擁有的公共數(shù)據(jù)推上互聯(lián)網(wǎng),掀起了“數(shù)據(jù)民主化”的浪潮,。所謂數(shù)據(jù)民主化,,是指將政府、企業(yè)等所擁有的各類公共數(shù)據(jù)推上互聯(lián)網(wǎng),,允許任何人訪問和下載,。也就是說,政府不應該成為數(shù)據(jù)的壟斷者,,公民應該擁有對數(shù)據(jù)的知情權,、發(fā)言權和決策權。
在我國,,“數(shù)據(jù)壟斷”一詞是伴隨著菜鳥和順豐事件而興起的,。2017年“六一”兒童節(jié)期間,菜鳥和順豐像兩個爭搶糖果的小孩子在網(wǎng)絡上隔空“掐架”:6月1日下午,,菜鳥官微發(fā)出一則“菜鳥關于順豐暫停物流數(shù)據(jù)接口的聲明”,,稱順豐主動關閉了豐巢自提柜(由深圳順豐投資有限公司控股的豐巢科技所提供的智能快遞自提柜)和淘寶平臺物流數(shù)據(jù)信息回傳;隨后,,順豐回應稱,,菜鳥以安全為由單方面切斷了豐巢的信息接口,并指責菜鳥索要豐巢的所有包裹信息(包括非淘系訂單),,認為菜鳥有意讓其從騰訊云切換至阿里云,。不過,,監(jiān)管部門并沒有讓這場“掐架”持續(xù)多久。在國家郵政局的調(diào)停下,,6月3日12點,,菜鳥和順豐握手言和,全面恢復了業(yè)務合作和數(shù)據(jù)傳輸,。
然而,,這場突如其來的鬧劇,最后卻是由用戶和賣家買單,。在菜鳥和順豐切斷數(shù)據(jù)接口后,,淘寶天貓的賣家無法通過后臺錄入順豐快遞單號,相當一部分賣家受到影響,。根據(jù)菜鳥網(wǎng)絡給出的說法,,雙方發(fā)生爭執(zhí)后,菜鳥收到了大量賣家和消費者的詢問,。受影響的賣家擔心的是如果繼續(xù)采用順豐發(fā)貨,,可能造成財產(chǎn)損失,也會引起買家集中投訴,。但是,,由于順豐在冷鏈物流配送的速度上遙遙領先于其他民營快遞公司,要找到合適的替代者確實不容易,。
菜鳥和順豐事件引起了全民熱議,。在輿論發(fā)展過程中,討論越來越集中于數(shù)據(jù)方面,,“數(shù)據(jù)壟斷”問題被提了出來,。不過,這里的對象不是政府,,而是企業(yè),。
當前,關于數(shù)據(jù)壟斷沒有形成統(tǒng)一的定義,。從數(shù)據(jù)占有角度來說,,數(shù)據(jù)壟斷是指獨占數(shù)據(jù)。但獨占數(shù)據(jù)本身并不違反《反壟斷法》,,即使獨占的是海量數(shù)據(jù),。從數(shù)據(jù)流動的角度來說,數(shù)據(jù)壟斷意味著不共享數(shù)據(jù),。從個人信息保護角度來說,,數(shù)據(jù)壟斷是指控制個人數(shù)據(jù)。從數(shù)據(jù)收益角度來說,,數(shù)據(jù)壟斷是指獨占數(shù)據(jù)收益,。這些說法都有各自的道理,,但是又都不完全準確。要構成數(shù)據(jù)壟斷行為,,至少應該包括三個要素:一是數(shù)據(jù)可能造成進入壁壘或擴張壁壘,;二是擁有大數(shù)據(jù)形成市場支配地位并濫用;三是因數(shù)據(jù)產(chǎn)品而形成市場支配地位并濫用,。
2019年2月4日,,德國反壟斷機構聯(lián)邦卡特爾局(Federal Cartel Office)采取行動禁止德國境內(nèi)Facebook在未經(jīng)用戶同意的情況下收集某些類型的消費者數(shù)據(jù),指出其數(shù)據(jù)聚合行為是對其市場力量的濫用,。聯(lián)邦卡特爾局一再強調(diào),一方面,,除非用戶同意,,否則Facebook不能將其擁有的WhatsApp或Instagram賬戶數(shù)據(jù)與其主要平臺上的其他賬戶予以關聯(lián);另一方面,,對于從第三方網(wǎng)站收集其個人數(shù)據(jù)的情形,,用戶同樣保有同意權。關于Facebook未來的數(shù)據(jù)處理政策,,聯(lián)邦卡特爾局正在引入Facebook數(shù)據(jù)的內(nèi)部剝離措施,。與此同時, Facebook對這一裁決提出上訴,,認為聯(lián)邦卡特爾局低估了其在德國面臨的激烈的競爭環(huán)境,,曲解了其GDPR合規(guī)狀態(tài),而且破壞了歐洲法律引入的確保歐盟內(nèi)整體一致的數(shù)據(jù)保護標準的機制,。