大數據已經上升成為國家戰(zhàn)略,,社會各界對大數據的期待上升到了前所未有的高度,。如何務實推動大數據戰(zhàn)略落地,,成為接下來的政策重點,。本文重溫了大數據的內涵,分析了大數據的局限性,,結合國內大數據發(fā)展面臨的瓶頸,,提出了相關的策略建議。
1引言
2015年,,我國《促進大數據發(fā)展行動綱要》出臺,,十八屆五中全會進一步提出要在“十三五”期間實施國家大數據戰(zhàn)略,大數據一路上升成為國家戰(zhàn)略,,社會各界對大數據的期待上升到了前所未有的高度。如何推動大數據戰(zhàn)略落地成為未來幾年的政策重點,。本文重溫了大數據的內涵,,分析了大數據的局限性,結合國內大數據發(fā)展面臨的瓶頸,,提出了相關的策略建議,。
2把握概念本質,深刻認識大數據的戰(zhàn)略價值
大數據是新資源,、新技術和新理念的綜合體,。從資源視角來看,大數據是新資源,,體現了一種全新的資源觀,。摩爾定律仍然有效,,計算存儲和傳輸數據的能力在以指數速度增長,分布式計算,、存儲和數據技術的革新不斷涌現,,互聯(lián)網企業(yè)對“數據廢氣”(DataExhaust)的挖掘利用大獲成功,引發(fā)全社會開始重新審視“數據廢氣”的價值,,開始把數據當作一種獨特的戰(zhàn)略資源對待,。
從技術視角看,大數據代表了新一代數據管理技術,。傳統(tǒng)的數據管理與分析技術以結構化數據為對象,、在小數據集上進行分析、以集中式架構為主,,成本高昂,。與“貴族化”的數據分析技術相比,源于互聯(lián)網的,,面向多源異構數據,、在超大規(guī)模數據集上進行分析、以分布式架構為主的新一代數據管理技術與開源軟件潮流疊加,,在大幅提高處理效率的同時(數據分析從T+1到T+0甚至實時),,成百倍地降低了數據存儲和管理成本。底層技術的變革釋放了上層應用的創(chuàng)新活力,。
從理念的視角看,,大數據提供了一種全新的思維角度。大數據的應用,,賦予了“實事求是”新的內涵,,其一是“數據驅動”,即經營管理決策可以自下而上地由數據來驅動,,甚至像量化股票交易,、實時競價廣告等場景中那樣,可以由機器根據數據直接決策,;其二是“數據閉環(huán)”,,觀察互聯(lián)網行業(yè)大數據案例,它們往往能夠構造起包括數據采集,、建模分析,、效果評估到反饋修正各個環(huán)節(jié)在內的完整“數據閉環(huán)”,從而能夠不斷地自我升級,,螺旋上升,。
大數據本身既能形成新興產業(yè),也能推動其他產業(yè)發(fā)展和社會進步,,戰(zhàn)略重要性毋庸置疑,。從狹義看,,圍繞大數據采集、存儲,、管理和挖掘,,正在逐漸形成一個小的產業(yè)生態(tài)(狹義大數據產業(yè))。2015年,,全球的大數據產業(yè)規(guī)模約為200~300億美元,。據中國信息通信研究院調查[1],2015年我國大數據市場規(guī)模達到115.9億元,,增速達38%,,預計2016-2018年還將維持40%左右的高速增長。
從廣義看,,大數據具有通用技術的屬性,,能夠提升運作效率,提高決策水平,,從而形成由數據驅動經濟發(fā)展的大生態(tài),。據華沙經濟研究所測算,歐盟27國因大數據的引進,,至2020年將獲得1.9%的額外GDP增長[2],。美國麥肯錫預計到2020年美國大數據應用帶來的增加值將占2020年GDP的2%~4%。中國信息通信研究院采用華沙經濟研究所相同的模型測算,,2014年大數據對我國GDP的增量貢獻約為0.53%~1.25%,,2020年的增量貢獻最高將達到1.9%。大數據的應用對社會治理水平的提升也能起到明顯的推動作用,。
3避免盲目跟風,,大數據熱潮還需冷思考
身處大數據熱潮中,既要充分認識大數據的潛力,,積極把握技術進步帶來的機遇,,也要認清大數據的局限性,警惕大數據萬能論,。一些被廣泛傳播的經典案例現在被證明是子虛烏有的,,比如,啤酒與尿布的故事實際上是Teradata公司的工程師ThomasBlischok在1992年杜撰的[3],,從來沒發(fā)生過;而Netflix號稱用大數據分析幫助自制劇《紙牌屋》取得成功,,而實際上是把大數據作為公關活動的噱頭[4],。筆者認為,至少有以下幾點值得思考:
第一,,大數據尚難對人的行為做出精確預測,。在大數據是否能準確預測人類行為的問題上,,還存在重大分歧?!逗谔禊Z》指出人類的行為不可預測[5],,而《爆發(fā)》一書則根據對以往歷史經驗的總結,指出人類行為93%可預測[6],。麻省理工學院教授羅伯特·萊格伯恩(RobertoRigobon)稱,,雖然華爾街一直重視數據分析,但基于海量數據分析的對沖基金在全球都是失敗的[7],?!皩τ谌撕褪录绻诺皆酱蟮目臻g和時間范圍,,則是越可以精確預測的,。如果放到越小的空間和時間范圍,則是越不可以精確預測的,。例如,,我們幾乎可以在100%的程度上預測一個人在24小時的時間范圍內會吃飯;但若精確到某一分鐘,,則幾乎不可能預測準確,。”[8]大數據無法預測人類行為,,歸根結底還是因為人具有“自由意志”,,人會根據預測結果(如下個月的股票價格、明天的交通擁堵情況)改變自身行為,,從而使得預測失效,。
第二,大數據相關關系不能替代因果關系,。舍恩伯格在《大數據時代》[9]中說:“我們沒有必要非得知道現象背后的原因,,而是要讓數據自己發(fā)聲”,“相關關系能夠幫助我們更好地了解這個世界”,。追尋相關關系和因果關系,,是人類思維的兩種重要方式,而用大數據進行預測往往依靠相關性,,也就是說,,很多情況下知道“是什么”即可,不必知道“為什么”,。相關關系的運用在互聯(lián)網推薦,、精準廣告等方面得到了實際應用。然而,在很多時候,,如疾病診斷,、工廠故障分析等場景下,需要根據確定的(或置信度非常高的)結論來決策,,僅憑相關關系是遠遠不夠的,。換言之,大數據中的相關關系應用,,需要區(qū)分場景,,有時候數據無法自己說話,需要追本溯源,。
第三,,大數據來源不均衡會讓數據“說謊”。有人說數據不會撒謊,。實際上,,如果忽視數據來源的不均衡性,數據分析結果就會“騙人”,。中國互聯(lián)網絡信息中心2015年的統(tǒng)計數據顯示,,我國網民城鄉(xiāng)分布嚴重不均,農村網民雖然迅猛增長,,但仍不及城市新增網民數量的1/10,。社交網絡用戶的性別分布也同樣有很嚴重的傾斜,騰訊公司2015年年初的報告顯示,,微信用戶的男女比例為1.8:1,,男性用戶約占了64.3%,而女性用戶則只有35.7%,。如果利用網絡大數據進行民意調查,,卻不把樣本分布的不均衡性考慮進去,就可能使得某些群體未得到充分代表,,而某些群體因使用率高,,其意見或特征被過分放大。這種不均勻的數據來源會導致分析結果存在偏見和盲區(qū),。
第四,,大數據無法消滅信息不對稱現象。有人說,,大數據有助于消滅信息不對稱,。雖然從全社會看,大數據的全面采集和融合應用有望在局部緩和信息不對稱程度,,但是在互聯(lián)網世界中,,馬太效應很顯著,擁有大數據資源和掌握大數據分析能力的企業(yè),往往會在大數據時代占據更加有利的地位,、占有更多數據,從而更容易形成一批數據寡頭,,產生新的不平等,,造成新的信息不對稱。因此,,大數據無法消滅信息不對稱,,反而更有可能助推數據寡頭的出現。如果這種數據壟斷地位被企業(yè)濫用,,將會威脅個人,、企業(yè)甚至國家利益。因此,,在大數據時代,,如何進一步彌合數據鴻溝、防止數據“霸權”的濫用,,將會成為一個重要的新課題,。熱潮之下,對大數據的反思,,還需要不斷深入,,才能讓我們保持清醒的頭腦。
4推動開放共享,,倒逼信息化建設升級
以上從理論層面做了探討,。而從大數據產業(yè)實際發(fā)展來看,我國還存在數據開放,、技術創(chuàng)新,、制度建設、區(qū)域協(xié)同等多方面的瓶頸需要突破,。
開放政府數據,,并帶頭用好大數據技術,是政府部門支持大數據發(fā)展最直接的舉措,。經過多年發(fā)展,,我國政府信息化建設取得了舉世矚目的成就。自1993年啟動金橋工程,、金關工程和金卡工程以來,,“兩網一站四庫十二金”相繼建成,政務信息化水平不斷提升,;面向公眾服務的政府網站群也已經具有較大規(guī)模,,截至2015年上半年,全國各級政府網站總數達到8.6萬個,其中地方8.3萬個,,國務院部門3000多個,。政務履職和公眾服務過程中積累了豐富的數據資源,是十分寶貴的資源,。
數據開放共享一直是政務信息化建設的理想目標,。以前,系統(tǒng)建設煙囪式的建設模式,,加上數據權責利的管理制度沒有建立起來,,導致橫向來看在政府內部的數據孤島普遍存在,縱向來看數據對外開放更是缺乏技術與制度基礎?,F在,,在全社會推進大數據的應用,數據的多源融合是先決條件,,政府數據的共享開放已經成為不得不做的事情,。恰好在最近幾年,云計算不斷成熟,,為統(tǒng)一的政務信息平臺建設提供了新工具,,為數據共享融合提供了技術便利。
李克強總理強調:“首先要把政府大數據的建設事情辦好,,給社會一個好的示范,。”用政府大數據的應用倒逼政務信息化升級,,推動政務信息化建設從煙囪式,、封閉式、集中式的模式,,轉向平臺式,、開放式、分布式的模式,。國務院《促進大數據發(fā)展行動綱要》中,,把這項工作放在首位,提出了統(tǒng)籌基礎設施,、整合應用平臺,、推動數據共享、推進數據開放等基礎性工作,,還提出要基于融合的數據,,加強宏觀調控科學化、政府治理精準化,、商事服務便捷化等應用創(chuàng)新,。從自身做起,,體現了政府推動大數據的決心。
然而從各地推進情況看,,政府數據的開放共享在實際操作中的阻力不小,,動力不足。改變目前政府部門不愿開放,、不敢開放,、不能開放的現狀,長遠之計,,是要自上而下,由中央建立一套完善的數據開放共享機制,,明確開放共享的數據目錄,、技術標準,以及平臺建設思路,,部委和地方去落實,。短期來看,還需要結合漸進路線,,逐步推進,。例如在政府數據開放方面,可先從已經開放的數據如何便利化應用入手,。
我國很多政府網站都已經開放了比較豐富的數據資源,。筆者曾經對工業(yè)和信息化部miit.gov.cn域名內已開放的數據進行了研究和梳理(未包含國防科工局、國家煙草專賣局,、國家航天局和國家原子能機構,,以及各地方主管部門和25個下屬機構),發(fā)現已經開放的數據包含資質審核,、行業(yè)統(tǒng)計,、項目審批、產品信息,、標準規(guī)范和科技成果等6大類數據集,,共計約60萬條數據,已經具備相當規(guī)模,。
但政府已開放數據大多存在以下三方面問題:一是不好找,,現有數據較為分散,檢索缺乏統(tǒng)一入口,;二是數據不好看,,大多以表格或文字綜述報告形式呈現,直觀性不強,,公眾理解起來比較困難,;三是數據不好用,,數據格式標準不統(tǒng)一,絕大部分不支持機器可讀,。這些都增加了政府數據社會化應用的技術門檻和成本,。解決上述問題,可以從技術上入手,,統(tǒng)一標準,,建立平臺。首先讓政府網站上本已開放的數據更好找,、更好看,、更好用,成熟后逐步擴大開放范圍,,這將是務實可行的第一步,。
5強調供需對接,拉動技術產業(yè)跨越發(fā)展
大數據資源與技術,,就好比工業(yè)時代的燃料與引擎,,不僅自成產業(yè),還能夠驅動其他產業(yè)更好發(fā)展,。當前,,開源模式迅猛發(fā)展,技術“民主化”潮流勢不可擋,,數據技術的軌道正在從集中式向分布式切換,,傳統(tǒng)產業(yè)的格局有望重塑。在這樣的大變軌時期,,一方面我國領先的互聯(lián)網企業(yè)——IT制造企業(yè)與國際先進水平的差距不斷縮小,,甚至在一些方向上達到了前所未有的接近程度。另一方面,,我國正在實施《中國制造2025》戰(zhàn)略,,農業(yè)和服務業(yè)正在加速轉型,有數不清的問題等待著用大數據去解決,,對大數據技術產品的需求空間也十分巨大,。
技術產業(yè)加速變軌、國內產業(yè)快速崛起和龐大的市場內生需求三者疊加,,使得我國具備在大數據領域實現跨越發(fā)展的條件,。在之前的幾次信息化浪潮中,國內產業(yè)沒能實現彎道超車,,天時,、地利、人和沒有同時具備,。然而在當前的時間點上,,我們同時具備了產業(yè)支撐能力和巨大應用空間的優(yōu)勢,,如果能夠將兩方面優(yōu)勢結合起來,形成良性互動格局,,就能夠實現跨越發(fā)展,。《促進大數據發(fā)展行動綱要》提出“推動產業(yè)創(chuàng)新發(fā)展,,培育新興業(yè)態(tài),,助力經濟轉型”的任務,體現了謀劃跨越發(fā)展的前瞻性,。
我國大數據產業(yè)發(fā)展的一個重要目標是打造自主可控的產業(yè)體系,。當前,從大數據技術與產品的供給側看,,我國雖然在局部技術上實現了單點突破,,但大數據領域系統(tǒng)性、平臺級技術創(chuàng)新仍不多見,,供應商面臨著緊跟技術趨勢、精準對接用戶需求的壓力,。從大數據技術與產品的需求側看,,對金融、電信,、工業(yè),、醫(yī)療、政府等行業(yè)用戶來說,,正面臨著如何規(guī)劃技術路線,、如何選擇商用產品、如何構建和運維大數據平臺等問題,。
為此,,下一步著力點應該按照中央提出的供給側改革思路,發(fā)揮產業(yè)聯(lián)盟等平臺作用,,深入挖掘業(yè)務需求,,促進供需精準對接,把國內優(yōu)勢技術力量凝聚起來形成合力,,突破關鍵技術,,推出滿足關鍵行業(yè)重大需求的大數據技術產品體系,并以產業(yè)實踐為基礎,,逐步形成接地氣的大數據標準體系和知識產權體系,,逐漸向技術和產業(yè)的前沿和高端躍升。
6完善法律制度,,切實保障數據安全
當數據這種新的資源越來越受重視時,,與數據相關的權利義務界定也就顯得越來越重要,。小到個人,大到企業(yè)和國家,,都是大數據的利益相關方,。
對個人來說,大數據的應用對隱私保護提出了巨大挑戰(zhàn),,技術面前個人越來越渺小和脆弱,。要嚴格保護大數據應用中的個人信息,就需要探索形成大數據環(huán)境下數據收集,、開放,、交換、應用等環(huán)節(jié)的規(guī)則,,明確大數據應用相關各方的個人信息保護義務和責任,。
對企業(yè)來說,數據資產的所有權,、使用權還是個模糊地帶,,急需建立數據產權保護制度,明確各類市場主體所積累的信息資產所有權歸屬,,建立規(guī)范化管理和使用機制,,保護信息所有者、信息主體及公眾的合法利益,。
對國家來說,,數據空間成為主權的新領域。需要研究跨境數據流動分級,、分類管理制度,,涉及國家秘密、國家安全以及經濟安全的數據進行管理,,確保大數據時代的國家安全,。
李克強總理指出,“政府既要‘扶持’,,為大數據產業(yè)創(chuàng)造一個健康發(fā)展的環(huán)境,,又要‘引導’、‘規(guī)范’,,保障信息安全”,,并提出“要完善產業(yè)標準體系,依法依規(guī)打擊數據濫用,、侵犯隱私等行為,,讓各類市場主體公平分享大數據帶來的技術、制度和創(chuàng)新活力”,?!洞龠M大數據發(fā)展行動綱要》明確了“強化安全保障,,提高管理水平,促進健康發(fā)展”的任務,,以及“加快法規(guī)制度建設”的措施,,從法律法規(guī)、管理制度和技術手段等多層次保障大數據安全,。
完善大數據發(fā)展的制度環(huán)境是一個長期過程,。長遠來看,要提升大數據治理水平,,深入研究數據權益,、數據管理、數據交易,、數據安全等關鍵問題,,推動建立數據流通和使用的行業(yè)自律機制,逐步完善出臺大數據相關法律體系,,推進法治化進程,。建立大規(guī)模個人信息泄露報告制度,完善網絡數據和用戶信息的安全防護措施及管理機制,,健全網絡數據保護制度,。短期來看,在法律法規(guī)尚未出臺之前,,要充分發(fā)揮行業(yè)組織作用,構建大數據交易流通與合規(guī)應用的行業(yè)自律機制,,推動行業(yè)自律,,建立基于實踐的大數據安全管控技術標準體系,開展大數據平臺產品及服務商的可靠性及安全性評測工作,、應用安全評測,、監(jiān)測預警和風險評估。
7突出地方特色,,形成差異化的區(qū)域產業(yè)布局
國務院《促進大數據發(fā)展行動綱要》中明確提出,,要“加強中央與地方協(xié)調,引導地方各級政府結合自身條件合理定位,、科學謀劃,,將大數據發(fā)展納入本地區(qū)經濟社會和城鎮(zhèn)化發(fā)展規(guī)劃,制定出臺促進大數據產業(yè)發(fā)展的政策措施,,突出區(qū)域特色和分工,,抓好措施落實,實現科學有序發(fā)展”,。2016年4月13日召開的促進大數據發(fā)展部際聯(lián)席會議第一次會議,,進一步明確了地方大數據發(fā)展的重點方向,,加快綜合試驗區(qū)建設,鼓勵地方開展制度創(chuàng)新探索,,推動數據創(chuàng)新應用,,破解大數據發(fā)展難題。
國務院《促進大數據發(fā)展行動綱要》出臺后,,各地搶抓發(fā)展機遇,,謀劃大數據發(fā)展藍圖,不少地方已經在頂層設計,、體制機制創(chuàng)新,、業(yè)態(tài)探索和基礎設施建設等方面取得了明顯進展。據中國信息通信研究院統(tǒng)計,,目前已經有23個省市出臺了74個大數據相關的指導意見或規(guī)劃,,廣東、貴州,、遼寧沈陽,、四川成都市地方政府還成立了大數據相關的專門機構;北京,、貴州,、陜西、湖北,、河北,、上海、浙江等地成立大數據交易所或交易中心,;內蒙古,、貴州等資源稟賦較好地區(qū)的超大規(guī)模綠色數據中心建設相繼建成,形成了良好的發(fā)展局面,。
需要特別關注的是,,大部分省市的大數據規(guī)劃都有大手筆的數據中心建設計劃。需要注意的是,,大數據絕不等于“大數據中心”,,大數據發(fā)展并不一定需要大面積的產業(yè)園區(qū)。因此,,地方發(fā)展大數據的重點,,不是建產業(yè)園、建數據中心,,而是要充分依托已有設施資源,,把現有的資源利用好,要堅決杜絕盲目新建數據中心,避免造成資源空間的浪費,。地方需要差異化發(fā)展,,應該把大數據的發(fā)展重心放在因地制宜地促進應用創(chuàng)新上,放在打造完善的發(fā)展環(huán)境上,,讓市場在大數據發(fā)展要素配置上起決定作用,。