大數(shù)據(jù)的理想與現(xiàn)實(shí)
來(lái)源:CNW.COM.CN
周源
摘要: 大數(shù)據(jù)的價(jià)值和重要性已經(jīng)毋庸置疑,但大數(shù)據(jù)究竟帶來(lái)了哪些新的技術(shù)趨勢(shì),,它對(duì)當(dāng)前IT產(chǎn)業(yè)的勢(shì)力格局會(huì)造成何種影響,,更關(guān)鍵的是,每個(gè)企業(yè)如何才能獲取大數(shù)據(jù)中的“寶藏”?則是我們真正關(guān)注的焦點(diǎn),。
Abstract:
Key words :
仿佛只是一夜之間,,“大數(shù)據(jù)(Big Data)”火了。
那一個(gè)個(gè)關(guān)于大數(shù)據(jù)的傳奇故事,,一樁樁爭(zhēng)奪大數(shù)據(jù)制高點(diǎn)而展開(kāi)的并購(gòu)案,,一個(gè)接一個(gè)輪流發(fā)布大數(shù)據(jù)戰(zhàn)略的IT廠商,還有那一場(chǎng)場(chǎng)以大數(shù)據(jù)為主題的各種研討會(huì),,無(wú)一不在宣告,,IT界又迎來(lái)了新的興奮點(diǎn)、新的機(jī)遇,,同時(shí),,也是新的挑戰(zhàn)。
“數(shù)”中自有黃金屋
嚴(yán)格地說(shuō),,大數(shù)據(jù)并非一個(gè)新詞,,被譽(yù)為“數(shù)據(jù)倉(cāng)庫(kù)之父”的Bill Inmon早在上個(gè)世紀(jì)90年代就經(jīng)常將“Big Data”掛在嘴邊了。大數(shù)據(jù)之所以在近一兩年迅速走紅,,要?dú)w結(jié)于互聯(lián)網(wǎng),、移動(dòng)設(shè)備、物聯(lián)網(wǎng)和云計(jì)算的迅猛發(fā)展,,使得人類(lèi)每分每秒都在產(chǎn)生巨量數(shù)據(jù)——從出現(xiàn)文明到2003年,,人類(lèi)總共才創(chuàng)造 5 EB(5 ExaBytes)的數(shù)據(jù),但是我們現(xiàn)在僅在兩天內(nèi)就創(chuàng)造出相同的數(shù)據(jù)量,。來(lái)自IDC全球存儲(chǔ)及大數(shù)據(jù)研究項(xiàng)目副總裁Benjamin Woo表示,,到2020年,全球數(shù)據(jù)使用量預(yù)計(jì)暴增44倍,,達(dá)到35.2ZB,。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,,1073741824TB×35=37580963840TB),也就是說(shuō)全球大概需要376億個(gè)1TB硬盤(pán)來(lái)存儲(chǔ)數(shù)據(jù),。
但是大數(shù)據(jù)并非單指數(shù)據(jù)量之大,。對(duì)于大數(shù)據(jù),IDC的定義是:“為了更經(jīng)濟(jì)地從高頻率獲取的,、大容量的,、不同結(jié)構(gòu)和類(lèi)型的數(shù)據(jù)中獲取價(jià)值,而設(shè)計(jì)的新一代架構(gòu)和技術(shù),。”人們普遍將該定義概括為四個(gè)V,,即更大的容量(volume,從TB級(jí)躍升至PB級(jí),,甚至EB級(jí)),、更高的多樣性(variety,包括結(jié)構(gòu)化,、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)),,以及更快的生成速度(velocity)。前面三個(gè)“V”的組合推動(dòng)了第四個(gè)因素——價(jià)值(value),。
關(guān)于大數(shù)據(jù)所蘊(yùn)含的價(jià)值,,有許多為人所津津樂(lè)道的故事可以佐證:
美國(guó)印地安那大學(xué)和英國(guó)曼徹斯特大學(xué)的學(xué)者通過(guò)提取Twitter上的非結(jié)構(gòu)化數(shù)據(jù)分析公眾情緒,再將情緒曲線與道瓊斯工業(yè)指數(shù)進(jìn)行對(duì)照分析,,發(fā)現(xiàn)可以提前3~4天預(yù)測(cè)股市大盤(pán)走勢(shì),。基于此,,他們已經(jīng)推出了歐洲第一只基于社交媒體的對(duì)沖基金,。
(單位:百萬(wàn)美元)
又例如,英國(guó)的科學(xué)家根據(jù)Twitter的數(shù)據(jù)來(lái)跟蹤流感的爆發(fā),。他們主要基于用戶發(fā)布信息中的關(guān)鍵詞,,例如“我頭痛”等,并結(jié)合用戶的發(fā)布地點(diǎn),,按區(qū)域與英國(guó)衛(wèi)生部的官方數(shù)據(jù)進(jìn)行了比較,,最終建立起一個(gè)預(yù)測(cè)模型。創(chuàng)業(yè)團(tuán)隊(duì)“SickWeather”甚至以預(yù)測(cè)疾病為主題開(kāi)展了自己的創(chuàng)業(yè)項(xiàng)目,。
象這樣的大數(shù)據(jù)經(jīng)典案例還有不少,,而整個(gè)商業(yè)社會(huì)對(duì)大數(shù)據(jù)將帶來(lái)的影響給出了極高的評(píng)價(jià)——
麥肯錫全球研究機(jī)構(gòu)在2011年5月發(fā)布的《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》中表示,,充分利用大數(shù)據(jù)可幫助全球個(gè)人定位服務(wù)提供商增加1000億美元收入,、幫助歐洲公共部門(mén)的管理每年提升2500億美元產(chǎn)值、幫助美國(guó)醫(yī)療保健行業(yè)每年提升3000億美元產(chǎn)值,并可幫助美國(guó)零售業(yè)獲得60%以上的凈利潤(rùn)增長(zhǎng),。
在今年年初的瑞士達(dá)沃斯論壇上,,一份題為《大數(shù)據(jù),大影響》(Big Data,,Big Impact)的報(bào)告宣稱,,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類(lèi)別,就像貨幣或黃金一樣,。
而《華爾街日?qǐng)?bào)》在文章《科技變革即將引領(lǐng)新的經(jīng)濟(jì)繁榮》中更是大膽預(yù)測(cè):“我們?cè)俅翁幱谌龍?chǎng)宏大技術(shù)變革的開(kāi)端,,他們可能足以匹敵20世紀(jì)的那場(chǎng)變革,,這三場(chǎng)變革的震中都在美國(guó),,他們分別是大數(shù)據(jù)、智能制造和無(wú)線網(wǎng)絡(luò)革命,。”
更加值得關(guān)注的則是,,美國(guó)已經(jīng)把大數(shù)據(jù)上升到了國(guó)家戰(zhàn)略的層面。根據(jù)美國(guó)白宮今年3月29日新聞,,奧巴馬政府宣布投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,,希望增強(qiáng)收集海量數(shù)據(jù)、分析萃取信息的能力,。
在我國(guó),,大數(shù)據(jù)作為一個(gè)較新的概念,目前尚未直接以專有名詞被我國(guó)政府提出來(lái)給予政策支持。不過(guò),在2012年12月8日工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃上,,信息處理技術(shù)作為四項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一已經(jīng)被提出來(lái),,其中包括了海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘,、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。而另外三項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程,,包括信息感知技術(shù)、信息傳輸技術(shù),、信息安全技術(shù),,也都與大數(shù)據(jù)密切相關(guān)。
大數(shù)據(jù)的價(jià)值和重要性已經(jīng)毋庸置疑,,但大數(shù)據(jù)究竟帶來(lái)了哪些新的技術(shù)趨勢(shì),,它對(duì)當(dāng)前IT產(chǎn)業(yè)的勢(shì)力格局會(huì)造成何種影響,更關(guān)鍵的是,,每個(gè)企業(yè)如何才能獲取大數(shù)據(jù)中的“寶藏”?則是我們真正關(guān)注的焦點(diǎn),。
淘金的工具、流程與方法
作為一門(mén)新興科學(xué),大數(shù)據(jù)帶來(lái)新的挑戰(zhàn)的同時(shí),,催生了許多新的技術(shù)和趨勢(shì),。
“現(xiàn)有的軟件和工具主要適用于以結(jié)構(gòu)化數(shù)據(jù)為主的傳統(tǒng)數(shù)據(jù),要想及時(shí)捕捉,、存儲(chǔ),、聚合和管理這些大數(shù)據(jù),以及對(duì)數(shù)據(jù)進(jìn)行深度分析和挖掘,,我們不得不需要新的技術(shù)和能力,。”英特爾亞太研發(fā)有限公司總經(jīng)理何京翔說(shuō)。
英特爾亞太研發(fā)有限公司總經(jīng)理 何京翔
這些新技術(shù)包括分布式緩存,、基于MPP(海量并行處理)的分布式數(shù)據(jù)庫(kù),、分布式文件系統(tǒng)、各種NoSQL分布式存儲(chǔ)方案等,,而其中最炙手可熱的新技術(shù)就是Hadoop,。
Hadoop主要由HDFS、MapReduce和Hbase組成,。 它是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),,由Apache基金會(huì)開(kāi)發(fā),用戶可以在不了解分布式底層細(xì)節(jié)的情況下開(kāi)發(fā)分布式程序,。簡(jiǎn)單地說(shuō)來(lái),,Hadoop是一套開(kāi)源的、基礎(chǔ)是Java的,、能夠讓數(shù)千臺(tái)x86服務(wù)器組成一個(gè)穩(wěn)定的,、強(qiáng)大的集群,對(duì)Pb級(jí)別的大數(shù)據(jù)進(jìn)行存儲(chǔ),、計(jì)算的軟件平臺(tái),。谷歌、雅虎,、亞馬遜,、Facebook,以及國(guó)內(nèi)的淘寶,、百度等都采用了Hadoop技術(shù)來(lái)處理海量數(shù)據(jù),。
盡管Hadoop是開(kāi)源軟件,但英特爾,、IBM,、Cloudera等廠商都推出他們各自的Hadoop特別發(fā)行版本。這些特別發(fā)行版本一般都會(huì)有一些附加特性,,比如高級(jí)管理工具及相關(guān)的支持維護(hù)服務(wù),,主要適合企業(yè)用戶,。畢竟絕大多數(shù)企業(yè)用戶都和互聯(lián)網(wǎng)公司一樣具有強(qiáng)大的技術(shù)實(shí)力,采用具有商業(yè)支持的開(kāi)源Hadoop技術(shù)能夠快速切入到大數(shù)據(jù)應(yīng)用中去,。民生證券技術(shù)總監(jiān)顏陽(yáng)就特別強(qiáng)調(diào):“做大數(shù)據(jù)的分析與應(yīng)用,,全靠企業(yè)自身的話還是很有難度,也不見(jiàn)得是最省事的方式,,而且最核心最有價(jià)值的工作其實(shí)是建立分析模型,。因此,我建議企業(yè)用戶在大數(shù)據(jù)平臺(tái)建設(shè)上借助商用的大數(shù)據(jù)解決方案或有商業(yè)支持的開(kāi)源技術(shù),,從而將更多的精力投入在商業(yè)模式上,。”
民生證券技術(shù)總監(jiān) 顏陽(yáng)
在大數(shù)據(jù)的具體處理流程上,人文科技創(chuàng)始人吳朱華表示:“大數(shù)據(jù)的處理流程一般包括采集,、導(dǎo)入,、分析、挖掘四個(gè)階段,,每個(gè)階段都有許多挑戰(zhàn),。”
人文科技創(chuàng)始人 吳朱華
例如,,在采集來(lái)自各種客戶端(Web,、App或者傳感器形式等)的數(shù)據(jù)的階段里,最大挑戰(zhàn)在于并發(fā)數(shù)高,,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶來(lái)進(jìn)行訪問(wèn)和操作(比如火車(chē)票售票網(wǎng)站和淘寶),,所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐。
采集完數(shù)據(jù)后,,還要將數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),,或者分布式存儲(chǔ)集群,并在此基礎(chǔ)上做一些簡(jiǎn)單的清洗和預(yù)處理工作,。“導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別,。”吳朱華說(shuō),。
接下來(lái)主要是利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類(lèi)匯總等,,以滿足大多數(shù)常見(jiàn)的分析需求,。其中,對(duì)半結(jié)構(gòu)化,、非結(jié)構(gòu)化數(shù)據(jù)的處理與分析就是Hadoop大顯身手的時(shí)候了,。但這一階段由于涉及的數(shù)據(jù)量大,對(duì)系統(tǒng)資源,,尤其是I/O資源的消耗量會(huì)很大,。
最后數(shù)據(jù)挖掘階段就涉及到各種算法與模型了,。由于用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量都很大,,對(duì)底層計(jì)算資源的要求將比較高,。
“從大數(shù)據(jù)處理流程就可以看出,我們需要為大規(guī)模分布式數(shù)據(jù)密集型作業(yè)而設(shè)計(jì)的計(jì)算系統(tǒng),,需要經(jīng)濟(jì)高效智能的存儲(chǔ),,需要可快速導(dǎo)入大型數(shù)據(jù)集然后復(fù)制到各節(jié)點(diǎn)進(jìn)行處理的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,需要保護(hù)高度分布式基礎(chǔ)設(shè)施和數(shù)據(jù)的安全能力,,以及那些擁有統(tǒng)計(jì)數(shù)據(jù),、算法、數(shù)據(jù)挖掘和可視化技術(shù)識(shí)別機(jī)會(huì)的專家團(tuán)隊(duì),??傊髷?shù)據(jù)是一個(gè)端到端的全面解決方案,,涉及到服務(wù)器,、存儲(chǔ)、網(wǎng)絡(luò),、軟件等各個(gè)環(huán)節(jié),。”何京翔說(shuō)。
當(dāng)談到如何著手大數(shù)據(jù)應(yīng)用實(shí)踐時(shí),,吳朱華建議企業(yè)用戶要找準(zhǔn)切入點(diǎn),。最好是找到一個(gè)技術(shù)難度小,并且有一定的商業(yè)價(jià)值的場(chǎng)景來(lái)做大數(shù)據(jù)技術(shù)落地的試點(diǎn),,并不斷地進(jìn)行測(cè)試和迭代來(lái)驗(yàn)證,,而不是一味求復(fù)雜、求大,,這樣比較容易說(shuō)服企業(yè)管理層來(lái)進(jìn)行長(zhǎng)期的投入和支持,。
此外,他還強(qiáng)調(diào):“盡量不要走平臺(tái)思路,,應(yīng)以具體的應(yīng)用和場(chǎng)景為主,。因?yàn)榻ㄒ粋€(gè)平臺(tái)有很多附加的成本和設(shè)計(jì),例如,,亞馬遜的云平臺(tái)是通過(guò)至少五年時(shí)間構(gòu)建而成,。特別是項(xiàng)目初期,不建議走平臺(tái)這個(gè)方向,,而是應(yīng)腳踏實(shí)地以具體的商業(yè)場(chǎng)景為主,。”
關(guān)鍵趨勢(shì):企業(yè)級(jí)市場(chǎng)積蓄大數(shù)據(jù)商機(jī)
無(wú)論是國(guó)內(nèi)還是國(guó)外,對(duì)大數(shù)據(jù)展開(kāi)率先研究與應(yīng)用都是互聯(lián)網(wǎng)公司,,因?yàn)榛ヂ?lián)網(wǎng)公司最先面臨來(lái)自海量,、多樣化的數(shù)據(jù)的壓力,。但是,IDC中國(guó)企業(yè)級(jí)系統(tǒng)與軟件研究部高級(jí)研究經(jīng)理周震剛表示,,大數(shù)據(jù)的一個(gè)重要趨勢(shì)就是,,由網(wǎng)絡(luò)處理走向企業(yè)級(jí)應(yīng)用。
IDC中國(guó)企業(yè)級(jí)系統(tǒng)與軟件研究部高級(jí)研究經(jīng)理 周震剛
“未來(lái)幾年,,我們將看到大數(shù)據(jù)應(yīng)用將從互聯(lián)網(wǎng)逐漸向更多的行業(yè)發(fā)展,,所以未來(lái)對(duì)基于數(shù)據(jù)流的監(jiān)測(cè)和分析將有更多的需求。”周震剛說(shuō),。例如,,電信運(yùn)營(yíng)商利用大數(shù)據(jù)技術(shù)對(duì)用戶的行為習(xí)慣進(jìn)行分析,就能更有針對(duì)性地制訂市場(chǎng)營(yíng)銷(xiāo)計(jì)劃或開(kāi)發(fā)出更多全新的商業(yè)模式和服務(wù);金融行業(yè)能借該技術(shù)更快速地分析在金融機(jī)構(gòu)之間交換的營(yíng)銷(xiāo)與交易數(shù)據(jù),,以確保交易的安全可靠和防欺詐;智能城市及物聯(lián)網(wǎng)領(lǐng)域則可借大數(shù)據(jù)技術(shù)更快實(shí)現(xiàn)智能交通監(jiān)控,、智能公共安全、氣象和污染變化的智能監(jiān)控及預(yù)測(cè)等應(yīng)用,。
事實(shí)上,,大數(shù)據(jù)向企業(yè)級(jí)應(yīng)用的遷移趨勢(shì)已經(jīng)初步顯示。例如,,中國(guó)東方航空信息部總經(jīng)理嚴(yán)振紅告訴記者,,他們已經(jīng)密切關(guān)注大數(shù)據(jù),正在做一些研究性工作;民生證券早已于去年開(kāi)始了實(shí)驗(yàn)性質(zhì)的大數(shù)據(jù)應(yīng)用研發(fā);而中國(guó)聯(lián)通則是非互聯(lián)網(wǎng)用戶中走得比較超前的兩家企業(yè),。
據(jù)中國(guó)聯(lián)通研究院副院長(zhǎng)黃文良介紹,,由于此前難以向用戶提供上網(wǎng)記錄查詢服務(wù),,中國(guó)聯(lián)通曾一度為3G服務(wù)客戶數(shù)據(jù)流量所引發(fā)的計(jì)費(fèi)爭(zhēng)議所困擾,,而通過(guò)采用基于至強(qiáng)平臺(tái)及英特爾發(fā)行版Hadoop的大數(shù)據(jù)解決方案,中國(guó)聯(lián)通目前已在移動(dòng)通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)的建設(shè)上獲得了重要進(jìn)展,。這也是電信行業(yè)首次將Hadoop/HBase引入商用電信服務(wù)系統(tǒng)建設(shè)中,。
“這一系統(tǒng)可為我們的客戶服務(wù)人員提供客戶上網(wǎng)記錄的快速查詢服務(wù),或?yàn)榭蛻舯救颂峁└咝У漠惓4罅髁可暇W(wǎng)記錄自助查詢服務(wù),,這將有助于解決流量投訴問(wèn)題,,”黃文良表示:“未來(lái)該系統(tǒng)還有望幫助我們更為準(zhǔn)確地把握用戶偏好,從而讓我們能更有效地制定市場(chǎng)策略和開(kāi)發(fā)新業(yè)務(wù),。”
中國(guó)聯(lián)通研究院副院長(zhǎng) 黃文良
隨著大數(shù)據(jù)向企業(yè)級(jí)應(yīng)用的深層次滲透,,周震剛表示還將可能帶來(lái)兩大新的變化。
一是大數(shù)據(jù)將創(chuàng)造細(xì)分的市場(chǎng),。數(shù)據(jù)分析,、數(shù)據(jù)代理將可能作為一種服務(wù)出現(xiàn),專門(mén)面向數(shù)據(jù)分析人才培訓(xùn)的市場(chǎng)也會(huì)隨之火爆,。當(dāng)然,,肯定還有一些目前無(wú)法想象的細(xì)分市場(chǎng)涌現(xiàn)出來(lái),。
二是將可能出現(xiàn)打包的大數(shù)據(jù)行業(yè)應(yīng)用。“從傳統(tǒng)概念來(lái)講,,大數(shù)據(jù)太復(fù)雜了,,無(wú)法形成打包好的分析應(yīng)用,但是在未來(lái)幾年中,,某一個(gè)行業(yè)的應(yīng)用會(huì)形成一定的共性,,將會(huì)有廠商根據(jù)行業(yè)的分析應(yīng)用,打包好一些分析的應(yīng)用,,然后將基于大數(shù)據(jù)的分析應(yīng)用推廣到行業(yè)方面,,這不僅需要做數(shù)據(jù)分析的專長(zhǎng),也需要很多行業(yè)方面的專業(yè)知識(shí),,將會(huì)有很多行業(yè)的ISV加入到大數(shù)據(jù)行列中,,基于大數(shù)據(jù)平臺(tái)開(kāi)展他們的大數(shù)據(jù)分析應(yīng)用。” 周震剛說(shuō),。
事實(shí)上,,有些動(dòng)作敏捷的IT公司已經(jīng)開(kāi)始與一些專注于特定行業(yè)需求的本地系統(tǒng)集成商協(xié)作,開(kāi)始構(gòu)建專為相關(guān)行業(yè)應(yīng)用優(yōu)化的大數(shù)據(jù)解決方案,。例如,,英特爾正在支持2011年奪得全世界視頻監(jiān)控產(chǎn)品市場(chǎng)份額第一,并在全球安防領(lǐng)域內(nèi)擁有最大規(guī)模研發(fā)中心的??低?,去開(kāi)發(fā)和推廣基于至強(qiáng)平臺(tái)和英特爾發(fā)行版Hadoop的大數(shù)據(jù)處理方案,以滿足平安城市和智能交通應(yīng)用對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效處理的要求,。
總之言之,,大數(shù)據(jù)市場(chǎng)正在積蓄無(wú)限商機(jī)。根據(jù)IDC的預(yù)測(cè),,到2015年,,全球大數(shù)據(jù)市場(chǎng)規(guī)模將從2012年的20億美元增長(zhǎng)至160億美元。無(wú)疑,,企業(yè)級(jí)市場(chǎng)將對(duì)此增長(zhǎng)貢獻(xiàn)良多,。
征戰(zhàn)新藍(lán)海 IT廠商布局忙
擁有廣闊市場(chǎng)發(fā)展前景的大數(shù)據(jù)儼然成了一眾IT廠商心中的新藍(lán)海,IT廠商們?cè)缫验_(kāi)始為此排兵布陣,。他們或發(fā)布戰(zhàn)略,、或推出產(chǎn)品,各種合作,、收購(gòu)動(dòng)作頻頻,,著實(shí)熱鬧。
例如,,2010年IBM收購(gòu)了數(shù)據(jù)分析公司Netezza,,并在去年5月推出了InfoSphere BigInsights軟件(該軟件包包括Apache Hadoop發(fā)行版);惠普不僅將Vertica攬入懷中,,還重金收購(gòu)了對(duì)Autonomy,并于今年推出了與Vertica 6實(shí)現(xiàn)高級(jí)集成了的大數(shù)據(jù)應(yīng)用平臺(tái)HP AppSystem for Apache Hadoop;EMC自收購(gòu)Greenplum后,,很快發(fā)布支持大數(shù)據(jù)分析的下一代EMC Greenplum統(tǒng)一分析平臺(tái);甲骨文則通過(guò)NoSQL數(shù)據(jù)庫(kù)和Big Data Appliance(大數(shù)據(jù)機(jī))讓客戶直接擁有處理非結(jié)構(gòu)化海量數(shù)據(jù)的能力;而HANA則讓SAP享有風(fēng)光無(wú)限;戴爾選擇聯(lián)手Cloudera躋身Hadoop陣營(yíng);微軟已推出了基于Azure云平臺(tái)的Hadoop服務(wù);就連傳統(tǒng)芯片廠商英特爾也宣布,,不僅繼續(xù)打造的高效IT基礎(chǔ)設(shè)施,還推出了針對(duì)英特爾平臺(tái)優(yōu)化的Hadoop產(chǎn)品和服務(wù),。
市場(chǎng)研究Wikibon認(rèn)為,,得益于深厚的積累,IBM,、英特爾這些老牌勁旅目前還是占據(jù)了優(yōu)勢(shì)地位,。根據(jù)該公司的調(diào)研報(bào)告,IBM所占有的大數(shù)據(jù)市場(chǎng)份額最大,,總價(jià)值約10億美元,,英特爾的大數(shù)據(jù)運(yùn)營(yíng)收入為7.65億美元,惠普則位列第三,,分得5.5億美元,。
此外,Cloudera,、Splunk ,、Clustrix、1010data等一些新興的大數(shù)據(jù)企業(yè)異軍突起,,它們力爭(zhēng)在未來(lái)龐大的市場(chǎng)需求中打拼出自己的創(chuàng)新空間,。不過(guò),令人較為遺憾的是,,國(guó)內(nèi)類(lèi)似的大數(shù)據(jù)創(chuàng)新企業(yè)還比較少,,希望這一局面能夠盡早得以改變。
文章最后,,請(qǐng)容許筆者引用戴爾服務(wù)部首席創(chuàng)新官James Stikeleather的一句話寄語(yǔ)已經(jīng)蒞臨的大數(shù)據(jù):“對(duì)于一項(xiàng)新技術(shù),,人們總?cè)菀赘吖浪亩唐谟绊懀值凸浪拈L(zhǎng)期效益,。”
【表】IDC全球大數(shù)據(jù)市場(chǎng)規(guī)模與預(yù)測(cè) 2012~2015
【IDC對(duì)大數(shù)據(jù)的十大預(yù)測(cè)】
1. Hadoop邁向商業(yè)化
2. 部分早期的Hadoop項(xiàng)目面臨挑戰(zhàn)
3. 開(kāi)源軟件帶來(lái)更多相關(guān)市場(chǎng)機(jī)會(huì)
4. 大數(shù)據(jù)推動(dòng)軟件公司間的并購(gòu)
5. 針對(duì)大數(shù)據(jù)的應(yīng)用市場(chǎng)迅速增長(zhǎng)
6. 大數(shù)據(jù)由網(wǎng)絡(luò)處理走向企業(yè)級(jí)應(yīng)用
7. 大數(shù)據(jù)創(chuàng)造新的細(xì)分市場(chǎng)
8. 打包的大數(shù)據(jù)行業(yè)分析應(yīng)用出現(xiàn)
9. 大數(shù)據(jù)推動(dòng)基礎(chǔ)架構(gòu)向Scale-Out發(fā)展
10. 中國(guó)成為全球最重要的大數(shù)據(jù)市場(chǎng)之一
【關(guān)于Hadoop,你應(yīng)該知道的8個(gè)事實(shí)】
事實(shí)1:Hadoop是由多個(gè)產(chǎn)品組成的,。
人們?cè)谡務(wù)揌adoop的時(shí)候,,常常把它當(dāng)做單一產(chǎn)品來(lái)看待,但事實(shí)上它由多個(gè)不同的開(kāi)源產(chǎn)品共同組成,,這些產(chǎn)品都是Apache軟件基金會(huì)的項(xiàng)目,。
事實(shí)2:Apache Hadoop是開(kāi)源技術(shù),但專有廠商也提供Hadoop產(chǎn)品,。
由于Hadoop屬于開(kāi)源技術(shù),,可免費(fèi)下載,,所以英特爾、IBM,、Cloudera等廠商都可以推出他們各自的Hadoop特別發(fā)行版本,。這些特別發(fā)行版本一般都會(huì)有一些附加特性,比如高級(jí)管理工具及相關(guān)的支持維護(hù)服務(wù),,特別適合企業(yè)用戶,。
事實(shí)3:Hadoop是一個(gè)生態(tài)系統(tǒng),而非一個(gè)產(chǎn)品,。
Hadoop是由開(kāi)源社區(qū)和各個(gè)廠商共同開(kāi)發(fā)和推動(dòng)的,。具體說(shuō)來(lái),廠商的Hadoop產(chǎn)品的結(jié)構(gòu)化和關(guān)系性更強(qiáng)一些,。
事實(shí)4:HDFS是文件系統(tǒng),,而不是數(shù)據(jù)庫(kù)管理系統(tǒng)。
經(jīng)常有人把二者混為一談,,但其實(shí)并非如此,,能夠?qū)?shù)據(jù)集進(jìn)行管理是數(shù)據(jù)管理系統(tǒng)很重要的特性之一,這一點(diǎn)HDFS是不具備的,。而且,,在數(shù)據(jù)庫(kù)管理系統(tǒng)中,我們通過(guò)查詢索引可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的隨機(jī)訪問(wèn),,它往往處理的是結(jié)構(gòu)化的數(shù)據(jù),,而在Hadoop中不會(huì)處理這樣的數(shù)據(jù)類(lèi)型。
事實(shí)5:Hadoop的意義不僅僅在于數(shù)據(jù)量,,更在于數(shù)據(jù)的多樣化,。
有人把Hadoop歸類(lèi)為海量數(shù)據(jù)處理技術(shù),但是Hadoop真正的價(jià)值卻是對(duì)多樣化數(shù)據(jù)(主要指半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù))處理的能力,。
事實(shí)6:Hadoop是數(shù)據(jù)倉(cāng)庫(kù)的補(bǔ)充,,不是數(shù)據(jù)倉(cāng)庫(kù)的替代品。
Hadoop對(duì)多樣化數(shù)據(jù)類(lèi)型進(jìn)行管理的能力使得“數(shù)據(jù)倉(cāng)庫(kù)將死”的言論四起,,但其實(shí)并非如此,,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)在其領(lǐng)域中的性能仍然出色,Hadoop對(duì)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是補(bǔ)充的作用,。
事實(shí)7:大數(shù)據(jù)不一定非Hadoop不可,。
別看現(xiàn)在大數(shù)據(jù)和Hadoop已經(jīng)密不可分,但Hadoop并不是大數(shù)據(jù)的“唯一”,。許多其他廠商的產(chǎn)品,,如Teradata、Sybase IQ(被SAP收購(gòu))和Vertica(被惠普收購(gòu))等都適用于大數(shù)據(jù)分析。
事實(shí)8:Hadoop不是“免費(fèi)午餐”,。
雖然Hadoop屬于開(kāi)源技術(shù),,但其實(shí)有許多隱形開(kāi)銷(xiāo)。由于Hadoop在管理工具與支持服務(wù)方面的不足,,企業(yè)在使用過(guò)程中很容易產(chǎn)生額外費(fèi)用,。另外,由于它沒(méi)有優(yōu)化程序,,企業(yè)用戶只能請(qǐng)專業(yè)人士在運(yùn)行環(huán)境中手寫(xiě)輸入代碼,,而這些專業(yè)人士的薪酬價(jià)碼都不菲,更不用提部署Hadoop集群的硬件及相關(guān)配置的成本,。
此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。