《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 業(yè)界動態(tài) > 從大數(shù)據(jù)的風(fēng)水圖來看大數(shù)據(jù)是怎么回事

從大數(shù)據(jù)的風(fēng)水圖來看大數(shù)據(jù)是怎么回事

2016-02-29

  技術(shù)型的高科技創(chuàng)業(yè)公司都是喜歡閃閃發(fā)光的新東西,而“大數(shù)據(jù)”跟3年前火熱程度相比反而有些凄慘,。雖然Hadoop創(chuàng)建于2006年,,在“大數(shù)據(jù)”的概念興起到達(dá)白熱化是在2011年至2014年期間,當(dāng)時在媒體和行業(yè)面前,大數(shù)據(jù)就是“黑金石油”。但是現(xiàn)在有了某種高原感。 2015年數(shù)據(jù)世界中時尚年輕人喜歡轉(zhuǎn)移到AI的相關(guān)概念,,他們口味變成:機(jī)器智能,深度學(xué)習(xí)等,。

  除了不可避免的炒作周期,,我們第四次年度“大數(shù)據(jù)風(fēng)水圖”,回顧過去一年發(fā)生的事情,,思考這個行業(yè)的未來機(jī)會,。

081109637528.jpg

  企業(yè)級技術(shù) = 艱苦的工作

  其實大數(shù)據(jù)有趣的是它不是直接可以炒作的東西。

  能夠獲得廣泛興趣的產(chǎn)品和服務(wù)往往是那些人們可以觸摸和感受到的,,比如:移動應(yīng)用,,社交網(wǎng)絡(luò),可穿戴設(shè)備,,虛擬現(xiàn)實等,。

  但大數(shù)據(jù),從根本上說是“管道”,。當(dāng)然,,大數(shù)據(jù)支持許多消費者或企業(yè)用戶體驗,但其核心是企業(yè)的技術(shù):數(shù)據(jù)庫,,分析等:而這后面幾乎沒人能看到東西運(yùn)行,。

  而且如果大家真正工作過的都知道,在企業(yè)中改造新技術(shù)并不大可能在一夜之間發(fā)生,。

  早年的大數(shù)據(jù)是在大型互聯(lián)網(wǎng)公司中(特別是谷歌,,雅虎,,F(xiàn)acebook,Twitter,,LinkedIn等),,它們重度使用和推動大數(shù)據(jù)技術(shù)。這些公司突然面臨著前所未有的數(shù)據(jù)量,,沒有以前的基礎(chǔ)設(shè)施,,并能招到一些最好的工程師,,所以他們基本上是從零開始搭建他們所需要的技術(shù),。開源的風(fēng)氣迅速蔓延,大量的新技術(shù)與更廣闊的世界共享,。隨著時間推移,,其中一些工程師離開了大型網(wǎng)絡(luò)公司,開始自己的大數(shù)據(jù)初創(chuàng)公司,。其他的“數(shù)字原生”的公司,,其中包括許多獨角獸,開始面臨跟大型互聯(lián)網(wǎng)公司同樣需求,,無論有沒有基礎(chǔ)設(shè)施,,它們都是這些大數(shù)據(jù)技術(shù)的早期采用者。而早期的成功導(dǎo)致更多的創(chuàng)業(yè)和風(fēng)險投資,。

  現(xiàn)在一晃幾年了,,我們現(xiàn)在是有大得多而棘手的機(jī)會:數(shù)據(jù)技術(shù)通過更廣泛從中型企業(yè)到非常大的跨國公司。不同的是“數(shù)字原生”的公司,,不必從頭開始做,。他們也有很多損失:在絕大多數(shù)的公司,現(xiàn)有的技術(shù)基礎(chǔ)設(shè)施“夠用”,。這些組織也明白,,宜早不宜遲需要進(jìn)化,但他們不會一夜之間淘汰并更換關(guān)鍵任務(wù)的系統(tǒng),。任何發(fā)展都需要過程,,預(yù)算,項目管理,,導(dǎo)航,,部門部署,全面的安全審計等,。大型企業(yè)會小心謹(jǐn)慎地讓年輕的創(chuàng)業(yè)公司處理他們的基礎(chǔ)設(shè)施的關(guān)鍵部分,。而且,一些(大多數(shù),?)企業(yè)家壓根不想把他們的數(shù)據(jù)遷移到云中,,至少不是公有云,。

1013221245.png

  從另一個關(guān)鍵點大家就明白了:大數(shù)據(jù)的成功是不是實現(xiàn)一小片技術(shù)(如Hadoop的或其他任何東西),而是需要放在一起的技術(shù),,人員,,流程的流水線。你需要采集數(shù)據(jù),,存儲數(shù)據(jù),,清理數(shù)據(jù),查詢數(shù)據(jù),,分析數(shù)據(jù),,可視化數(shù)據(jù)。這將由產(chǎn)品來完成,,有些由人力來完成,。一切都需要無縫集成。歸根結(jié)底,,對于這一切工作,,整個公司,從高級管理人員開始,,需要致力于建立一個數(shù)據(jù)驅(qū)動的文化,,大數(shù)據(jù)不是小事,而是全局的事,。

  換句話說:這是大量艱苦的工作,。

  部署階段

  以上解釋了為什么幾年后,雖然很多高調(diào)的創(chuàng)業(yè)公司上線也拿到引人注目的風(fēng)險投資,,但只是到達(dá)大數(shù)據(jù)部署和早期成熟階段,。

  更有遠(yuǎn)見的大公司(稱他們?yōu)椤皣L鮮者”在傳統(tǒng)的技術(shù)采用周期),在2011 - 2013年開始早期實驗大數(shù)據(jù)技術(shù),,推出Hadoop系統(tǒng),,或嘗試單點解決方案。他們招聘了形形色色的人,,可能工作頭銜以前不存在(如“數(shù)據(jù)科學(xué)家”或“首席數(shù)據(jù)官”),。他們通過各種努力,包括在一個中央儲存庫或“數(shù)據(jù)湖”傾倒所有的數(shù)據(jù),,有時希望魔術(shù)隨之而來(通常沒有),。他們逐步建立內(nèi)部競爭力,與不同廠商嘗試,,部署到線上,,討論在企業(yè)范圍內(nèi)實施推廣。在許多情況下,,他們不知道下一個重要的拐點在哪里,,經(jīng)過幾年建設(shè)大數(shù)據(jù)基礎(chǔ)架構(gòu),,從他們公司業(yè)務(wù)用戶的角度來看,也沒有那么多東西去顯示它,。但很多吃力不討好的工作已經(jīng)完成,,而部署在核心架構(gòu)之上的應(yīng)用程序又要開始做了。

  下一組的大公司(稱他們?yōu)椤霸缙诖蟊姟痹趥鹘y(tǒng)的技術(shù)采用周期)一直呆在場邊,,還在迷惑的望著這整個大數(shù)據(jù)這玩意,。直到最近,他們希望大供應(yīng)商(例如IBM)提供一個一站式的解決方案,,但它們知道不會很快出現(xiàn),。他們看大數(shù)據(jù)全局圖很恐怖,就真的想知道是否要跟那些經(jīng)常發(fā)音相同,,也就湊齊解決方案的創(chuàng)業(yè)公司一起做,。他們試圖弄清楚他們是否應(yīng)該按順序并逐步工作,,首先構(gòu)建基礎(chǔ)設(shè)施,,然后再分析應(yīng)用層,或在同一時間做所有的,,還是等到更容易做的東西出現(xiàn),。

  生態(tài)系統(tǒng)正在走向成熟

  同時,創(chuàng)業(yè)公司/供應(yīng)商方面,,大數(shù)據(jù)公司整體第一波(那些成立于2009年至2013)現(xiàn)在已經(jīng)融資多輪,,擴(kuò)大他們的規(guī)模,積累了早期部署的成功與失敗教訓(xùn),,也提供更成熟,,久經(jīng)考驗的產(chǎn)品。現(xiàn)在有少數(shù)是上市公司(包括HortonWorks和New Relic 它們的IPO在2014年12月),,而其他(Cloudera,,MongoDB的,等等)都融了數(shù)億美元,。

  VC投資仍然充滿活力,,2016年前幾個星期看到一些巨額融資的晚期大數(shù)據(jù)初創(chuàng)公司:DataDog(9400萬),BloomReach(5600萬),,Qubole(3000萬),, PlaceIQ( 2500萬)這些大數(shù)據(jù)初創(chuàng)公司在2015年收到的$ 66.4億創(chuàng)業(yè)投資,占高科技投資總額的11%,。

  隨創(chuàng)業(yè)活動和資金的持續(xù)涌入,,有些不錯的資本退出,日益活躍的高科技巨頭(亞馬遜,,谷歌和IBM),,公司數(shù)量不斷增加,,這里就是2016年大數(shù)據(jù)全景圖:

  很顯然這里密密麻麻很多公司,從基本走勢方面,,動態(tài)的(創(chuàng)新,,推出新的產(chǎn)品和公司)已逐漸從左向右移動,從基礎(chǔ)設(shè)施層(開發(fā)人員/工程師)到分析層(數(shù)據(jù)科學(xué)家和分析師的世界)到應(yīng)用層(商業(yè)用戶和消費者),,其中“大數(shù)據(jù)的本地應(yīng)用程序”已經(jīng)迅速崛起- 這是我們預(yù)計的格局,。

  大數(shù)據(jù)基礎(chǔ)架構(gòu):創(chuàng)新仍然有很多

  正是因為谷歌十年前的MapReduce和BigTable的論文,Doug Cutting,, Mike Cafarella開發(fā) 創(chuàng)建Hadoop的,,所以大數(shù)據(jù)的基礎(chǔ)架構(gòu)層成熟了,也解決了一些關(guān)鍵問題,。

  而基礎(chǔ)設(shè)施領(lǐng)域的不斷創(chuàng)新蓬勃發(fā)展還是通過大量的開源活動,。

  2015年毫無疑問是Apache Spark最火的一年,這是一個開源框架,,利用內(nèi)存中做處理,。這開始得到了不少爭論,從我們發(fā)布了前一版本以來,,Spark被各個對手采納,,從IBM到Cloudera都給它相當(dāng)?shù)闹С帧?Spark的意義在于它有效地解決了一些使用Hadoop很慢的關(guān)鍵問題:它的速度要快得多(基準(zhǔn)測試表明:Spark比Hadoop的MapReduce的快10到100倍),更容易編寫,,并非常適用于機(jī)器學(xué)習(xí),。

  其他令人興奮的框架的不斷涌現(xiàn),并獲得新的動力,,如Flink,,Ignite,Samza,,Kudu等,。一些思想領(lǐng)袖認(rèn)為Mesos的出現(xiàn)(一個框架以“對你的數(shù)據(jù)中心編程就像是單一的資源池”),不需要完全的Hadoop,。即使是在數(shù)據(jù)庫的世界,,這似乎已經(jīng)看到了更多的新興的玩家讓市場持續(xù),大量令人興奮的事情正在發(fā)生,,從圖形數(shù)據(jù)庫的成熟(Neo4j),,此次推出的專業(yè)數(shù)據(jù)庫(時間序列數(shù)據(jù)庫InfluxDB),CockroachDB,,(受到谷歌Spanner啟發(fā)出現(xiàn),,號稱提供二者最好的SQL和NoSQL),數(shù)據(jù)倉庫演變(Snowflake),。

  大數(shù)據(jù)分析:現(xiàn)在的AI

  在過去幾個月的大趨勢上,,大數(shù)據(jù)分析已經(jīng)越來越注重人工智能(各種形式和接口),,去幫助分析海量數(shù)據(jù),得出預(yù)測的見解,。

  最近AI的復(fù)活就好比大數(shù)據(jù)生的一個孩子,。深度學(xué)習(xí)(獲取了最多的人工智能關(guān)注的領(lǐng)域)背后的算法大部分在幾十年前,但直到他們可以應(yīng)用于代價便宜而速度夠快的大量數(shù)據(jù)來充分發(fā)揮其潛力(Yann LeCun, Facebook深度學(xué)習(xí)研究員主管),。 AI和大數(shù)據(jù)之間的關(guān)系是如此密切,,一些業(yè)內(nèi)專家現(xiàn)在認(rèn)為,AI已經(jīng)遺憾地“愛上了大數(shù)據(jù)”(Geometric Intelligence),。

  反過來,,AI現(xiàn)在正在幫助大數(shù)據(jù)實現(xiàn)承諾。AI /機(jī)器學(xué)習(xí)的分析重點變成大數(shù)據(jù)進(jìn)化邏輯的下一步:現(xiàn)在我有這些數(shù)據(jù),,我該怎么從中提取哪些洞察,?當(dāng)然,這其中的數(shù)據(jù)科學(xué)家們 - 從一開始他們的作用就是實現(xiàn)機(jī)器學(xué)習(xí)和做出有意義的數(shù)據(jù)模型,。但漸漸地機(jī)器智能正在通過獲得數(shù)據(jù)去協(xié)助數(shù)據(jù)科學(xué)家,。新興產(chǎn)品可以提取數(shù)學(xué)公式(Context Relevant)或自動構(gòu)建和建議數(shù)據(jù)的科學(xué)模式,有可能產(chǎn)生最好的結(jié)果(DataRobot),。新的AI公司提供自動完成復(fù)雜的實體的標(biāo)識(MetaMind,,Clarifai,Dextro),,或者提供強(qiáng)大預(yù)測分析(HyperScience)。

  由于無監(jiān)督學(xué)習(xí)的產(chǎn)品傳播和提升,,我們有趣的想知道AI與數(shù)據(jù)科學(xué)家的關(guān)系如何演變 - 朋友還是敵人,? AI是肯定不會在短期內(nèi)很快取代數(shù)據(jù)科學(xué)家,而是希望看到數(shù)據(jù)科學(xué)家通常執(zhí)行的簡單任務(wù)日益自動化,,最后生產(chǎn)率大幅提高,。

  通過一切手段,AI /機(jī)器學(xué)習(xí)不是大數(shù)據(jù)分析的唯一趨勢,。令人興奮的趨勢是大數(shù)據(jù)BI平臺的成熟及其日益增強(qiáng)的實時能力(SiSense,,Arcadia)

  大數(shù)據(jù)應(yīng)用:一個真正的加速度

  由于一些核心基礎(chǔ)架構(gòu)難題都已解決,大數(shù)據(jù)的應(yīng)用層迅速建立,。

  在企業(yè)內(nèi)部,,各種工具已經(jīng)出現(xiàn),以幫助企業(yè)用戶操作核心功能,。例如,,大數(shù)據(jù)通過大量的內(nèi)部和外部的數(shù)據(jù),實時更新數(shù)據(jù),,可以幫助銷售和市場營銷弄清楚哪些客戶最有可能購買,??蛻舴?wù)應(yīng)用可以幫助個性化服務(wù); HR應(yīng)用程序可幫助找出如何吸引和留住最優(yōu)秀的員工;等

  專業(yè)大數(shù)據(jù)應(yīng)用已經(jīng)在幾乎任何垂直領(lǐng)域都很出色,從醫(yī)療保?。ㄌ貏e是在基因組學(xué)和藥物研究),,到財經(jīng)到時尚到司法(Mark43)。

  兩個趨勢值得關(guān)注,。

  首先,,很多這些應(yīng)用都是“大數(shù)據(jù)同鄉(xiāng)”,因為他們本身就是建立在最新的大數(shù)據(jù)技術(shù),,并代表客戶能夠充分利用大數(shù)據(jù)的有效方式,,無需部署底層的大數(shù)據(jù)技術(shù),因為這些已“在一個盒子“,,至少是對于那些特定功能 - 例如,,ActionIQ是建立在Spark上,因此它的客戶可以充分利用他們的營銷部門Spark的權(quán)力,,而無需實際部署Spark自己 - 在這種情況下,,沒有“流水線”。

  第二,,人工智能同樣在應(yīng)用程序級別有強(qiáng)大吸引力,。例如,在貓捉老鼠的游戲,,安全上,,AI被廣泛利用,它可以識別黑客和打擊網(wǎng)絡(luò)攻擊,。 “人工智能”對沖基金也開始出現(xiàn),。全部由AI驅(qū)動數(shù)字助理行業(yè)已經(jīng)去年出現(xiàn),從自動安排會議(x.ai)任務(wù),,到購物為您帶來一切,。這些解決方案依賴人工智能的程度差別很大,從接近100%的自動化,,到個人的能力被AI增強(qiáng) - 但是,,趨勢是明確的。

  結(jié)論

  在許多方面,,我們?nèi)蕴幱诖髷?shù)據(jù)的早期,。盡管它發(fā)展了幾年,建設(shè)存儲和數(shù)據(jù)的過程只是第一階段的基礎(chǔ)設(shè)施,。 AI /機(jī)器學(xué)習(xí)出現(xiàn)在大數(shù)據(jù)的應(yīng)用層的趨勢,。大數(shù)據(jù)和AI的結(jié)合將推動幾乎每一個行業(yè)的創(chuàng)新,這令人難以置信。從這個角度來看,,大數(shù)據(jù)機(jī)會甚至可能比人們認(rèn)為的還大,。

  隨著大數(shù)據(jù)的不斷成熟,這個詞本身可能會消失或者變得過時,,沒有人會使用它了,。它是成功通過技術(shù),變得很普遍,,無處不在,,并最終無形化。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。