新的Hadoop不僅能夠進一步刺激為Hadoop編寫應(yīng)用程序,同時也將在Hadoop內(nèi)創(chuàng)造全新的數(shù)據(jù)處理方法,這在此前的架構(gòu)限制下是根本不可能實現(xiàn)的,。總之,,這是好東西。
一直以來是什么限制著Hadoop的發(fā)展?更重要的是,,Hadoop的未來發(fā)展會是怎樣?
對于Hadoop的各種批評主要圍繞在其擴展限制,,而這里最大的問題是其工作處理。Hadoop中的所有工作都是通過被稱為JobTracker的守護程序進行批處理,,這制造了一個可擴展性和處理速度的瓶頸,。
而在Hadoop 2,,這種JobTracker的方法已經(jīng)消失。Hadoop使用了全新的工作處理框架,,使用兩個守護程序:ResourceManager—管理系統(tǒng)中的所有工作,,以及NodeManager—在每個Hadoop節(jié)點上運行,并讓ResourceManager知道節(jié)點上發(fā)生的情況,。每個正在運行的應(yīng)用程序也有自己的管理程序—ApplicationMaster,。
MapReduce也與之前完全不同,Apache給了它一個全新的名稱:YARN,,或者Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者,,新的MapReduce運行作為其很多可能的組件之一。事實上,,Apache聲稱,,任何分布式應(yīng)用程序都可以在YARN上運行,雖然需要一些移植,。為此,,Apache提供了一份與YARN兼容的應(yīng)用程序列表,例如社會圖標分析系統(tǒng)Apache Giraph(Facebook在使用),。
Apache明智地決定不破壞向后兼容性,,因此,MapReduce 2仍然將采用相同的API,,現(xiàn)有的工作只需要重新編譯就能正常工作,。
YARN讓Hadoop可以與其他Apache項目實現(xiàn)更多的跨平臺兼容性,來處理大數(shù)據(jù),。如果你使用其中一個平臺,,那么使用其他平臺就會變得更加容易。Hadoop的這種改進將幫助推動Apache的其他項目,。
這里最大的改進就是,MapReduce本身成為通過Hadoop挖掘數(shù)據(jù)的很多方式的一種,。Apache自己的Spark(移植到Y(jié)ARN的另一種方式)可能比MapReduce更適合某些類型的工作,,Hadoop 2給了你更多選擇,讓你選擇最合適的引擎,。
兩個大型供應(yīng)商Cloudera和Hortonworks對于YARN的重要性有著共同的看法,,雖然他們從完全不同的方向使用Hadoop。Cloudera的Impala允許對HDFS存儲的數(shù)據(jù)運行低延遲性SQL查詢,,這使其非常適合實時分析;而Hortonworks選擇使用Apache的原生Hive技術(shù),,該技術(shù)非常適合大數(shù)據(jù)倉庫操作(例如有很多連接型操作的長時間運行的查詢)
移植應(yīng)用程序到Y(jié)ARN并不是簡單的工作,Hadoop在這方面帶來的回報將取決于YARN在新框架內(nèi)的部署情況,。Cloudera和Hortonworks都是Hadoop 2的堅實支持者,,他們并沒有轉(zhuǎn)向其他技術(shù)或者堅持上一代技術(shù),,從這一點來看,Hadoop 2并不只是煙霧或者上一代的鏡像,。
本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]。