《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 基于HDFS的云存儲在高校信息資源整合中的應(yīng)用
基于HDFS的云存儲在高校信息資源整合中的應(yīng)用
摘要: 基于HDFS的云存儲是一種動態(tài)可調(diào)整,、基于互聯(lián)網(wǎng)的存儲解決方案,,用戶可以通過通用和易用協(xié)議和應(yīng)用程序接口通過網(wǎng)絡(luò)訪問存儲目標(biāo),這種新技術(shù)對最終用戶來說很有好處,。云存儲可以讓用戶很容易增加存儲容量,,而且不需要購買,、安裝和管理任何存儲基礎(chǔ)設(shè)施,卻提供了一個完善的備份,、容災(zāi)數(shù)據(jù)中心,。云存儲的成本和易用性優(yōu)勢對高校具有很強的吸引力,發(fā)展和應(yīng)用前景廣闊,。
Abstract:
Key words :

    研究如何將基于HDFS的云存儲應(yīng)用于整合高校信息資源,,旨在通過合適的構(gòu)建基于HDFS的云存儲服務(wù)系統(tǒng),解決高校的海量數(shù)據(jù)存儲問題,。通過對概念的解析,,結(jié)合高校信息資源存儲的特點,構(gòu)建了一個低成本,、高效率,、高安全性的分布式信息資源整合解決方案,并給出了系統(tǒng)結(jié)構(gòu)圖,。

   海量的高校信息資源需要整合,,這是當(dāng)前不爭的事實,因為高校信息資源存在著資源分布不均衡,、更新維護(hù)成本高,、共享程度低和安全性差等一系列問題。整合需要解決的首要問題就是信息的合理存儲,,以便實現(xiàn)對其高效,、安全的訪問。與傳統(tǒng)的存儲方式相比,,云存儲很好地解決了這個問題,。

   云存儲(Cloud Storage)是在云計算(Cloud Computing)概念上延伸和發(fā)展出來的一個新的概念,它是指通過集群應(yīng)用,、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,,將網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一個系統(tǒng)。

1 存儲方式的比較

    高可靠性:云存儲實現(xiàn)對信息的分布式存儲,,信息被切分為多個數(shù)據(jù)塊分散存儲在云中的節(jié)點中,,實現(xiàn)了多副本備份機制,因此安全性要遠(yuǎn)高于傳統(tǒng)的單一甚至帶有鏡像服務(wù)器的信息存儲方式,。

    訪問的高效性:云中的控制節(jié)點通過“心跳檢測”不斷地監(jiān)視存儲節(jié)點的狀態(tài),,當(dāng)發(fā)現(xiàn)存儲節(jié)點已經(jīng)失效時,控制節(jié)點能夠?qū)⒐ぷ髫?fù)載交給那些運行正常的存儲節(jié)點來完成,。同時,,由于云中的數(shù)據(jù)是分布式的存儲,,能夠很好地分擔(dān)存儲和訪問的壓力,,這些都使得云存儲具有很高訪問的效率。

    存儲成本低:原先的信息資源的存儲一般使用專業(yè)的存儲設(shè)備,,價格不菲,,使得資源存儲的成本也隨之提高。而云中的存儲設(shè)備都是廉價的商業(yè)機,,跟單一的大容量專業(yè)存儲設(shè)備相比較,,存儲容量更大,存儲成本更低,。

    管理便捷:云存儲能夠在軟件層做到自動容錯而不依賴硬件本身的容錯,,而且將信息資源存儲在云中,有利于對資源進(jìn)行統(tǒng)一的管理,,提高資源的使用率,。

    另外,云存儲還具有超強的可擴展性,、不受具體地理位置所限,、基于商業(yè)組件、按照使用收費(如每G收15美分),、可跨不同應(yīng)用等,。所有這些充分體現(xiàn)了云存儲這種方式的優(yōu)越性。

2 基于HDFS的云存儲

2.1 HDFS的引入

    目前各大公司都有自己的云存儲產(chǎn)品,,如微軟公司的“Windows Live Sky Drive”網(wǎng)絡(luò)移動硬盤服務(wù),、Google公司的“Google Stora ge”的云計算存儲服務(wù)、亞馬遜的Amazon webservices等,。

    在眾多的云存儲產(chǎn)品技術(shù)中,,HDFS技術(shù)可以實施運行在普通的PC集群上,有效降低存儲成本,,該技術(shù)是Google文件系統(tǒng)(GFS)的開源實現(xiàn),,是分布式計算開源框架Hadoop的底層實現(xiàn),,Hadoop是Google集群系統(tǒng)的一個開源項目總稱,Google集群系統(tǒng)是使用低成本的成熟技術(shù)構(gòu)建的一個穩(wěn)定,、高性能,、高可用性、可擴展的系統(tǒng),。Hadoop平臺雖然是一項新興的技術(shù),,但它的發(fā)展非常迅速,已開始被應(yīng)用在企業(yè),、高校,、科研機構(gòu)等各個行業(yè)。文中重點研究HDFS云存儲在高校信息整合中是如何應(yīng)用的,。

2.2 HDFS的理論剖析

    Hadoop文件系統(tǒng)(Hadoop Distributed File System,,HDFS)雖然和現(xiàn)有的文件系統(tǒng)有相似之處,也是可以運行在普通的硬件之上的分布式文件系統(tǒng),,但是HDFS具有高容錯性,,可以部署在低成本的硬件之上,可以以流的方式訪問文件數(shù)據(jù),,從而高吞吐量地對應(yīng)用程序進(jìn)行訪問,,這些還是和一般的文件系統(tǒng)有區(qū)別的。圖1是HDFS體系結(jié)構(gòu)圖,。

HDFS體系結(jié)構(gòu)圖

 

    研究HDFS的體系結(jié)構(gòu)圖可以得知,,名稱節(jié)點上保存這控制數(shù)據(jù)節(jié)點信息的元數(shù)據(jù)??蛻舳丝梢酝ㄟ^名稱節(jié)點對元數(shù)據(jù)進(jìn)行操作,,也可以直接對數(shù)據(jù)節(jié)點進(jìn)行讀寫。HDFS體系結(jié)構(gòu)是個主從結(jié)構(gòu),,這個主從結(jié)構(gòu)常由單個的名稱節(jié)點和多個數(shù)據(jù)節(jié)點組成,,名稱節(jié)點負(fù)責(zé)管理文件命名空間和客戶端訪問的主服務(wù)器,而數(shù)據(jù)節(jié)點則負(fù)責(zé)對存儲進(jìn)行管理,,下面來剖析一下體系結(jié)構(gòu)各部分的功能,。

2.2.1 名稱節(jié)點和數(shù)據(jù)節(jié)點的功能

    名稱節(jié)點的功能包括4個方面:一是管理元數(shù)據(jù)和文件塊:二是管理文件系統(tǒng)的命名空間,包括記錄文件系統(tǒng)元數(shù)據(jù)被修改的情況:三是監(jiān)聽客戶端和數(shù)據(jù)節(jié)點請求和處理這些請求,??蛻舳耸录容^復(fù)雜,比如名字空間的創(chuàng)建與刪除,,文件的創(chuàng)建,、刪除和修改等,數(shù)據(jù)節(jié)點的事件包括文件塊信息變化、心跳響應(yīng)等:四是心跳檢測,。所謂心跳檢測,,就是數(shù)據(jù)節(jié)點會定期將自己的負(fù)載情況通過心跳信息向名稱節(jié)點匯報。

    數(shù)據(jù)節(jié)點的功能包括3個方面:一是通過自身服務(wù)進(jìn)程與文件系統(tǒng)客戶端打交道,,完成數(shù)據(jù)塊的讀寫,;二是周期性的向名稱節(jié)點發(fā)送信號,報告本節(jié)點的狀態(tài),;三是執(zhí)行數(shù)據(jù)的流水線復(fù)制,。

2.2.2 元數(shù)據(jù)和數(shù)據(jù)交互

   HDFS體系結(jié)構(gòu)中有三種類型的元數(shù)據(jù)保存在名稱節(jié)點的內(nèi)存中,分別是:文件(包含目錄)的名字空間,、文件到文件塊的映射,、文件塊的位置信息。這種數(shù)據(jù)結(jié)構(gòu)對于數(shù)據(jù)訪問的效率和安全性都有很大的幫助,。

    HDFS中數(shù)據(jù)的交互無外乎數(shù)據(jù)的讀和寫,,重點設(shè)計的對象就是客戶端、名稱節(jié)點和數(shù)據(jù)節(jié)點,??蛻舳耸紫葟拿Q節(jié)點中讀取對應(yīng)的文件塊信息,,再和數(shù)據(jù)節(jié)點建立連接并獲取數(shù)據(jù),,圖2具體描述了數(shù)據(jù)讀取過程。

數(shù)據(jù)讀取過

 

    HDFS的數(shù)據(jù)寫入過程比讀取過程細(xì)節(jié)上更為復(fù)雜一些,,但是模型圖非常類似,。除了數(shù)據(jù)的讀寫,維護(hù)數(shù)據(jù)的可用性和一致性也是系統(tǒng)最基本的要求和重要的功能,。一般來說,,系統(tǒng)通過數(shù)據(jù)復(fù)制、節(jié)點故障,、數(shù)據(jù)校驗,、垃圾回收機制來維護(hù)數(shù)據(jù)的可用性和一致性。

3 HDFS的云存儲應(yīng)用于整合高校信息資源

3.1 系統(tǒng)分析與設(shè)計

    目前高校信息資源面臨著空前的海量數(shù)據(jù)管理難題,,存儲數(shù)據(jù)的成本在不斷增加,,而且信息的安全性也亟待提高。因此要借用云存儲這種新的工作模式來解決這個問題,。根據(jù)高校的特殊情況,,結(jié)合云存儲的優(yōu)點,要設(shè)計一個成功的云存儲案例,,需要考慮這么幾個方面:

1)低成本海量存儲 將數(shù)據(jù)存儲在一般的個人電腦構(gòu)成的網(wǎng)絡(luò)中,,并進(jìn)行合理調(diào)配,構(gòu)成一個有機海量存儲設(shè)備。

2)高效率的訪問 數(shù)據(jù)盡可能的存儲在不同的數(shù)據(jù)節(jié)點中,,當(dāng)客戶端對信息進(jìn)行請求時,,能高效的回復(fù),并做到并發(fā),。

3)安全性高 每個文件都會有多個副本分別存儲在多個數(shù)據(jù)節(jié)點上,。如果某個數(shù)據(jù)節(jié)點出現(xiàn)問題,不會發(fā)生文件丟失的現(xiàn)象,。

3.2 系統(tǒng)功能設(shè)計

    高校相對于云存儲系統(tǒng)是一個用戶,,而高校內(nèi)部有多個部門,相對于云存儲系統(tǒng)的用戶高校來說是一個子用戶,。云存儲系統(tǒng)能夠創(chuàng)建,、管理、維護(hù)高校云存儲用戶,;高校云用戶能夠創(chuàng)建,、管理、維護(hù)各部門子用戶,。而子用戶才是真正的終端信息存儲用戶,,他們上傳、下載,、刪除數(shù)據(jù)信息,。由于我們的這個系統(tǒng)是基于HDFS的,而一個基本的HDFS由一個NameNode和n個DataNode組成,,云存儲系統(tǒng)是由多個地方的HDFS存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,,完成外部訪問請求??梢詫⒈疚拿枋龅姆植际轿募到y(tǒng)(DFS)抽象成一個三級模型,,如圖3所示。

三級模型

     根據(jù)系統(tǒng)結(jié)構(gòu)圖可以清楚看到本文描述的分布式文件系統(tǒng)(DFS)的業(yè)務(wù)邏輯模型:終端網(wǎng)絡(luò)發(fā)出信息存取訪問請求,,DFS通過封裝與HDFS通信協(xié)議的Client客戶端與基于HDFS的云存儲系統(tǒng)進(jìn)行通信,,完成對信息的訪問。HDFS存儲業(yè)務(wù)以云狀分布在網(wǎng)絡(luò)的各個部分,,它具有容量大,、性能高、可靠性好,、協(xié)同優(yōu)良的特點,,正是這些特點,完成了高校信息資源高效訪問與存儲,。

4 結(jié)論

    基于HDFS的云存儲是一種動態(tài)可調(diào)整,、基于互聯(lián)網(wǎng)的存儲解決方案,用戶可以通過通用和易用協(xié)議和應(yīng)用程序接口通過網(wǎng)絡(luò)訪問存儲目標(biāo),這種新技術(shù)對最終用戶來說很有好處,。云存儲可以讓用戶很容易增加存儲容量,,而且不需要購買、安裝和管理任何存儲基礎(chǔ)設(shè)施,,卻提供了一個完善的備份,、容災(zāi)數(shù)據(jù)中心。云存儲的成本和易用性優(yōu)勢對高校具有很強的吸引力,,發(fā)展和應(yīng)用前景廣闊,。

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載,。