文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2018.S1.038
0 引言
建設(shè)全量業(yè)務(wù)、全時(shí)間維度,、全類型的數(shù)據(jù)中心是國家電力公司運(yùn)監(jiān)中心數(shù)據(jù)歸集工作的基礎(chǔ),,其目標(biāo)的是在此基礎(chǔ)上為電力公司各類決策提供全面的信息支撐、高效的分析計(jì)算,,以改變過去的數(shù)據(jù)冗余,、重復(fù)抽取數(shù)據(jù)的局面,全面支撐電力公司大數(shù)據(jù)分析及應(yīng)用,。然而,,由于國家電網(wǎng)電力公司涉及的應(yīng)用系統(tǒng)較多,包括ERP,、營銷,、生產(chǎn)、調(diào)度等業(yè)務(wù)系統(tǒng),,這些系統(tǒng)已經(jīng)累積了海量的存量數(shù)據(jù),,同時(shí)還需要考慮各類設(shè)備的實(shí)時(shí)數(shù)據(jù)采集以及復(fù)雜的外部環(huán)境數(shù)據(jù),數(shù)據(jù)量非常龐大,。要在此基礎(chǔ)上完成全量業(yè)務(wù)數(shù)據(jù)歸集工作,,海量數(shù)據(jù)的存儲(chǔ)必須要解決的問題??紤]到集中存儲(chǔ)的模式下,,存儲(chǔ)容量存在瓶頸問題且開支成本巨大,,因此考慮使用云存儲(chǔ)的模式進(jìn)行海量數(shù)據(jù)的存儲(chǔ)[1]。
1 基于云存儲(chǔ)的歸集體系介紹
云存儲(chǔ)是基于云計(jì)算框架衍生出的一種新概念,,它是隨著海量數(shù)據(jù)存儲(chǔ)問題應(yīng)運(yùn)而生的,,專注于為大數(shù)據(jù)的存儲(chǔ)提供解決方案。它主要通過集群技術(shù)和新興的網(wǎng)絡(luò)技術(shù)把大量數(shù)據(jù)存儲(chǔ)設(shè)備聯(lián)合在一起協(xié)同工作,,并能夠?qū)ν馓峁┙y(tǒng)一的數(shù)據(jù)存儲(chǔ)與訪問的功能,。云存儲(chǔ)是一種低成本、可擴(kuò)展的網(wǎng)絡(luò)形式實(shí)用型服務(wù)[2],。
目前,,國家電網(wǎng)公司運(yùn)監(jiān)中心數(shù)據(jù)中心的數(shù)據(jù)不僅有海量的結(jié)構(gòu)化以及非結(jié)構(gòu)化存量數(shù)據(jù),同時(shí)還有來自各個(gè)業(yè)務(wù)系統(tǒng)的實(shí)時(shí)采集數(shù)據(jù),,還存在國家電網(wǎng)數(shù)據(jù)的增長速度以及數(shù)據(jù)的保密性等問題,。因此,需要在云存儲(chǔ)的基礎(chǔ)上綜合考慮國家電網(wǎng)大數(shù)據(jù)存儲(chǔ)問題的特殊性,,科學(xué)合理地制定一套基于云存儲(chǔ)的電力全量業(yè)務(wù)數(shù)據(jù)存儲(chǔ)體系,,從而為全量業(yè)務(wù)數(shù)據(jù)歸集提供有力支持[3]。
2 基于云存儲(chǔ)的電力全量業(yè)務(wù)數(shù)據(jù)歸集體系
依據(jù)國家電網(wǎng)公司運(yùn)監(jiān)中心對(duì)全量業(yè)務(wù)數(shù)據(jù)歸集整體架構(gòu)和技術(shù)路線的統(tǒng)一要求,,首先需要將電力公司的數(shù)據(jù)接入緩沖區(qū),,隨后再逐步進(jìn)行熱點(diǎn)數(shù)據(jù)庫、實(shí)時(shí)數(shù)據(jù)庫,、數(shù)據(jù)集市,、數(shù)據(jù)倉庫的建設(shè)[4]。因此,,基于云存儲(chǔ)的數(shù)據(jù)歸集體系構(gòu)架主要由以下層級(jí)組成:
(1)存儲(chǔ)設(shè)備層
存儲(chǔ)設(shè)備是云存儲(chǔ)數(shù)據(jù)歸集體系中的基礎(chǔ)組成部分,,它位于該體系的底層,由多種存儲(chǔ)設(shè)備的組合使用,,有用于作為緩沖區(qū)的MySQL數(shù)據(jù)庫設(shè)備以及適用于分布式架構(gòu)的MongoDB,,其中MongoDB可以支持海量數(shù)據(jù)的高并發(fā)、低時(shí)延的吞吐操作及部署,,同時(shí)它可以支持各種復(fù)雜的數(shù)據(jù)格式,,非常適合用于國家電網(wǎng)電力大數(shù)據(jù)的分布式存儲(chǔ)以及高速率讀寫[5]。
(2)存儲(chǔ)引擎層
存儲(chǔ)引擎主要是對(duì)數(shù)據(jù)進(jìn)行基礎(chǔ)的管理,,但卻是云存儲(chǔ)歸集體系的核心層,。由于云存儲(chǔ)是基于網(wǎng)絡(luò)技術(shù)及應(yīng)用集群協(xié)同工作的模式,因此數(shù)據(jù)的安全性,、一致性以及容錯(cuò)性都需要予以重點(diǎn)關(guān)注[6],。引擎層主要通過DHT數(shù)據(jù)分布、強(qiáng)一致性數(shù)據(jù)復(fù)制,、數(shù)據(jù)加密,、集群狀態(tài)管理,、并行數(shù)據(jù)重建、集群故障自愈等技術(shù)來進(jìn)行數(shù)據(jù)的管理,,保證數(shù)據(jù)的一致性,,安全性以及從災(zāi)變中恢復(fù)的能力。
(3)存儲(chǔ)服務(wù)層
服務(wù)層主要用于提供數(shù)據(jù)訪問以及數(shù)據(jù)備份服務(wù),?;谠拼鎯?chǔ)的數(shù)據(jù)歸集體系要求用戶必須經(jīng)過授權(quán)才能使用標(biāo)準(zhǔn)的服務(wù)接口進(jìn)行登陸并使用里邊的數(shù)據(jù)資源,同時(shí)為了保證大量用戶登錄時(shí)的訪問速度需要使用Cache技術(shù)[7],。該層主要由分布式快照,、本地化Cache、精簡配置,、分級(jí)存儲(chǔ),、數(shù)據(jù)備份模塊組成。
(4)存儲(chǔ)接口層
基于云存儲(chǔ)的電力全量業(yè)務(wù)數(shù)據(jù)歸集體系主要基于iSCSI/RBD接口協(xié)議實(shí)現(xiàn),。其中iSCSI是指IP協(xié)議中的SCSI指令集,,它是一種開放的標(biāo)準(zhǔn),主要使用TCP/IP協(xié)議進(jìn)行指令封裝,,因此基于該協(xié)議可以在任何基于IP的網(wǎng)絡(luò)之間進(jìn)行傳播,。通過使用SCSI/RBD接口協(xié)議標(biāo)準(zhǔn)可以使用戶方便地對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)及訪問,。
3 基于云存儲(chǔ)的數(shù)據(jù)歸集體系關(guān)鍵技術(shù)
3.1 虛擬分布式存儲(chǔ)技術(shù)
虛擬存儲(chǔ)技術(shù)是指通過虛擬的方法,,把不同的廠商、不同業(yè)務(wù)系統(tǒng),,不同類型,,不同通信協(xié)議的存儲(chǔ)設(shè)備聯(lián)系起來,將體系中各個(gè)設(shè)備映射成統(tǒng)一的資源池,,并通過虛擬方式進(jìn)行數(shù)據(jù)統(tǒng)一管理,,它可以屏蔽用于數(shù)據(jù)的物理設(shè)備位置及其異構(gòu)特性,降低了數(shù)據(jù)管理及維護(hù)的成本,。分布式是在虛擬技術(shù)的基礎(chǔ)上將分散的存儲(chǔ)資源映射為虛擬設(shè)備,,通過多臺(tái)互聯(lián)的存儲(chǔ)服務(wù)器進(jìn)行存儲(chǔ)負(fù)荷的分擔(dān),同時(shí)通過位置服務(wù)器進(jìn)行存儲(chǔ)信息的定位,,使用該技術(shù)可以提高系統(tǒng)的可擴(kuò)展性以及存取效率,,實(shí)現(xiàn)云存儲(chǔ)數(shù)據(jù)歸集體系中不同的應(yīng)用,不同的存儲(chǔ)設(shè)備以及不同的服務(wù)之間高效協(xié)同工作[8],。
3.2 基于重復(fù)數(shù)據(jù)刪除的數(shù)據(jù)備份技術(shù)
隨著國家電網(wǎng)電力數(shù)據(jù)量的增加,,數(shù)據(jù)中的冗余部分也在不斷增多,從而導(dǎo)致更多的存儲(chǔ)空間被占用,,同時(shí)給數(shù)據(jù)備份工作帶來巨大的壓力,。因此,,重復(fù)數(shù)據(jù)的刪除是非常必要的數(shù)據(jù)壓縮技術(shù),該技術(shù)基于刪除運(yùn)算邏輯以消除數(shù)據(jù)中冗余的字節(jié),、數(shù)據(jù)塊或文件,,從而保證系統(tǒng)中存儲(chǔ)的只是單一的數(shù)據(jù),減少數(shù)據(jù)歸集體系所使用的存儲(chǔ)空間,,增加可用存儲(chǔ)容量,,增大數(shù)據(jù)傳輸過程中的有效數(shù)據(jù)成分。同時(shí),,考慮在原數(shù)據(jù)出錯(cuò),、誤刪等情況下的數(shù)據(jù)恢復(fù)問題,數(shù)據(jù)備份技術(shù)也是歸集體系必不可少的部分,,因此,,經(jīng)過重復(fù)數(shù)據(jù)刪除技術(shù)也間接地減少了數(shù)據(jù)備份工作的存儲(chǔ)量,解決了不必要的存儲(chǔ)空間占用問題,。
3.3 數(shù)據(jù)安全技術(shù)
用戶數(shù)據(jù)的安全性始終是備受關(guān)注的問題,。數(shù)據(jù)的安全性主要是指數(shù)據(jù)泄漏、數(shù)據(jù)丟失,、數(shù)據(jù)篡改等問題,,在存儲(chǔ)架構(gòu)中,通常數(shù)據(jù)距離用戶越“近”越安全,,但采用云存儲(chǔ)的架構(gòu)下,,數(shù)據(jù)通常距離用戶很“遠(yuǎn)”,因此有必要對(duì)數(shù)據(jù)采取安全保護(hù)措施,?;谠拼鎯?chǔ)的數(shù)據(jù)歸集體系通過大量的網(wǎng)狀客戶端對(duì)系統(tǒng)中的操作行為進(jìn)行異常監(jiān)測,從而能夠及時(shí)獲取網(wǎng)絡(luò)中的病毒,、木馬程序信息,,并將其推送至服務(wù)器端進(jìn)行處理,隨后將病毒及木馬的解決方法發(fā)送至所有客戶端,,使整個(gè)體系成為一個(gè)防御系統(tǒng),,從而保證了海量數(shù)據(jù)的安全。
4 基于云存儲(chǔ)的數(shù)據(jù)歸集體系的優(yōu)勢
4.1 存儲(chǔ)資源利用率的提升
虛擬化是基于云存儲(chǔ)的數(shù)據(jù)歸集體系的特征之一,,通過這種技術(shù)可以將國家電網(wǎng)電力公司閑置以及利用率低的資源進(jìn)行抽象并呈現(xiàn),,改變了計(jì)算機(jī)網(wǎng)絡(luò)實(shí)體結(jié)構(gòu)不可切割的現(xiàn)狀,從而獲得更高的資源利用率,,使這些資源不必受現(xiàn)有架構(gòu)以及物理組態(tài)的限制,,通過將利用率低的硬件重組,可以最大化地實(shí)現(xiàn)物理硬件的利用,最終達(dá)到提高整體資源利用率的目的[9],。
4.2 系統(tǒng)整體運(yùn)行效率的提高
基于云存儲(chǔ)的數(shù)據(jù)歸集體系在實(shí)現(xiàn)海量數(shù)據(jù)存儲(chǔ)的同時(shí)也實(shí)現(xiàn)了應(yīng)用存儲(chǔ),。即在存儲(chǔ)數(shù)據(jù)的同時(shí)還實(shí)現(xiàn)了應(yīng)用功能的存儲(chǔ),該體系同時(shí)具備存儲(chǔ)設(shè)備和服務(wù)器的功能,,因此能夠顯著地減少存儲(chǔ)服務(wù)器數(shù)據(jù),,并減少存儲(chǔ)體系中由于服務(wù)器造成的性能瓶頸問題及單點(diǎn)故障,從而降低系統(tǒng)的成本,,且減少了數(shù)據(jù)傳輸過程所經(jīng)歷的環(huán)節(jié),,實(shí)現(xiàn)了整個(gè)存儲(chǔ)體系的高效率運(yùn)行。
4.3 系統(tǒng)整體安全性的加強(qiáng)
基于云存儲(chǔ)的數(shù)據(jù)歸集體系所采取的安全技術(shù)在反病毒功能上較傳統(tǒng)的病毒防范策略更具優(yōu)勢,,由于采用大量客戶端對(duì)網(wǎng)狀的系統(tǒng)操作進(jìn)行異常監(jiān)測,,該體系在反病毒技術(shù)競爭中往往能夠占據(jù)先機(jī),同時(shí)由于融合了并行處理以及網(wǎng)格計(jì)算等新技術(shù),,可以實(shí)現(xiàn)快速地異常自動(dòng)分析及處理,,并把解決方案運(yùn)用到每一個(gè)客戶端。原則上只要客戶端足夠多,,就可以實(shí)現(xiàn)只要有新的木馬或者病毒出現(xiàn),,就將被立即被獲取到并進(jìn)行處理,從而使整個(gè)存儲(chǔ)體系的安全性能得到極大的加強(qiáng)[10],。
4.4 系統(tǒng)可擴(kuò)展性的開拓
相對(duì)于傳統(tǒng)的存儲(chǔ)體系通過某個(gè)策略的執(zhí)行使各個(gè)節(jié)點(diǎn)獲取所要執(zhí)行的操作信息,,基于云存儲(chǔ)的數(shù)據(jù)歸集體系采用松耦合非對(duì)稱架構(gòu),利用數(shù)據(jù)路徑外的元數(shù)據(jù)進(jìn)行服務(wù)器的控制,,這種集中控制的方式支持新層次的擴(kuò)充,,從而具備了以下優(yōu)點(diǎn):
(1)存儲(chǔ)節(jié)點(diǎn)不需要接收來自網(wǎng)絡(luò)節(jié)點(diǎn)的驗(yàn)證信息,從而將更多的資源用于提供讀寫服務(wù),。
(2)客戶可以通過虛擬化應(yīng)用實(shí)例或硬件性能實(shí)現(xiàn)云存儲(chǔ)的快速調(diào)整,。
(3)消除了節(jié)點(diǎn)之間由于共享大量狀態(tài)而產(chǎn)生的開銷以及用戶網(wǎng)絡(luò)互聯(lián)的需要,進(jìn)一步降低了存儲(chǔ)體系的成本,。
(4)通過具有集中控制功能的元數(shù)據(jù),存儲(chǔ)節(jié)點(diǎn)可以實(shí)現(xiàn)深層次的應(yīng)用歸檔,,實(shí)現(xiàn)資源的精細(xì)化管理,。
5 結(jié)語
針對(duì)國家電網(wǎng)公司運(yùn)監(jiān)中心全量業(yè)務(wù)數(shù)據(jù)歸集過程中所面臨的數(shù)據(jù)量大、數(shù)據(jù)類型復(fù)雜,、數(shù)據(jù)更新快等問題,,本文提出了一種可適用于全量業(yè)務(wù)數(shù)據(jù)歸集工作的存儲(chǔ)體系,該體系克服了傳統(tǒng)存儲(chǔ)體系成本高,、處理速度慢,、擴(kuò)展性能差的問題,很好地解決了全量業(yè)務(wù)海量數(shù)據(jù)的存儲(chǔ)問題,,同時(shí)該體系具有設(shè)備虛擬,、數(shù)據(jù)安全,、快速訪問以及高運(yùn)行效率等優(yōu)勢,因此能夠很好地滿足當(dāng)下全量業(yè)務(wù)數(shù)據(jù)歸集工作的需要,,對(duì)于后期可能出現(xiàn)的新問題,,由本系統(tǒng)具備的高可擴(kuò)展性作為保障,最終實(shí)現(xiàn)為全量業(yè)務(wù)數(shù)據(jù)歸集工作開展過程中的數(shù)據(jù)歸集問題提供完備的解決方案,。
參考文獻(xiàn)
[1] WANG P, RAO L, LIU X, et al. Dynamic data center operations with demand-responsive electricity prices in smart grid[J]. IEEE Transactions on Smart Grid, 2012, 3(4): 1743-1754.
[2] BOICEA A , RADULESCU F, AGAPINL I. Mongo DB vs Oracle —— database comparison[C].Third International Conference on Emerging Intelligent Data and Web Technologies, September 19-21, 2012, Bucharest, Romania. New Jersey: IEEE Press, 2012: 330-335.
[3] 嚴(yán)霄鳳, 張德馨. 大數(shù)據(jù)研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2013, 23(4): 168-172.
[4] 喬琳, 許暉. 復(fù)雜企業(yè)決策支持環(huán)境下的數(shù)據(jù)倉庫體系結(jié)構(gòu)的演化[J]. 計(jì)算機(jī)工程與應(yīng)用, 2000, 36(7): 98-100.
[5] 郝悍勇, 黃文思, 林燊, 等. 用戶感知度模型分析及其在客戶服務(wù)領(lǐng)域的應(yīng)用[J]. 電力信息與通信技術(shù), 2016, 14(1): 33-37.
[6] 國家電網(wǎng)公司. Q\GDW703-2012 國家電網(wǎng)公司公共信息模型(SG-CIM)[M]. 北京:中國電力出版社, 2012.
[7] LIU Y, WAN G Y, JIN Y. Research on the improvement of Mongo DB auto-shareing in cloud environment[C].International Conference on Computer Science & Education, November 12, 2012, Yogyakarta, Indonesia. New Jersey: IEEE Press, 2012: 851-854.
[8] HAN J W,PEI J,YIN Y W.Mining frequent patterns without candidate generation[J]. Data Mining and Knowledge Discovery, 2004, 8(1): 53-87.
[9] 陳毅波,陳乾,眭建新.基于大數(shù)據(jù)技術(shù)的電網(wǎng)運(yùn)營分析決策系統(tǒng)研究[J].電力信息與通信技術(shù),2015,13(8):128-131.
[10] 王忻.基于大數(shù)據(jù)技術(shù)的電力公司運(yùn)營系統(tǒng)研究[J].商,2016(4):214-214.
作者信息:
梁 霄,,湯 寧,張 瑋
(南瑞集團(tuán)有限公司,,江蘇 南京 211106)