《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > PMS2.0系統(tǒng)健康度模型及對(duì)策分析
PMS2.0系統(tǒng)健康度模型及對(duì)策分析
2018智能電網(wǎng)增刊
劉逸逸1,,孫家駿2,石 磊3,,秦 峰3
1. 國(guó)網(wǎng)上海市電力公司信息通信公司,,上海 200122;2. 國(guó)網(wǎng)上海市電力公司市南供電公司,,上海 200122,; 3. 上海安言信息技術(shù)有限公司,上海 200050
摘要: 針對(duì)復(fù)雜計(jì)算環(huán)境下運(yùn)維監(jiān)控需求,,提出業(yè)務(wù)系統(tǒng)健康度模型,,該模型建立業(yè)務(wù)系統(tǒng)從微觀層面(多元化的、細(xì)粒度的監(jiān)測(cè)指標(biāo))到宏觀層面的“健康度”評(píng)測(cè)方法體系和過(guò)程,,為企業(yè)穩(wěn)定健康的業(yè)務(wù)服務(wù)提供有效的運(yùn)維保障方法,。并針對(duì)PMS2.0系統(tǒng)進(jìn)行了實(shí)踐。
中圖分類(lèi)號(hào): TM73
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2018.S1.034
Abstract:
Key words :

0  引言

    國(guó)家電網(wǎng)公司設(shè)備(資產(chǎn))運(yùn)維精益管理系統(tǒng)(Power Production Management System 2.0, PMS2.0)是“三集五大”體系建設(shè)中的“大檢修”體系內(nèi)容, 支撐運(yùn)維檢修全過(guò)程精益化管理和電網(wǎng)資產(chǎn)的全壽命周期管理, 覆蓋國(guó)網(wǎng)公司運(yùn)維檢修業(yè)務(wù), 貫穿生產(chǎn)管理全過(guò)程, 更大范圍地實(shí)現(xiàn)數(shù)據(jù)共享和業(yè)務(wù)融合,。

    PMS2.0 為總部,、省公司二級(jí)部署, 總部、省公司和地市(縣)公司三級(jí)應(yīng)用部署在省公司的應(yīng)用, 同時(shí)支撐省公司,、省檢修公司和地市(縣)公司的運(yùn)檢業(yè)務(wù),并在地市公司部署電網(wǎng)資源數(shù)據(jù)代理服務(wù), 以提高地市公司電網(wǎng)資源應(yīng)用效率和可靠性,,部署在國(guó)網(wǎng)公司總部應(yīng)用, 與省公司進(jìn)行縱向貫通, 支撐國(guó)網(wǎng)范圍內(nèi)的總部上層應(yīng)用。

    作為運(yùn)檢業(yè)務(wù)條線(xiàn)最重要的生產(chǎn)管理系統(tǒng),,如何保障系統(tǒng)健康穩(wěn)定運(yùn)行成為信息通信部門(mén)的一項(xiàng)重要工作,,信息系統(tǒng)運(yùn)維是一項(xiàng)系統(tǒng)工程,探索系統(tǒng)健康運(yùn)行方法,,量化系統(tǒng)健康水平對(duì)系統(tǒng)運(yùn)維具有重要積極意義,。

1  系統(tǒng)健康度衡量辦法    

    圖1為PMS2.0物理部署視圖:

lyy-t1.gif

    從圖1我們可以分析出PMS2.0系統(tǒng)由應(yīng)用服務(wù)器集群、數(shù)據(jù)庫(kù)集群以及外圍的ISC,、BPM平臺(tái)組成,。這些服務(wù)通過(guò)網(wǎng)絡(luò)交換機(jī)、負(fù)載均衡器,、磁盤(pán)陣列連接起來(lái),,形成一套龐大的系統(tǒng),。

    按照從整體到局部,從宏觀到微觀的分析方法,,PMS2.0系統(tǒng)的健康情況取決于應(yīng)用服務(wù)器、數(shù)據(jù)庫(kù),、ISC,、BPM以及基礎(chǔ)設(shè)施的健康情況。這些應(yīng)用服務(wù),、數(shù)據(jù)庫(kù)服務(wù)和基礎(chǔ)設(shè)施的健康情況可以通過(guò)觀察其關(guān)鍵性能,、可靠性指標(biāo)得到,比如數(shù)據(jù)庫(kù)服務(wù)器的CPU利用率,、表空間大小,,應(yīng)用服務(wù)器(WebLogic)的JVM可用內(nèi)存大小、線(xiàn)程數(shù),、JDBC連接池可用連接等,。

    服務(wù)的健康情況對(duì)于系統(tǒng)整體健康影響程度不一樣,比如PMS2.0應(yīng)用服務(wù)器通過(guò)負(fù)載均衡器提供給最終用戶(hù)訪(fǎng)問(wèn),,當(dāng)一臺(tái)應(yīng)用服務(wù)器出現(xiàn)故障,,F(xiàn)5負(fù)載均衡器將后續(xù)請(qǐng)求轉(zhuǎn)發(fā)給其他健康的應(yīng)用服務(wù)器,而如果一臺(tái)生產(chǎn)數(shù)據(jù)庫(kù)出現(xiàn)故障,,由于兩臺(tái)生產(chǎn)數(shù)據(jù)庫(kù)組成RAC集群,,用戶(hù)仍然可以查詢(xún)操作業(yè)務(wù)數(shù)據(jù),但由于只有一臺(tái)數(shù)據(jù)庫(kù)提供服務(wù),,系統(tǒng)健康受到較大影響,。

    同樣地,服務(wù)的不同指標(biāo)對(duì)服務(wù)的健康度影響大小也存在差異,,例如Oracle數(shù)據(jù)庫(kù)實(shí)例處于停止?fàn)顟B(tài)的影響遠(yuǎn)遠(yuǎn)大于表空間利用率大于90%對(duì)系統(tǒng)健康的影響,。

    綜合以上因素,我們可以推導(dǎo)出系統(tǒng)健康度模型,,在下一章節(jié)詳細(xì)闡述,。

2  系統(tǒng)健康度模型

    指標(biāo)項(xiàng)(M):是指度量服務(wù)運(yùn)行情況、反映服務(wù)各方面水平的值,,一般服務(wù)具有多個(gè)指標(biāo)項(xiàng),。本文中指標(biāo)項(xiàng)用字母M來(lái)表示。例如對(duì)Weblogic應(yīng)用服務(wù),,活動(dòng)會(huì)話(huà)數(shù),、JVM堆內(nèi)存使用比率、總線(xiàn)程數(shù),、空閑線(xiàn)程數(shù),、掛起等待線(xiàn)程數(shù)都是其指標(biāo)項(xiàng),。目前IT服務(wù)指標(biāo)采集和監(jiān)控手段非常多,并且不同服務(wù),、設(shè)備指標(biāo)采集監(jiān)控也不盡一樣,,但已經(jīng)非常成熟了。

    指標(biāo)項(xiàng)狀態(tài)(MS):指表示指標(biāo)項(xiàng)的正?;蛘弋惓顟B(tài),,根據(jù)指標(biāo)項(xiàng)的具體內(nèi)容,將指標(biāo)項(xiàng)的值定義在不同的區(qū)間用以反映指標(biāo)項(xiàng)的正?;蛘弋惓?。例如可以定義WebLogic的JVM堆內(nèi)存使用比率大于等于95%時(shí),該指標(biāo)狀態(tài)為異常,,反之則為正常,。本文中指標(biāo)項(xiàng)狀態(tài)用MS表示,分為正常和異常兩種情況,,正常用0表示,,異常用1表示。   

    指標(biāo)權(quán)重(MW):指標(biāo)權(quán)重反映指標(biāo)對(duì)服務(wù)的影響程度,,權(quán)重越大則指標(biāo)對(duì)服務(wù)影響越大,,權(quán)重越小則影響越小。本文中指標(biāo)權(quán)重用MW表示,,MW的值為從0到1的有理數(shù)(包括0和1),。

    指標(biāo)項(xiàng)健康度(MH):指標(biāo)項(xiàng)健康度反映指標(biāo)項(xiàng)的健康情況,它受到指標(biāo)項(xiàng)狀態(tài)和指標(biāo)權(quán)重的影響,,當(dāng)指標(biāo)項(xiàng)狀態(tài)為0時(shí),,指標(biāo)項(xiàng)健康度為1,當(dāng)指標(biāo)項(xiàng)狀態(tài)為1時(shí),,指標(biāo)權(quán)重越大則指標(biāo)越不健康,,本文中指標(biāo)項(xiàng)健康度用MH表示。指標(biāo)項(xiàng)健康度的計(jì)算公式如下:

    lyy-gs1.gif

    假設(shè)JVM堆內(nèi)存使用比率的健康權(quán)重為 MW = 0.7, JVM堆內(nèi)存使用比率超過(guò)95%時(shí),,狀態(tài)值MS=1(異常),,則CPU利用率的健康度MH=1-1×0.7=0.3,也就是30%的健康度,。

    服務(wù)健康度(SH):服務(wù)的健康度取決于健康度最低的指標(biāo)項(xiàng),,即服務(wù)健康度由該服務(wù)所有的指標(biāo)項(xiàng)健康度決定,本文用符號(hào)SH表示服務(wù)健康度,。一個(gè)系統(tǒng)可用比作一個(gè)由多塊木板組成的木桶,,系統(tǒng)的瓶頸和健康程度用木桶效應(yīng)闡述:當(dāng)盛水量(業(yè)務(wù)訪(fǎng)問(wèn)量)越來(lái)越多,木桶的盛水高度(系統(tǒng)瓶頸和健康度)取決于其中最短的那塊木板,。也就是說(shuō)服務(wù)的健康度取決于指標(biāo)項(xiàng)健康度最低的指標(biāo),。因此我們得到服務(wù)健康度的計(jì)算公式如下:

    lyy-gs2.gif

    服務(wù)權(quán)重(SW):服務(wù)權(quán)重反映服務(wù)對(duì)業(yè)務(wù)系統(tǒng)運(yùn)行的影響程度,,服務(wù)權(quán)重越大說(shuō)明服務(wù)對(duì)業(yè)務(wù)系統(tǒng)的影響程度越大,反之越小,,本文中用SW表示服務(wù)權(quán)重,。SW的值為從0到1的有理數(shù)(包括0和1)。

    例如,,在PMS2.0系統(tǒng)中,,兩臺(tái)數(shù)據(jù)庫(kù)服務(wù)器組成的RAC共享存儲(chǔ)損壞對(duì)業(yè)務(wù)系統(tǒng)產(chǎn)生的影響是致命的,因此可以設(shè)定數(shù)據(jù)庫(kù)服務(wù)器的服務(wù)權(quán)重SW=1(即100%),;

    服務(wù)影響度(FD) :服務(wù)影響度是指服務(wù)的健康度對(duì)業(yè)務(wù)系統(tǒng)造成的影響,服務(wù)的服務(wù)影響度值越大,,說(shuō)明服務(wù)對(duì)業(yè)務(wù)的健康度影響越大,,反之則影響越小。本文中用FD表示服務(wù)影響度,,具體描述如下:

    lyy-gs3.gif

    SH為服務(wù)健康度,,SW為服務(wù)權(quán)重。           

    例如,,在PMS2.0系統(tǒng)中,,假設(shè)應(yīng)用服務(wù)器的健康度SH=0 (即0%健康),應(yīng)用服務(wù)器的服務(wù)權(quán)重為SW=1(即100%,,表示應(yīng)用服務(wù)器宕機(jī)對(duì)PMS2.0系統(tǒng)的影響是嚴(yán)重的),, 則可以得出應(yīng)用服務(wù)器的服務(wù)影響度FD=(1- 0)×100%=1。

    系統(tǒng)健康度(H) :通過(guò)PMS2.0物理拓?fù)鋱D我們可以得知,,PMS2.0系統(tǒng)由多個(gè)應(yīng)用服務(wù)器,、數(shù)據(jù)庫(kù)和外圍相關(guān)平臺(tái)組成,系統(tǒng)的健康度由系統(tǒng)所包含的服務(wù)健康度所決定,,根據(jù)木桶效應(yīng),,系統(tǒng)的健康度取決于系統(tǒng)中所包含服務(wù)的最大服務(wù)影響度,也就是說(shuō)最不健康的服務(wù)(服務(wù)影響度最大)決定了系統(tǒng)的健康度,。本文中以H表示系統(tǒng)健康度,,其計(jì)算公式如下:

    lyy-gs4.gif

    FD為服務(wù)影響度。

    通過(guò)以上推導(dǎo)我們得到了系統(tǒng)健康度模型,,從而可以量化系統(tǒng)健康水平,。

3  健康度模型驗(yàn)證

    在系統(tǒng)健康度模型定義基礎(chǔ)上,我們可以知道系統(tǒng)健康度計(jì)算過(guò)程:

    (1)識(shí)別出組成系統(tǒng)的服務(wù),,定義服務(wù)權(quán)重,;

    (2)分析出影響這些服務(wù)健康的指標(biāo)項(xiàng)、定義指標(biāo)項(xiàng)權(quán)重,、定義決定指標(biāo)項(xiàng)狀態(tài)的項(xiàng)閾值,;

    (3)通過(guò)監(jiān)控系統(tǒng)或者服務(wù)自帶的指標(biāo)監(jiān)測(cè)工具得到指標(biāo)項(xiàng)狀態(tài),,根據(jù)第式(1)計(jì)算出指標(biāo)項(xiàng)健康度;

    (4)根據(jù)式(2)計(jì)算出各個(gè)服務(wù)的健康度,;

    (5)根據(jù)式(3)計(jì)算出各個(gè)服務(wù)的影響度,;

    (6)根據(jù)式(4)計(jì)算出系統(tǒng)健康度。

    根據(jù)這個(gè)計(jì)算過(guò)程,,并參考PMS2.0物理架構(gòu)圖,,我們可以模擬出PMS2.0某個(gè)時(shí)刻的健康度,為了能更直觀地顯示系統(tǒng)健康度計(jì)算過(guò)程,,對(duì)組成服務(wù)以及服務(wù)指標(biāo)做了簡(jiǎn)化,,如表1所示。

lyy-b1.gif

    通過(guò)表1中的計(jì)算,,可以看到當(dāng)Oracle數(shù)據(jù)庫(kù)1的磁盤(pán)利用率以及WebLogic1,、WebLogic2的CPU利用率出現(xiàn)異常情況時(shí),PMS2.0的健康度只有28%,,系統(tǒng)運(yùn)維人員必須立刻進(jìn)行處理,,否則將會(huì)系統(tǒng)用戶(hù)造成巨大影響。

4  對(duì)策分析

    可視化的能力代表了運(yùn)維的能力,,可視化的程度越高,,運(yùn)維的能力越高。根據(jù)以上對(duì)健康度模型的分析,,應(yīng)構(gòu)建各配置項(xiàng)關(guān)聯(lián)關(guān)系,,定義影響因子模型,在監(jiān)控系統(tǒng)中呈現(xiàn)PMS2.0系統(tǒng)的業(yè)務(wù)視圖,,可實(shí)現(xiàn)對(duì)業(yè)務(wù)系統(tǒng)運(yùn)維態(tài)勢(shì)的可視化展現(xiàn)及故障原因分析定位,。

    在具體運(yùn)維層面上,應(yīng)深入貫徹國(guó)網(wǎng)公司和省公司的精益化,、扁平化的管理理念,,借鑒國(guó)際上的相關(guān)理論體系,通過(guò)標(biāo)準(zhǔn)的信息服務(wù)支撐系統(tǒng),。 實(shí)現(xiàn)統(tǒng)一運(yùn)維入口,、統(tǒng)一運(yùn)維規(guī)范和流程,通過(guò)有效的問(wèn)題,、故障閉環(huán)管理機(jī)制,,責(zé)任分工明確,具體到人,,使出現(xiàn)故障時(shí)能夠快速響應(yīng),,有效排除。

5  結(jié)束語(yǔ)

    本文以國(guó)家電網(wǎng)PMS2.0系統(tǒng)為基礎(chǔ),構(gòu)建了一種系統(tǒng)健康度模型,,并給出了驗(yàn)證實(shí)現(xiàn)的計(jì)算過(guò)程,,針對(duì)PMS2.0健康度模型還給出了具體的對(duì)策分析,為將來(lái)結(jié)合電力系統(tǒng)的監(jiān)控系統(tǒng),,構(gòu)建實(shí)際的PMS2.0健康度監(jiān)控系統(tǒng)提供了理論和實(shí)踐依據(jù),,通過(guò)健康度監(jiān)控系統(tǒng)可以更有效地保障系統(tǒng)健康運(yùn)行。本文提出的健康度模型也適用于電力其他業(yè)務(wù)應(yīng)用系統(tǒng),。

參考文獻(xiàn)

[1] Mostafa Mohamed AlShamy,,ITSM implementation methodology based on ITIL V3,LAP LAMBERT Academic Publishing,,2012年08月.

[2] 翰緯IT服務(wù)管理文庫(kù),,中國(guó)IT服務(wù)管理指南(第二版),北京大學(xué)出版社,,2012年02月.

[3] 韓曉光,,系統(tǒng)運(yùn)維全面解析:技術(shù)、管理與實(shí)踐,,電子工業(yè)出版社,,2015年11月.

[4] 羅文,,信息系統(tǒng)運(yùn)維管理咨詢(xún)與監(jiān)理服務(wù),,人民郵電出版社,2014年09月.




作者信息:

劉逸逸1,,孫家駿2,,石  磊3,秦  峰3

(1. 國(guó)網(wǎng)上海市電力公司信息通信公司,,上海 200122,;2. 國(guó)網(wǎng)上海市電力公司市南供電公司,上海 200122,;

3. 上海安言信息技術(shù)有限公司,,上海 200050)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載,。