《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 測試測量 > 設(shè)計(jì)應(yīng)用 > 基于機(jī)器學(xué)習(xí)的電網(wǎng)設(shè)備故障綜合研判分析
基于機(jī)器學(xué)習(xí)的電網(wǎng)設(shè)備故障綜合研判分析
2018智能電網(wǎng)增刊
劉周斌1,何 颋2,李沁園1,胡曉哲2,項(xiàng) 翔2,袁永軍2,王海峰2
1.國網(wǎng)浙江省電力有限公司電力科學(xué)研究院,,浙江 杭州310007;2.國網(wǎng)浙江杭州市富陽區(qū)供電有限公司,,浙江 杭州311400
摘要: 近年來,,新技術(shù),、新工藝的廣泛應(yīng)用使得電網(wǎng)建設(shè)得到長足的發(fā)展,,給電網(wǎng)管理提出了更高的要求。電網(wǎng)業(yè)務(wù)涉及廣泛,,橫跨多個(gè)信息系統(tǒng),,數(shù)據(jù)交錯(cuò)復(fù)雜、體量大,,如何深度挖掘數(shù)據(jù)價(jià)值以應(yīng)用到電網(wǎng)故障研判已經(jīng)成為當(dāng)前配網(wǎng)作業(yè)面臨的巨大挑戰(zhàn),。通過開展電網(wǎng)設(shè)備故障綜合研判,進(jìn)行數(shù)據(jù)的高效融合與深度挖掘,,大幅度提升電網(wǎng)安全穩(wěn)定運(yùn)行水平,,融合多元數(shù)據(jù)實(shí)現(xiàn)主動(dòng)搶修,準(zhǔn)確定位電網(wǎng)公司目前客戶服務(wù)薄弱點(diǎn),,從而有效提升客戶滿意度,,提高電網(wǎng)公司配網(wǎng)管理水平,提升企業(yè)形象,。
中圖分類號(hào): TM74
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2018.S1.036
Abstract:
Key words :

0  引言

    隨著大數(shù)據(jù),、云計(jì)算、物聯(lián)網(wǎng),、移動(dòng)互聯(lián)網(wǎng)等新一代信息通信技術(shù)的快速發(fā)展,,智能終端產(chǎn)品層出不窮,新技術(shù),、新產(chǎn)品,、新應(yīng)用等不斷涌現(xiàn)。移動(dòng)智能終端設(shè)備及應(yīng)用通過豐富多樣的功能滿足人們各式各樣的需求,,從各個(gè)方面改變著人們的日常工作與生活,。

    近年來,國家電網(wǎng)公司緊緊抓住新一代信息通信技術(shù)快速發(fā)展為智能電網(wǎng)生產(chǎn)方式及管理模式變革帶來的契機(jī),,積極推進(jìn)智能電網(wǎng)建設(shè),,密切跟蹤新技術(shù)發(fā)展趨勢,開展關(guān)鍵技術(shù)攻關(guān),,面向“十三五”,,充分發(fā)揮信息通信在智能電網(wǎng)中的核心技術(shù)作用,統(tǒng)籌推動(dòng)智能電網(wǎng)技術(shù)變革和創(chuàng)新發(fā)展,,未來要形成一大批成功應(yīng)用,、成效顯著的技術(shù)成果,為堅(jiān)強(qiáng)智能電網(wǎng)持續(xù)創(chuàng)新發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ),。

    隨著國民經(jīng)濟(jì)的不斷發(fā)展和人民生活水平的日益提高,,社會(huì)用電負(fù)荷也隨之快速增長,與此同時(shí),對(duì)電網(wǎng)公司的供電可靠性和停電時(shí)間等重要指標(biāo)也提出了更高的要求,。特別是對(duì)于配網(wǎng)搶修工單的派發(fā),,要求及時(shí)快速、準(zhǔn)確判斷,。目前工單派發(fā)多數(shù)基于人工派單,,或者系統(tǒng)向所有搶修隊(duì)派單由搶修隊(duì)搶單,工單的派發(fā)策略不夠合理,,存在一定的主觀因素,,這在一定程度上影響了派單的及時(shí)性以及后續(xù)搶修工作的完成效果。

1  技術(shù)架構(gòu)

    基于大數(shù)據(jù)產(chǎn)業(yè)鏈的定義,,大數(shù)據(jù)的關(guān)鍵技術(shù)既包括數(shù)據(jù)分析技術(shù)等核心技術(shù),,也包括數(shù)據(jù)管理、數(shù)據(jù)處理,、數(shù)據(jù)可視化等重要技術(shù),,技術(shù)架構(gòu)圖如圖1所示。

lzb-t1.gif

    數(shù)據(jù)抽取技術(shù):對(duì)集成信息系統(tǒng)數(shù)據(jù)庫中的海量各類數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取,,實(shí)時(shí)存入本系統(tǒng)數(shù)據(jù)倉庫中,,數(shù)據(jù)主要用于分析,數(shù)據(jù)設(shè)計(jì)按照面向業(yè)務(wù)設(shè)計(jì)原則進(jìn)行設(shè)計(jì),。本系統(tǒng)數(shù)據(jù)來源于PMS數(shù)據(jù),、95598工單數(shù)據(jù)、在線監(jiān)測數(shù)據(jù),、線路巡視數(shù)據(jù),、輔助監(jiān)控?cái)?shù)據(jù)、歷史故障數(shù)據(jù),、線路監(jiān)拍數(shù)據(jù),、實(shí)時(shí)負(fù)荷數(shù)據(jù)、APP使用數(shù)據(jù)等,,經(jīng)過數(shù)據(jù)抽取、數(shù)據(jù)清洗轉(zhuǎn)換,、數(shù)據(jù)加載三個(gè)過程生成用于工單自動(dòng)派發(fā),。數(shù)據(jù)是通過數(shù)據(jù)抽取工具從各集成系統(tǒng)中自動(dòng)定期抽取,抽取的數(shù)據(jù)針對(duì)不同業(yè)務(wù)要求進(jìn)行過濾,,過濾掉臟數(shù)據(jù)和不完整數(shù)據(jù)形成可用于用電分析的數(shù)據(jù),。

    數(shù)據(jù)分析技術(shù):故障綜合預(yù)警預(yù)判,對(duì)大量需求數(shù)據(jù)進(jìn)行數(shù)據(jù)準(zhǔn)備,、規(guī)律尋找和規(guī)律表示,,挖掘的主要任務(wù)有數(shù)據(jù)關(guān)聯(lián)、聚類、分類等,,以此實(shí)現(xiàn)各類故障的預(yù)測,,為提高電網(wǎng)的運(yùn)維檢修水平提供技術(shù)支持。

    數(shù)據(jù)服務(wù)技術(shù):為展示客戶端提供數(shù)據(jù)訪問服務(wù),,數(shù)據(jù)服務(wù)內(nèi)嵌內(nèi)存緩存數(shù)據(jù)庫,,用于提高數(shù)據(jù)訪問性能。通過數(shù)據(jù)服務(wù)提供的多種分析數(shù)據(jù)輸出方式接口,,為實(shí)時(shí)展現(xiàn)當(dāng)前各類電網(wǎng)設(shè)備可能發(fā)生的故障情況提供支撐,。

    數(shù)據(jù)展現(xiàn)技術(shù):數(shù)據(jù)的全方位、多角度展現(xiàn),。以熱力圖的方式,,基于GIS展現(xiàn)電網(wǎng)設(shè)備故障風(fēng)險(xiǎn)。

    系統(tǒng)安全:安全架構(gòu)針對(duì)系統(tǒng)的具體業(yè)務(wù)特點(diǎn),,按照管理信息內(nèi),、外網(wǎng)分離的安全要求建立起強(qiáng)健的信息安全防范體系,有效保護(hù)系統(tǒng)的信息安全,,防范黑客和非法入侵者的攻擊,。

    系統(tǒng)應(yīng)用的安全體系可分為技術(shù)層面的安全和管理層面的安全兩個(gè)部分。技術(shù)層面的安全設(shè)計(jì)主要包括應(yīng)用安全,、數(shù)據(jù)安全,、系統(tǒng)安全、網(wǎng)絡(luò)安全,、物理安全等,,其中應(yīng)用安全是業(yè)務(wù)安全防護(hù)體系的核心。管理層面的安全主要包括安全組織及人員保證,、安全管理制度,、安全技術(shù)規(guī)范、安全考核及監(jiān)督等內(nèi)容,。

2  數(shù)據(jù)架構(gòu)

    大數(shù)據(jù)是體量巨大具有高價(jià)值的結(jié)構(gòu)化,、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。通過對(duì)大數(shù)據(jù)處理技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化為業(yè)務(wù)需要的數(shù)據(jù)模型,,發(fā)現(xiàn)大數(shù)據(jù)中的“信息”和知識(shí),,為行業(yè)內(nèi)外提供大量的高附加值的內(nèi)容增值服務(wù)。

    大數(shù)據(jù)對(duì)數(shù)據(jù)特性,、數(shù)據(jù)來源,、數(shù)據(jù)獲取方式、數(shù)據(jù)獲取頻率等不同角度對(duì)數(shù)據(jù)進(jìn)行分類,、規(guī)劃,、設(shè)計(jì),、部署,其數(shù)據(jù)架構(gòu)如圖2所示,。

lzb-t2.gif

3  故障預(yù)警預(yù)判模型

    基于對(duì)歷史故障原因的深入分析,,將故障分成大類,針對(duì)每類故障再劃分為子類,,針對(duì)每個(gè)子類故障,,根據(jù)支撐數(shù)據(jù)類型及維度的不同,選擇不同的機(jī)器學(xué)習(xí)方法計(jì)算其可能發(fā)生故障的概率,,進(jìn)而推算出可能發(fā)生故障的綜合概率以及最有可能發(fā)生故障的類型,,實(shí)現(xiàn)對(duì)故障的預(yù)警預(yù)判。

lzb-t3.gif

3.1  故障因素分析

    基于對(duì)歷史故障原因的分析,,大致將故障分成如下5大類:電網(wǎng)設(shè)備自身故障,、自然因素、外力因素,、運(yùn)維不當(dāng),、其他因素。針對(duì)每類故障,,同時(shí)將故障細(xì)分成小類:

    針對(duì)電網(wǎng)設(shè)備自身故障,,可以細(xì)分為架空導(dǎo)線故障、電纜故障,、柱上設(shè)備故障,、箱變故障、配電室故障,、開關(guān)柜故障,、環(huán)網(wǎng)柜故障、JP柜故障,、電纜分支箱故障,、桿塔故障、絕緣子故障,、避雷器故障,、其他設(shè)備故障。

    針對(duì)自然因素,,可以細(xì)分為雷擊,、強(qiáng)風(fēng)、洪水,、地震、山體滑坡,、雨雪冰凍,。

    針對(duì)外力因素,可以細(xì)分為盜竊、建設(shè)施工,、車輛,、外部火災(zāi)、外部異物,。

    針對(duì)運(yùn)維不當(dāng),,可以細(xì)分為樹障、鳥害等小動(dòng)物,、消缺不及時(shí),、巡檢不到位、過負(fù)荷,、過電壓,。

3.2  分類建模

    針對(duì)每一大類故障,分別建立對(duì)應(yīng)的數(shù)據(jù)模型,。

3.2.1  電網(wǎng)設(shè)備因素導(dǎo)致故障預(yù)測模型

    針對(duì)設(shè)備故障,,從設(shè)備實(shí)時(shí)監(jiān)測數(shù)據(jù)、運(yùn)行數(shù)據(jù),、設(shè)備制造廠商,、設(shè)備運(yùn)行年限、設(shè)備歷史故障次數(shù)等維度,,針對(duì)歷史故障信息,,建立電網(wǎng)設(shè)備自身故障預(yù)測模型。例如,,針對(duì)環(huán)網(wǎng)柜設(shè)備,,實(shí)時(shí)監(jiān)測數(shù)據(jù)包括:溫度、濕度,、局放,、電纜溫度、母線樁頭溫度,、避雷器放電次數(shù),、煙霧濃度等維度,運(yùn)行數(shù)據(jù)包括電壓,、電流等維度,,設(shè)備制造廠商包括廠商名稱、設(shè)備批次等維度,。

    為了產(chǎn)生可視化的分類規(guī)則,,避免了線性回歸事先假定的線性關(guān)系不符合實(shí)際造成較大誤差的情況,避免對(duì)函數(shù)形式事先進(jìn)行假設(shè)而產(chǎn)生的假設(shè)誤差,,使得產(chǎn)生的模型具有可解釋性,,故采用樹形模式進(jìn)行建模,,同時(shí),為了減少需要調(diào)整參數(shù),、提高分類速度,、高效處理大樣本數(shù)據(jù)、實(shí)現(xiàn)特征因素的重要性估計(jì),、很好地處理類別變量,、提高抗噪聲能力、提高泛化能力,,使得模型對(duì)新樣本具有更強(qiáng)的適應(yīng)性,,在決策樹的基礎(chǔ)上,選擇隨機(jī)森林方法進(jìn)行建模,。

    隨機(jī)森林回歸的基本思路是:首先利用自助抽樣法,,從原始數(shù)據(jù)中抽取N個(gè)樣本,且每個(gè)樣本容量都與原始數(shù)據(jù)集相通,;然后對(duì)N個(gè)樣本分別建立N課樹,,得到N個(gè)結(jié)果,最后對(duì)這N個(gè)結(jié)果取平均值得到最終的預(yù)測結(jié)果,。

    電網(wǎng)設(shè)備自身故障隨機(jī)森林模型由N棵樹組成,,{F1(X),F2(X),……,FN(X)},其中X={x1,x2,……,xM}是故障的M維特征向量。結(jié)果會(huì)產(chǎn)生B個(gè)預(yù)測結(jié)果,。對(duì)于回歸問題預(yù)測值為所有以樹預(yù)測結(jié)果的平均,。算法流程如下:

    (1)原始數(shù)據(jù)含樣本量為32 859,應(yīng)用bootstrap方式抽樣選擇500個(gè)樣本集,,構(gòu)建500棵決策樹,。每次抽樣未被抽到的樣本構(gòu)成OOB(out of bag)樣本作為隨機(jī)森林的驗(yàn)證樣本。

    (2)樣本中變量個(gè)數(shù)為15,,每一棵決策樹每一個(gè)節(jié)點(diǎn)隨機(jī)選擇k個(gè)變量進(jìn)行基尼指標(biāo)計(jì)算,,確定合適的變量得到合適的劃分。使用隨機(jī)森林做回歸時(shí),,通常取k=P/3,。本模型每次劃分選擇5個(gè)變量。

    (3)每一棵決策樹生長到最大,,無需進(jìn)行剪枝,,重復(fù)上述步驟直到生成500棵決策樹。

通過上述步驟,,建立得到電網(wǎng)設(shè)備自身故障隨機(jī)森林模型,,將OOB樣本輸入隨機(jī)森林模型得到故障預(yù)測精度。

    隨機(jī)森林可以給出變量重要性排序,,據(jù)此得出營銷故障發(fā)生的重要預(yù)測變量,。其次,,通過依次刪除預(yù)測變量的方式計(jì)算方差解釋性差值,得到變量的重要性排序,。刪除某個(gè)變量后解釋性差值變化越大,證明這個(gè)變量越重要,;解釋性差值變化越小,,證明這個(gè)變量越不重要。

    預(yù)測變量如表1所示:

lzb-b1.gif

    為提高準(zhǔn)確性,,隨機(jī)森林運(yùn)行10次得到方差解釋性,,如表2所示:

lzb-b2.gif

    方差平均解釋性為85.12%。

    逐個(gè)刪除變量方差解釋性如表3所示:

lzb-b3.gif

    方差解釋性變化如表4所示:

lzb-b4.gif

    因此,,對(duì)故障的發(fā)生貢獻(xiàn)影響因素最大的三個(gè)變量分別為溫度,、濕度和局放。

    通過bootstrap抽樣,,未被抽到的樣本組成了K個(gè)袋外數(shù)據(jù),,構(gòu)成OOB樣本。將入袋樣本作為測試集,,將袋外樣本作為驗(yàn)證集,,衡量預(yù)測精度。隨機(jī)森林每一次bootstrap抽樣,,會(huì)產(chǎn)生不同的OOB樣本,,不同的OOB樣本會(huì)得到不同的預(yù)測精度。為保證預(yù)測準(zhǔn)確性,,對(duì)10次bootstrap得到的袋外數(shù)據(jù)計(jì)算預(yù)測誤差并取平均,,得出預(yù)測精度平均為79.3982%,滿足要求,。

3.2.2  自然因素導(dǎo)致故障預(yù)測模型

    在自然因素中,,雷擊、強(qiáng)風(fēng),、洪水,、地震、山體滑坡,、雨雪冰凍等,,多與故障的產(chǎn)生呈現(xiàn)一定的線性關(guān)系,采用線性回歸方法對(duì)故障進(jìn)行預(yù)測,。選取特征X={x1,x2,……,xn}分別為:2小時(shí)內(nèi)雷擊次數(shù),、平均風(fēng)速、最大風(fēng)速,、洪水等級(jí),、地震等級(jí),、山體滑坡等級(jí)、覆冰厚度等,,進(jìn)行建模,,預(yù)測值y為發(fā)生故障的概率。將自然因素特征X映射到故障發(fā)生概率y函數(shù)為:

    lzb-gs1.gif

    選取71 982條歷史數(shù)據(jù)作為訓(xùn)練集,,用來訓(xùn)練特征系數(shù)向量,,損失函數(shù)為:

    lzb-gs2.gif

    采用小批量隨機(jī)梯度下降(MSGD)方法,將損失函數(shù)最小化以得到特征系數(shù)向量,,MSGD方法隨機(jī)采樣一個(gè)批量的樣本進(jìn)行梯度計(jì)算,,在保證算法收斂的同時(shí),也提高了收斂速度,。

    選取一個(gè)batch大小為10的訓(xùn)練樣本,,每次迭代計(jì)算一小批樣本的誤差來進(jìn)行梯度下降;

    lzb-gs3.gif

    最終當(dāng)兩次迭代的結(jié)果小于設(shè)定值,,則完成求解,,得出模型。

3.2.3  外力因素導(dǎo)致故障預(yù)測模型

    外力因素為盜竊,、建設(shè)施工,、車輛、外部火災(zāi),、外部異物等,。選取特征值為是否發(fā)生盜竊、施工距離,、電壓等級(jí),、車輛數(shù)量、是否發(fā)生外部火災(zāi),、是否存在外部異物等,。其中盜竊、車輛數(shù)量,、外部火災(zāi),、外部異物等參考?xì)v史數(shù)據(jù)中的平均值,施工距離可以依靠設(shè)備附近監(jiān)拍裝置圖像獲取,。涉及特征量多為離散數(shù)據(jù),,選取決策樹方法進(jìn)行建模。特征的選擇依靠信息增益比進(jìn)行計(jì)算,。

    針對(duì)歷史數(shù)據(jù),,首先計(jì)算是否發(fā)生盜竊、施工距離、電壓等級(jí),、車輛數(shù)量,、是否發(fā)生外部火災(zāi)、是否存在外部異物等特征的信息增益:

    其中信息增益為:

    lzb-gs4.gif

    計(jì)算各特征的內(nèi)部信息為:

    lzb-gs5.gif

    計(jì)算通過信息增益比為:

    lzb-gs6.gif

    通過比較得出信息增益比最大的特征,,依據(jù)此特征進(jìn)行劃分,,劃分后再次計(jì)算其他特征的信息增益比,再進(jìn)行劃分,,直到信息增益比小于閾值,,完成模型的訓(xùn)練。

3.2.4  運(yùn)維不當(dāng)導(dǎo)致故障預(yù)測模型

    運(yùn)維不當(dāng)因素包括樹障,、鳥害等小動(dòng)物、消缺不及時(shí),、巡檢不到位,、過負(fù)荷、過電壓,。選取特征值為周圍是否存在樹障,、是否存在鳥害等小動(dòng)物、缺陷發(fā)生時(shí)間,、是否按計(jì)劃完成巡檢,、負(fù)荷值、電壓值,。同外力因素導(dǎo)致故障預(yù)測模型類似,,選擇C4.5決策樹進(jìn)行建模。

3.3  綜合建模

    完成上述模型建立后,,可獲取上述4類原因?qū)е鹿收系母怕?,分別為P1、P2,、P3,、P4,根據(jù)歷史故障數(shù)據(jù)可以計(jì)算各類因素導(dǎo)致故障的權(quán)重,,計(jì)為a1,、a2、a3,、a4,,最終故障預(yù)判模型為:

    故障發(fā)生概率P=a1×P1+a2×P2+a3×P3+a4×P4

4  技術(shù)實(shí)現(xiàn)路線

    本系統(tǒng)技術(shù)實(shí)現(xiàn)路線如下:數(shù)據(jù)收集及存儲(chǔ)、數(shù)據(jù)分析,、數(shù)據(jù)挖掘技術(shù)以及可視化展現(xiàn)4個(gè)部分,。

4.1  數(shù)據(jù)收集與存儲(chǔ)

    (1)電力系統(tǒng)數(shù)據(jù)

    PMS系統(tǒng)中的數(shù)據(jù)主要包含電網(wǎng)設(shè)備信息、檢修計(jì)劃等,,搶修人員根據(jù)搶修工單信息,,獲取PMS中的電網(wǎng)設(shè)備及剛性計(jì)劃等,,本系統(tǒng)對(duì)PMS系統(tǒng)中的數(shù)據(jù)不做存儲(chǔ),僅進(jìn)行實(shí)時(shí)調(diào)用,。

    95598數(shù)據(jù)主要包含:電話服務(wù)記錄,、多媒體服務(wù)記錄、95598服務(wù)記錄,、其他服務(wù)信息,、語音記錄、客戶檔案信息,、部門人員信息,、公共信息共8類數(shù)據(jù),其中95598服務(wù)記錄:主要包括業(yè)務(wù)受理信息,、處理信息,、流程信息等內(nèi)容。以業(yè)務(wù)受理信息為例,,按每天250條受理工單計(jì)算,,年增91 250條記錄,容量約870 MB,。

    在線監(jiān)測數(shù)據(jù)主要包含:架空導(dǎo)線,、電纜、柱上設(shè)備,、箱變,、配電室、開關(guān)柜,、環(huán)網(wǎng)柜,、JP柜、電纜分支箱,、桿塔,、絕緣子、避雷器,。本系統(tǒng)獲取各類設(shè)備的歷史及實(shí)時(shí)數(shù)據(jù),。共存儲(chǔ)57 GB數(shù)據(jù)。

    巡視搶修信息的數(shù)據(jù)主要包含:巡視搶修工單信息,,圖片,、音視頻信息等。本系統(tǒng)保存所有巡視,、搶修工單信息,。按每月1.2 GB計(jì)算,年增長量為15 GB。

    電網(wǎng)GIS平臺(tái)數(shù)據(jù)主要包含:地圖切片數(shù)據(jù),,路網(wǎng)數(shù)據(jù),,重要設(shè)備的CPS坐標(biāo)信息。本系統(tǒng)對(duì)電網(wǎng)GIS平臺(tái)中的數(shù)據(jù)不做存儲(chǔ),,僅進(jìn)行實(shí)時(shí)調(diào)用,。

    輔助監(jiān)控?cái)?shù)據(jù)主要包含變電站、環(huán)網(wǎng)柜等設(shè)備溫濕度,、油色譜數(shù)據(jù),、微水、氣壓等數(shù)據(jù),。本系統(tǒng)獲取各類設(shè)備的歷史及實(shí)時(shí)數(shù)據(jù),。共存儲(chǔ)7.5 G信息。

    歷史故障信息主要包括故障的基本信息,、文本信息以及圖片,、音視頻等數(shù)據(jù)。本系統(tǒng)一次性抽取400 G故障信息,。

    線路監(jiān)拍數(shù)據(jù)為桿塔上監(jiān)拍裝置拍攝的圖像信息。本系統(tǒng)獲取各類設(shè)備的歷史及實(shí)時(shí)數(shù)據(jù),。共存儲(chǔ)189 G信息,。

    實(shí)時(shí)負(fù)荷數(shù)據(jù)為開關(guān)的電壓、電流等數(shù)據(jù),。本系統(tǒng)獲取各類設(shè)備的歷史及實(shí)時(shí)數(shù)據(jù),。共存儲(chǔ)3.4 G信息。

    APP使用數(shù)據(jù)主要包括APP的使用日志信息,,按照每月500 M計(jì)算,,年增長量為6 G。

    (2)外部數(shù)據(jù)

    氣象數(shù)據(jù)主要為網(wǎng)格化的氣象數(shù)據(jù),,包括溫度,、濕度、風(fēng)力,、最高氣溫,、最低氣溫、臺(tái)風(fēng)預(yù)警,、山火預(yù)警等,。網(wǎng)格大小約為16平方公里。本系統(tǒng)對(duì)氣象數(shù)據(jù)不做存儲(chǔ),,僅進(jìn)行實(shí)時(shí)調(diào)用,。

    路況信息主要為路徑導(dǎo)航數(shù)據(jù)、道路擁堵情況數(shù)據(jù)、臨時(shí)封堵與管制信息等,。本系統(tǒng)對(duì)路況信息不做存儲(chǔ),,僅進(jìn)行實(shí)時(shí)調(diào)用。

    網(wǎng)絡(luò)輿情數(shù)據(jù)主要為主流社交媒體中電力相關(guān)的輿情信息,。本系統(tǒng)對(duì)網(wǎng)絡(luò)輿情數(shù)據(jù)不做存儲(chǔ),,僅進(jìn)行實(shí)時(shí)調(diào)用。

    (3)數(shù)據(jù)收集

    數(shù)據(jù)采集方法有數(shù)據(jù)復(fù)制,、ETL,、OGG、ESB等,,可以根據(jù)實(shí)際業(yè)務(wù)選擇采集方法,,采集所要分析的數(shù)據(jù)集。對(duì)數(shù)據(jù)存儲(chǔ)可以根據(jù)讀寫效率,、存儲(chǔ)成本,、存儲(chǔ)管理的不同運(yùn)用選擇存儲(chǔ)方法,例如分布式關(guān)系數(shù)據(jù)庫,、分布式文件存儲(chǔ)系統(tǒng),、分布式內(nèi)存數(shù)據(jù)庫、分布式NoSql數(shù)據(jù)庫等,。

4.2  數(shù)據(jù)分析

    大數(shù)據(jù)分析是運(yùn)用大數(shù)據(jù)分布式計(jì)算方式結(jié)合分析模型對(duì)初始數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,。大數(shù)據(jù)處理的方式有基于實(shí)時(shí)計(jì)算的流計(jì)算、內(nèi)存計(jì)算,、CEP復(fù)雜事件處理計(jì)算以及非實(shí)時(shí)計(jì)算的Map/Reduce處理方式等,,計(jì)算方式可以根據(jù)實(shí)際業(yè)務(wù)的需要來選擇。在數(shù)據(jù)分析過程中,,首先對(duì)初始數(shù)據(jù)進(jìn)行輕度加工,,形成分析型數(shù)據(jù),然后通過分析模型的應(yīng)用,,得到分析結(jié)果數(shù)據(jù)并形成價(jià)值服務(wù)數(shù)據(jù),,如圖4所示。

lzb-t4.gif

4.3  數(shù)據(jù)挖掘技術(shù)

    (1)決策樹

    決策樹(Decision Tree)是一種非常成熟的,、普遍采用的數(shù)據(jù)挖掘技術(shù),。之所以稱為樹,是因?yàn)槠浣_^程類似一棵樹的成長過程,,即從根部開始,,到樹干,到分枝,,再到細(xì)枝末節(jié)的分叉,,最終生長出一片片的樹葉,。在決策樹里,所分析的數(shù)據(jù)樣本先是集成為一個(gè)樹根,,然后經(jīng)過層層分枝,,最終形成若干個(gè)結(jié)點(diǎn),每個(gè)結(jié)點(diǎn)代表一個(gè)結(jié)論,。決策樹算法之所以在數(shù)據(jù)分析挖掘應(yīng)用中如此流行,,主要原因在于決策樹的構(gòu)造不需要任何領(lǐng)域的知識(shí),很適合探索式的知識(shí)發(fā)掘,,并且可以處理高維度的數(shù)據(jù),。在眾多的數(shù)據(jù)挖掘、統(tǒng)計(jì)分析算法中,,決策樹最大的優(yōu)點(diǎn)在于它所產(chǎn)生的一系列從樹根到樹枝(或樹葉)的規(guī)則,,可以很容易地被分析師和業(yè)務(wù)人員理解,而且這些典型的規(guī)則甚至不用整理(或稍加整理),,就是現(xiàn)成的可以應(yīng)用的業(yè)務(wù)優(yōu)化策略和業(yè)務(wù)優(yōu)化路徑,。另外,決策樹技術(shù)對(duì)數(shù)據(jù)的分布甚至缺失非常寬容,,不容易受到極值的影響,。

    (2)聚類分析

    聚類(Clustering)分析有一個(gè)通俗的解釋和比喻,那就是“物以類聚,,人以群分”,。針對(duì)幾個(gè)特定的業(yè)務(wù)指標(biāo),可以將觀察對(duì)象的群體按照相似性和相異性進(jìn)行不同群組的劃分,。經(jīng)過劃分后,每個(gè)群組內(nèi)部各對(duì)象間的相似度會(huì)很高,,而在不同群組之間的對(duì)象彼此間將具有很高的相異度,。

    (3)關(guān)聯(lián)規(guī)則

    關(guān)聯(lián)規(guī)則(Association Rule)是在數(shù)據(jù)庫和數(shù)據(jù)挖掘領(lǐng)域中被發(fā)明并被廣泛研究的一種重要模型,關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的主要目的是找出數(shù)據(jù)集中的頻繁模式(Frequent Pattern),,即多次重復(fù)出現(xiàn)的模式和并發(fā)關(guān)系(Cooccurrence Relationships),,即同時(shí)出現(xiàn)的關(guān)系,頻繁和并發(fā)關(guān)系也稱作關(guān)聯(lián)(Association),。

    (4)回歸分析

    回歸(Regression)分析包括線性回歸(Linear Regression),,這里主要是指多元線性回歸和邏輯斯蒂回歸(Logistic Regression)。其中,,在客戶全面感知數(shù)據(jù)分析中更多使用的是邏輯斯蒂回歸,,它又包括響應(yīng)預(yù)測、分類劃分等內(nèi)容,。

    多元線性回歸主要描述一個(gè)因變量如何隨著一批自變量的變化而變化,,其回歸公式(回歸方程)就是因變量與自變量關(guān)系的數(shù)據(jù)反映,。因變量的變化包括兩部分:系統(tǒng)性變化與隨機(jī)變化,其中,,系統(tǒng)性變化是由自變量引起的(自變量可以解釋的),,隨機(jī)變化是不能由自變量解釋的,通常也稱作殘值,。

4.4  可視化展現(xiàn)

    大數(shù)據(jù)應(yīng)用基于準(zhǔn)備數(shù)據(jù),,依據(jù)分析模型,分析統(tǒng)匯出結(jié)果,,需要對(duì)分析結(jié)果進(jìn)行可視化展現(xiàn)以及驗(yàn)證,。

    數(shù)據(jù)可視化展現(xiàn)實(shí)現(xiàn)面向客戶、面向服務(wù)人員,、面向管理人員,、面向決策人員的大數(shù)據(jù)結(jié)果可視化展示。根據(jù)業(yè)務(wù)數(shù)據(jù)集的特征和潛在結(jié)構(gòu)選擇合理的可視化模型,,主要模型有多維可視化模型(散點(diǎn)圖,、線形圖、柱形圖,、餅形圖),、特殊的地形和層次可視化模型(地圖和樹型圖),以及混合模型(圖文說明圖,、動(dòng)態(tài)效果圖)等,。可視化的技術(shù)有適合強(qiáng)交互多數(shù)據(jù)展示的Flex,、強(qiáng)交互多動(dòng)畫展示的Flash,、強(qiáng)交互動(dòng)態(tài)展示的Silver Light、強(qiáng)交互多圖文展示的Html5等,。

    數(shù)據(jù)可視化驗(yàn)證可以從驗(yàn)證業(yè)務(wù)數(shù)據(jù)集的邏輯轉(zhuǎn)換和驗(yàn)證業(yè)務(wù)假設(shè)進(jìn)行驗(yàn)證,,驗(yàn)證其分析結(jié)果是否符合預(yù)期或者是否可以依據(jù)分析結(jié)果做出預(yù)判等。根據(jù)驗(yàn)證結(jié)果也可以不斷調(diào)整和完善大數(shù)據(jù)應(yīng)用中各個(gè)業(yè)務(wù)的分析模型,。     

參考文獻(xiàn)

[1] 施文波,俞君杰,李校驍,等.電力GIS系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2015,38(21):155-158.

[2] 張婷.GIS系統(tǒng)在供電局配電網(wǎng)中的應(yīng)用探討[J].城市建設(shè)理論研究(電子版),2014,(7).

[3] 徐建.基于GIS的電力配網(wǎng)系統(tǒng)探討[J].低碳世界,2015,(26):90-91.

[4] 謝炯,額爾敦,李欣,,等.電力生產(chǎn)GIS服務(wù)平臺(tái)的研究與設(shè)計(jì)[J].電力信息與通信技術(shù),2013,11(9):85-89.

[5] 蔣錦霞,莊曉丹,梅峰,等.配網(wǎng)生產(chǎn)搶修指揮平臺(tái)設(shè)計(jì)及應(yīng)用[J].電力信息化,2013,11(5):57-61.

[6] 姚楠,陳哲,劉玉林,,等.基于GIS的電網(wǎng)氣象災(zāi)害監(jiān)測預(yù)警系統(tǒng)的研制[J].電力信息化,2013,11(3):41-45.

[7] 崔巍,王本德.電力搶修監(jiān)控調(diào)度系統(tǒng)開發(fā)和應(yīng)用[J].電力系統(tǒng)自動(dòng)化,2002,26(19):64-67.

[8] 郭建成,錢靜,陳光,,等.智能配電網(wǎng)調(diào)度控制系統(tǒng)技術(shù)方案[J].電力系統(tǒng)自動(dòng)化,2015,(1):206-212.

[9] 翁穎鈞,朱仲英.地理信息系統(tǒng)技術(shù)在電力系統(tǒng)自動(dòng)化中的應(yīng)用[J].電力系統(tǒng)自動(dòng)化,2003,27(18):74-78.

[10] 劉友波,劉洋,劉俊勇,等.基于Hadoop架構(gòu)的電力系統(tǒng)連鎖故障分布式計(jì)算技術(shù)[J].電力系統(tǒng)自動(dòng)化,2016,40(7):90-97.

[11] 夏可青,陳根軍,李力,,等.基于多數(shù)據(jù)源融合的實(shí)時(shí)電網(wǎng)故障分析及實(shí)現(xiàn)[J].電力系統(tǒng)自動(dòng)化,2013,(24):81-88.

[12] 陳春,王業(yè)平,崔毅敏,,等.電網(wǎng)故障信息系統(tǒng)中的故障分析與判斷[J].電力系統(tǒng)自動(dòng)化,2011,35(19):97-100.

[13] 林穎,郭志紅,陳玉峰,等.基于卷積遞歸網(wǎng)絡(luò)的電流互感器紅外故障圖像診斷[J].電力系統(tǒng)保護(hù)與控制,2015,(16):87-94.

[14] 李雨舒,李明珍.無人值班變電站遙控常見故障的分析與處理[J].電力系統(tǒng)保護(hù)與控制,2009,37(18):145-146.

[15] 李濤,吳冰,潘磊,,等.應(yīng)急指揮中心信息接入方法研究[J].電力信息化,2012,10(11):38-42.

[16] 張尚謨,王永紅,華侃,,等.應(yīng)急指揮中心多級(jí)音視頻互聯(lián)的研究及應(yīng)用[J].電力信息化,2012,10(5):33-36.

[17] 李嘯東,渠毅,郝小龍,,等.電網(wǎng)全景展現(xiàn)與運(yùn)行指揮系統(tǒng)的應(yīng)用[J].電力信息化,2012,10(1):90-94.

[18] 曾東,王法,許金明,等.基于輸電狀態(tài)監(jiān)測平臺(tái)的巡檢系統(tǒng)研發(fā)及應(yīng)用[J].電力信息化,2011,09(11):96-99.



作者信息:

劉周斌1,何  颋2,李沁園1,胡曉哲2,項(xiàng)  翔2,袁永軍2,王海峰2

(1.國網(wǎng)浙江省電力有限公司電力科學(xué)研究院,,浙江 杭州310007,;2.國網(wǎng)浙江杭州市富陽區(qū)供電有限公司,浙江 杭州311400)

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載,。