1 引言
隨著大數(shù)據(jù)、云計算等技術(shù)的高速發(fā)展,,數(shù)字經(jīng)濟(jì)已經(jīng)成為我國經(jīng)濟(jì)發(fā)展的重要戰(zhàn)略,,高密度數(shù)據(jù)中心作為承載技術(shù)與產(chǎn)業(yè)的實(shí)體,,是傳統(tǒng)工業(yè)向信息化轉(zhuǎn)型的關(guān)鍵“新基建”,。因此,,對數(shù)據(jù)中心的全方位優(yōu)化部署成為了從業(yè)者的迫切追求,。衡量數(shù)據(jù)中心性能的標(biāo)準(zhǔn)即為可定義,、可量化的一系列數(shù)據(jù)中心關(guān)鍵參數(shù),。本文希望研究利用機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)中心參數(shù)自動優(yōu)化的典型關(guān)鍵技術(shù),,特別是研究聚焦在“基礎(chǔ)設(shè)施層”和“服務(wù)器層”等核心參數(shù)的具體優(yōu)化方法,,以形成數(shù)據(jù)中心參數(shù)自動優(yōu)化的設(shè)計路徑。
2 數(shù)據(jù)中心關(guān)鍵參數(shù)分析
本文研究的關(guān)鍵參數(shù)包括:數(shù)據(jù)中心能源利用效率(Power Usage Effectiveness,,PUE),、風(fēng)機(jī)水泵等基礎(chǔ)設(shè)施系統(tǒng)設(shè)備耗電量;網(wǎng)絡(luò)傳輸性能如時延,、丟包率,、吞吐量等;數(shù)據(jù)中心的可靠性,、可用性等,。
2.1 PUE
全球通用的數(shù)據(jù)中心核心關(guān)鍵指標(biāo)是PUE[1],該指標(biāo)最早于2007年由綠色網(wǎng)格組織(The Green Grid,,TGG)提出,,用來評價數(shù)據(jù)中心能源利用效率,并得到廣泛使用,。
PUE的定義為:PUE=Pall/PIT,,其中Pall指的是一個數(shù)據(jù)中心的全年總體累計電能消耗,單位為kWh,;PIT為整個數(shù)據(jù)中心的IT設(shè)備全年累計電能消耗,,單位同樣為kWh。因此,,PUE為一個沒有單位的參數(shù),,且最小值為1。
2.2 數(shù)據(jù)中心基礎(chǔ)設(shè)施耗電量分析
隨著產(chǎn)業(yè)和規(guī)模的發(fā)展,,數(shù)據(jù)中心能耗成為社會廣泛關(guān)注的問題,。對于從業(yè)者而言,實(shí)現(xiàn)數(shù)據(jù)中心的綠色化發(fā)展也是體現(xiàn)技術(shù)水平的重要方面之一,。因此,,近年來數(shù)據(jù)中心行業(yè)對各種設(shè)備的能源消耗日益關(guān)注,基礎(chǔ)設(shè)施的耗電量成為最為關(guān)鍵的技術(shù)參數(shù)之一,。
2.2.1 冷水機(jī)組
冷水機(jī)組是大型數(shù)據(jù)中心制冷架構(gòu)中的核心設(shè)備,,其工作原理是由一個多功能的機(jī)器,通過內(nèi)部工質(zhì)的壓縮或膨脹來完成制冷循環(huán),。在制冷行業(yè)中,,通常冷機(jī)可以分為風(fēng)冷式和水冷式兩種,根據(jù)壓縮機(jī)的不同種類,,水冷型的冷機(jī)又分為螺桿式冷水機(jī)組和離心式冷水機(jī)組,,在大型數(shù)據(jù)中心領(lǐng)域常見的是水冷型離心機(jī)組。根據(jù)調(diào)研,冷機(jī)是數(shù)據(jù)中心暖通系統(tǒng)中耗電量最大的單體設(shè)備,,主要耗電部件是壓縮機(jī),。
2.2.2 風(fēng)機(jī)
在數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)中,風(fēng)機(jī)的功耗占據(jù)著僅次于冷水機(jī)組的耗電類設(shè)備第二大比例,。在IDC制冷架構(gòu)設(shè)備中,,采用風(fēng)機(jī)設(shè)備的風(fēng)冷精密空調(diào)整體耗能比水冷型高15%。因此,,從空調(diào)制冷,,到冷板式制冷,再到浸沒式制冷,,制冷末端在逐漸向熱源逼近,。液冷技術(shù)直接利用冷卻液直接/間接給IT設(shè)備芯片散熱,效率較高,。
2.2.3 水泵
在數(shù)據(jù)中心運(yùn)維階段,,通常水泵的運(yùn)行頻率對各類制冷設(shè)備整體的總能耗起關(guān)鍵作用。因此,,水泵的能耗成為被關(guān)注的另一個耗電量核心參數(shù),。
2.3 網(wǎng)絡(luò)傳輸參數(shù)
隨著網(wǎng)絡(luò)的快速發(fā)展和普及,互聯(lián)網(wǎng)規(guī)模不斷擴(kuò)大,,涌現(xiàn)出很多新型網(wǎng)絡(luò)應(yīng)用和服務(wù),,例如高清視頻會議、在線游戲和網(wǎng)絡(luò)直播等,。不同的數(shù)據(jù)中心應(yīng)用對以下3個指標(biāo)有不同側(cè)重點(diǎn)需求,。
(1)吞吐量:表征的是網(wǎng)絡(luò)架構(gòu)中主機(jī)之間的傳輸速率,,表現(xiàn)為單位時間長度內(nèi)的傳輸數(shù)據(jù)總量,,常用單位為kbit/s和Mbit/s。
?。?)時延:有單向時延和端到端時延兩種概念,,單向時延指E1發(fā)送數(shù)據(jù)報文的時間與E2接收數(shù)據(jù)報文的時間之差,端到端時延是分組時延,、單向(網(wǎng)絡(luò))時延,、抖動緩沖時延和附加固定時延(如果有)的總和。與單向時延一樣,,端到端時延在端點(diǎn)之間是單向的,,但擴(kuò)展到硬件,包含所有延遲因素,。
?。?)丟包率:是丟失IP包數(shù)與所有發(fā)送的IP包數(shù)的比值,,衡量網(wǎng)絡(luò)架構(gòu)性能的一個重要參數(shù)。通常數(shù)據(jù)在網(wǎng)絡(luò)傳遞中會發(fā)生丟失現(xiàn)象,,經(jīng)常和網(wǎng)絡(luò)轉(zhuǎn)發(fā)質(zhì)量,、末端間距等因素相關(guān)。
2.4 數(shù)據(jù)中心可靠性和可用性
數(shù)據(jù)中心的重要性在于支持企業(yè)應(yīng)用不間斷運(yùn)行,。近年來,世界各地的數(shù)據(jù)中心經(jīng)常發(fā)生一些安全故障事件,,一次次沖擊著用戶的心理防線,。因此,數(shù)據(jù)中心可靠性和可用性是衡量其綜合性能的關(guān)鍵參數(shù),。
?。?)可靠性(Reliability),指某個設(shè)備或系統(tǒng)在一個指定的時間內(nèi)能夠無故障地持續(xù)穩(wěn)定運(yùn)行的可能性,。人們通常用平均無故障時間(Mean Time Between Failure,,MTBF)這一指標(biāo)來量化它,MTBF反映了產(chǎn)品的時間質(zhì)量,。
?。?)可用性(Availability),指系統(tǒng)在使用過程中MTBF與總時間(MTBF+MTTR)之比(其中MTTR為平均修復(fù)時間),,其計算公式是A=MTBF/(MTBF+MTTR),。可用性是衡量一個數(shù)據(jù)中心整體或者設(shè)備穩(wěn)定運(yùn)行能力的指標(biāo),,比率越無限接近1.0,,穩(wěn)定性越好。
以上不同關(guān)鍵參數(shù)基本可以對一個數(shù)據(jù)中心進(jìn)行整體綜合評價,,這使得數(shù)據(jù)中心基礎(chǔ)設(shè)施的設(shè)計有了可量化的目標(biāo),,也使得評估有了可量化的依據(jù)。
3 針對參數(shù)優(yōu)化的機(jī)器學(xué)習(xí)算法
在信息通信領(lǐng)域,,機(jī)器學(xué)習(xí)算法技術(shù)在過去幾年越來越受到重視,。這些算法的目的是找到相關(guān)參數(shù)之間的關(guān)聯(lián)程度,并以此去規(guī)劃執(zhí)行動作,,從而對目標(biāo)參數(shù)進(jìn)行集成優(yōu)化,。集成優(yōu)化是指對數(shù)據(jù)中心五層架構(gòu)的統(tǒng)一調(diào)度,其中尤為重要的是風(fēng)火水電和IT軟件硬件資源之間的優(yōu)化[2],。人工智能,、云計算和大數(shù)據(jù)技術(shù)的發(fā)展,催生基于海量數(shù)據(jù)進(jìn)行預(yù)測并輸出建議的機(jī)器學(xué)習(xí)算法進(jìn)展迅速,。機(jī)器學(xué)習(xí)算法種類繁多,,其中針對目標(biāo)參數(shù)進(jìn)行關(guān)系擬合,、優(yōu)化的算法基本分為三大類。
?。?)監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)問題可以分為兩類,,一類是回歸,輸出結(jié)果是數(shù)字,,如城市交通流量,、設(shè)備運(yùn)行速度;一類是分類,,輸出結(jié)果是類別,,如男性或者女性、睡眠或者清醒,。
?。?)無監(jiān)督學(xué)習(xí):無監(jiān)督學(xué)習(xí)問題可以分為3類,一類是關(guān)聯(lián),,該方法是為了找出各種情況出現(xiàn)的概率,,廣泛地運(yùn)用于購物車分析(電子商務(wù)領(lǐng)域)中;一類是聚類,,把樣本分堆,,使同一堆中的樣本之間很相似,而不同堆之間的樣本就有些差別,;還有一類是降維,,減少數(shù)據(jù)集中變量的個數(shù),但是仍然保留重要的信息,。
?。?)強(qiáng)化學(xué)習(xí):通過學(xué)習(xí)那些能夠最大化獎勵的行為是什么,然后根據(jù)當(dāng)前狀態(tài)來決定最優(yōu)下一步行動,。此算法通常用在機(jī)器人開發(fā)中,,經(jīng)常使用試錯的方式來學(xué)習(xí)最佳行動。機(jī)器人可以通過在撞到障礙物后接收到的負(fù)反饋來學(xué)習(xí)如何避免碰撞,。例如,,在視頻游戲里,試錯行為能發(fā)現(xiàn)那些給予玩家獎勵的特定動作,。行動主體就能用這些正向獎勵來理解游戲中的最佳情形,,并選擇下一步行動。
4 基于機(jī)器學(xué)習(xí)的數(shù)據(jù)中心參數(shù)自動優(yōu)化關(guān)鍵技術(shù)
機(jī)器學(xué)習(xí)算法是一個在不斷發(fā)展中的邊界不明確的技術(shù)領(lǐng)域,,如基本類別監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的算法分類目前尚存爭議[3],。機(jī)器學(xué)習(xí)界的一個最鮮明的特點(diǎn)就是算法眾多,思想各不相同,,發(fā)展各有路徑,。因此,,業(yè)內(nèi)廣泛接受的一個事實(shí)是:沒有任何一種機(jī)器學(xué)習(xí)算法可以適用所有應(yīng)用場景,可以說是一類各方探討進(jìn)程中的典型技術(shù),。根據(jù)各類學(xué)習(xí)算法的特征優(yōu)勢,,數(shù)據(jù)中心領(lǐng)域展開了多種算法實(shí)踐,其中的典型參數(shù)自動優(yōu)化算法如下,。
4.1 應(yīng)用監(jiān)督學(xué)習(xí)算法的數(shù)據(jù)中心參數(shù)自動優(yōu)化
監(jiān)督式學(xué)習(xí)在數(shù)據(jù)中心參數(shù)調(diào)優(yōu)中的典型技術(shù)是“運(yùn)維參數(shù)優(yōu)化”,,其主要思想就是驅(qū)動系統(tǒng)設(shè)備跟隨運(yùn)維人員從歷史數(shù)據(jù)中學(xué)習(xí),運(yùn)維人員就像是一個“師傅”,,將自己的領(lǐng)域知識“教” 給系統(tǒng),,然后系統(tǒng)根據(jù)“學(xué)”到的知識來自動選擇合適的檢測器和算法參數(shù)。運(yùn)維人員首先在歷史數(shù)據(jù)中標(biāo)記出異常,,接著使用十幾種不同類型的檢測器提取出上百個異常特征,,此時有了人工標(biāo)記的數(shù)據(jù)和異常特征,;然后,,將異常檢測問題轉(zhuǎn)化成機(jī)器學(xué)習(xí)中監(jiān)督式的分類問題,分析算法中參數(shù)的分布規(guī)律和不同參數(shù)下學(xué)習(xí)效果的評估,,并將此規(guī)律應(yīng)用于機(jī)器學(xué)習(xí)的模型訓(xùn)練,,達(dá)到自動選擇合適參數(shù)的目的。
4.2 應(yīng)用無監(jiān)督學(xué)習(xí)算法的數(shù)據(jù)中心參數(shù)自動優(yōu)化
無監(jiān)督算法的一個應(yīng)用是對大型服務(wù)器集群內(nèi)部的故障進(jìn)行根因故障分析,,以此提高數(shù)據(jù)中心的可靠性參數(shù),。目前,業(yè)界基于人工智能的運(yùn)維以告警事件,、業(yè)務(wù)日志,、網(wǎng)絡(luò)及業(yè)務(wù)拓?fù)涞葹檠芯抗芾韺ο螅ㄟ^算法智能降噪,、算法智能聚類的管理過程,,依托無監(jiān)督方式的機(jī)器學(xué)習(xí)算法技術(shù)來實(shí)現(xiàn)智能事件關(guān)系整合,在海量的故障事件中高速,、精準(zhǔn)定位問題,,解析原因,提高解決問題的速度,。
這種技術(shù)在對服務(wù)器進(jìn)行故障分析時具備典型的優(yōu)勢:首先是多元IT數(shù)據(jù)接入,,融合告警事件、監(jiān)控日志,、流量,、網(wǎng)絡(luò)拓?fù)涞榷嗑S度數(shù)據(jù)接入;其次是大數(shù)據(jù)算法降噪,,通過智能算法進(jìn)行數(shù)據(jù)的降噪處理,,高效的實(shí)時數(shù)據(jù)處理能力,,海量數(shù)據(jù)的多維管理;第三是數(shù)據(jù)聚類和關(guān)聯(lián),,通過算法進(jìn)行智能關(guān)聯(lián)性匹配并聚合歸類,,產(chǎn)生新的數(shù)據(jù)模型;第四是智能根因推薦,,依據(jù)IP,、業(yè)務(wù)、歸屬等多維度進(jìn)行智能化語義分析,,快速推薦當(dāng)前情境下的故障根因,;最后是知識庫積累復(fù)用,可以構(gòu)建一套知識體系與歷史事件分析的過程,,即針對過去事件與當(dāng)前告警智能提供匹配列表,。
4.3 應(yīng)用強(qiáng)化學(xué)習(xí)算法的數(shù)據(jù)中心參數(shù)自動優(yōu)化
用強(qiáng)化學(xué)習(xí)算法去優(yōu)化PUE是對傳統(tǒng)數(shù)據(jù)中心控制系統(tǒng)技術(shù)的突破性顛覆,也是目前機(jī)器學(xué)習(xí)算法在數(shù)據(jù)中心參數(shù)優(yōu)化的最成功實(shí)踐,。這種算法運(yùn)用機(jī)器學(xué)習(xí),、統(tǒng)計學(xué)以及模糊控制等技術(shù)和方法對數(shù)據(jù)進(jìn)行處理、對各類相關(guān)設(shè)備進(jìn)行系統(tǒng)化分析和決策,,從而達(dá)到優(yōu)化數(shù)據(jù)中心整體PUE的目的,。通過對當(dāng)前運(yùn)行數(shù)據(jù)的清洗、分析和挖掘,,預(yù)測未來的控制動作,。整個過程采用機(jī)器學(xué)習(xí)算法的模型進(jìn)行訓(xùn)練。從強(qiáng)化學(xué)習(xí)算法用于優(yōu)化數(shù)據(jù)中心參數(shù)的成果來看,,該方法收益顯著,。例如,谷歌公司使用其機(jī)器學(xué)習(xí)系統(tǒng),,自動管理其數(shù)據(jù)中心的冷卻架構(gòu),,并持續(xù)分析21個變量,如空氣溫度,、功率負(fù)載和內(nèi)部氣壓等,。2018年,谷歌公司利用機(jī)器學(xué)習(xí)算法將冷卻系統(tǒng)所需的能耗減少40%,,實(shí)現(xiàn)PUE值為1.06的良好成績,。
5 結(jié)束語
自2013年起,中國信息通信研究院云計算與大數(shù)據(jù)研究所測試過眾多數(shù)據(jù)中心的PUE,,其中表現(xiàn)良好的大部分為互聯(lián)網(wǎng)和通信行業(yè)大型數(shù)據(jù)中心,。測試結(jié)果顯示,參測數(shù)據(jù)中心PUE已經(jīng)由1.4~1.5區(qū)間降低到1.2~1.3區(qū)間,,最佳PUE在不斷創(chuàng)新低,?;跈C(jī)器學(xué)習(xí)的典型算法在數(shù)據(jù)中心的PUE等參數(shù)優(yōu)化中已經(jīng)有了不同的應(yīng)用。未來,,機(jī)器學(xué)習(xí)算法將與ICT領(lǐng)域的新技術(shù)產(chǎn)生更多交集,,形成更多方向、更加深入的研究課題,,通過算法與實(shí)際業(yè)務(wù)的結(jié)合,,實(shí)現(xiàn)更大的收益。