《電子技術應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 設計應用 > 數(shù)據(jù)中心網(wǎng)絡監(jiān)控及管理指南
數(shù)據(jù)中心網(wǎng)絡監(jiān)控及管理指南
機房360
摘要: 一個有效的監(jiān)控方案對數(shù)據(jù)中心網(wǎng)絡維護是至關重要的,這是因為從某種程度上來說,,數(shù)據(jù)中心在大部分時間里往往處于無人管理的狀態(tài),。無論管理員是在數(shù)據(jù)中心大樓內還是在幾英里外的地方工作,都必須配置一套有效的警報機制,。你不能只是設想恰巧有人走進數(shù)據(jù)中心并注意到控制臺屏幕上顯示了一個即將出現(xiàn)的問題,。這就是為什么確保有一個良好的網(wǎng)絡管理和監(jiān)控方案是如此重要的原因所在。
Abstract:
Key words :

對網(wǎng)絡設備,、服務器和數(shù)據(jù)中心本身的監(jiān)控是數(shù)據(jù)中心最重要的任務之一,。大部分相關規(guī)劃都集中在選擇有效的監(jiān)控解決方案和持續(xù)的數(shù)據(jù)中心網(wǎng)絡設備管理辦法方面。

一個有效的監(jiān)控方案對數(shù)據(jù)中心網(wǎng)絡維護是至關重要的,,這是因為從某種程度上來說,,數(shù)據(jù)中心在大部分時間里往往處于無人管理的狀態(tài)。多年來,,我有過在許多數(shù)據(jù)中心工作的經驗,,根據(jù)我的經驗,基本上不會有人被派來專門盯著數(shù)據(jù)中心等候問題出現(xiàn),。事實上,,可能也不會有人長時間地待在數(shù)據(jù)中心。畢竟,數(shù)據(jù)中心又冷又吵,,所以網(wǎng)絡管理員更喜歡在其它地方消磨時間,。有時,管理員的工作地點甚至可能與數(shù)據(jù)中心不在同一幢大樓內,。在從業(yè)之初,,我所工作的一家大型保險公司的數(shù)據(jù)中心就像一個地下倉庫。雖然數(shù)據(jù)中心是精心打造的,,但只有保安人員定期在那里工作,,其他人都在距此幾英里之外的另外一棟大樓內工作。

無論管理員是在數(shù)據(jù)中心大樓內還是在幾英里外的地方工作,,都必須配置一套有效的警報機制,。你不能只是設想恰巧有人走進數(shù)據(jù)中心并注意到控制臺屏幕上顯示了一個即將出現(xiàn)的問題。這就是為什么確保有一個良好的網(wǎng)絡管理和監(jiān)控方案是如此重要的原因所在,。如果沒有,,那可能只有當報警鈴聲響起時我們才會意識到出了問題。

需要監(jiān)控什么?

數(shù)據(jù)中心有很多不同的東西需要監(jiān)控,,因此我們需要制定大量的數(shù)據(jù)中心監(jiān)控規(guī)劃,。有些人很可能認為數(shù)據(jù)中心監(jiān)控就是一直密切地觀察服務器的運行,但實際操作要復雜得多,。比如,,Microsoft'sSystemCenterOperationsManager在WindowsServers的監(jiān)控方面做得不錯,還可以部署到小型規(guī)劃中,。但盡管如此,,如果我們的服務器運行的是非Windows操作系統(tǒng),它也是無法發(fā)揮作用的,。

除了服務器操作系統(tǒng)和應用程序之外,,還有很多其它的因素需要我們進行監(jiān)控。比如,,對數(shù)據(jù)中心溫度的觀察也很重要,。大多數(shù)服務器都配有內置安全機制,當服務器的溫度超出某個特定值并且可能損壞服務器時,,它就會讓服務器停機,。一個好的監(jiān)控解決方案必須能夠及時報告數(shù)據(jù)中心環(huán)境的溫度,同時還應該能夠在任何一臺服務器的溫度開始接近臨界水平時向我們發(fā)出警報,。

電源管理方面的情況也是類似的,。當發(fā)生電源中斷時,,通常來講備用電源會保持服務器在預先設定的時間范圍內正常運行,。更加復雜的數(shù)據(jù)中心也可能會依賴備用發(fā)電機。在任何情況下,我們都必須關注能源中斷現(xiàn)象,,我們也必須知道在任意給定時間中需要多少備用電源,。

一個好的監(jiān)控解決方案必須能夠提醒我們關注服務器硬件問題、操作系統(tǒng)故障,、應用故障,、網(wǎng)絡硬件故障和環(huán)境問題。這可以說是一個苛刻的要求,,同時這也是為什么說適當?shù)囊?guī)劃至關重要的原因之一,。據(jù)我所知,沒有一個監(jiān)控解決方案可以同時執(zhí)行所有這些功能,。一般來講,,網(wǎng)絡架構師需要同時購置幾種監(jiān)控解決方案,并且將它們都安裝在系統(tǒng)上以發(fā)揮警報作用,。這個警報可以以文本信息的形式發(fā)送到管理員的移動通信設備上,,或者以郵件的形式發(fā)送到服務臺,或是以其它警報形式提醒管理員,。重要的一點是所有的警報最終都必須被匯集到一個地方,。

虛擬化技術使數(shù)據(jù)中心網(wǎng)絡監(jiān)控變得復雜化

當我們采購監(jiān)控解決方案時,我們必須銘記這其中有許多因素需要考慮,,比如說虛擬化,,它會使監(jiān)控過程變得復雜化。例如,,市場上有各種不同的可以監(jiān)控服務器硬件失效信號的監(jiān)控應用軟件,。諸如此類的應用可以監(jiān)控到過高的服務器溫度、SMART磁盤警報,、甚至是服務器制冷電扇的失效,。但問題在于,如果監(jiān)控解決方案并不知道它是在監(jiān)控一臺虛擬服務器,,它可能就無法監(jiān)控到會潛在影響服務器可用性的硬件問題,。

監(jiān)控軟件應該可以找出主機服務器硬件的問題。但是,,當主機存在風險時,,任何運行在主機上的虛擬機有可能也會存在風險。因此,,當使用虛擬機時,,我們需要有一種方法來區(qū)分物理服務器和虛擬服務器,并且知道哪些虛擬機是在哪些主機服務器上運行,。同時,,當發(fā)生硬件問題時,我們還必須能夠快速地將客戶機轉移到其它主機服務器上。

最后要說的是,,管理和監(jiān)控是同步進行的,。只有管理能力到位才可以實現(xiàn)良好的監(jiān)控,特別是當員工不在現(xiàn)場工作的情況下,。例如,,當管理人員無法及時到達出現(xiàn)故障的服務器來阻止事故發(fā)生,如果監(jiān)測軟件可以告知我們將有重大故障出現(xiàn),,這該有多好?這就是說能夠監(jiān)控每臺數(shù)據(jù)中心服務器和硬件核心部件并與它們實現(xiàn)遠程交互是如此重要的原因所在,。

此內容為AET網(wǎng)站原創(chuàng),未經授權禁止轉載,。