基于網(wǎng)絡(luò)系統(tǒng)" title="網(wǎng)絡(luò)系統(tǒng)">網(wǎng)絡(luò)系統(tǒng)可靠性" title="可靠性">可靠性的設(shè)計(jì)" title="設(shè)計(jì)">設(shè)計(jì)思想,,其相應(yīng)的測(cè)試應(yīng)如何考慮與實(shí)施?本文對(duì)網(wǎng)絡(luò)方案可靠性測(cè)試的分類及內(nèi)容做詳細(xì)闡述,。
網(wǎng)絡(luò)系統(tǒng)方案的可靠性主要包括:網(wǎng)絡(luò)系統(tǒng)的可持續(xù)性,、可維護(hù)性、快速恢復(fù)機(jī)制,。相應(yīng)的,,組網(wǎng)方案的可靠性測(cè)試,可歸納為以下幾大類:
1,、網(wǎng)絡(luò)系統(tǒng)持續(xù)長(zhǎng)時(shí)間,、大壓力高負(fù)荷、高頻率震蕩條件下的持續(xù)運(yùn)行能力,,即Duration測(cè)試,。
2,、網(wǎng)絡(luò)系統(tǒng)告警管理功能、系統(tǒng)故障定位手段能力評(píng)估,。
3,、單點(diǎn)故障情況下系統(tǒng)自動(dòng)恢復(fù)時(shí)間。
4,、驗(yàn)證鏈路聚合,、MSTP、RRPP,、BFD,、GR、VRRP,、ECMP,、IRF等HA(High Availability)特性的組合部署功能,并通過(guò)調(diào)整達(dá)到最佳的組合應(yīng)用效果,。
5,、構(gòu)造各類攻擊,從端到端對(duì)網(wǎng)絡(luò)系統(tǒng)進(jìn)行攻擊,。此類測(cè)試往往可以融合在Duration測(cè)試中共同完成。
1 網(wǎng)絡(luò)系統(tǒng)持續(xù)運(yùn)行能力測(cè)試
網(wǎng)絡(luò)系統(tǒng)持續(xù)運(yùn)行能力測(cè)試的目標(biāo)是要通過(guò)更惡劣環(huán)境的測(cè)試,,以確保網(wǎng)絡(luò)系統(tǒng)在客戶的網(wǎng)絡(luò)環(huán)境中上線后,,在各種沖擊和壓力下,仍舊能夠保持穩(wěn)定運(yùn)行,。測(cè)試方法很明確:在組網(wǎng)測(cè)試環(huán)境中對(duì)運(yùn)營(yíng)商或者行業(yè)客戶網(wǎng)絡(luò)的控制平面和數(shù)據(jù)平面模型進(jìn)行模擬,,保持環(huán)境在大壓力并且震蕩的條件下持續(xù)運(yùn)行,同時(shí)監(jiān)控網(wǎng)絡(luò)各個(gè)整體運(yùn)行狀況作為測(cè)試結(jié)果數(shù)據(jù),。
測(cè)試參數(shù)的設(shè)計(jì)是保證測(cè)試效果的重點(diǎn),。其內(nèi)容主要包括以下幾部分。
1,、測(cè)試組網(wǎng)設(shè)備參數(shù),。
以客戶的原始組網(wǎng)模型進(jìn)行組網(wǎng)測(cè)試是最理想的環(huán)境。但是考慮成本因素,,實(shí)際測(cè)試投入中往往難以搭建相對(duì)真實(shí)網(wǎng)絡(luò)1:1的測(cè)試網(wǎng)絡(luò)環(huán)境,。為實(shí)現(xiàn)測(cè)試目的,充分驗(yàn)證系統(tǒng)的可靠性,,測(cè)試組網(wǎng)的抽象和取舍是重點(diǎn),。抽象簡(jiǎn)化組網(wǎng)規(guī)模的原則是:充分分析暴露網(wǎng)絡(luò)系統(tǒng)的性能壓力瓶頸,重點(diǎn)保留系統(tǒng)中的瓶頸關(guān)鍵節(jié)點(diǎn),。
例如,,針對(duì)一個(gè)接入至核心層結(jié)構(gòu)明晰的樹(shù)形網(wǎng)絡(luò),,常用的可行方案是在業(yè)務(wù)流量壓力最大的核心層采用1:1組網(wǎng)測(cè)試。樹(shù)形結(jié)構(gòu)網(wǎng)絡(luò)的核心層的設(shè)備數(shù)量較少,,這也為測(cè)試環(huán)境的1:1組網(wǎng)提供了可能性,。匯聚和接入層設(shè)備數(shù)量逐層遞減,接入層設(shè)備采用幾個(gè)分支模擬真實(shí)應(yīng)用,,其余分支使用高性能測(cè)試儀器的多個(gè)端口直接連接在匯聚層設(shè)備上模擬拓?fù)浜土髁?。可根?jù)被測(cè)試網(wǎng)絡(luò)的控制平明和數(shù)據(jù)平面路徑,,靈活調(diào)整測(cè)試組網(wǎng),。
2、控制平面和數(shù)據(jù)平面參數(shù),。
即協(xié)議模型和流量模型,。協(xié)議模型可以通過(guò)客戶的組網(wǎng)的規(guī)劃和行業(yè)抽象,得到較為明確的數(shù)據(jù)參數(shù),。由于應(yīng)用系統(tǒng)與網(wǎng)絡(luò)系統(tǒng)的維護(hù)技術(shù)人員之間的業(yè)務(wù)理解往往存在壁壘,,并且在網(wǎng)絡(luò)規(guī)劃設(shè)計(jì)階段,無(wú)法通過(guò)流量監(jiān)控獲取模型,,所以流量模型難以準(zhǔn)確界定,,因此成為困擾組網(wǎng)方案測(cè)試的主要因素。比較有效的手段是針對(duì)行業(yè)特征進(jìn)行分析,,并結(jié)合以往的經(jīng)驗(yàn)來(lái)設(shè)定普遍意義的參數(shù),。參數(shù)還可根據(jù)不同類型客戶的實(shí)際上線預(yù)期進(jìn)行加權(quán)預(yù)估。
3,、振蕩系數(shù)與方法,。
針對(duì)控制平面和數(shù)據(jù)平面的振蕩是Duration測(cè)試的基本要求之一。網(wǎng)絡(luò)系統(tǒng)是一個(gè)動(dòng)態(tài)的環(huán)境,。來(lái)自網(wǎng)絡(luò)系統(tǒng)邊緣與出口的各類輸入輸出變化,,會(huì)產(chǎn)生更大的壓力和暴露更多的瓶頸。而通過(guò)劇烈高頻度的振蕩,,營(yíng)造比客戶實(shí)際環(huán)境更加惡劣的網(wǎng)絡(luò),,能夠更快更充分暴露較深或者需要較長(zhǎng)時(shí)間才能夠發(fā)現(xiàn)的缺陷。通過(guò)振蕩在測(cè)試網(wǎng)絡(luò)中掀起的狂風(fēng)巨浪,,會(huì)讓我們更加明確了解網(wǎng)絡(luò)系統(tǒng)的健康可靠程度,。
網(wǎng)絡(luò)系統(tǒng)測(cè)試的振蕩系數(shù)常用經(jīng)驗(yàn)值為30%,即加載在測(cè)試系統(tǒng)的協(xié)議表項(xiàng)和流量在已設(shè)定的參數(shù)基礎(chǔ)上,,周期性上下浮動(dòng)30%,。并可根據(jù)需要調(diào)整以觀察不同頻率條件下的振蕩結(jié)果,例如可分別以5分鐘、10分鐘,、30分鐘,、1小時(shí)為一個(gè)周期。以路由條數(shù)為例,,路由振蕩導(dǎo)致整個(gè)網(wǎng)絡(luò)系統(tǒng)中各個(gè)節(jié)點(diǎn)大量發(fā)布,、刪除路由信息,并引發(fā)流量路徑的遷移,,給予測(cè)試系統(tǒng)更大的不穩(wěn)定性壓力,。實(shí)際測(cè)試時(shí),還需要根據(jù)行業(yè)客戶應(yīng)用特征網(wǎng)絡(luò)對(duì)系數(shù)進(jìn)一步分析,,靈活調(diào)整,。例如,互聯(lián)網(wǎng)行業(yè)客戶,,普遍存在搜索類業(yè)務(wù)突發(fā),,對(duì)流量振蕩的要求更高。
振蕩的模擬可通過(guò)業(yè)界常用測(cè)試儀器較為方便實(shí)現(xiàn),,本文不再贅述,。
2 網(wǎng)絡(luò)系統(tǒng)告警管理功能、系統(tǒng)故障定位手段能力評(píng)估
網(wǎng)絡(luò)系統(tǒng)必須具備系統(tǒng)風(fēng)險(xiǎn)預(yù)警功能和便利的故障定位維護(hù)功能,。
網(wǎng)管系統(tǒng)對(duì)網(wǎng)絡(luò)的實(shí)時(shí)監(jiān)控,,預(yù)先告警功能主要包括網(wǎng)絡(luò)節(jié)點(diǎn)CPU、內(nèi)存,、端口流量,、端口狀態(tài)等參數(shù)的監(jiān)控告警。當(dāng)占用率或者端口流量持續(xù)超過(guò)閾值,,即可觸發(fā)告警,使管理員提前預(yù)知風(fēng)險(xiǎn),,進(jìn)行分析維護(hù),。
系統(tǒng)故障定位手段為事后維護(hù)。一旦網(wǎng)絡(luò)系統(tǒng)產(chǎn)生故障點(diǎn),,網(wǎng)絡(luò)管理系統(tǒng)需記錄網(wǎng)絡(luò)切換事件,,方便快速幫助管理員找到故障點(diǎn),并保存故障信息和系統(tǒng)狀態(tài),,便于后期缺陷復(fù)現(xiàn)定位,。
維護(hù)類測(cè)試以功能測(cè)試為主,通過(guò)打入攻擊CPU的流量,、制造流量擁塞等方法構(gòu)造各類預(yù)警條件,,通過(guò)shutdown或者重啟設(shè)備等命令行,插拔端口、關(guān)閉電源等手段檢驗(yàn)網(wǎng)絡(luò)系統(tǒng)對(duì)故障點(diǎn)的定位和告警信息是否完備,。若設(shè)備支持可維護(hù)性測(cè)試特性,,還可通過(guò)設(shè)備軟件的可維護(hù)性測(cè)試命令,構(gòu)造設(shè)備節(jié)點(diǎn)系統(tǒng)軟硬件故障,,查看系統(tǒng)保存的故障狀態(tài)信息是否完備,,以復(fù)現(xiàn)定位缺陷。
測(cè)試時(shí),,同樣需在大壓力復(fù)雜條件下執(zhí)行,,以檢測(cè)告警、故障信息是否得到高優(yōu)先級(jí)處理,。
3 單點(diǎn)故障情況下系統(tǒng)自動(dòng)恢復(fù)時(shí)間
網(wǎng)絡(luò)系統(tǒng)在出現(xiàn)單點(diǎn)故障情況下可快速恢復(fù)是高可靠網(wǎng)絡(luò)設(shè)計(jì)的重點(diǎn),。恢復(fù)時(shí)間的要求在各類行業(yè)和各網(wǎng)絡(luò)層有差異,。目前,,網(wǎng)絡(luò)系統(tǒng)平均恢復(fù)時(shí)間低于500ms已經(jīng)逐步成為主流要求。
與網(wǎng)絡(luò)切換相關(guān)的各種組網(wǎng)模型故障模擬主要包括:鏈路故障,、節(jié)點(diǎn)設(shè)備故障,、單板故障、節(jié)點(diǎn)設(shè)備主備倒換,、主備設(shè)備倒換,、設(shè)備升級(jí)等。各類故障還需進(jìn)一步細(xì)分,,例如節(jié)點(diǎn)設(shè)備故障包含:設(shè)備命令行執(zhí)行軟件重啟,,設(shè)備斷電、設(shè)備上電,、主備控板全部拔出/插入等等,。
為精確計(jì)算各類故障導(dǎo)致的網(wǎng)絡(luò)中斷/恢復(fù)時(shí)間,組網(wǎng)如圖1所示,,測(cè)試方法如下:
圖1 網(wǎng)絡(luò)系統(tǒng)恢復(fù)時(shí)間測(cè)試示意
1,、基于網(wǎng)絡(luò)測(cè)試環(huán)境,接入測(cè)試儀器,,將流量發(fā)生器端到端接入網(wǎng)絡(luò)系統(tǒng),。儀器端口分別連接網(wǎng)絡(luò)系統(tǒng)的接入層和出口,以保證被測(cè)流量路徑貫通整個(gè)網(wǎng)絡(luò),。
2,、在測(cè)試儀器的Port A端口設(shè)定速率穩(wěn)定的流量,目的地址為Port B端口,。在Port B端口設(shè)定速率穩(wěn)定的流量,,目的地址為Port A端口。由于上下行路徑遷移時(shí),上下行的路由等各類協(xié)議的熱備表項(xiàng)不同,,涉及的協(xié)議收斂也可能不同,,所以務(wù)必設(shè)定雙向流量,以檢測(cè)上行和下行流量路徑的恢復(fù)時(shí)間,。
3,、確保設(shè)定的上下行流量路徑通過(guò)需要模擬的故障點(diǎn)節(jié)點(diǎn),避免測(cè)試無(wú)效,。
4,、啟動(dòng)流量發(fā)送與接收,開(kāi)始統(tǒng)計(jì)發(fā)送的流量和接收的流量,。
5,、模擬節(jié)點(diǎn)故障,網(wǎng)絡(luò)系統(tǒng)自動(dòng)檢測(cè)并恢復(fù),。
6,、停止發(fā)送流量。根據(jù)發(fā)送和接收的流量,,計(jì)算得出系統(tǒng)流量路徑恢復(fù)時(shí)間,。
公式為:Time=(發(fā)送報(bào)文數(shù)量-接收?qǐng)?bào)文數(shù)量)/報(bào)文發(fā)送速率(pps)。
注意:報(bào)文發(fā)送速率以M/G為單位時(shí),,計(jì)算需考慮以太網(wǎng)報(bào)文的前導(dǎo)碼和幀間隙,,公式為:Time=(發(fā)送報(bào)文數(shù)量-接收?qǐng)?bào)文數(shù)量)*( 報(bào)文字節(jié)*8+8*8+96)/報(bào)文發(fā)送速率(M/G)。通過(guò)計(jì)算得出上下行流量路徑的恢復(fù)時(shí)間,。
測(cè)試時(shí)還需注意以下細(xì)節(jié):
1,、故障模擬操作方式要考慮全面。例如用命令行shutdown端口和拔掉網(wǎng)線操作導(dǎo)致的測(cè)試結(jié)果往往會(huì)不同;光纖的單通與通常的鏈路down表現(xiàn)也會(huì)不同等,。
2,、不僅要測(cè)試主設(shè)備/鏈路切換到備用,還要測(cè)試主設(shè)備/鏈路恢復(fù)正常后,,網(wǎng)絡(luò)系統(tǒng)的表現(xiàn),。
3、每項(xiàng)測(cè)試需至少測(cè)試三次得到平均值,。并對(duì)得到尖峰和低谷進(jìn)行分析,需要時(shí)重復(fù)更多測(cè)試以獲取穩(wěn)定數(shù)據(jù),。
4,、始終關(guān)注測(cè)試流量路徑是否經(jīng)過(guò)故障節(jié)點(diǎn),是否按照預(yù)期切換,,保證測(cè)試結(jié)果的準(zhǔn)確性,。
4 驗(yàn)證HA(High Availability)特性的組合部署功能
網(wǎng)絡(luò)系統(tǒng)中的協(xié)議配置對(duì)系統(tǒng)的穩(wěn)定性、負(fù)荷和恢復(fù)時(shí)間有重大影響。例如對(duì)OSPF的hello time設(shè)置過(guò)小,,會(huì)加重網(wǎng)絡(luò)中控制平面處理負(fù)擔(dān),,并容易產(chǎn)生路由振蕩。但是過(guò)大也會(huì)導(dǎo)致故障時(shí)系統(tǒng)恢復(fù)時(shí)間無(wú)法達(dá)到要求,。因此在測(cè)試中可根據(jù)不同網(wǎng)絡(luò)的要求,,取得一個(gè)性價(jià)比最高的平衡。
當(dāng)各類為保證網(wǎng)絡(luò)系統(tǒng)高可靠運(yùn)行的協(xié)議在一個(gè)網(wǎng)絡(luò)系統(tǒng)中應(yīng)用時(shí),,就使這種組合更加復(fù)雜,,這些特性包括鏈路聚合、MSTP,、RRPP,、BFD、GR,、VRRP,、ECMP、IRF等,。
因此,,測(cè)試不僅僅需要驗(yàn)證這些特性是否在發(fā)揮作用,同時(shí)測(cè)試過(guò)程也是一個(gè)網(wǎng)絡(luò)參數(shù)調(diào)優(yōu)過(guò)程,。在測(cè)試中通過(guò)不斷調(diào)整協(xié)議配置參數(shù),,以獲取網(wǎng)絡(luò)系統(tǒng)可靠性最佳配置。這個(gè)調(diào)優(yōu)過(guò)程既要計(jì)算獲取網(wǎng)絡(luò)故障恢復(fù)時(shí)間,,又要監(jiān)控網(wǎng)絡(luò)系統(tǒng)各個(gè)節(jié)點(diǎn)的運(yùn)行狀況,。例如在滿足網(wǎng)絡(luò)恢復(fù)時(shí)間要求基礎(chǔ)上,監(jiān)控參數(shù)配置會(huì)影響的CPU占用率,、內(nèi)存是否正常,,Console是否能響應(yīng),轉(zhuǎn)發(fā)是否正常,,OSPF收斂及路由變化等等,,綜合得出結(jié)論。
5 從端到端對(duì)網(wǎng)絡(luò)系統(tǒng)進(jìn)行各類攻擊測(cè)試
此類測(cè)試往往融合在Duration測(cè)試中共同完成,。使用測(cè)試儀器公司,、開(kāi)源軟件、自行開(kāi)發(fā)的各類異常報(bào)文攻擊工具,,可以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)系統(tǒng)的安全漏洞,、健壯性的綜合測(cè)試。
結(jié)束語(yǔ)
網(wǎng)絡(luò)系統(tǒng)方案的可靠性測(cè)試的所有測(cè)試內(nèi)容,,都需要在整網(wǎng)環(huán)境下執(zhí)行,,以保證網(wǎng)絡(luò)系統(tǒng)的復(fù)雜關(guān)聯(lián)性,,互相影響得到充分驗(yàn)證。網(wǎng)絡(luò)系統(tǒng)的可靠性測(cè)試是一種灰盒測(cè)試,,不僅僅要進(jìn)行端到端的測(cè)試,,還要深入關(guān)注到各個(gè)節(jié)點(diǎn)的運(yùn)行狀態(tài),流量和協(xié)議控制層面的脈絡(luò)運(yùn)行狀態(tài),。要做好各類故障的分類分析,,充分考慮客戶環(huán)境的復(fù)雜性和客戶行為,對(duì)網(wǎng)絡(luò)系統(tǒng)的高可靠相關(guān)特性深入理解,,在驗(yàn)證中優(yōu)化配置參數(shù),,得到最優(yōu)最可靠的網(wǎng)絡(luò)系統(tǒng)。