故障年年有,,今年特別早,。
前幾天,我在寫《2022年通信行業(yè)十大看點》的時候,,就提到了網(wǎng)絡(luò)安全穩(wěn)定的重要性,。沒想到,這還不到一個禮拜,,國內(nèi)第一個斷網(wǎng)事件就誕生了,。
根據(jù)媒體報道,1月12日凌晨,,有大量用戶反映某運營商服務(wù)斷網(wǎng),。基于網(wǎng)友反饋的坐標來看,,包括北京,、廣州、杭州,、長春,、烏魯木齊等地,均出現(xiàn)了斷網(wǎng)問題,。
據(jù)悉,,此次大規(guī)模斷網(wǎng)事件,導(dǎo)致47%的該運營商用戶無法訪問網(wǎng)絡(luò),,骨干網(wǎng)受到影響,,具體表現(xiàn)為路由追蹤無信息。
本次斷網(wǎng)發(fā)生在深夜,且很快得到了恢復(fù)(不到半小時),,客觀來說,,影響不大。
但是,,斷網(wǎng)的原因卻遲遲未能公布(估計不會公布了)。
這次斷網(wǎng),,不禁讓人深思——都2022年了,,運營商和設(shè)備商每天都把技術(shù)吹得天花亂墜,為什么我們的網(wǎng)絡(luò)還是會斷,?
今天,,小棗君就簡單和大家聊聊這個話題。
斷網(wǎng)的原因分析
前段時間,,西安一碼通宕機的時候,,幾乎所有人都把關(guān)注目光放在“單一來源采購”和“項目轉(zhuǎn)包”上。
我們在日常工作中,,也經(jīng)常見到甚至參與過類似的項目——高價中標,,然后層層轉(zhuǎn)包,最后一個千萬級的項目,,很可能是一個大學(xué)生團隊完成的,。
軟件行業(yè)這種現(xiàn)象略見不鮮,于是人們就會覺得,,通信行業(yè)出現(xiàn)問題,,是不是也和項目轉(zhuǎn)包或者低價中標有關(guān)?
其實,,通信行業(yè)的情況,,和IT行業(yè)還是有些區(qū)別的。
通信項目,,尤其是面向三大運營商的公共通信網(wǎng)絡(luò)項目,,對安全性和可靠性的要求極高。
公共通信網(wǎng)絡(luò)(手機網(wǎng)絡(luò),、寬帶網(wǎng)絡(luò))承載著海量的用戶,,支撐國民經(jīng)濟各個領(lǐng)域(金融、制造,、交通)的發(fā)展,,對于社會穩(wěn)定意義重大。各個運營商身負非常嚴格的網(wǎng)絡(luò)安全運行考核指標,,一旦出現(xiàn)問題,,不是扣工資那么簡單,而是領(lǐng)導(dǎo)下課,甚至瀆職入獄,。
所以,,對于通信網(wǎng)絡(luò)主設(shè)備和核心服務(wù)的采購,運營商非常嚴謹和認真,。能夠中標的,,都是華為、中興,、愛立信,、諾基亞這樣的大型企業(yè)。
運營商那么重視,,設(shè)備商就更不用說了,。在目前激烈的市場競爭下,設(shè)備商們再摳門,,也不敢在安全上松懈,。一旦出事,大領(lǐng)導(dǎo)就要屁顛屁顛去道歉,。一旦出大事,,這個省的份額基本上就是完蛋,卷鋪蓋走人,。
所以,,通信網(wǎng)絡(luò)設(shè)備的采購,尤其是集團層面的集采,,貓膩空間有限,。目前,貓膩較多的,,或者說存在低價競爭,、灰色交易的,是一些中小型的采購,。大家可以去運營商的采購網(wǎng)站看,,每天都有幾十個采購項目掛出來,什么辦公樓裝修啊,,顯示屏采購啊,,信息系統(tǒng)運維啊,之類的,。
通信圈里很多人抱怨運營商壓價,,其實運營商壓價的項目,主要是運維,、代運維,、站點勘察之類的體力勞動項目。甲方會通過施工標準來卡供應(yīng)商。
既要低價,,又要符合標準,,就看乙方供應(yīng)商的本事。硬件和物料是明的,,不好偷工減料,,于是,就把目光放在員工身上,,大幅克扣合作方員工的工資和獎金,,以此達到壓低成本的目的。
說起來大家可能不信,,有設(shè)備商在招外包合作的時候,明確要求了給外包員工的薪資比例,。例如設(shè)備商給分包商1萬,,那么,分包商必須承諾,,至少要給員工7000,,以此保證底層員工的積極性和態(tài)度。
為了保證分包商員工不瞎搞,,設(shè)備商和運營商還專門制定了大量的流程制度和行為規(guī)范,,文檔也是不斷地checklist,對操作步驟嚴格管控,,防止出事,。
前幾年廣西那個故障,就是外包員工誤操作,,導(dǎo)致某設(shè)備商賠了幾個億,。所以,設(shè)備商不會為了省那么幾個錢,,在核心環(huán)節(jié)摳成本,。
說來說去,我想表達的意思就是——通信網(wǎng)絡(luò)因為層層轉(zhuǎn)包,、偷工減料導(dǎo)致出現(xiàn)重大網(wǎng)絡(luò)的可能性,,極低極低。運營商,、設(shè)備商,、分包商,都不敢拿網(wǎng)絡(luò)安全當兒戲,。
真正的原因
那么問題來了,,通信網(wǎng)絡(luò)出現(xiàn)重大故障的主要原因,究竟是什么呢?
其實還是技術(shù)原因,。
我們搞技術(shù)的通信人都知道,,現(xiàn)在的通信網(wǎng)絡(luò)是極為健壯的,即使你想故意搞癱它,,都很難,。
通信網(wǎng)絡(luò)在設(shè)計之初,就有無數(shù)的專家進行架構(gòu)設(shè)計和評審,,考慮各種冗余和容災(zāi)方案,。為了避免癱局,所有的單板都是主備兩塊,。再往上,,網(wǎng)元也是容災(zāi)的,要么pool池,,要么1+1或1:1備份,。傳輸設(shè)備就更不用說,各種環(huán)型組網(wǎng),,各種主備保護,,就是為了應(yīng)對設(shè)備故障或意外情況(地震、水災(zāi),、恐襲等),。
電子設(shè)備是不穩(wěn)定的,CPU,、內(nèi)存,、主板、硬盤,、強弱電,,都有可能故障。公共通信網(wǎng)絡(luò)要實現(xiàn)99.9999%以上的可靠性,,必須做容災(zāi)備份,。說白了,就是砸錢,??瓷先ナ且惶自O(shè)備,其實后面是一堆設(shè)備,。
但是,,越復(fù)雜的網(wǎng)絡(luò),其中的隱患就越難以察覺,。目前,,我們經(jīng)歷2/3/4/5G的發(fā)展,,網(wǎng)絡(luò)變得太過臃腫和復(fù)雜。網(wǎng)絡(luò)的開放化,,也導(dǎo)致了廠商的魚龍混雜,。
舊設(shè)備舍不得淘汰,新設(shè)備(新技術(shù))剛剛上線,,是混亂的高發(fā)期,。
運維人員對設(shè)備和網(wǎng)絡(luò)的缺乏了解,信息的不對稱,,導(dǎo)致了應(yīng)對突發(fā)局面的慌亂和倉促,。
說句實在話,目前運營商的一些員工,,在技術(shù)上無法做到及時的技能更新,,對設(shè)備商依賴越來越大,正在喪失對技術(shù)的控制和主導(dǎo)權(quán),。
少部分的運營商基層技術(shù)牛人,,因為職業(yè)發(fā)展的原因,要么升職去做管理了,,要么躺平或離職了,,青黃不接,,沒辦法和設(shè)備商工程師進行對等溝通,,影響了故障的緊急恢復(fù)。沒有造成二次傷害,,就已經(jīng)不錯了,。
全網(wǎng)級的重大故障,要么是核心網(wǎng)的鍋,,要么是傳輸網(wǎng)的鍋?,F(xiàn)在出故障,想都不用想,,要么是骨干網(wǎng)路由掛了,,要么是光纖斷了,要么就是DNS,、鑒權(quán)這樣的基礎(chǔ)服務(wù)掛了,。連Facebook和Google這樣的頂級技術(shù)巨頭,都會在BGP這樣的基礎(chǔ)路由協(xié)議上栽跟頭,,你說還有什么不可能發(fā)生,?
我們總吹牛,說自己控制了網(wǎng)絡(luò),。其實,,一線技術(shù)人員都知道,,很多技術(shù)上的事情,都是玄學(xué),。你根本不知道它為什么會好,,也根本不知道它為什么會壞。
網(wǎng)絡(luò)出現(xiàn)故障的可能性太多了,,蝴蝶效應(yīng)也非常明顯,。我們國內(nèi)的工程質(zhì)量把關(guān)很嚴格,還好一些,。很多海外項目,,簡直讓人抓狂。
舉個例子,,曾經(jīng)在印度的一個項目,,本地員工中繼線接錯了,主用對的,,備用錯了,。結(jié)果,傳輸網(wǎng)絡(luò)一個閃斷,,主用切備用,,癱了。線癱了就癱了唄,,結(jié)果數(shù)據(jù)溢出,,把傳輸設(shè)備沖癱了。傳輸設(shè)備癱了,,導(dǎo)致整網(wǎng)信令擁塞,,又把MGW媒體網(wǎng)關(guān)(兼做信令網(wǎng)關(guān))沖癱了,一路癱下去,,一個邦(相當于國內(nèi)一個?。┚瓦@么斷網(wǎng)了。你說神不神奇,?
我們作為技術(shù)人,,要對技術(shù)有敬畏之心。我們對技術(shù)的掌握,,遠遠沒有到爐火純青的地步,。所以,完全杜絕網(wǎng)絡(luò)故障,,是不可能的,。常在河邊走,哪有不濕鞋,。出來混,,還是要看點運氣,。
從技術(shù)的長遠發(fā)展來看,現(xiàn)在都講網(wǎng)絡(luò)的自動駕駛(和開車沒關(guān)系,,是網(wǎng)絡(luò)自己管理網(wǎng)絡(luò)的意思),,講AI的智能化運維。其實我覺得,,AI輔助運維應(yīng)該可行,,但是全面接管的話,還是蠻遙遠的,。
目前,,我們的通信網(wǎng)絡(luò)過于復(fù)雜,人員水平層次不齊,,在沒有外部主動攻擊的情況下,,我們都無法保證網(wǎng)絡(luò)的100%安全。一旦發(fā)生了敵對勢力對網(wǎng)絡(luò)的超限戰(zhàn),,會發(fā)生什么,,誰也不知道。
客觀發(fā)生的情況我們控制不住,,但是,,主觀的預(yù)防行為我們還是可以做的。
一方面,,加強對技術(shù)人員的尊重,,給予合適的待遇,規(guī)劃技術(shù)線的跑道,,有利于穩(wěn)定技術(shù)人員隊伍,。
另一方面,,及時對員工進行技術(shù)培訓(xùn)和實踐訓(xùn)練,,彌補技術(shù)差異,有利于故障的快速恢復(fù),。
第三,,容災(zāi)演練要落到實處,少搞貓膩,,想方設(shè)法多設(shè)計一些極限的緊急情況,,完善容災(zāi)預(yù)案,會有很大幫助,。
第四,,簡化網(wǎng)絡(luò)架構(gòu)設(shè)計,加速舊設(shè)備的淘汰,,實現(xiàn)網(wǎng)絡(luò)極簡,,有利于減小故障發(fā)生的風險,。
好了,以上就是小棗君關(guān)于網(wǎng)絡(luò)故障的一些想法,,歡迎大家補充,、拍磚。
2022沒有開個好頭,,希望后面大家平平安安,,該拜還是多拜拜。