從凌晨2點(diǎn)到下午1點(diǎn)48分,,亞馬遜旗下云服務(wù)商AWS中國區(qū)熬過了漫長的11小時(shí)48分。
作為AWS中國區(qū)的員工,,方遠(yuǎn)(化名)一早被電話吵醒,。一家創(chuàng)業(yè)公司的客戶過來抱怨自家APP連不上服務(wù)器了。
事情比方遠(yuǎn)想象的嚴(yán)重,。掛完電話,,方遠(yuǎn)才發(fā)現(xiàn)公司的大小微信群已經(jīng)炸了鍋。
按照AWS中國的官方聲明,,因?yàn)楦粢沟缆肥┕ぶ杏袔滋幑饫|被切斷,,導(dǎo)致可用區(qū)無法鏈接Internet,使得AWS中國業(yè)務(wù)大規(guī)模出現(xiàn)故障,。
包括方遠(yuǎn)在內(nèi)的員工們也很懵,,幾處光纜被切斷怎么會(huì)影響整個(gè)北京區(qū)域的這么多服務(wù)?
但這一事故的影響已經(jīng)在不斷發(fā)酵,,包括VIPKID,、流利說、三星應(yīng)用商店等多個(gè)用戶都均受到不同程度的影響,。亞馬遜中國官網(wǎng)(www.amazon.cn)的頁面也一度崩潰,。
因?yàn)檎?·18大促,流利說的助教張豐(化名)正忙著推廣自家的促銷信息,。這邊張豐剛向?qū)W員介紹完自家的課程計(jì)劃,,就在微信上被學(xué)員告知流利說APP的定制課程已經(jīng)根本打不開。很快,,張豐接到公司緊急通知,,是因?yàn)楣镜?a class="innerlink" href="http://forexkbc.com/tags/云計(jì)算" target="_blank">云計(jì)算服務(wù)商AWS出現(xiàn)故障。
接下來,,張豐的工作重點(diǎn)不得不變成安撫各路學(xué)員,。直到下午1點(diǎn)多,張豐終于開始群發(fā)消息,,通知學(xué)員們APP“服務(wù)”已經(jīng)逐步恢復(fù)中,。
類似的尷尬在VIPKID的各個(gè)家長群同時(shí)上演。
有客戶在微信上評(píng)論道:“這是我從業(yè)以來經(jīng)歷最長的一次故障修復(fù)時(shí)間,,AWS這次事故處理的時(shí)間效率太低了,,我表示很失望?!?/p>
為了保障服務(wù)不中斷,、數(shù)據(jù)不丟失,,一般業(yè)務(wù)系統(tǒng)、數(shù)據(jù)都有多個(gè)備份,。而在云計(jì)算中,,為了保障數(shù)據(jù)中心內(nèi)業(yè)務(wù)系統(tǒng)的可用性,數(shù)據(jù)中心基礎(chǔ)設(shè)施也會(huì)采取類似的冗余備份,,提高系統(tǒng)可用性,。
有業(yè)內(nèi)人士認(rèn)為,此次AWS光纜被切斷導(dǎo)致近12小時(shí)大面積服務(wù)癱瘓是因?yàn)闆]有做好網(wǎng)絡(luò)冗余設(shè)計(jì),。
網(wǎng)絡(luò)冗余設(shè)計(jì)主要通過重復(fù)設(shè)置網(wǎng)絡(luò)鏈路和網(wǎng)絡(luò)設(shè)備冗余措施,。網(wǎng)絡(luò)鏈路冗余是指為確保業(yè)務(wù)正常運(yùn)轉(zhuǎn),除配置主線路外,,同時(shí)做好第二種,、第三種線路的部署。
主備線路隔的位置比較遠(yuǎn),,因此,,一旦主線路出現(xiàn)故障,還有其他線路保證網(wǎng)絡(luò)的可用性,。例如,,接入互聯(lián)網(wǎng)時(shí),同時(shí)采用不同電信運(yùn)營商線路,,相互備份且互不影響,,但這樣一來,成本也會(huì)增大,。
據(jù)悉,,AWS北京區(qū)域使用的是光環(huán)新網(wǎng)的數(shù)據(jù)中心,記者多次致電光環(huán)新網(wǎng)客服電話,,均無法接通,。據(jù)光環(huán)新網(wǎng)官網(wǎng)顯示,該公司在北京擁有酒仙橋,、太和橋,、光環(huán)新谷、東直門,、房山和亦莊6個(gè)數(shù)據(jù)中心,,每個(gè)都擁有高達(dá)100G的BGP總出口帶寬,多運(yùn)營商通信鏈路,。
“本來一個(gè)機(jī)房,,各家運(yùn)營商鏈路應(yīng)該有自己的連通方式。但是也有可能機(jī)房在施工時(shí)先匯總各家運(yùn)營商到一條主干線,,到某一節(jié)點(diǎn)之后再分開,。但冗余是有成本的,,不是所有場景所有環(huán)節(jié)都冗余的。對于云廠商來說,,網(wǎng)絡(luò)線路都是租運(yùn)營商的,,都是錢啊?!鄙鲜鰳I(yè)內(nèi)人士指出。
因?yàn)楣饫|被切斷導(dǎo)致服務(wù)癱瘓的并不少見,。2015年,,因?yàn)楫?dāng)?shù)厥姓ㄔO(shè)施工方挖斷了光纜,支付寶PC網(wǎng)頁和手機(jī)客戶端都出現(xiàn)無法登錄,、網(wǎng)絡(luò)異常等現(xiàn)象,。后來,支付寶改成了冗余設(shè)計(jì),。
2018年9月云棲大會(huì)上,,螞蟻金服發(fā)布了“三地五中心金融級(jí)高可用方案”,并現(xiàn)場演示了“剪網(wǎng)線”,,經(jīng)過26秒容災(zāi)切換完成,,恢復(fù)業(yè)務(wù)。
而在2018年7月,,因騰訊云廣州一區(qū)的主備兩條運(yùn)營商網(wǎng)絡(luò)鏈路同時(shí)中斷,,騰訊云廣州區(qū)域部分用戶出現(xiàn)資源訪問失敗、控制臺(tái)登錄異常等情況,。
2019 年3 月,,騰訊旗下多項(xiàng)服務(wù)出現(xiàn)服務(wù)器未響應(yīng)問題。隨后,,騰訊云發(fā)布公告稱,,因上海南匯網(wǎng)絡(luò)光纖因施工被意外挖斷,導(dǎo)致該區(qū)不少互聯(lián)網(wǎng)公司的業(yè)務(wù)受到不同程度的影響,。
由于有備用鏈路,,騰訊云隨即啟動(dòng)流量智能調(diào)度系統(tǒng),將上海地區(qū)公網(wǎng)流量通過騰訊云內(nèi)部T級(jí)骨干網(wǎng),,引導(dǎo)至騰訊云廣州區(qū)電信出口,,再由電信骨干網(wǎng)直達(dá)浙江電信。此次光纖故障從發(fā)現(xiàn)到恢復(fù)只有兩分鐘,,并且所有流程自動(dòng)化執(zhí)行,,在150秒之內(nèi)就快速恢復(fù)了網(wǎng)絡(luò)。
不過,,即使有冗余備份,,對于業(yè)務(wù)也并非毫無影響,,“備用鏈路一般會(huì)慢一些,而且大家都擁到小路上,,自然就擠了,,體驗(yàn)上就是慢?!币辉品?wù)商告訴記者,。
此前,UCloud創(chuàng)始人兼CEO季昕華表示“云計(jì)算公司有四大謊言,,分別是云計(jì)算先服務(wù)于內(nèi)部客戶,,再服務(wù)于外部客戶;云計(jì)算能保證100%的安全,;云計(jì)算消耗大量資金,;云計(jì)算是不盈利的?!?/p>
“云計(jì)算雖然比本地研發(fā)更安全,,但不可能是100%。就算微軟,、亞馬遜,、谷歌、阿里,、騰訊一樣都會(huì)出問題,。所以用戶更愿意使用多家云來服務(wù),多云戰(zhàn)略是未來的重要方向,?!彼赋觥?/p>
也有廠商呼吁,,隨著云計(jì)算和數(shù)據(jù)中心越來越重要,,光纜、管道等基礎(chǔ)設(shè)施的保護(hù)也需要跟上,,現(xiàn)在破壞的成本太低了,。