《電子技術應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 業(yè)界動態(tài) > 因光纜被切斷,,亞馬遜中國 AWS 云服務斷網(wǎng) 12 小時

因光纜被切斷,,亞馬遜中國 AWS 云服務斷網(wǎng) 12 小時

2019-06-04

  從凌晨2點到下午1點48分,亞馬遜旗下云服務AWS中國區(qū)熬過了漫長的11小時48分,。

  作為AWS中國區(qū)的員工,方遠(化名)一早被電話吵醒。一家創(chuàng)業(yè)公司的客戶過來抱怨自家APP連不上服務器了,。

  事情比方遠想象的嚴重。掛完電話,,方遠才發(fā)現(xiàn)公司的大小微信群已經(jīng)炸了鍋,。

  按照AWS中國的官方聲明,因為隔夜道路施工中有幾處光纜被切斷,,導致可用區(qū)無法鏈接Internet,,使得AWS中國業(yè)務大規(guī)模出現(xiàn)故障。

  包括方遠在內(nèi)的員工們也很懵,,幾處光纜被切斷怎么會影響整個北京區(qū)域的這么多服務,?

  但這一事故的影響已經(jīng)在不斷發(fā)酵,包括VIPKID,、流利說,、三星應用商店等多個用戶都均受到不同程度的影響。亞馬遜中國官網(wǎng)(www.amazon.cn)的頁面也一度崩潰,。

  因為正逢6·18大促,,流利說的助教張豐(化名)正忙著推廣自家的促銷信息。這邊張豐剛向學員介紹完自家的課程計劃,,就在微信上被學員告知流利說APP的定制課程已經(jīng)根本打不開,。很快,張豐接到公司緊急通知,,是因為公司的云計算服務商AWS出現(xiàn)故障,。

5cf4b8500b045.png

  接下來,張豐的工作重點不得不變成安撫各路學員,。直到下午1點多,,張豐終于開始群發(fā)消息,通知學員們APP“服務”已經(jīng)逐步恢復中,。

  類似的尷尬在VIPKID的各個家長群同時上演,。

  有客戶在微信上評論道:“這是我從業(yè)以來經(jīng)歷最長的一次故障修復時間,AWS這次事故處理的時間效率太低了,我表示很失望,?!?/p>

  為了保障服務不中斷、數(shù)據(jù)不丟失,,一般業(yè)務系統(tǒng),、數(shù)據(jù)都有多個備份。而在云計算中,,為了保障數(shù)據(jù)中心內(nèi)業(yè)務系統(tǒng)的可用性,,數(shù)據(jù)中心基礎設施也會采取類似的冗余備份,提高系統(tǒng)可用性,。

  有業(yè)內(nèi)人士認為,,此次AWS光纜被切斷導致近12小時大面積服務癱瘓是因為沒有做好網(wǎng)絡冗余設計。

  網(wǎng)絡冗余設計主要通過重復設置網(wǎng)絡鏈路和網(wǎng)絡設備冗余措施,。網(wǎng)絡鏈路冗余是指為確保業(yè)務正常運轉,,除配置主線路外,同時做好第二種,、第三種線路的部署,。

  主備線路隔的位置比較遠,因此,,一旦主線路出現(xiàn)故障,,還有其他線路保證網(wǎng)絡的可用性。例如,,接入互聯(lián)網(wǎng)時,,同時采用不同電信運營商線路,相互備份且互不影響,,但這樣一來,,成本也會增大。

  據(jù)悉,,AWS北京區(qū)域使用的是光環(huán)新網(wǎng)的數(shù)據(jù)中心,,記者多次致電光環(huán)新網(wǎng)客服電話,均無法接通,。據(jù)光環(huán)新網(wǎng)官網(wǎng)顯示,,該公司在北京擁有酒仙橋、太和橋,、光環(huán)新谷,、東直門,、房山和亦莊6個數(shù)據(jù)中心,,每個都擁有高達100G的BGP總出口帶寬,多運營商通信鏈路。

  “本來一個機房,,各家運營商鏈路應該有自己的連通方式,。但是也有可能機房在施工時先匯總各家運營商到一條主干線,到某一節(jié)點之后再分開,。但冗余是有成本的,,不是所有場景所有環(huán)節(jié)都冗余的。對于云廠商來說,,網(wǎng)絡線路都是租運營商的,,都是錢啊?!鄙鲜鰳I(yè)內(nèi)人士指出,。

  因為光纜被切斷導致服務癱瘓的并不少見。2015年,,因為當?shù)厥姓ㄔO施工方挖斷了光纜,,支付寶PC網(wǎng)頁和手機客戶端都出現(xiàn)無法登錄、網(wǎng)絡異常等現(xiàn)象,。后來,,支付寶改成了冗余設計。

  2018年9月云棲大會上,,螞蟻金服發(fā)布了“三地五中心金融級高可用方案”,,并現(xiàn)場演示了“剪網(wǎng)線”,經(jīng)過26秒容災切換完成,,恢復業(yè)務,。

  而在2018年7月,因騰訊云廣州一區(qū)的主備兩條運營商網(wǎng)絡鏈路同時中斷,,騰訊云廣州區(qū)域部分用戶出現(xiàn)資源訪問失敗,、控制臺登錄異常等情況。

  2019 年3 月,,騰訊旗下多項服務出現(xiàn)服務器未響應問題,。隨后,騰訊云發(fā)布公告稱,,因上海南匯網(wǎng)絡光纖因施工被意外挖斷,,導致該區(qū)不少互聯(lián)網(wǎng)公司的業(yè)務受到不同程度的影響。

  由于有備用鏈路,,騰訊云隨即啟動流量智能調(diào)度系統(tǒng),,將上海地區(qū)公網(wǎng)流量通過騰訊云內(nèi)部T級骨干網(wǎng),引導至騰訊云廣州區(qū)電信出口,,再由電信骨干網(wǎng)直達浙江電信,。此次光纖故障從發(fā)現(xiàn)到恢復只有兩分鐘,,并且所有流程自動化執(zhí)行,在150秒之內(nèi)就快速恢復了網(wǎng)絡,。

  不過,,即使有冗余備份,對于業(yè)務也并非毫無影響,,“備用鏈路一般會慢一些,,而且大家都擁到小路上,自然就擠了,,體驗上就是慢,。”一云服務商告訴記者,。

  此前,,UCloud創(chuàng)始人兼CEO季昕華表示“云計算公司有四大謊言,分別是云計算先服務于內(nèi)部客戶,,再服務于外部客戶,;云計算能保證100%的安全;云計算消耗大量資金,;云計算是不盈利的,。”

  “云計算雖然比本地研發(fā)更安全,,但不可能是100%,。就算微軟、亞馬遜,、谷歌,、阿里、騰訊一樣都會出問題,。所以用戶更愿意使用多家云來服務,,多云戰(zhàn)略是未來的重要方向?!彼赋?。

  也有廠商呼吁,隨著云計算和數(shù)據(jù)中心越來越重要,,光纜,、管道等基礎設施的保護也需要跟上,現(xiàn)在破壞的成本太低了,。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉載的所有的文章,、圖片,、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者,。如涉及作品內(nèi)容,、版權和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]