微軟公司的Azure公共云近日算是被真正的云搞垮了,因為該公司將周二導致美國用戶無法正常使用幾項服務的一起故障歸咎于“惡劣天氣”。
微軟表示,位于得克薩斯州的美國中南部數(shù)據(jù)中心遭到了雷電風暴,結果散熱系統(tǒng)出現(xiàn)了故障,迫使該公司關閉了許多服務器和系統(tǒng),以防遭到更嚴重的損壞。
微軟在Azure狀態(tài)頁面上的一份聲明中表示:“美國中南部的數(shù)據(jù)中心附近發(fā)生了一起惡劣的天氣事件,包括雷擊。這導致電源電壓升高,從而影響了散熱系統(tǒng)。確保數(shù)據(jù)和硬件完整性的自動化數(shù)據(jù)中心程序立即生效,關鍵硬件進入了有條不紊的斷電過程。”
開始故障時Azure狀態(tài)頁面甚至一度無法打開:
散熱系統(tǒng)是現(xiàn)代數(shù)據(jù)中心的一個重要組成部分,因為散熱系統(tǒng)是消除在一個封閉的地方緊密堆疊在一起的成千上萬臺服務器產(chǎn)生的高溫所必不可少的。簡而言之,如果這個系統(tǒng)出了故障,所有系統(tǒng)都將隨之停運。
因此,如果溫度上升到超過安全水平,像微軟這樣的公司落實了自動關閉數(shù)據(jù)中心機器的程序。這是保護微軟數(shù)據(jù)中心投資的重要措施,但是對云客戶來說也帶來了很大的不便。
微軟提到的惡劣天氣很可能與颶風戈登有關,這場1級風暴目前正在得克薩斯州海岸的附近兜轉。
微軟表示,這起故障已影響了許多Azure云服務,包括Visual Studio Team服務。停運的其他服務包括Azure Active Directory身份管理服務和基于云的生產(chǎn)力套件Office 365。
Visual Studio Team Services小組補充道:“由于一些內(nèi)部基礎設施依賴Azure云服務,美國中南部地區(qū)以外的企業(yè)組織的客戶所用的持續(xù)集成/持續(xù)交付(CI/CD)工作流程和儀表板也可能受到了影響?!?/p>
專家們表示,這一事件向使用云服務的企業(yè)組織敲響了警鐘:說到運行云端的關鍵工作負載,只有傻瓜才會依賴單單一家提供商。
Mimecast有限公司的網(wǎng)絡彈性專家彼得?班納姆(Pete Banham)說:“今天Azure發(fā)生的事件再一次清楚地表明,企業(yè)組織需要做好自己的冗余機制,而不是依靠單單一家提供商?!?/p>
Constellation研究公司的首席分析師兼副總裁霍爾格?米勒(Holger Mueller)表示,不過,該事件也給了希望避免將來發(fā)生此類事件的微軟一個深刻的教訓。
米勒說:“這次事件深刻地提醒人們,即使對于像微軟這等規(guī)模的IaaS提供商來說,要保持數(shù)據(jù)中心正常運行有多難。閃電、洪水、颶風、大雪和暴雨都會影響數(shù)據(jù)中心的可用性。所以一個關鍵的問題是,微軟從中汲取了什么教訓?它如何在將來能避免類似的故障?這給了希望加強云基礎設施的公司一個深刻的教訓。”
在發(fā)布的最新消息中,微軟表示它在努力使所有受影響的服務重新上線,不過截止本文發(fā)稿時,這項工作顯然仍在進行之中。
微軟表示:“工程師已成功地恢復了數(shù)據(jù)中心的電源。此外,工程師已恢復了大部分受影響的網(wǎng)絡設備。雖然一些服務開始出現(xiàn)了恢復如初的跡象,但搶救工作仍在進行之中?!?/p>