由于谷歌云平臺出現(xiàn)了問題,昨天多個熱門在線服務遇到了停機或響應緩慢的現(xiàn)象。經(jīng)谷歌確認,它的許多工具出現(xiàn)了問題,而Discord、Spotify和Snapchat等知名網(wǎng)站和服務依賴這些工具才能正常運行。
谷歌云平臺的狀態(tài)頁面上的一則通告聲稱:“我們正在調(diào)查谷歌云全球負載均衡系統(tǒng)(Global Loadbalancers)的問題,該系統(tǒng)為許多服務返回502出錯消息,包括AppEngine、Stackdriver和Dialogflow等服務,此外客戶全球負載均衡系統(tǒng)也出了問題?!?/p>
一些受到影響的第三方服務包括下列:
- Snapchat
- Pokémon Go
- Faceit
- Discord
- Spotify
今日谷歌云對外公布了調(diào)查結(jié)果,根本原因如下:
谷歌的全球負載均衡系統(tǒng)基于谷歌前端服務(GFE)的雙層架構。GFE的第一層盡量靠近用戶來響應請求,以便在建立連接的過程中為用戶最大限度地提高性能。這些GFE將請求路由到GFE的第二層,而這第二層的位置靠近請求所使用的服務。這種類型的架構讓客戶得以在世界上任何地方都擁有低延遲連接,同時又可以充分利用谷歌的全球網(wǎng)絡為后端處理請求,無論客戶在哪個地區(qū)。
GFE開發(fā)團隊當時正在為GFE添加一些功能,以提高安全性和性能。這些功能被添加到了第二層GFE代碼庫,但尚未投入使用。其中一個功能含有一個會導致GFE重啟的錯誤(bug);不過無論在測試階段,還是在初始部署階段,工作人員都沒有發(fā)現(xiàn)這個錯誤。事件開始時,生產(chǎn)環(huán)境的一個配置變更間歇性地觸發(fā)了該錯誤,結(jié)果導致受影響的GFE一再重啟。由于重啟不是瞬時的,可用的第二層GFE容量因此減少。雖然一些請求得到了正確響應,但GFE重新上線時,其他請求卻由于容量暫時不足而被中斷(導致連接重置)或被拒絕。
與 6 月 27 日阿里云故障,如出一轍,云平臺都遇同一個bug?