前言
筆者所在單位是一家小型創(chuàng)業(yè)公司,目前產(chǎn)品正在成長階段,日活躍用戶只有區(qū)區(qū)幾萬人次,并發(fā)只有日均 85/QPS,自建機房,帶寬 100MB。在這樣的背景下,完全沒想過一個小產(chǎn)品會招來黑客的光顧,而且一來就是好幾天。
起因
事情的起因來源于某個愜意的下午,從市場接收到客戶反饋,部分地區(qū)客戶無法打開產(chǎn)品頁面,由于是周末且之前也發(fā)生過機房網(wǎng)絡故障,運維并未引起重視,以為是網(wǎng)絡問題,放置不管。但是到傍晚19點左右,情況突然變得很嚴重,90%的客戶都在反饋無法打開產(chǎn)品頁面;
這一下子就炸鍋了。
首先,馬上安排運維人員排查機房網(wǎng)絡問題,然后技術(shù)人員查看服務日志、流量監(jiān)控是否正常。馬上就發(fā)現(xiàn)了問題,服務器CPU運行平穩(wěn),流量只有 3次/s,很明顯,流量未進入服務器,被攔截在防火墻外面了;過了5分鐘,收到運維人員反饋:機房反饋,突然收到大量數(shù)據(jù)包請求,
流量高達30GB,目前已啟動限流措施!
事情非常明了,服務遭到了 DDOS 攻擊!
怎么辦,怎么辦,怎么辦!
防御
大家都在干等著,什么也做不了,等機房處理,這是運維人員的處理意見。等機房處理是非常愚蠢的想法,后面會講到。
攻擊持續(xù)了大約 3 個小時,晚上 22:00 左右,攻擊停止,服務恢復,這期間,市場只能一直安撫客戶,而大家也一致認為這是一場隨機的攻擊,居然也都洗洗睡了,事實證明大錯特錯。
第二天白天流量恢復正常,大家還認為這就是個惡作劇,然后傍晚 17 點左右,又有部分客戶反饋無法打開產(chǎn)品頁面,這次持續(xù)了 10 分鐘后停止,機房也未收到任何警報(小機房坑爹啊),
晚上 19:00 又準時開始攻擊,這次持續(xù)了 10 個小時,整個產(chǎn)品線幾乎癱瘓,只有微信端很小的流量進來。
這次情況就很難受了,大家都不好過,我的建議是馬上上高防IP,聯(lián)系機房,說是提供 3000RMB/月 的流量防御,最高 30GB,我說好,先上著,寥勝于無吧。第二天,馬上安排財務付款購買,上了機房自帶的高防IP后,果然奏效了,產(chǎn)品瀏覽正常,好事多磨,這是誰說的,
下午的攻擊又準時的出現(xiàn),這次高防IP發(fā)揮了左右,扛住了 10 分鐘,然后也癱瘓了?。?!
換IP!
馬上安排運維人員更換 IP 地址,然后扛住了 30 分鐘,新IP也宣告淪陷,我就奇怪了,黑客也太厲害了,這么快就找到新 IP 了?,機房告知:更換 IP 只支持更換 C 段,我….
流量不夠,IP暴露,事情的發(fā)展對我方很不利。
這個時候我在想,要是認了個爸爸該多好!爸爸,哎爸爸,馬爸爸啊,找阿里云啊,此時已是周四了,距離收到攻擊報告已過去了3天了。
哈,我的天啊。財務外出,無法續(xù)費。
聯(lián)系阿里高防IP服務技術(shù)專家,說可以內(nèi)部提供加速服務(不收費),我說好,你們溝通一下,我馬上去提個工單,把工單號發(fā)給技術(shù)專家內(nèi)部安排溝通,備案問題得以順利解決。
接下來就是接入高防IP服務。
不得不說,阿里的敬業(yè)精神,對接群里面分別拉了技術(shù)、商務、運維、客服,各種問題全方位快速響應,在周五下班前,完美接入了高防IP服務,基礎 30GB,彈性 60GB。
波瀾又起
下班后,我坐在電腦前想,IP暴露的問題還是沒有解決,這個是非常大的隱患啊,還沒來得及細想,攻擊就來了 還是 30GB流量,不過,高防IP服務全部都清洗過去了,只造成了些許困擾,大家認為,肯定是沒有問題了,都下班走人。到了晚上,部分客戶反饋,安卓客戶端無法瀏覽部分網(wǎng)頁,報證書鏈不完整的問題,釘釘電話聯(lián)系阿里技術(shù)專家,彼時技術(shù)專家已下班,從電話里依稀聽到孩子嬉戲的聲音。
經(jīng)過詳細溝通后,重新上傳 https 證書,合并證書鏈后解決。
第二天周六,一如往常的平靜,到下午 14:00 ,突然收到阿里高防IP服務警報,服務黑洞中….登錄云盾查看流量,收到DDOS流量包超過 60GB,最高達到 100 GB,高防IP服務自動停止防御,發(fā)送警報短信,聯(lián)系技術(shù)專家后,解決方案是提示防御彈性到 300GB,手動解除黑洞,故障解除,接下來的周日、周一,又收到幾波攻擊,最高達到 150GB,但是都有驚無險的安全度過。
轉(zhuǎn)機
事情的轉(zhuǎn)機出現(xiàn)在某個夜深人靜的晚上,從遙遠的華中地區(qū)來的一個電話,某個市場區(qū)域代理反饋,接到一個自稱黑客要求合作的電話,已將錄音發(fā)送給技術(shù)團隊,我們一聽,就是勒索啊,說這幾天都在由于他們在“測試”,幫我們產(chǎn)品找漏洞,如果付錢給他們,他們可以保證我們的產(chǎn)品在“全球”范圍內(nèi)不會再發(fā)生這種事情,我們商量了一下,覺得和他進一步的接觸。
經(jīng)過兩天的溝通,還是無法得到對方的有效信息,就此作罷,黑客約定第二天“展示實力”,第二天,預約的時間,攻擊沒有到來,1個小時后,收到阿里高防IP服務短信反饋,監(jiān)控到一波 30GB的流量攻擊,已平穩(wěn)度過,截至發(fā)文時,服務運行平穩(wěn),流量穩(wěn)定,無攻擊,阿門!
總結(jié)
- 從此事件中可以看出,我方對安全問題不重視,這也是初創(chuàng)企業(yè)普遍存在的問題,運維人員意識出現(xiàn)幸存者偏差,有僥幸心里。
- 在攻擊初始出現(xiàn)的時候,沒有預案,無法應對,被動等待機房處理,而機房能力和服務水平較弱,無法應對這種小規(guī)模的攻擊。
唯一能做的就是將我方業(yè)務下線,俗稱“拔線”,完全不理我方感受,簡單粗暴,所以在初創(chuàng)時期,千萬不要作死自建機房,除非有成熟的機房運作經(jīng)驗 - 我方只有單機房,無法更換B段以上IP,IP地址直接暴露,更是自己找死。
- 經(jīng)此事件后,我方?jīng)Q定部分業(yè)務上云,特別要建立堡壘機方案,全面排查系統(tǒng)、業(yè)務、應用級別漏洞。
- 建立多機房備災和故障轉(zhuǎn)移方案,建立應對突發(fā)事件的預案,建立預警方案。
- 在事故處理期間還檢測出防火墻老化產(chǎn)生的問題,更換了防火墻、IP地址,加強運維人員管理意識,提升業(yè)務水平。
結(jié)語
系統(tǒng)的升級非一朝一夕,意識最重要,不怕事故,就怕沒有處理方案,出了事情千萬不能瞞報、誤報,主管領(lǐng)導要全方位的了解各種情況,深挖問題,結(jié)合實際,做出最快、最優(yōu)的處理決定。
從業(yè)者都應該保持對這份職業(yè)的敬重。