近日,烏克蘭一家專注于人體3D模型的網(wǎng)站 Trilegangers 遭遇了嚴(yán)重的流量攻擊,導(dǎo)致其服務(wù)器癱瘓。該網(wǎng)站為3D藝術(shù)家和游戲開(kāi)發(fā)者提供豐富的人體3D模型數(shù)據(jù),但因 OpenAI 的爬蟲(chóng) GPTBot 的頻繁抓取而陷入困境。
據(jù) Trilegangers 的工作人員透露,盡管網(wǎng)站在使用協(xié)議中明確禁止未經(jīng)授權(quán)的抓取和使用,但由于未正確設(shè)置 robots.txt 文件來(lái)阻止爬蟲(chóng)的訪問(wèn),最終導(dǎo)致服務(wù)器負(fù)荷過(guò)重。根據(jù)服務(wù)器日志,OpenAI 的 GPTBot 爬蟲(chóng)通過(guò)600多個(gè)不同的IP地址發(fā)起了數(shù)以萬(wàn)計(jì)的請(qǐng)求,使得網(wǎng)站無(wú)法正常運(yùn)作,類似于遭遇了分布式拒絕服務(wù)(DDoS)攻擊。

OpenAI 在其爬蟲(chóng)說(shuō)明中提到,若網(wǎng)站不希望 GPTBot 抓取內(nèi)容,需在 robots.txt 文件中進(jìn)行設(shè)置。然而,Trilegangers 并未意識(shí)到這一點(diǎn),從而導(dǎo)致了當(dāng)前的窘境。盡管 robots.txt 文件并不是法律要求,但如果網(wǎng)站已經(jīng)聲明禁止未經(jīng)授權(quán)使用,GPTBot 的抓取行為仍可能違反相關(guān)規(guī)定。
此外,由于使用亞馬遜 AWS 服務(wù)器,Trilegangers 在帶寬和流量上的消耗也急劇上升,給其帶來(lái)了額外的費(fèi)用壓力。為應(yīng)對(duì)這一突發(fā)事件,Trilegangers 已經(jīng)采取措施,設(shè)置了正確的 robots.txt 文件,并通過(guò) Web應(yīng)用防火墻 屏蔽了包括 GPTBot 在內(nèi)的多種爬蟲(chóng)的訪問(wèn),這一做法預(yù)計(jì)將有效緩解服務(wù)器負(fù)擔(dān),保障網(wǎng)站的正常運(yùn)作。
OpenAI 爬蟲(chóng)的UA為:
Mozilla/5.0 (compatible; GPTBot/1.0; https://openai.com/gptbot)
我們可以利用百度云防護(hù)Web應(yīng)用防火墻,攔截包含gptbot的UA。
