最近,主機邦一直在說攔截惡意爬蟲的事情,最近有一家AI公司,就因為大量爬取別人網(wǎng)站而惹眾怒。
起因是Claude的AI爬蟲不僅無視網(wǎng)站的禁止抓取協(xié)議,而且還大量爬蟲該網(wǎng)站上百萬次,導致該網(wǎng)站直接癱瘓了。這家“受害者”公司其實有盡力防御了,但阻止失敗,內容數(shù)據(jù)還是被Claude強行抓取了。
因此,該網(wǎng)站負責為此還怒噴Claude。

被抓取的這家公司叫做iFixit,是一家美國電子商務和操作指南網(wǎng)站。
iFixit的業(yè)務的一部分,是為消費電子產(chǎn)品和小工具提供類維基百科的免費在線維修指南。
網(wǎng)站內有數(shù)百萬個頁面,包括修理指南、指南的修訂歷史、博客、新聞帖子和研究、論壇、社區(qū)貢獻的修理指南和問答部分等。
但,iFixit突然發(fā)現(xiàn),Claude的爬蟲程序ClaudeBot在幾個小時內,每分鐘都有數(shù)千次請求訪問。
這約等于一天內訪問其網(wǎng)站近百萬次。
據(jù)統(tǒng)計,它一天內訪問了10 TB的文件,整個5月份總計訪問了73 TB。
其實國內也有類似的情況,很多網(wǎng)站內容在不知情的情況下被大量抓取內容用來訓練AI,這已經(jīng)是司空見慣了,但這些AI每次進來的時候,總會影響服務器,導致服務器因為這些AI爬蟲而CPU爆滿,影響訪問。
為此,主機磅推薦使用WEB應用防火墻進行攔截處理,比如百度云防護不僅支持自定義UA攔截,還支持bot防護功能,可有效阻止AI機器人惡意抓取網(wǎng)站內容。