周末,給客戶做爬蟲(chóng)封禁處理,總結(jié)了下以下幾個(gè)非常頻繁的惡意爬蟲(chóng),大家可以看著封禁,只有好處,沒(méi)有壞處。
以下是關(guān)于這些爬蟲(chóng)的介紹:
GPTBot
- 開(kāi)發(fā)商:OpenAI
- 發(fā)布時(shí)間:2023年8月7日
- 功能特點(diǎn):GPTBot是OpenAI推出的一款網(wǎng)絡(luò)爬蟲(chóng)機(jī)器人,該工具能夠在注重版權(quán)的基礎(chǔ)上,使用透明的方式收集網(wǎng)頁(yè)信息,來(lái)訓(xùn)練OpenAI旗下的各AI模型。和其他所有網(wǎng)絡(luò)爬蟲(chóng)一樣,它從互聯(lián)網(wǎng)上搜集能夠用于訓(xùn)練AI模型的有用數(shù)據(jù),但不會(huì)收集需要付費(fèi)的、或者違反隱私政策的數(shù)據(jù)。此外,網(wǎng)站所有者還可以選擇限制或者禁止GPTBot爬取網(wǎng)頁(yè)數(shù)據(jù)。
AmazonBot
- 所屬公司:亞馬遜公司
- 功能特點(diǎn):AmazonBot是亞馬遜不同廣告服務(wù)部門使用的爬蟲(chóng),包括Amazon AdBot等,用于確定網(wǎng)站的內(nèi)容,以便提供相關(guān)和適當(dāng)?shù)膹V告。它只抓取亞馬遜或廣告商合作伙伴可能提供廣告的網(wǎng)站,并遵守robots.txt協(xié)議。此外,AmazonBot還用于改善亞馬遜的其他服務(wù),例如使Alexa能夠回答更多客戶的問(wèn)題。
PanguBot
- 開(kāi)發(fā)商:華為
- 功能特點(diǎn):PanguBot 是由華為公司開(kāi)發(fā)的一個(gè)爬蟲(chóng),主要用于下載訓(xùn)練數(shù)據(jù),以支持其多模態(tài)大型語(yǔ)言模型(LLM)PanGu 的訓(xùn)練。PanguBot 的設(shè)計(jì)目標(biāo)是通過(guò)繼承預(yù)訓(xùn)練語(yǔ)言模型(PLM)PANGU-alpha 的寶貴語(yǔ)言能力和知識(shí),以相對(duì)較少的數(shù)據(jù)和計(jì)算成本構(gòu)建強(qiáng)大的對(duì)話模型。
BLEXBot
- 開(kāi)發(fā)商:WebMeUp
- 功能特點(diǎn):BLEXBot是WebMeUp的蜘蛛爬蟲(chóng),每天可以抓取上百億個(gè)頁(yè)面來(lái)收集反向鏈接數(shù)據(jù),并將該數(shù)據(jù)提供給其鏈接索引(在SEO SpyGlass中使用的鏈接索引)。它是美國(guó)的一家外鏈反向鏈接查詢工具網(wǎng)站所使用的爬蟲(chóng)。
DataForSeoBot
- 開(kāi)發(fā)商:DataForSEO
- 功能特點(diǎn):DataForSeoBot是DataForSEO網(wǎng)站的蜘蛛,旨在向世界各地的SEO愛(ài)好者和專業(yè)人士提供高質(zhì)量的數(shù)據(jù)。它的使命是通過(guò)確保SEO社區(qū)的每個(gè)成員都能訪問(wèn)Google排名算法的核心元素來(lái)公平競(jìng)爭(zhēng)。DataForSEO機(jī)器人正在開(kāi)發(fā)網(wǎng)絡(luò)上最大的可用反向鏈接數(shù)據(jù)庫(kù)。
SemrushBot
- 開(kāi)發(fā)商:Semrush
- 功能特點(diǎn):SemrushBot是Semrush發(fā)送的用于發(fā)現(xiàn)和收集新的和更新的Web數(shù)據(jù)的搜索機(jī)器人軟件。它收集的數(shù)據(jù)用于維護(hù)公共反向鏈接搜索引擎索引、站點(diǎn)審核工具、反向鏈接審核工具、鏈接構(gòu)建工具等多個(gè)SEO相關(guān)工具。SemrushBot的抓取過(guò)程從網(wǎng)頁(yè)URL列表開(kāi)始,根據(jù)一組Semrush策略重復(fù)訪問(wèn),以有效映射站點(diǎn)以進(jìn)行更新。