最近大火的ChatGPT,讓國(guó)內(nèi)站長(zhǎng)一度感到危機(jī),因?yàn)檫@個(gè)東西一但普及,搜索引擎的作用就小了很多,嚴(yán)重影響網(wǎng)站流量,而ChatGPT的內(nèi)容來(lái)源都是從各大網(wǎng)站中抓取的。
為了應(yīng)對(duì)這個(gè)問(wèn)題,我們有權(quán)拒絕ChatGPT抓取,目前ChatGPT已經(jīng)出了拒絕抓取的方法了,國(guó)內(nèi)類ChatGPT的工具目前還沒(méi)有出現(xiàn),不過(guò)應(yīng)該在不久的將來(lái)也會(huì)出。
現(xiàn)在我們來(lái)介紹下如何拒絕ChatGPT抓?。磕壳叭N方式阻止GPT爬蟲:
1.禁止UA
ChatGPT的UA是:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
UA是瀏覽器的身份標(biāo)識(shí),包含了訪問(wèn)者的系統(tǒng)環(huán)境、瀏覽器內(nèi)核版本、語(yǔ)言等諸多信息。通過(guò)HTML的標(biāo)簽,可以阻止特定的瀏覽器對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行訪問(wèn),有了UA信息我們可以用防火墻進(jìn)行攔截。
2.修改網(wǎng)站robots.txt文件
在網(wǎng)站的robots.txt中加入如下內(nèi)容:
User-agent: GPTBot
Disallow: /
這樣,GPTBot將不會(huì)訪問(wèn)你的網(wǎng)站進(jìn)行內(nèi)容抓取。如果只想禁止GPT抓取部分內(nèi)容,也可以利用robots.txt進(jìn)行設(shè)置。和上面的內(nèi)容相似,分別寫明允許和不允許訪問(wèn)的目錄即可。
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
3.禁止爬蟲IP
OpenAI發(fā)布了有關(guān)GPTBot的文檔,還列出了GPTBot使用的IP范圍(目前只列出了一個(gè),之后將繼續(xù)添加)。
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
以上方法就可以如何禁止ChatGPT抓取的方法了,希望可以幫助大家。