如何过滤屏蔽掉抓取你WordPress网站的无用蜘蛛爬虫?

很久之前其实就发现一个问题,很多的蜘蛛来抓取你的网站,通过分析网站的日志文件可以看到,有很多蜘蛛我们是欢迎的,有些我们确实不想要的,但是却长期的在抓取,于是想要把他屏蔽掉,当天一般想到的办法可能是定义robots文件去屏蔽蜘蛛;
但是这个似乎并没有用处,一方面有些蜘蛛并不遵守这个规则协议,照样抓取,一方面很多蜘蛛其实是仿冒的,比如你也可以仿冒百度蜘蛛的UA信息去抓取别人的网站,所以robots文件几乎是没法实现的。

如何过滤屏蔽掉抓取你WordPress网站的无用蜘蛛爬虫?

之前介绍过宝塔免费的防火墙比较好用,可以借助这个防火墙功能,屏蔽恶意的无用的一些蜘蛛的UA信息,比如:
Mozilla/5.0 (compatible; AhrefsBot/6.1; +http://ahrefs.com/robot/);
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
等,这些几乎是国外的一些搜索引擎或者是根本不会带来任何好处比如搜索流量的,所以可以直接屏蔽他们。其他有益的蜘蛛需要保留不要误杀了,比如谷歌百度搜狗头条什么等等;除了防火墙可以屏蔽UA还可以借助CDN去实现屏蔽UA;

如何过滤屏蔽掉抓取你WordPress网站的无用蜘蛛爬虫?

为什么要屏蔽呢?
其实到不见得有什么明显的好处,反正看到日志里面出现很多这些没用的觉得没有意义,访问抓取的时候还会消耗一定的服务器资源,带来带宽流量等消耗;

本主题由害羞哥博客发布。发布者:害羞哥,转载请注明出处:https://www.haixiuge.com/2781.html

(1)
上一篇 2022年2月5日 下午6:05
下一篇 2022年2月6日 上午11:05

相关推荐

发表评论

您的电子邮箱地址不会被公开。