对于一个网站而言,我们是希望网站被各大搜索引擎抓取和蜘蛛的造访的。但是,有些非真实蜘蛛和搜索引擎的爬行会占用网站和服务器的资源,导致服务器不稳定,这里我们就可以通过技术手段来屏蔽。
文章目录
隐藏
识别蜘蛛的UA标记
百度UA标记
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
谷歌UA标记
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.5304.110 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
华为UA标记
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
DotBot UA标记
Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)
如何屏蔽蜘蛛UA标记
通过Robots.txt屏蔽
User-agent: AhrefsBot
Disallow: /
这里我们来屏蔽AhrefsBot
User-agent: Googlebot
Disallow: /
屏蔽谷歌蜘蛛爬虫
多个爬虫屏蔽:
User-agent: *
Disallow:
User-agent: Googlebot
Disallow: /
User-agent: PetalBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: Barkrowler
Disallow: /
这里我们也可以通过Nginx屏蔽
Nginx屏蔽爬虫方法: 通过修改Nginx的配置文件nginx.conf,禁止网络爬虫的user_agent,返回403。
具体操作方法是:
1、进入nginx的配置目录,例如cd /usr/local/nginx/conf
2、添加agent_deny.conf配置文件 vim agent_deny.conf 如果您使用的是宝塔面板的话,需要进入到站点设置里,点击【配置文件】,在配置文件的Server里面进行添加如下代码:
#forbidden UA
if ($http_user_agent ~* "Bytespider|Googlebot|PetalBot|AhrefsBot|Barkrowler") {
return 403;
}
本文出处:老蒋部落 » 鉴别和禁止垃圾搜索引擎蜘蛛爬行的轨迹记录 | 欢迎分享( 公众号:老蒋朋友圈 )