鉴别和禁止垃圾搜索引擎蜘蛛爬行的轨迹记录

对于一个网站而言,我们是希望网站被各大搜索引擎抓取和蜘蛛的造访的。但是,有些非真实蜘蛛和搜索引擎的爬行会占用网站和服务器的资源,导致服务器不稳定,这里我们就可以通过技术手段来屏蔽。

识别蜘蛛的UA标记

百度UA标记

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

谷歌UA标记

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.5304.110 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

华为UA标记

Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)

DotBot UA标记

Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)

如何屏蔽蜘蛛UA标记

通过Robots.txt屏蔽

User-agent: AhrefsBot
Disallow: /

这里我们来屏蔽AhrefsBot

User-agent: Googlebot
Disallow: /

屏蔽谷歌蜘蛛爬虫

多个爬虫屏蔽:

User-agent: *
Disallow:
User-agent: Googlebot
Disallow: /
User-agent: PetalBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: Barkrowler
Disallow: /

这里我们也可以通过Nginx屏蔽

Nginx屏蔽爬虫方法: 通过修改Nginx的配置文件nginx.conf,禁止网络爬虫的user_agent,返回403。

具体操作方法是:

1、进入nginx的配置目录,例如cd /usr/local/nginx/conf

2、添加agent_deny.conf配置文件 vim agent_deny.conf 如果您使用的是宝塔面板的话,需要进入到站点设置里,点击【配置文件】,在配置文件的Server里面进行添加如下代码:

#forbidden UA
  if ($http_user_agent ~* "Bytespider|Googlebot|PetalBot|AhrefsBot|Barkrowler") {
     return 403;
  }

 

 

投上你的一票

本文出处:老蒋部落 » 鉴别和禁止垃圾搜索引擎蜘蛛爬行的轨迹记录 | 欢迎分享( 公众号:老蒋朋友圈 )

公众号 「老蒋朋友圈」获取站长新知 / 加QQ群 【1012423279】获取商家优惠推送