鉴别和禁止垃圾搜索引擎蜘蛛爬行的轨迹记录

对于一个网站而言，我们是希望网站被各大搜索引擎抓取和蜘蛛的造访的。但是，有些非真实蜘蛛和搜索引擎的爬行会占用网站和服务器的资源，导致服务器不稳定，这里我们就可以通过技术手段来屏蔽。

文章目录 隐藏

识别蜘蛛的UA标记

百度UA标记

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

谷歌UA标记

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.5304.110 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

华为UA标记

Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)

DotBot UA标记

Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)

如何屏蔽蜘蛛UA标记

通过Robots.txt屏蔽

User-agent: AhrefsBot
Disallow: /

这里我们来屏蔽AhrefsBot

User-agent: Googlebot
Disallow: /

屏蔽谷歌蜘蛛爬虫

多个爬虫屏蔽：

User-agent: *
Disallow:
User-agent: Googlebot
Disallow: /
User-agent: PetalBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: Barkrowler
Disallow: /

这里我们也可以通过Nginx屏蔽

Nginx屏蔽爬虫方法：通过修改Nginx的配置文件nginx.conf，禁止网络爬虫的user_agent，返回403。

具体操作方法是：

1、进入nginx的配置目录，例如cd /usr/local/nginx/conf

2、添加agent_deny.conf配置文件 vim agent_deny.conf 如果您使用的是宝塔面板的话，需要进入到站点设置里，点击【配置文件】，在配置文件的Server里面进行添加如下代码：

#forbidden UA
  if ($http_user_agent ~* "Bytespider|Googlebot|PetalBot|AhrefsBot|Barkrowler") {
     return 403;
  }

投上你的一票

本文出处：老蒋部落 » 鉴别和禁止垃圾搜索引擎蜘蛛爬行的轨迹记录 | 欢迎分享（公众号：老蒋朋友圈）

鉴别和禁止垃圾搜索引擎蜘蛛爬行的轨迹记录

识别蜘蛛的UA标记

如何屏蔽蜘蛛UA标记

相关推荐

站内搜索

国外域名商

虚拟主机商

独立服务器商

便宜VPS商

热门标签

关注我们

推荐文章