robots.txt文件里面怎样屏蔽蜘蛛

zoukankan html css js c++ java

robots.txt文件里面怎样屏蔽蜘蛛
robots.txt文件，是每个网站都可以用来跟，遵循robots协议的搜索引擎蜘蛛，进行对话的一段代码。
我们先来看一个列子，让搜索引擎抓取所有的内容，代码如下：
```
User-agent: *
```
Allow: /
其中User-agent后面跟的是蜘蛛的名字，如果是所有的蜘蛛都遵守的话，那么就可以用*来代替所有的蜘蛛，如果只是针对某一蜘蛛的话，
那么只需要列出来这个蜘蛛的名字即可。如果不想让蜘蛛来爬取，那么只需要将Allow修改为Disallow，禁止爬取即可，/后面跟的内容就是
禁止或允许爬取的内容。

而有时候蜘蛛爬取过于频繁，那么我们需要添加Crawl-delay这个代码，他的意思是告诉蜘蛛延时多少秒以后再来爬取，我们可以看下实例：

User-agent: *
Crawl-delay: 500
前面的内容都一样，不同的是Crawl-delay后面只能跟数字，而且只能是正整数。
我们常用的代码还包括：User-agent、Disallow、Allow以及Crawl-delay等。
其实最好的办法你还是尝试下robots.txt文件的设置，在网站的robots.txt文件中加上如下内容：
以百度蜘蛛为例

User-agent: Baiduspider
Disallow: /

　　这种方法如果不能完全屏蔽百度的爬虫，也就是蜘蛛要是不遵守robots协议，我们才要想完全屏蔽百度的爬虫，需要在.htaccess中加入一些语句才可以，下面介绍两种方法。

　　方法1：

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

　　方法2：

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

Order Allow,Deny
Allow from all

安徽育儿网 http://www.ahyuer.com
查看全文

相关阅读:
ubuntu python3 安装pip
Windows远程桌面连接ubuntu 16
Python 高级编程——单例模式
 学习资料推荐
 经典测试开发面试题（随时更新）
mac上生成go文件失败报错，gRpc-- protoc-gen-go: program not found or is not executable
小白从零开始学编程(五)--python数据类型--字符串
 小白从零开始学编程(三)--python基本概念
 小白从零开始学编程(二)--python虚拟环境和编辑器
 小白从零开始学编程--python安装与环境搭建

原文地址：https://www.cnblogs.com/jincon/p/1941982.html