Robots.txt 编写 - 走看看

zoukankan html css js c++ java

Robots.txt 编写

搜索引擎Robots协议，是放置在网站根目录下robots.txt文本文件，在文件中可以设定搜索引擎蜘蛛爬行规则。设置搜索引擎蜘蛛Spider抓取内容规则。下面Seoer惜缘举例robots写法规则与含义：

　　首先要创建一个robots.txt文本文件，放置网站的根目录下，下面就开始编辑设置Robots协议文件：

　　一、允许所有搜索引擎蜘蛛抓取所以目录文件，如果文件无内容，也表示允许所有的蜘蛛访问，设置代码如下：

　　User-agent: *

　　Disallow:

　　或者

　　User-agent: *

　　Allow: /

　　二、禁止某个搜索引擎蜘蛛抓取目录文件，设置代码如下：

      User-agent: Msnbot
      Disallow: /

　　User-agent: Msnbot

　　Disallow: /

　　例如想禁止MSN的蜘蛛抓取就设为，Msnbot代表MSN的蜘蛛，如果想禁止其他搜索引擎就更换蜘蛛名字即可，其他蜘蛛名字如下：

　　百度的蜘蛛：baiduspider

　　Google的蜘蛛： Googlebot

　　腾讯Soso:Sosospider

　　Yahoo的蜘蛛：Yahoo Slurp

　　Msn的蜘蛛：Msnbot

　　Altavista的蜘蛛：Scooter

　　Lycos的蜘蛛： Lycos_Spider_(T-Rex)

　　三、禁止某个目录被搜索引擎蜘蛛抓取，设置代码如下：

　　User-agent: *

　　Disallow: /目录名字1/

　　Disallow: /目录名字2/

　　Disallow: /目录名字3/

　　把目录名字改为你想要禁止的目录即可禁止搜索引擎蜘蛛抓取，目录名字未写表示可以被搜索引擎抓取。

　　四、禁止某个目录被某个搜索引擎蜘蛛抓取，设置代码如下：

　　User-agent: 搜索引擎蜘蛛名字说明(上面有说明蜘蛛的名字)Disallow: /目录名字/ 说明(这里设定禁止蜘蛛抓取的目录名称)例如，想禁目Msn蜘蛛抓取admin文件夹，可以设代码如下：

　　User-agent: Msnbot

　　Disallow: /admin/

　　五、设定某种类型文件禁止被某个搜索引擎蜘蛛抓取，设置代码如下:

　　User-agent: *

　　Disallow: /*.htm 说明(其中“.htm”，表示禁止搜索引擎蜘蛛抓取所有“htm”为后缀的文件)

　　六、充许所有搜索引擎蜘蛛访问以某个扩展名为后缀的网页地址被抓取，设置代码如下:

　　User-agent: *

　　Allow: .htm$ 说明(其中“.htm”，表示充许搜索引擎蜘蛛抓取所有“htm”为后缀的文件)

　　七、只充许某个搜索引擎蜘蛛抓取目录文件，设置代码如下：

　　User-agent: 搜索引擎蜘蛛名字说明(上面有说明蜘蛛的名字)

　　Disallow:

　　作者: Seoer惜缘原载网址: http://www.noseo.org.cn/　版权所有，转载时必须以链接形式注明作者和原载网址及本声明。站长网新闻榜 www.admin5.com/top

查看全文

相关阅读:
前台ajax传数组，后台java接收
 CSS揭秘—打字动效（四）
通过四个问题了解HTTP协议基础
 Fiddler抓包工具怎么设置HTTPS抓包
 固定定位导致$(window).scrollTop();获取滚动后到顶部距离总是为0
git bash 使用自带 curl 命令出现乱码解决方法
 移动端布局方案—vw+rem
Windows安装Nginx需要注意的地方
 orientation属性（判断是否为横竖屏）
js之瀑布流的实现

原文地址：https://www.cnblogs.com/subtract/p/3640074.html