zoukankan      html  css  js  c++  java
  • 爬虫协议 Tobots

    一、简介

    Robots 协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过 Robots 协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots.txt 是搜索引擎访问网站的时候要查看的第一个文件。

    当一个爬虫访问一个站点时,它会首先检查该站点根目录下是否存在 robots.txt,如果存在,爬虫就会按照该文件中的内容来确定访问的范围;如果该文件不存在,爬虫将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用 robots.txt 文件。如果您希望搜索引擎收录网站上所有内容,请勿建立 robots.txt 文件。但 robots.txt 是一个协议而不是命令,也不是防火墙,无法阻止恶意闯入者。

    表面来看,这个功能作用有限。从搜索引擎优化的角度来看,可以通过屏蔽页面,达到集中权重的作用,这也是优化人员最为看重的地方。另外屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽。设置网站地图连接,方便引导蜘蛛爬取页面。

    二、写法

    robots.txt 文件放置在网站的根目录,文件名必须为小写字母。所有的命令第一个字母需大写,其余的小写。且命令之后要有一个英文字符空格。

    先来看下淘宝的robots.txt的例子,http://www.taobao.com/robots.txt

    User-agent:  Baiduspider

    Allow:  /article

    Allow:  /oshtml

    Disallow:  /product/

    Disallow:  /

    User-Agent:  Googlebot

    Allow:  /article

    Allow:  /oshtml

    Allow:  /product

    Allow:  /spu

    Allow:  /dianpu

    Allow:  /oversea

    Allow:  /list

    Disallow:  /

    User-agent:  Bingbot

    Allow:  /article

    Allow:  /oshtml

    Allow:  /product

    Allow:  /spu

    Allow:  /dianpu

    Allow:  /oversea

    Allow:  /list

    Disallow:  /

    User-Agent:  360Spider

    Allow:  /article

    Allow:  /oshtml

    Disallow:  /

    User-Agent:  Yisouspider

    Allow:  /article

    Allow:  /oshtml

    Disallow:  /

    User-Agent:  Sogouspider

    Allow:  /article

    Allow:  /oshtml

    Allow:  /product

    Disallow:  /

    User-Agent:  Yahoo!  Slurp

    Allow:  /product

    Allow:  /spu

    Allow:  /dianpu

    Allow:  /oversea

    Allow:  /list

    Disallow:  /

    User-Agent:  *

    Disallow:  /

    User-agent表示定义哪个搜索引擎。User-agent 记录至少要有一条。

    User-agent: Baiduspider,定义百度蜘蛛。

    User-agent: * 定义所有所搜引擎。

    Disallow表示禁止访问。

    Disallow:  /product/ 表示禁止爬取 product 目录下的目录。

    Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的网址。

    Disallow: /help 禁止访问/help*.html 和 /help/index.html

    Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址。

    Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。

    Allow表示允许访问,写法同 Disallow。

    Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

    Sitemap网站地图,告诉爬虫这个页面是网站地图

    Crawl-delay表示抓取网页的时间间隔,单位秒

    Crawl-delay: 10

    三、哪些时候需要使用该协议。

    无用页面,很多网站都有联系我们,用户协议等页面,这些页面相对于搜索引擎优化来讲,作用不大,此时需要使用 Disallow 命令禁止这些页面被搜索引擎抓取。

    动态页面,企业类型站点屏蔽动态页面,有利于网站安全。且多个网址访问同一页面,会造成权重分散。因此,一般情况下,屏蔽动态页面,保留静态或伪静态页面。

    网站后台页面,网站后台也可以归类于无用页面,禁止收录有百益而无一害。

  • 相关阅读:
    《入门经典》——6.15
    《Linear Algebra and Its Application》-chaper1-行化简法解决线性方程组
    《算法实战策略》-chaper19-队列、栈和双端队列
    《Linear Algebra and Its Applications》-chaper1-向量方程、矩阵方程和线性方程组
    辛普森法则
    《训练指南》——6.15
    《入门经典》——6.21
    《算法问题实战策略》-chaper13-数值分析
    Scheme 中的 pair 和 list 简述
    C. Friends
  • 原文地址:https://www.cnblogs.com/gl1573/p/9491747.html
Copyright © 2011-2022 走看看