zoukankan      html  css  js  c++  java
  • robots.txt文件的解析及过滤

    robots.txt文件的解析及过滤 - 糖拌咸鱼 - 博客园

    robots.txt文件的解析及过滤

    什么是robots.txt文件?

            robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。 因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。Robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。 ——维基百科(http://zh.wikipedia.org/wiki/Robots.txt

    基本属性:

    User-agent: 定义搜索引擎的类型
    Disallow: 定义禁止搜索引擎收录的地址
    Allow: 定义允许搜索引擎收录的地址
    Crawl-delay:支持Crawl-delay参数,设置为多少秒,以等待同服务器之间连续请求(网络爬虫的礼貌策略)
    #:一些robots.txt 会有注释,#后面都是注释内容,需要过滤掉 

    一些例子;

    User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
    Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
    Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
    Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
    Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
    Disallow: /*?* 禁止访问网站中所有的动态页面
    Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片
    Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。
    Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
    Allow: /tmp 这里定义是允许爬寻tmp的整个目录
    Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
    Allow: .gif$ 允许抓取网页和gif格式图片
    Crawl-delay: 10 

    C++实现解析robots.txt,并对url进行过滤:

  • 相关阅读:
    HDU 1800 Flying to the Mars 字典树,STL中的map ,哈希树
    字典树 HDU 1075 What Are You Talking About
    字典树 HDU 1251 统计难题
    最小生成树prim算法 POJ2031
    POJ 1287 Networking 最小生成树
    次小生成树 POJ 2728
    最短路N题Tram SPFA
    poj2236 并查集
    POJ 1611并查集
    Number Sequence
  • 原文地址:https://www.cnblogs.com/lexus/p/2843525.html
Copyright © 2011-2022 走看看