zoukankan      html  css  js  c++  java
  • robots.txt文件的解析及过滤

    robots.txt文件的解析及过滤 - 糖拌咸鱼 - 博客园

    robots.txt文件的解析及过滤

    什么是robots.txt文件?

            robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。 因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。Robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。 ——维基百科(http://zh.wikipedia.org/wiki/Robots.txt

    基本属性:

    User-agent: 定义搜索引擎的类型
    Disallow: 定义禁止搜索引擎收录的地址
    Allow: 定义允许搜索引擎收录的地址
    Crawl-delay:支持Crawl-delay参数,设置为多少秒,以等待同服务器之间连续请求(网络爬虫的礼貌策略)
    #:一些robots.txt 会有注释,#后面都是注释内容,需要过滤掉 

    一些例子;

    User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
    Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
    Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
    Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
    Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
    Disallow: /*?* 禁止访问网站中所有的动态页面
    Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片
    Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。
    Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
    Allow: /tmp 这里定义是允许爬寻tmp的整个目录
    Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
    Allow: .gif$ 允许抓取网页和gif格式图片
    Crawl-delay: 10 

    C++实现解析robots.txt,并对url进行过滤:

  • 相关阅读:
    javascript 函数和对象
    考研总结
    在禁用UAC时无法激活此应用
    工作流--JBPM任务管理
    工作流--JBPM流程管理
    数据结构--快速排序
    error C2143:语法错误:缺少";"(在“类型”的前面)
    工作流--JBPM部署对象
    工作流--JBPM核心ProcessEngine
    工作流--JBPM(二) 简单的流程演示
  • 原文地址:https://www.cnblogs.com/lexus/p/2843525.html
Copyright © 2011-2022 走看看