zoukankan      html  css  js  c++  java
  • Python2.7-robotparser

    robotparser 模块,用于解析网站的 robots.txt 文件,robots.txt 文件是用于指定搜索引擎爬虫的访问权限的,此模块在 python3 中重命名为 urllib.robotparser。------------------好像自己写爬虫并不会去考虑这个文件

    1、模块对象

    1.1 RobotFileParser 对象

    1.1.1 初始化构建类:RobotFileParser(url=''),读取解析网站的 robots.txt 文件

    参数设置:
    url:设置目标网站

    1.1.2 实例方法

    set_url(url):设置 url 指向网站的 robots.txt 文件
    read():读取网站的 robots.txt 文件,并将其传入解析器
    parse(lines):解析 lines 里的信息
    can_fetch(useragent, url):判断指定 useragent 能否访问指定 url
    mtime():返回 robots.txt 文件最后一次获取时间
    modified():将 robots.txt 文件最后获取时间改为当前时间

    ---------------- 坚持每天学习一点点
  • 相关阅读:
    lamp
    ssh 交互脚本
    mysql 备份检测主从脚本
    RANDOM 猜数字脚本
    ansible+playbook 搭建lnmp环境
    集群搭建
    grafana
    nginx lnmp搭建
    shell 基础(1): 变量
    seq 增量输出命令
  • 原文地址:https://www.cnblogs.com/tccbj/p/8534545.html
Copyright © 2011-2022 走看看