Python2.7-robotparser - 走看看

zoukankan html css js c++ java

Python2.7-robotparser

robotparser 模块，用于解析网站的 robots.txt 文件，robots.txt 文件是用于指定搜索引擎爬虫的访问权限的，此模块在 python3 中重命名为 urllib.robotparser。------------------好像自己写爬虫并不会去考虑这个文件

1、模块对象

1.1 RobotFileParser 对象

1.1.1 初始化构建类：RobotFileParser(url='')，读取解析网站的 robots.txt 文件

参数设置：
url：设置目标网站

1.1.2 实例方法

set_url(url)：设置 url 指向网站的 robots.txt 文件
read()：读取网站的 robots.txt 文件，并将其传入解析器
parse(lines)：解析 lines 里的信息
can_fetch(useragent, url)：判断指定 useragent 能否访问指定 url
mtime()：返回 robots.txt 文件最后一次获取时间
modified()：将 robots.txt 文件最后获取时间改为当前时间

---------------- 坚持每天学习一点点

查看全文

相关阅读:
C语言I博客作业07
C语言I 博客作业03
我的第一次作业
 C语言I博客作业05
js闭包在你身边却不知
 浅谈SQL Transaction在请求中断后的行锁表锁
 事件订阅分发模型
 js 继承对象方法与原型方法
 PHP学习笔记有关php中的变量
 PHP学习笔记不同编码占据不同的字节

原文地址：https://www.cnblogs.com/tccbj/p/8534545.html

Copyright © 2011-2022 走看看