1. 爬虫简介
- 爬虫:一段自动抓取互联网信息的程序。
- 价值:互联网数据,为我所用!
2. 简单爬虫架构
Python简单爬虫架构
Python简单爬虫架构的动态运行流程
3. URL管理器
RUL管理器
- 管理待爬取RUL集合和已抓取URL集合。
- 防止重复抓取、防止循环抓取
实现方式
- 内存
如Python中:
- 待爬取URL集合:
set()
- 已爬取URL集合:
set()
- 关系数据库
如MySQL
:
urls(url, is_crawled)
- 缓存数据库
如Redis
:
- 待爬取URL集合:
set
- 已爬取URL集合:
set
4. 网页下载器(urllib2
)
网页下载器:将互联网上RUL对应的网页下载到本地的工具。
Python有哪几种网页下载器呢?
- Python官方基础模块:
urllib2
- 更强大的第三方包:
requests