Python爬虫基础 - 走看看

zoukankan html css js c++ java

Python爬虫基础
1. 爬虫简介
- 爬虫：一段自动抓取互联网信息的程序。
- 价值：互联网数据，为我所用！
2. 简单爬虫架构

Python简单爬虫架构

Python简单爬虫架构的动态运行流程

3. URL管理器

RUL管理器
- 管理待爬取RUL集合和已抓取URL集合。
- 防止重复抓取、防止循环抓取
实现方式
1. 内存
如Python中：
- 待爬取URL集合：set()
- 已爬取URL集合：set()
1. 关系数据库
如MySQL：
- urls(url, is_crawled)
1. 缓存数据库
如Redis：
- 待爬取URL集合：set
- 已爬取URL集合：set
4. 网页下载器(urllib2)

网页下载器：将互联网上RUL对应的网页下载到本地的工具。

Python有哪几种网页下载器呢？
- Python官方基础模块：urllib2
- 更强大的第三方包：requests
查看全文

相关阅读:
D-Power Products
B2
软考知识点梳理--螺旋模型
 软考知识点梳理--敏捷方法
 软考知识点梳理--瀑布模型
 软考知识点梳理--统一软件开发过程RUP
软考知识点梳理--信息系统生命周期
 软考知识点梳理--信息资源管理
 软考知识点梳理--以太网
 软考知识点梳理--应急储备与管理储备

原文地址：https://www.cnblogs.com/onefine/p/10499371.html

Copyright © 2011-2022 走看看