一、了解爬虫
- 通过程序自动的获取web页面数据
主要步骤:
- 发送request
- 获得response
- 解析数据
- 保存数据
二、Request和Response
1、Request:浏览器发送消息给网址所在的服务器
包含内容:
- 请求方式:post(请求的数据存放在头部)和get(请求的数据在url中)
- 请求url--网址:协议、存有该资源的主机ip地址、主机资源的具体地址,如目录和文件名
- 请求头:包含请求时的头部信息,如:User-Agent,host,cookies等
- 请求体:携带的数据
2、Response:服务器接收到浏览器发来的请求,根据请求,做相应的处理,传回给浏览器
包含内容:
- 第一行:状态行
- 响应状态
- 响应头
- 响应体:请求的资源内容
三、如何解析数据
1、Json解析
2、正则表达式处理
3、Beautiful Soup解析处理
4、PyQuery解析处理
5、XPath解析处理