聚焦爬虫
一、概念:
在通用爬虫的基础之上,可以将页面中指定的局部数据进行爬取。可以通过数据解析的方式将页面中局部的数据进行解析或者提取。
二、编码流程:
1. 指定url
2. 发起请求
3. 获取响应数据
4. 数据解析
5. 持久化存储
三、利用数据解析的方式(四种)进行聚焦爬虫
- 正则
- bs4
- xpath
- pyquery
四、数据解析的通用原理
- html作用就是通过标签的形式进行数据的展示。在html中所有的标签遵从树状结构的。
- html所要展示的数据是可以存储在哪里?
- 存储在标签之间
- 存储在标签的属性中
- 数据解析实现的聚焦爬虫操作其实就是要把指定标签中存储的数据或者属性值进行解析或者提取。
- 数据解析的原理
- 1.标签的定位
- 2.将该标签中存储的属性值或者文本内容取出即可