爬虫流程的理解

zoukankan html css js c++ java

爬虫流程的理解
本博客是学习爬虫的笔记，里面的代码来自崔庆才老师的爬虫课程。

一个网站的内容非常的丰富，爬虫的目的是爬取我们想了解的信息并做处理，因此我们编写爬虫的第一步必须要明确目标。这一步是建立在对网页内容的理解上。以https://static1.scrape.cuiqingcai.com/为例，我们先打开网站（其实我截取的是第二页，不是第一页），看到如下页面。

该页的最后是如下页面，表示总共有10页内容，100条，说明每页有十条电影信息。

点开第一个电影，我们会看到详情页面，如下

针对这个网页，我们设计了如下的爬取目标：
- 用 requests 爬取这个站点每一页的电影列表，顺着列表再爬取每个电影的详情页。
- 用 pyquery 和正则表达式提取每部电影的名称、封面、类别、上映时间、评分、剧情简介等内容。
- 把以上爬取的内容存入 MongoDB 数据库。
- 使用多进程实现爬取的加速。
1、找到详情页的路径规律，遍历所有详情页

上面的目标，总结来看就是找到进入每个电影详情页的路径，然后爬取详情页里面的有用信息。我们点开详情页会发现上面的链接如下图，也就是在该页链接https://static1.scrape.cuiqingcai.com/的后面拼接了detail/1。

进一步分析网页的代码特点，我们可以在开发者工具上找到电影对应的详情页的相对路径href=‘/detail/1’,这就与我们上面的分析对应了。可以看到这个名称实际上是一个 h2 节点，其内部的文字就是电影的标题。h2 节点的外面包含了一个 a 节点，这个 a 节点带有 href 属性，这就是一个超链接，其中 href 的值为 /detail/1，这是一个相对网站的根 URL https://static1.scrape.cuiqingcai.com/ 路径，加上网站的根 URL 就构成了 https://static1.scrape.cuiqingcai.com/detail/1，也就是这部电影详情页的 URL。这样我们只需要提取这个 href 属性就能构造出详情页的 URL 并接着爬取了。

2、分析详情页，输出有用的信息

3、爬虫的流程图
查看全文

相关阅读:
看着四年前的代码，那时奋斗的模样，百感滋味
 操作系统中进程调度策略有哪几种？
Linux操作系统及调用接口
 wpf 图像浏览（平移，缩放）
C# double小数点的取舍
 C# 读写16位tif图片灰度数据
 WPF Slider滑块的使用
 WPF使用MVVMLight的ViewModel 访问控件的属性方法事件以及多页面传递信息
 苹果手机小米手环5收不到微信QQ消息提醒的解决办法
 AD覆铜设置规则

原文地址：https://www.cnblogs.com/liliwang/p/12930228.html