scrapy抓取拉勾网职位信息（二）——拉勾网页面分析

zoukankan html css js c++ java

scrapy抓取拉勾网职位信息（二）——拉勾网页面分析

网站结构分析：

四个大标签：首页、公司、校园、言职

我们最终是要得到详情页的信息，但是从首页的很多链接都能进入到一个详情页，我们需要对这些标签一个个分析，分析出哪些链接我们需要跟进。

首先是四个大标签，鼠标点击进入后可以发现首页、公司、校园，这三个包含有招聘职位

1、首先是对首页的分析

首页正文部分包括：搜索栏（含热门搜索）、职业方向标签（java、php。。。）、热门职位、热门公司

搜索栏：搜索标签的岗位数量较少，我们要做全站数据爬取的话，不跟进这个标签

职业方向标签：这个标签指向的url都是lagou.com/zhaopin/.* (.*代表0个或多个任意字符）这种形式，岗位较全，需要跟进这些页面

热门职位：这个标签指向的url都是lagou.com/jobs/...这种形式，职业方向标签内详情页可能会有重复，同样不跟进

热门公司：这个标签指向的url都是lagou.com/gongsi/d+这种形式，点进去后可以看到详情页都包含在lagou.com/gongsi/j.*这种链接中，但实际上这个与上方四个大标签的公司标签也是重复的，所以这些页面也不在首页跟进

2、对大标签公司的分析

可以看到各个公司标签都包含在lagou.com/gongsi/这个链接下，每一个公司名类似lagou.com/gongsi/d+.html（d+代表一个或者多个数字）

进入其中一个公司页面，可以看到所有的招聘职位都在lagou.com/gongsi/jd+.html这样的页面下（d+代表一个或者多个数字），而岗位详情页类似lagou.com/jobs/d+.html

3、大标签校园的分析

可以看出来，这个和首页的结构比较类型，那我们就和首页一样，选取职业方向标签的url作为跟进的目标，可以看出每一个标签都是类似lagou.com/jobs/list_.* (.*代表0个或多个任意字符）

通过以上分析，我们就知道对于拉勾网来说，要想做到全站抓取，需要跟进哪些链接。

查看全文

相关阅读:
【Vue CLI】手把手教你撸插件
 深入理解web协议(二)：DNS、WebSocket
同城双活与异地多活架构分析
 vivo 商城前端架构升级-总览篇
 原CSDN搬家地址
 PHP 7.1安装xhprof进行性能分析
 nginx配置http和https可同时访问方法， listen ssl与 ssl on区别
 sudo pm2 找不到命令
 HAProxy配置SSL
docker部署nginx+php的各种坑

原文地址：https://www.cnblogs.com/sjfeng1987/p/10026513.html