zoukankan      html  css  js  c++  java
  • scrapy抓取拉勾网职位信息(二)——拉勾网页面分析

    网站结构分析:

    四个大标签:首页、公司、校园、言职


    我们最终是要得到详情页的信息,但是从首页的很多链接都能进入到一个详情页,我们需要对这些标签一个个分析,分析出哪些链接我们需要跟进。

    首先是四个大标签,鼠标点击进入后可以发现首页、公司、校园,这三个包含有招聘职位


    1、首先是对首页的分析

    首页正文部分包括:搜索栏(含热门搜索)、职业方向标签(java、php。。。)、热门职位、热门公司

    搜索栏:搜索标签的岗位数量较少,我们要做全站数据爬取的话,不跟进这个标签

    职业方向标签:这个标签指向的url都是lagou.com/zhaopin/.*  (.*代表0个或多个任意字符)这种形式,岗位较全,需要跟进这些页面

    热门职位:这个标签指向的url都是lagou.com/jobs/...这种形式,职业方向标签内详情页可能会有重复,同样不跟进

    热门公司:这个标签指向的url都是lagou.com/gongsi/d+这种形式,点进去后可以看到详情页都包含在lagou.com/gongsi/j.*这种链接中,但实际上这个与上方四个大标签的公司标签也是重复的,所以这些页面也不在首页跟进


    2、对大标签公司的分析

    可以看到各个公司标签都包含在lagou.com/gongsi/这个链接下,每一个公司名类似lagou.com/gongsi/d+.html(d+代表一个或者多个数字)

    进入其中一个公司页面,可以看到所有的招聘职位都在lagou.com/gongsi/jd+.html这样的页面下(d+代表一个或者多个数字),而岗位详情页类似lagou.com/jobs/d+.html

     

    3、大标签校园的分析

    可以看出来,这个和首页的结构比较类型,那我们就和首页一样,选取职业方向标签的url作为跟进的目标,可以看出每一个标签都是类似lagou.com/jobs/list_.* (.*代表0个或多个任意字符)


    通过以上分析,我们就知道对于拉勾网来说,要想做到全站抓取,需要跟进哪些链接。

  • 相关阅读:
    【Vue CLI】手把手教你撸插件
    深入理解web协议(二):DNS、WebSocket
    同城双活与异地多活架构分析
    vivo 商城前端架构升级-总览篇
    原CSDN搬家地址
    PHP 7.1安装xhprof进行性能分析
    nginx配置http和https可同时访问方法, listen ssl与 ssl on区别
    sudo pm2 找不到命令
    HAProxy配置SSL
    docker部署nginx+php的 各种坑
  • 原文地址:https://www.cnblogs.com/sjfeng1987/p/10026513.html
Copyright © 2011-2022 走看看