zoukankan      html  css  js  c++  java
  • scrapy抓取拉勾网职位信息(二)——拉勾网页面分析

    网站结构分析:

    四个大标签:首页、公司、校园、言职


    我们最终是要得到详情页的信息,但是从首页的很多链接都能进入到一个详情页,我们需要对这些标签一个个分析,分析出哪些链接我们需要跟进。

    首先是四个大标签,鼠标点击进入后可以发现首页、公司、校园,这三个包含有招聘职位


    1、首先是对首页的分析

    首页正文部分包括:搜索栏(含热门搜索)、职业方向标签(java、php。。。)、热门职位、热门公司

    搜索栏:搜索标签的岗位数量较少,我们要做全站数据爬取的话,不跟进这个标签

    职业方向标签:这个标签指向的url都是lagou.com/zhaopin/.*  (.*代表0个或多个任意字符)这种形式,岗位较全,需要跟进这些页面

    热门职位:这个标签指向的url都是lagou.com/jobs/...这种形式,职业方向标签内详情页可能会有重复,同样不跟进

    热门公司:这个标签指向的url都是lagou.com/gongsi/d+这种形式,点进去后可以看到详情页都包含在lagou.com/gongsi/j.*这种链接中,但实际上这个与上方四个大标签的公司标签也是重复的,所以这些页面也不在首页跟进


    2、对大标签公司的分析

    可以看到各个公司标签都包含在lagou.com/gongsi/这个链接下,每一个公司名类似lagou.com/gongsi/d+.html(d+代表一个或者多个数字)

    进入其中一个公司页面,可以看到所有的招聘职位都在lagou.com/gongsi/jd+.html这样的页面下(d+代表一个或者多个数字),而岗位详情页类似lagou.com/jobs/d+.html

     

    3、大标签校园的分析

    可以看出来,这个和首页的结构比较类型,那我们就和首页一样,选取职业方向标签的url作为跟进的目标,可以看出每一个标签都是类似lagou.com/jobs/list_.* (.*代表0个或多个任意字符)


    通过以上分析,我们就知道对于拉勾网来说,要想做到全站抓取,需要跟进哪些链接。

  • 相关阅读:
    简单优化:Zipalign
    Using lists in Android (ListView)
    6410移植RT3070无线模块,WPA加密方式,并开机自动加载
    html表格的动态增加删除
    html 中表格长度固定
    跨域 Iframe 通信解决方案(兼容 IE 系列浏览器。)
    Sass 基础和入门
    javascript 模块化编程 1
    Canvas的方法覆盖和实现新的API
    获取鼠标点击相对于Canva位置的2种方法
  • 原文地址:https://www.cnblogs.com/sjfeng1987/p/10026513.html
Copyright © 2011-2022 走看看