zoukankan      html  css  js  c++  java
  • 爬取拉勾网

    爬取的url:https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=

     爬取职位名称,薪水,公司,待遇这些

    抓包,找到信息加载为一个post请求返回

    查看他携带的数据,里面是关键字(python)和页数(pn),这个sid每次都会改变,经测试,该post请求主要检查的是cookies,这个sid不需要(一次一次试出来的)

     

     既然需要携带cookie,那我们首先建立一个session连接,获得cookie

    1 s.get(url, headers=headers, timeout=3)
    2 cookie = s.cookies

    之后我们再用这个cookie构造post请求

    1 response = s.post(url2, data=data, headers=headers, cookies=cookie)
    2 html = response.text

    成功返回json数据,之后解析json取出我们需要的数据就可以了

     1 json_data = json.loads(html)
     2 resulet = json_data['content']['positionResult']['result']
     3 for datas in resulet:
     4     positionName = datas['positionName']
     5     companyShortName = datas['companyShortName']
     6     companySize = datas['companySize']
     7     salary = datas['salary']
     8     workYear = datas['workYear']
     9     positionAdvantage = datas['positionAdvantage']
    10     city = datas['city']
    11     firstType = datas['firstType']
    12     secondType = datas['secondType']

    最后将数据写入excel

     取出薪水和公司名称做一个简单的可视化

     

     可以看到成都的python岗位平均薪资12 - 20k

    最低工资2k,最高工资60k

    在20 - 30k工资的人数占比最高为30%,0-10k的人数占比还是挺低的,当然都有学历和工作经验的要求(我就懒得分析了)

  • 相关阅读:
    group by;having;order by
    oracle官方文档
    oracle正则表达式函数和正则表达式简介
    oracle系统函数
    oracle系统表
    windows搭建ftp服务器
    开机自动挂载
    linux修改设置ip地址
    My First Web Server
    为什么要写博客?
  • 原文地址:https://www.cnblogs.com/Truedragon/p/12807426.html
Copyright © 2011-2022 走看看