python爬取拉勾网职位数据

zoukankan html css js c++ java

python爬取拉勾网职位数据
　　今天写的这篇文章是关于python爬虫简单的一个使用，选取的爬取对象是著名的招聘网站——拉钩网，由于和大家的职业息息相关，所以爬取拉钩的数据进行分析，对于职业规划和求职时的信息提供有很大的帮助。

　　完成的效果

　爬取数据只是第一步，怎样使用和分析数据也是一大重点，当然这不是本次博客的目的，由于本次只是一个上手的爬虫程序，所以我们的最终目的只是爬取到拉钩网的职位信息，然后保存到Mysql数据库中。最后中的效果示意图如下：

控制台输入

数据库显示

　　准备工作

　首先需要安装python，这个网上已经有很多的教程了，这里就默认已经安装python，博主使用的是python3.6,然后安装了requests、pymysql（连接数据库使用）和Mysql数据库。

　　分析拉勾网

　首先我们打开拉勾网，打开控制台，搜索java关键词搜索职位，选取北京地区，然后查看network一栏中的数据分析，查看第一个，是不是感觉它很像我们要拿到的请求地址，事实上不是的，这个打开之后是一个html，如果我们访问这个接口，拉钩会返回给我们一个结果，提示我们操作太频繁，也就是被拦截了。不过从这个页面可以看到，拉钩的网页用到了模板，这种加载数据的方式更加快速（大幅度提升），建议大家可以尝试使用一下（个人拙见）

　　不要气馁，我们接着往下找，可以看到一个“positionAjax”开头的请求，没错就它“https://www.lagou.com/jobs/positionAjax.jsonpx=default&city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false&isSchoolJob=0”，还是看图说话吧

　　找到请求地址之后，我们就开始写代码了。

　　先是导入requests和pymysql，然后requests的post方法访问上面找到的url，但是直接访问这个地址是会被拦截的，因为我们缺少所要传输的数据，和设置请求头，会被认为是非自然人请求的，加入请求头和数据，
headers = {'Referer':'https://www.lagou.com/jobs/list_'+position+'?city=%E5%8C%97%E4%BA%AC&cl=false&fromSearch=true&labelWords=&suginput=', 'Origin':'https://www.lagou.com', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36', 'Accept':'application/json, text/javascript, */*; q=0.01', 'Cookie':'JSESSIONID=ABAAABAAAGFABEFE8A2337F3BAF09DBCC0A8594ED74C6C0; user_trace_token=20180122215242-849e2a04-ff7b-11e7-a5c6-5254005c3644; LGUID=20180122215242-849e3549-ff7b-11e7-a5c6-5254005c3644; index_location_city=%E5%8C%97%E4%BA%AC; _gat=1; TG-TRACK-CODE=index_navigation; _gid=GA1.2.1188502030.1516629163; _ga=GA1.2.667506246.1516629163; LGSID=20180122215242-849e3278-ff7b-11e7-a5c6-5254005c3644; LGRID=20180122230310-5c6292b3-ff85-11e7-a5d5-5254005c3644; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1516629163,1516629182; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1516633389; SEARCH_ID=8d3793ec834f4b0e8e680572b83eb968' } dates={'first':'true', 'pn': page,#页数 'kd': position#搜索的职位 }
　　加入请求头之后就可以请求了，控制台输出数据，可以看出是一个json数据，使用json方法处理之后，一步步找到我们想要的数据，可以看出全在“result”里面，那么我们就只拿到他就行了，
result=resp.json()['content']['positionResult']['result']
这个时候可以看到数据非常多，有30个左右，不过不用担心，都是英文单词，基本上可以才出意思。接下来我们就要怕这些数据存储到数据库中，以备日后分析使用。

　　连接mysql我使用的是pymysql，先建好数据库和数据表，然后在代码中加入配置信息
config={ "host":"127.0.0.1", "user":"root", "password":"", "database":databaseName, "charset":"utf8"#防止中文乱码 }
　　加载配置文件，连接数据库
db = pymysql.connect(**config) cursor = db.cursor() sql=""#insert语句 cursor.execute（） db.commit() #提交数据 cursor.close() db.close()#用完记得关闭连接
　　大功告成，这个时候拉钩的职位信息已经静静地躺在了你的数据库中，静待你的宠幸，拿到这些数据，你就可以进行一些分析了，比如平均工资水平、职位技能要求等。

　　因为篇幅有限，有些代码并没有粘贴出来，比如sql语句（这个sql写的挺长的），但是别担心，楼主已经把这个程序放入到github上面了，大家可以自行下载，github地址：https://github.com/wudb1993/pythonDemo如果觉得不错的话请在github上面点一下star，手打不易谢谢啦，欢迎大神拍砖。
查看全文

相关阅读:
SpringCloud : yml文件配置获取系统环境变量的值
 SpringCloud : 多个 @FeignClient 注解 value 设置为同一个应用的解决方案
 SpringCloud : Feign 不捆绑远程应用名称，实现服务应用名称传入，调用通用自动化
 SpringCloud : Feign 使用 FastJson 解析数据
 Mybatis中在log日志或控制台打印执行的sql
iOS 基于 itemServices 进行本地安装 ipa 应用安装包
 MySQL5.5 数据热备份
 如何在 Fiddler Script 中自定义修改 Request 、 Response
Dubbo 分布式日志追踪
 shell脚本并发执行

原文地址：https://www.cnblogs.com/wudb/p/8341036.html