python爬虫实战（九）--------拉勾网全站职位（CrawlSpider）

zoukankan html css js c++ java

python爬虫实战（九）--------拉勾网全站职位（CrawlSpider）

相关代码已经修改调试成功----2017-4-24

详情代码请移步我的github：https://github.com/pujinxiao/Lagou_spider

一、说明

1.目标网址：拉勾网

2.实现内容：爬取相应的字段

数据表名

3.思路：

1.首先类似于 https://www.lagou.com/jobs/2182417.html 这样的链接是最终要的url。基本都是差不多，要变的就是那一串数字，编写正则表达式匹配就好。

2.除了首页还有其他地方也能找到这样的url，所以我先匹配职位分类的url 例如：https://www.lagou.com/zhaopin/Java/，在抓取最终的url。

3.scrapy会自动去重。

4.数据：

二、运行

1.配置好相关数据库的信息，运行main.py函数即可

三、问题----欢迎留言提出问题

声明：此项目主要是学习CrawlSpider类，爬取全站的职位信息，熟悉Rule的一些用法。

1.你会发现爬取一小会儿，会被禁掉IP，要买代理IP才可行，免费的代理IP都不好用了，还有就是放慢抓取的速度。这样效果会更好。（解决）

欢迎有兴趣的小伙伴帮我优化，解决以上问题，之后我将合并你的代码，作为贡献者,共同成长。

编者邮箱：jinxiao_pu@163.com

如果本项目对你有用请给我一颗star，万分感谢。

详情代码请移步我的github：https://github.com/pujinxiao/Lagou_spider

作者：今孝

出处：http://www.cnblogs.com/jinxiao-pu/p/6757145.html

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

查看全文

相关阅读:
spring配置文件中util:properties和context:property-placeholder
为啥Spring和Spring MVC包扫描要分开？
spring和springmvc父子容器关系
 springmvc请求参数获取的几种方法
 请求转发（Forward）和重定向（Redirect）的区别
 如何设计一个秒杀系统
 Maven使用之packing篇
 ECharts基本设置
 @RequestParam详解以及加与不加的区别
 从网页提取的关键字

原文地址：https://www.cnblogs.com/jinxiao-pu/p/6757145.html

python爬虫实战（九）--------拉勾网全站职位（CrawlSpider）

一、说明

二、运行

三、问题----欢迎留言提出问题