zoukankan      html  css  js  c++  java
  • python爬虫实战(九)--------拉勾网全站职位(CrawlSpider)

    相关代码已经修改调试成功----2017-4-24

    详情代码请移步我的github:https://github.com/pujinxiao/Lagou_spider

    一、说明

    1.目标网址拉勾网

    2.实现内容:爬取相应的字段

    数据表名  

    3.思路

    1.首先类似于 https://www.lagou.com/jobs/2182417.html 这样的链接是最终要的url。基本都是差不多,要变的就是那一串数字,编写正则表达式匹配就好。

    2.除了首页还有其他地方也能找到这样的url,所以我先匹配职位分类的url 例如:https://www.lagou.com/zhaopin/Java/,在抓取最终的url。

    3.scrapy会自动去重。

    4.数据

    二、运行

    1.配置好相关数据库的信息,运行main.py函数即可

    三、问题----欢迎留言提出问题

    声明:此项目主要是学习CrawlSpider类,爬取全站的职位信息,熟悉Rule的一些用法。

    1.你会发现爬取一小会儿,会被禁掉IP,要买代理IP才可行,免费的代理IP都不好用了,还有就是放慢抓取的速度。这样效果会更好。(解决)

    欢迎有兴趣的小伙伴帮我优化,解决以上问题,之后我将合并你的代码,作为贡献者,共同成长。

    编者邮箱:jinxiao_pu@163.com


    如果本项目对你有用请给我一颗star,万分感谢。

    详情代码请移步我的github:https://github.com/pujinxiao/Lagou_spider

    作者:今孝 

    出处:http://www.cnblogs.com/jinxiao-pu/p/6757145.html

    本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接。

  • 相关阅读:
    20191017-1 每周例行报告
    20191010-2 每周例行报告
    20190919-1 每周例行报告
    彭思雨20190919-3效能分析
    zipfile
    subprocess
    configparser
    hashlib
    json & pickle
    headpq
  • 原文地址:https://www.cnblogs.com/jinxiao-pu/p/6757145.html
Copyright © 2011-2022 走看看