zoukankan      html  css  js  c++  java
  • 爬虫的一般步骤

    希望下次写代码的时候可以严格按照这个步骤进行调试,写可维护的代码

    1. 创建一个项目

        scrapy startproject demo

    1. 根据需要设计字段

    items.py

      ***************

    2. 数据提取 spiders.py

    根据网站的规则: 设置相应的策略

      1)针对没有ban且没有动态数据的网站

      无需设置相应得策略:  设置UserAgentMiddleware即可

      2) 针对没有ban有动态数据的网站

      在1的基础上,设置代理IP池(变IP采集),动态数据获取可以根据浏览器响应的方式发请求

      3) 针对有ban和有动态数据的网站

      在1的基础上,设置代理IP池,设置Cookies池,使用selenium的plantomjs插件

    3. 在简单(页面解析)的问题上,尽量不要花太多的时间!!!

    4. 能使用url请求的尽量不要是用selenium插件  

    5. 函数命名规则(给网站等级: 观察有几级URL)

      self.parse

      self.parse_cat

      self.parse_two

      self.parse_three

  • 相关阅读:
    EcFinal游记
    简要介绍补码的原理
    【SCOI2007】降雨量
    【ecfinal2019热身赛】B题
    【HAOI2011】problem a
    20200301(ABC)题解 by李旭晨
    20200228(ABC)题解 by 马鸿儒
    20200220(C)题解 b刘存
    20200225(DEF)题解 by 马鸿儒
    20200224(ABC)题解 by 马鸿儒
  • 原文地址:https://www.cnblogs.com/liyugeng/p/7910775.html
Copyright © 2011-2022 走看看