zoukankan      html  css  js  c++  java
  • 爬虫的一般步骤

    希望下次写代码的时候可以严格按照这个步骤进行调试,写可维护的代码

    1. 创建一个项目

        scrapy startproject demo

    1. 根据需要设计字段

    items.py

      ***************

    2. 数据提取 spiders.py

    根据网站的规则: 设置相应的策略

      1)针对没有ban且没有动态数据的网站

      无需设置相应得策略:  设置UserAgentMiddleware即可

      2) 针对没有ban有动态数据的网站

      在1的基础上,设置代理IP池(变IP采集),动态数据获取可以根据浏览器响应的方式发请求

      3) 针对有ban和有动态数据的网站

      在1的基础上,设置代理IP池,设置Cookies池,使用selenium的plantomjs插件

    3. 在简单(页面解析)的问题上,尽量不要花太多的时间!!!

    4. 能使用url请求的尽量不要是用selenium插件  

    5. 函数命名规则(给网站等级: 观察有几级URL)

      self.parse

      self.parse_cat

      self.parse_two

      self.parse_three

  • 相关阅读:
    smb上传图片工具类
    hzero
    ORACLE
    数据库范式
    数据库设计阶段
    Java变量和运算符
    相对路径和绝对路径
    setTimeout()方法和setInterval()方法
    body onload()事件和table insertRow()、tr insertCell()
    eval函数和isNaN函数
  • 原文地址:https://www.cnblogs.com/liyugeng/p/7910775.html
Copyright © 2011-2022 走看看