zoukankan      html  css  js  c++  java
  • 爬虫的一般步骤

    希望下次写代码的时候可以严格按照这个步骤进行调试,写可维护的代码

    1. 创建一个项目

        scrapy startproject demo

    1. 根据需要设计字段

    items.py

      ***************

    2. 数据提取 spiders.py

    根据网站的规则: 设置相应的策略

      1)针对没有ban且没有动态数据的网站

      无需设置相应得策略:  设置UserAgentMiddleware即可

      2) 针对没有ban有动态数据的网站

      在1的基础上,设置代理IP池(变IP采集),动态数据获取可以根据浏览器响应的方式发请求

      3) 针对有ban和有动态数据的网站

      在1的基础上,设置代理IP池,设置Cookies池,使用selenium的plantomjs插件

    3. 在简单(页面解析)的问题上,尽量不要花太多的时间!!!

    4. 能使用url请求的尽量不要是用selenium插件  

    5. 函数命名规则(给网站等级: 观察有几级URL)

      self.parse

      self.parse_cat

      self.parse_two

      self.parse_three

  • 相关阅读:
    Leetcode: Surrounded Regions
    Leetcode: 3Sum Closest
    Leetcode: 3Sum
    Leetcode: Wildcard Matching
    Leetcode: Edit Distance
    Leetcode: Best Time to Buy and Sell Stock III
    Leetcode: Combination Sum II
    Leetcode: Next Permutation
    Leetcode: Merge Intervals
    Leetcode: Minimum Window Substring
  • 原文地址:https://www.cnblogs.com/liyugeng/p/7910775.html
Copyright © 2011-2022 走看看