zoukankan      html  css  js  c++  java
  • 爬虫小总结

    一、接触过几种爬虫模块?

    urllib,requests

    二、robots协议是什么?

    规定哪些数据不能爬取,防君子不防小人

    request模块没有使用硬性的语法对该协议进行生效

    scrapy框架中硬性的语法对该协议进行了生效

    三、如何处理验证码

    使用三方平台,如云打码、打码兔

    四、掌握几种数据解析的方式?

    正则、xpath、bs4

    五、如何爬取动态加载的页面数据?

    1、通过selenium动态获取

    2、基于ajax发送post请求,抓包工具抓取异步发起的请求(url)

    六、接触过哪些反爬机制?如何处理?

    1、robots协议:直接不遵守即可

    2、UA:进行UA伪装

    3、封IP:代理IP

    4、验证码:通过打码平台对验证码进行识别

    5、动态数据爬取:通过selenium

    6、数据加密:

    7、token:

    七、在scrapy中接触过几种爬虫的类

    Spider、CrawlSpider、RedisCrawlSpider、RedisSpider

    八、如何实现分布式流程:安装scrapy-redis组件

    RedisCrawlSpider、RedisSpider

  • 相关阅读:
    字符串序列处理
    51nod1065 最小正子段和
    51nod1043 幸运号码
    51nod1035 最长的循环节
    51nod 1021 石子归并
    POJ 2387 Til the Cows Come Home
    第一次博客作业
    Python命令行参数以及文件读入写出
    团队介绍及选题报告
    结对编程作业
  • 原文地址:https://www.cnblogs.com/nanjo4373977/p/13026395.html
Copyright © 2011-2022 走看看