zoukankan      html  css  js  c++  java
  • Python面试:你遇到的反爬虫策略有哪些?及应对策略有什么?

    1、通过headers反爬虫

    对于基本网页的抓取可以自定义headers,添加headers的数据,代理来解决;

    2、基于用户行为的发爬虫:例如同一IP短时间内多次访问同一页面,或者同一账户短时间内多次进行相同操作

    有些网站的数据抓取必须进行模拟登陆才能抓取到完整的数据,所以要进行模拟登陆;
    对于限制抓取频率的,可以设置抓取的频率降低一些;
    对于限制ip抓取的可以使用多个代理ip进行抓取,轮询使用代理;

    3、动态网页反爬虫:例如爬取的数据是通过ajax请求得到,或者通过JavaScript生成的

    针对动态网页的可以使用selenium+phantomjs进行抓取,但是比较慢,所以也可以使用查找接口的方式进行抓取;

    4、对部分数据进行加密处理的:例如:我们要抓的数据部分能够抓到,另外的部分加密处理了,是乱码

    对部分数据进行加密的,可以使用selenium进行截图,然后使用python自带的 pytesseract库进行识别,但是比较慢最直接的方法是找到加密的方法进行逆向推理。

  • 相关阅读:
    LeetCode题解——两数之和
    题解LeetCode——回文数
    汇编语言入门教程
    python基础--局部变量与全局变量
    linux--基础知识1
    python基础--函数
    字符串format函数使用
    字符串的拼接
    python基础--6 集合
    python基础--5字典
  • 原文地址:https://www.cnblogs.com/jiaoran/p/14546341.html
Copyright © 2011-2022 走看看