zoukankan      html  css  js  c++  java
  • 关于反爬虫的一些认知

    定义:

    用户

    人类用户使用的客户端

    老用户

    请求头中有服务端已记忆的、可识别的标识

    新用户

    请求头中无上述标识,初次访问时,服务端一般会通过响应头中Set-Cookie进行设置

    一个可信任的(主要由人类用户使用的)IP应该具备的特征:

    1. 短时间内不应该有大量来自新用户的请求;
    2. 老用户在单位时间内的请求频次、请求时间间隔方面应该具备足够的真实用户的特征;
    3. 老用户不应该高频请求特定格式的url,也不应该全天候/每天长时间地频繁发起请求;
    4. 若存在大量老用户在较短时间内集体消失的情况,此IP很可疑;
    5. 不应该频繁地有旧用户不再发起请求,然后新用户批量接入的情况;
    6. 单位时间段内来自此IP的所有用户的请求数不应该太多;

    服务端反爬虫时比较容易监控的特征值:

    1. 单位时间段内新用户的数量不能超过某个阀值
    2. 单位时间段内某个老用户发起请求的数量/速度不能超过某个阀值
    3. 特定时间点的用户总数/单位时间段内的用户数量的动态稳定值不能超过某个阀值
    4. 特定时间点的请求总数/单位时间段内的请求数量的动态稳定值不能超过某个阀值
    本文原创发表于http://www.cnblogs.com/qijj,转载请保留此声明。
  • 相关阅读:
    Oracle SQL性能优化
    spring aop简单日志实例
    一个简单的Spring AOP例子
    jQuery的三种$()
    Mac 上的 outlook 一直让输入密码
    idea 中设置成公司规范的代码格式
    Java 中的锁——Lock接口
    TimeUnit枚举类
    Thread.join()的使用
    java线程的等待、通知机制【读书笔记】
  • 原文地址:https://www.cnblogs.com/qijj/p/6158764.html
Copyright © 2011-2022 走看看