zoukankan      html  css  js  c++  java
  • 【原创】爬虫反爬基础常见类型总结

     

    1.浏览器伪装

    格式:

    'User-Agent':'自己抓包' 

    2.访问地址伪装

    格式:

    'reffer':'自己抓包'

    3.ip地址伪装

    格式:

    免费版: proxies={'https':'ip:port'}
    收费版: proxies={'https':'http:user:password@ip:port'}

    4.伪装访问速率

    格式:

    import time,random
    headers={xxx}
    for i in range(10):
        response = xxx #模拟请求url
        time.sleep(random.uniform(1.1,5.4)) #重点时间随机

    5.伪装用户真实信息

    格式:

    cookies='自己抓包'

    cookies升级:js、js混淆,已经超出普通人能力

    6.字体反爬

    常见某点评网,只能靠js,同cookies一样困难

    7.Selenium防检测

    这个需要加类似插件参数

    8.网页禁止调试

    F12不起作用,或者调试警告弹窗,这种直接不让你看数据

    9.Ajax异步加载

    selenium可以做,但是效率不高。调试原网页没数据,这种考虑js生成,或者有专门接口

    10.其他反爬

    动态验证码,封ip,封账号等

    ------------------------------- ********厚德达理,励志勤工******** -------------------------------
  • 相关阅读:
    rsync特性
    01 什么是爬虫
    celery的使用
    redis的使用
    GIT使用大全
    多项式的高级运算
    SP1557 GSS2
    题解 CF997E 【Good Subsegments】
    P3920 [WC2014]紫荆花之恋
    题解 P3750 【[六省联考2017]分手是祝愿】
  • 原文地址:https://www.cnblogs.com/hightech/p/14776349.html
Copyright © 2011-2022 走看看