zoukankan      html  css  js  c++  java
  • 爬虫反爬

    反爬技术:

    1. UA反爬:携带ua,构建有效ua池;
    2. Ip限制:限制同一ip的访问频率,download_delay =8,代理ip;
    3. 数据藏在js脚本:一般使用re提取数据;
    4. ajax请求(动态数据):可以使用selenium或者pypepeer,但是效率太低,影响机器性能,
    推荐直接访问接口获取数据。
    5. 验证码:
      1 数字+字母 验证码,opencv图像识别技术,打码平台
          2 滑动验证码:...

    6. js逆向:常见加密有md5,rsa(非对称加密),des(对称加密),base64编码,js混淆(sojson.v5);
    7. 字体加密:找到字体与编码的映射关系表;
    8. 数据编码问题:gbk,gbk2312,unicode,url编码,html特殊字符,以及混合编码问题;

  • 相关阅读:
    P3413 SAC#1
    [BJOI2017]树的难题
    [HNOI/AHOI2018]转盘
    P2664 树上游戏
    [POI2013]BAJ-Bytecomputer
    [ZJOI2010]网络扩容
    数列游戏
    士兵占领
    [ZJOI2016]大森林
    P4755 Beautiful Pair
  • 原文地址:https://www.cnblogs.com/angle6-liu/p/11871298.html
Copyright © 2011-2022 走看看