zoukankan      html  css  js  c++  java
  • crawler_爬虫代理方案

    爬虫往往会遇到各种限制ip问题

    理方案(爬虫)

    IP代理软件

    优势
    标记: 是

    自动切换IP

    基本无开发成本
    标记: 黄色, 考虑切换IP时 ,网络瞬时异常

    IP池,由商家维护

    劣势
    标记: 非

    部署

    每个节点都需要部署
    节点数量超多时,也是一部分工作量
    购买的软件,一般有限制同时在线数量, 5
    可通过不同费用套餐实现

    ip碰撞

    不同的节点可能在同一时间会用到同一个ip,可通过调整切换代理ip频度减低碰撞重叠概率

    购买IP代理池

    优势
    标记: 是

    分发可控

    稳定性相对较强

    购买IP可能会更便宜
    标记: ?

    部署方便
    标记: 节点数量多时,不用考虑ip代理 ,由调度分发

    劣势
    标记: 非

    自己维护

    代理ip失效

    开发成本,调试周期长
    标记: 红色

    ip潜在不稳定风险

    验证码人工打码备选方案

    优势
    标记: 是

    解决防爬严格的网站

    准确率高

    劣势
    标记: 非

    人工维护成本

    潜在验证码输入次数超限封杀

  • 相关阅读:
    Java OCR tesseract 图像智能字符识别技术
    模板
    模板
    奇怪的haproxy 跳转
    奇怪的haproxy 跳转
    tomcat path配置
    tomcat path配置
    Mongodb 安装迁移
    image.xx.com 通过haproxy 跳转到内部图片服务器
    mysqldump 利用rr隔离实现一致性备份
  • 原文地址:https://www.cnblogs.com/cphmvp/p/3711158.html
Copyright © 2011-2022 走看看