zoukankan      html  css  js  c++  java
  • 爬虫学习

    定义:是一个自动提取网页的程序

    1,Url开始---分析获取数据,找到Url-- 递归下去---结果

    2,下载html---解析获取数据---保存数据

    爬虫攻防:robots协议-----君子协定,允许或不允许抓取的内容

    1,请求检测header            ------攻击

    2,用户登录--请求的时候带上cookie  -----攻击

    3,爬虫的频率高,限制IP(黑名单/返回个验证码)---防御

      验证码-----有开源组件做图片识别 / 打码平台

    4,多个IP(adsl拨号 / 168伪装IP / 代理IP )  ------攻击

    5,大招:

      1)数据js动态加载    ----防御

      2)转成图片    ----防御

      3)js收集用户操作,然后提交  ----防御

      4)安装控件,对硬盘操作,读取  ---防御

  • 相关阅读:
    毛皮立方体
    APPLE buSinEss
    #4613. problem C
    #4614. problem B
    idiots
    熊猫(i)
    圆盘自动机 cell
    小L的占卜
    有趣的数(number)
    「JOISC 2015 Day 1」卡片占卜
  • 原文地址:https://www.cnblogs.com/luyiwei/p/9270862.html
Copyright © 2011-2022 走看看