zoukankan      html  css  js  c++  java
  • 爬虫初识

    什么是爬虫?

    • 就是通过编写程序模拟浏览器上网,然后让其取互联网上爬取数据的过程

      • 关键字 : 模拟(request模块),抓取
    • 什么是HTTP?

      • 我的服务器端和客户端进行数据交互的某种形式

    爬虫的分类

    • 通用爬虫 : 抓取互联网中的一整张页面
    • 聚焦爬虫 : 抓取互联网页面中局部的,指定的数据
    • 增量式爬虫 : 同来检测网站数据更新的情况,以便爬取到网站最新更新出来的数据

    反爬机制

    有了日常的爬虫,门户网站也不愿意免费让你随便爬取,所以网站制定和发明了很多防止你爬虫的策略和方法

    反反爬策略

    我们的爬虫程序要爬去门户网站的数据,但是网站

    爬虫合法性探究

    爬虫的行为风险的体现

    • 干扰了被访问网站的正常运营
    • 爬取了受法律保护的特定类型的数据和信息

    如何规避风险

    • 严格遵守网站设置的robots协议

      • 如何查看
        • 在网站地址后面加上/robots.txt
      • robots协议 : 文本协议
        • 特性 : 放君子不防小人的协议
    • 在规避反爬措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运营

    • 在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除

  • 相关阅读:
    dpdk优化相关 转
    常用的TCP Option
    c10k C10M
    Linux惊群效应详解
    bloomfilter 以及count min sketch
    Squid 搭建正向代理服务器
    Openflow的架构+源码剖析 转载
    Hyperscan与Snort的集成方案
    动态图
    psutil 模块
  • 原文地址:https://www.cnblogs.com/5kuishoua666/p/12021388.html
Copyright © 2011-2022 走看看