zoukankan      html  css  js  c++  java
  • 1 爬虫的简介

    一 爬虫的初识和价值

    什么是爬虫?

    爬虫就是通过编写程序模拟浏览器上网,让其去互联网上抓取数据的过程

    爬虫的价值

    实际的应用(爬取数据的产品化、商业化)

    就业(爬虫工程师紧缺)

    二 爬虫的合法性

    爬虫本身在法律上并不被禁止,但是具有违法的风险

    爬虫所带来的的风险主要体现在一下两个方面:

    1. 爬虫干扰了被访问网站的正常运营
    2. 爬虫抓取了受到法律保护的特定类型的数据或信息

    如何避免呢?

    1. 严格遵守网站设置的robots协议
    2. 在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行
    3. 在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除

    三 爬虫的初识深入

    爬虫的分类

    • 通用爬虫:通用爬虫是搜索引擎(Baidu、Google、Yahoo等)“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 简单来讲就是尽可能的;把互联网上的所有的网页下载下来,放到本地服务器里形成备分,在对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口
    • 聚焦爬虫:聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如:获取豆瓣上电影的名称和影评,而不是获取整张页面中所有的数据值
    • 增量式爬虫:增量式是用来检测网站数据更新的情况,且可以将网站更新的数据进行爬取(后期会有章节单独对其展开详细的讲解)

    爬虫的矛与盾

    • 反爬机制

    门户网站通过制定相应的策略和技术手段,防止爬虫程序进行网站数据的爬取

    • 反反爬策略

    爬虫程序通过相应的策略和技术手段,破解门户网站的反爬虫手段,从而爬取到相应的数据

    robots协议

    几乎是和爬虫技术诞生的同一时刻,反爬虫技术也诞生了。在90年代开始有搜索引擎网站利用爬虫技术抓取网站时,一些搜索引擎从业者和网站站长通过邮件讨论定下了一项“君子协议”—— robots.txt。即网站有权规定网站中哪些内容可以被爬虫抓取,哪些内容不可以被爬虫抓取。这样既可以保护隐私和敏感信息,又可以被搜索引擎收录、增加流量。

    历史上第一桩关于爬虫的官司诞生在2000年,eBay将一家聚合价格信息的比价网站BE告上了法庭,eBay声称自己已经将哪些信息不能抓取写进了robots协议中,但BE违反了这一协议。但BE认为eBay上的内容属于用户集体贡献而不归用户所有,爬虫协议不能用作法律参考。最后经过业内反复讨论和法庭上的几轮唇枪舌战,最终以eBay胜诉告终,也开了用爬虫robots协议作为主要参考的先河。

    最后,可以通过网站域名加robots.txt的形式访问该网站的协议详情,例如:www.taobao.com/robots.txt

  • 相关阅读:
    WPF,WinForm调用WCF RIA
    使用c#调用XMLHTTP(XMLHTTPClass) ,发送和返回 json
    WPF 不能dll添加引用的问题
    ORACLE 10g下载|ORACLE 10g下载地址|ORACLE 10g官网下载地址
    写给我们这些浮躁的程序员
    oracle 10g 几个版本jdbc驱动下载
    List对象排序通用方法
    SQL 常用的计算时间的方法
    JAVA帮助文档全系列 JDK1.5 JDK1.6 JDK1.7 官方中英完整版下载
    Integer 自动装箱机制
  • 原文地址:https://www.cnblogs.com/shibojie/p/11399938.html
Copyright © 2011-2022 走看看