1 爬虫的简介

zoukankan html css js c++ java

1 爬虫的简介
一爬虫的初识和价值

什么是爬虫？

爬虫就是通过编写程序模拟浏览器上网，让其去互联网上抓取数据的过程

爬虫的价值

实际的应用（爬取数据的产品化、商业化）

就业（爬虫工程师紧缺）

二爬虫的合法性

爬虫本身在法律上并不被禁止，但是具有违法的风险

爬虫所带来的的风险主要体现在一下两个方面：
1. 爬虫干扰了被访问网站的正常运营
2. 爬虫抓取了受到法律保护的特定类型的数据或信息
如何避免呢？
1. 严格遵守网站设置的robots协议
2. 在规避反爬虫措施的同时，需要优化自己的代码，避免干扰被访问网站的正常运行
3. 在使用、传播抓取到的信息时，应审查所抓取的内容，如发现属于用户的个人信息、隐私或者他人的商业秘密的，应及时停止并删除
三爬虫的初识深入

爬虫的分类
- 通用爬虫：通用爬虫是搜索引擎（Baidu、Google、Yahoo等）“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备分，在对这些网页做相关处理(提取关键字、去掉广告)，最后提供一个用户检索接口
- 聚焦爬虫：聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如：获取豆瓣上电影的名称和影评，而不是获取整张页面中所有的数据值
- 增量式爬虫：增量式是用来检测网站数据更新的情况，且可以将网站更新的数据进行爬取（后期会有章节单独对其展开详细的讲解）
爬虫的矛与盾
- 反爬机制
门户网站通过制定相应的策略和技术手段，防止爬虫程序进行网站数据的爬取
- 反反爬策略
爬虫程序通过相应的策略和技术手段，破解门户网站的反爬虫手段，从而爬取到相应的数据

robots协议

几乎是和爬虫技术诞生的同一时刻，反爬虫技术也诞生了。在90年代开始有搜索引擎网站利用爬虫技术抓取网站时，一些搜索引擎从业者和网站站长通过邮件讨论定下了一项“君子协议”—— robots.txt。即网站有权规定网站中哪些内容可以被爬虫抓取，哪些内容不可以被爬虫抓取。这样既可以保护隐私和敏感信息，又可以被搜索引擎收录、增加流量。

历史上第一桩关于爬虫的官司诞生在2000年，eBay将一家聚合价格信息的比价网站BE告上了法庭，eBay声称自己已经将哪些信息不能抓取写进了robots协议中，但BE违反了这一协议。但BE认为eBay上的内容属于用户集体贡献而不归用户所有，爬虫协议不能用作法律参考。最后经过业内反复讨论和法庭上的几轮唇枪舌战，最终以eBay胜诉告终，也开了用爬虫robots协议作为主要参考的先河。

最后，可以通过网站域名加robots.txt的形式访问该网站的协议详情，例如：www.taobao.com/robots.txt
查看全文

相关阅读:
有关远程设置的问题
 QT使用tableWidget显示双排列表而且选中用红框圈出来
 一个程序猿的跨洋找工作分享
 linux块设备的IO调度算法和回写机制
 基于servlet实现一个web框架
 Java中的条件编译（转）
Android NDK 使用第三方静态库（转）
Android 使用动态库或静态库来编译生成动态库（转）
Android应用运行过程（转）
android NDK编译(导入).a文件和编译多个so文件（转）

原文地址：https://www.cnblogs.com/shibojie/p/11399938.html

一 爬虫的初识和价值

什么是爬虫？

爬虫的价值

二 爬虫的合法性

爬虫所带来的的风险主要体现在一下两个方面：

如何避免呢？

三 爬虫的初识深入

爬虫的分类

爬虫的矛与盾

robots协议

一爬虫的初识和价值

二爬虫的合法性

三爬虫的初识深入