1、引入
为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的
我们都知道,当前我们所处的时代是大数据的时代,在大数据时代,要进行数据分析,首先要有数据源,而学习爬虫,可以让我们获取更多的数据源,并且这些数据源可以按我们的目的进行采集。
今日头条作为一个新闻推荐类的应用,其内部的新闻数据都是通过爬虫程序在各个新闻网站进行新闻数据的爬取,然后通过相应的处理和运算将用户感兴趣的新闻话题推送到用户的手机上。
概要
- 什么是爬虫
- 爬虫分类
- robots协议
- 爬虫的核心
2、什么是爬虫
-
通过编写程序,让其模拟浏览器上网,然后去互联网上爬取数据的过程。
-
关键字:
- 模拟:所谓的浏览器就是一款纯天然爬虫工具。
- 爬取:
- 抓取到一张页面的一整张的数据
- 抓取页面中的局部数据
-
哪些语言可以实现爬虫
1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好。
2.java:可以实现爬虫。java可以非常好的处理和实现爬虫,是唯一可以与python并驾齐驱且是python的头号劲敌。但是java实现爬虫代码较为臃肿,重构成本较大。
3.c、c++:可以实现爬虫。但是使用这种方式实现爬虫纯粹是是某些人(大佬们)能力的体现,却不是明智和合理的选择。
4.python:可以实现爬虫。python实现和处理爬虫语法简单,代码优美,支持的模块繁多,学习成本低,具有非常强大的框架(scrapy等)且一句难以言表的好!没有但是!
3、爬虫的分类
1.通用爬虫:
通用爬虫是搜索引擎(Baidu、Google、Yahoo等)“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 简单来讲就是尽可能的;把互联网上的所有的网页下载下来,放到本地服务器里形成备分,在对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。
- 搜索引擎如何抓取互联网上的网站数据?
- 门户网站主动向搜索引擎公司提供其网站的url
- 搜索引擎公司与DNS服务商合作,获取网站的url
- 门户网站主动挂靠在一些知名网站的友情链接中
2.聚焦爬虫:
- 需要将页面中局部的指定的数据进行爬取
- 关联:聚焦爬虫是需要建立在通用爬虫基础之上。
3.增量式爬虫
- 用于检测网站数据更新的情况。爬取网站中最新更新出来的数据。
4.分布式爬虫
- 搭建一个分布式机群,可以快速的进行海量数据的爬取
4、robots.txt协议
- 如果自己的门户网站中的指定页面中的数据不想让爬虫程序爬取到的话,那么则可以通过编写一个robots.txt的协议文件来约束爬虫程序的数据爬取。robots协议的编写格式可以观察淘宝网的robots(访问www.taobao.com/robots.txt即可)。但是需要注意的是,该协议只是相当于口头的协议,并没有使用相关技术进行强制管制,所以该协议是防君子不防小人。但是我们在学习爬虫阶段编写的爬虫程序可以先忽略robots协议。
5、爬虫的核心
- 反爬机制
- 门户网站在服务器端会设置一些机制或者策略来组织爬虫进行数据的爬取。
- 反反爬策略
- 爬虫程序通过相应的策略和技术手段,破解门户网站的反爬虫手段,从而爬取到相应的数据。
爬虫合法性探究
- 如果你的爬虫程序没有影响对方网站的正常运行且没有爬取相关涉及侵权的数据,不算违法
- 必须遵循《中华人民共和国网络安全法》。