学习网络爬虫的目的:
1,可以私人定制一个搜索引擎,可以深层次的了解搜索引擎的工作原理。
2,大数据时代,要进行数据分析,首先要有数据源,学习爬虫,可以让我们获取更多的数据。
3,从业人员可以可好的利用爬虫,了解其原理,更加优化你的程序。
网络爬虫的组成
网络爬虫由控制节点,爬虫节点,资源库构成
爬虫的类型
1,通用网络爬虫:又叫全网爬虫,可以在全网中爬取目标资源。
2,聚焦网络爬虫:主要使用在对特定信息的爬取中,主要为莫一类特定的人提供服务。
3,增量式网络爬虫:所谓增量式,就是之增量式更新,增量式更新指的是在更新的时候只更新改变的地方,而未改变的地方不更新,所以增量式爬虫在一定程度上保证所爬取的页面尽可能的都是新页面。
4,深层网络爬虫:所谓深层,指的是在互联网中,网页按存放方式分类,可以分为表层页面和深层页面,所谓的表层页面指的是不需要提交表单,使用静态的链接就可以达到的静态页面。而深层页面则需要在提交一定的关键词之后才能获取的页面。