网络爬虫:也叫网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理,他是按照一定的规则,自动的抓取万维网程序或脚本,可以自动采集所有其能访问的页面内容,以获取相关数据
从功能来看,一般分为三部分
数据采集
数据处理
数据存储
为什么要使用爬虫,其有哪些优势?
可以实现搜索引擎
大数据时代可以让我们获得更多的数据源
可以更好地进行搜索引擎的优化(SEO)
有利于就业