1.什么是爬虫
通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程
2.爬虫的分类:
通用爬虫:爬取一整张页面源码数据
聚焦爬虫:爬取页面中指定的局部数据
增量式爬虫:检测网站数据更新的情况,爬取的就是网站中最新更新出来的数据。
3.反爬机制:
(1)第一个反爬机制
robots.txt协议(防君子不防小人),规定爬虫工作者那些数据可以爬取哪些不可以