一、接触过几种爬虫模块?
urllib,requests
二、robots协议是什么?
规定哪些数据不能爬取,防君子不防小人
request模块没有使用硬性的语法对该协议进行生效
scrapy框架中硬性的语法对该协议进行了生效
三、如何处理验证码
使用三方平台,如云打码、打码兔
四、掌握几种数据解析的方式?
正则、xpath、bs4
五、如何爬取动态加载的页面数据?
1、通过selenium动态获取
2、基于ajax发送post请求,抓包工具抓取异步发起的请求(url)
六、接触过哪些反爬机制?如何处理?
1、robots协议:直接不遵守即可
2、UA:进行UA伪装
3、封IP:代理IP
4、验证码:通过打码平台对验证码进行识别
5、动态数据爬取:通过selenium
6、数据加密:
7、token:
七、在scrapy中接触过几种爬虫的类
Spider、CrawlSpider、RedisCrawlSpider、RedisSpider
八、如何实现分布式流程:安装scrapy-redis组件
RedisCrawlSpider、RedisSpider