- 一. Requests模块
- 1. 简述爬虫的概念
- 2. 爬虫有几种分类,在使用场景中
- 3. 简述robots协议的概念也作用
- 4. 什么是反爬机制和反反爬机制
- 5. 简述使用requests模块进行数据爬取的大致流程
- 6. 简述使用requests模块爬取ajax加载数据爬取的大致流程
- 7. 简述User-Agent参数的作用
- 8. 在requests模块中接触过哪些反爬机制
- 9. 介绍下requests模块中get和post方法常用参数的作用
- 10. 简述session的创建流程及其该对象的作用
- 11. 简述如何使用requests模块进行模拟登录,并抓取登录成功后的某个二级页面数据。
- 12. 简述如何使用requests模块设置代理IP
- 二. 数据解析
- 1. 简述使用在使用正则进行解析时用到的re.S和re.M的作用和区别
- 2. 简述如何使用xpath进行数据解析
- 3. 简述如何使用bs4进行数据解析
- 4. xpath方法返回值类型是什么
- 5. 在xpath中如何/text()和//text()的区别是什么
- 6. id为su的div标签有一个子标签ul,ul下有十个li标签,每一个li标签下都有一个a标签,如何编写xpath表达式可以解析到a标签的href属性值
7. class为wd的div标签有一个子标签ul,ul下有十个li标签,每一个li标签下都有一个a标签,如何编写xpath表达式可以解析到a标签中的文本内容
8. 简述BeautifulSoup模块中find和findall方法的区别
9. 简述BeautifulSoup模块中select方法的使用
10. 简述xpath插件的作用
- 三. Scrapy框架
- 1. 简述scrapy框架的安装流程
- 2. scrapy中持久化操作有几种形式,分别如何实现?
- 3. 简述start_requests方法的作用
- 4. 如何进行post请求发送,在scrapy中
- 5. 如何手动进行一个get请求的发送,在scrapy中
- 6. 简述管道文件的作用
- 7. 简述Request方法中callback参数的作用
- 8. 简述Request方法中meta参数的作用
- 9. 简述下载中间件的作用
- 10. 简述如何设置scrapy项目的代理IP
- 11. 简述CrawlSpider中链接提取器的作用
- 12. 简述CrawlSpider中规则解析器的作用
- 13. 简述scrapy核心组件的工作原理
- 14. 原生scrapy框架为何不能实现分布式
- 15. 简述基于scrapy-redis分布式的流程