-
CrawlSpider
- 它就是一个类,是scrapy.Spider的一个子类(派生类)
- 功能:
- 非常强大
- 很方便的实现全站数据的爬取
- 两个属性(对象)
- 链接提取器
- 如何进行链接的提取
- 由开发人员制定相关规则
- 通过相应的规则进行链接的提取
- 去哪进行链接的提取
- 就是在页面(起始URL)中提取
- 如何进行链接的提取
- 规则解析器
- 在这进行规则的制定
- 解析规则和解析数据
- 如何使用crawlspider
- 创建项目: scrapy startproject budejiepro
- 创建基于crawlspider的爬虫文件:
- cd budejiepro
- scrapy genspider -t crawl budejie www.xxx.com
- 执行爬虫文件:
- 进入到爬虫文件夹
- 使用命令执行: scrapy runspdier budejie.py
- 链接提取器