scrapy项目模块简单分析
1.__init__配置初始化,比如配置数据库
2.Items定义数据结构
3.Spider-编写爬虫程序(名称、域名、从哪个url开始爬取数据)
scrapy.Request(job_url.extract(), self.parse_detail)
写回调函数,当你有了url时,回调parse_detail;
4.编写parse函数,爬取数据
parse函数,用yield返回request/ item.
request进入到队列里面重新进行爬虫循环;
item丢到pipeline处理。