新知识:
新建一个scrapy项目:scrapy startproject xxx(项目名称)
运行一个scrapy项目:
scrapy crawl xxx(项目名称)
项目文件说明:
![这里写图片描述](http://img.blog.csdn.net/20160911230747057)
文件说明:
• scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)
• items.py 设置数据存储模板,用于结构化数据,如:Django的Model
• pipelines 数据处理行为,如:一般结构化的数据持久化
• settings.py 配置文件,如:递归的层数、并发数,延迟下载等
• scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)
• items.py 设置数据存储模板,用于结构化数据,如:Django的Model
• pipelines 数据处理行为,如:一般结构化的数据持久化
• settings.py 配置文件,如:递归的层数、并发数,延迟下载等
• spiders 爬虫目录,如:创建文件,编写爬虫规则
代码如下:
![2016-10-21 14-57-47屏幕截图.png](https://note.youdao.com/yws/res/303/8BE03AA6018A477AA530B4F5AE104E89)
![2016-10-21 15-25-16屏幕截图.png](https://note.youdao.com/yws/res/306/660D7F57A8DE42C5A79D3DAAF5E5138C)