【python scrapy 爬虫】
1 环境配置
win10; python3.7;
2 爬虫project
【第三方包scrapy,re】
【 scrapy 相关】
【 pip安装 】
pip install Scrapy;
【scrapy 一些相关依赖】
pywin32
python 的windows扩展包
Twisted
是用Python实现的基于事件驱动的网络引擎框架
lxml
lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式
w3lib
是scrapy的依赖包;实现了一下与web相关的功能
pyopenssl
【python链接数据库】
第三方:MySQLdb
【 新建项目(scrapy startproject) 】
构建scrapy的文件结构:
* 命令:scrapy startproject mySpider; - cmd(终端)中 cd 到此文件夹(空)下
* 文件结构:
mySpider/
scrapy.cfg - 项目的配置文件
mySpider/ - 项目的Python模块,将会从这里引用代码
__init__.py
items.py - 项目的目标文件:items.py里存放的是我们要爬取数据的字段信息
middlewares.py - 自己定义的中间件。
pipelines.py - 项目的管道文件:pipeline主要是对spiders中爬虫的返回的数据的处理,这里我们可以让写入到数据库,也可以让写入到文件等等
settings.py - 项目的设置文件
*spiders/ - 存储爬虫代码目录 - 主要编写代码的文件夹
__init__.py
...