安装说明
scrapy安装需要安装一些第三方依赖库,依赖库的安装与需要和Python版本,Windows位数,所需的电脑插件有关。
参考信息:Python3.6,Windows10 64位
相关软件下载:
链接:https://pan.baidu.com/s/1Vzx8GGeojmUzMSZExJac4w
提取码:jv54
环境准备
安装 Microsoft Visual C++ 14.0
升级pip版本
Python pip install --upgrade pip --force-reinstall
安装第三方库(CMD命令)
在线安装
使用默认镜像网址安装(下载较慢)
pip install 库名
使用豆瓣镜像安装
pip --default-timeout=100 install 库名 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
离线安装
Python第三库下载网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/
安装解析离线库的第三方库
pip --default-timeout=100 install wheel -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip install 本地离线库完整路径(不能有中文)
安装scrapy所需的库
pip --default-timeout=100 install requests -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100 install lxml -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100 install pyOpenSSL -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100 install Twisted -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100 install pywin32 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100 install scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
创建爬虫项目
打开CMD
进入需要创建项目的文件夹
创建项目
scrapy startproject 项目名
使用Pycharm打开项目
自动生成爬虫文件
打开Pycharm自带的CMD输入
baiduSpider:爬虫名 www.baidu.com:爬取的网站
Scrapy genspider baiduSpider www.baidu.com
运行爬虫项目
通过命令运行
baiduSpider:爬虫名
scrapy crawl baiduSpider
使用Python脚本运行
在spiderDM目录创建一个Run.py文件输入如下代码
from scrapy import cmdline
cmdline.execute("scrapy crawl baiduSpider".split(" "))
运行Run.py文件就可以运行 baiduSpider爬虫