scrapy 框架

zoukankan html css js c++ java

scrapy 框架
Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。

Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。

五大核心组件的关系流程数据走向图

引擎:为其他四个组件通讯，信号、数据传递等。

调度器: 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

下载器：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理.

爬虫：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器).

管道：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。

制作 Scrapy 爬虫一共需要4步：
1. 新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目
2. 明确目标（编写items.py）：明确你想要抓取的目标
3. 制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页
4. 存储内容（pipelines.py）：设计管道存储爬取内容
安装

Windows 安装方式

升级 pip 版本：
```
pip install --upgrade pip
```
通过 pip 安装 Scrapy 框架:
```
pip install Scrapy


安装后:出现这个就算妥了.
```
一. 新建项目(scrapy startproject)

在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令：
```
scrapy startproject mySpider
```
其中， mySpider 为项目名称，可以看到将会创建一个 mySpider 文件夹，目录结构大致如下：

下面来简单介绍一下各个主要文件的作用：
```
mySpider/
    scrapy.cfg
    mySpider/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...
```
这些文件分别是:
- scrapy.cfg: 项目的配置文件。
- mySpider/: 项目的Python模块，将会从这里引用代码。
- mySpider/items.py: 项目的目标文件。
- mySpider/pipelines.py: 项目的管道文件。
- mySpider/settings.py: 项目的设置文件。
- mySpider/spiders/: 存储爬虫代码目录。
二、明确目标(mySpider/items.py)

我们打算抓取 http://www.itcast.cn/channel/teacher.shtml 网站里的所有讲师的姓名、职称和个人信息。
接下来，创建一个 ItcastItem 类，和构建 item 模型（model）。
import scrapy class ItcastItem(scrapy.Item): name = scrapy.Field() title = scrapy.Field() info = scrapy.Field()
三、制作爬虫（spiders/itcastSpider.py）

爬虫功能要分两步：

1. 爬数据

在当前目录下输入命令，将在mySpider/spider目录下创建一个名为itcast的爬虫，并指定爬取域的范围：
```
scrapy genspider pachong "www.xxx.com"
```
打开 mySpider/spider目录里的 itcast.py，默认增加了下列代码:
import scrapy class ItcastSpider(scrapy.Spider): name = "pachong"
　　 # 下边这个属性不用写注释掉就行了 # allowed_domains = ["www.xxx.com"] start_urls = ( 'http://www.pachong.cn/', ) def parse(self, response): pass
启动爬虫项目

scrapy crawl 项目名
查看全文

相关阅读:
Oracle分页SQL
CentOS7下安装Anaconda3
Alibaba分层领域模型规约
 java的continue标签
 SQLserver 及 redis 无法连接问题
 HTTP状态码
 java命令功能
 sql 查询结果自增序号
 Viewpage实现左右无限滑动
 Android OOM 问题的总结

原文地址：https://www.cnblogs.com/wmh33/p/11049506.html

制作 Scrapy 爬虫 一共需要4步：

安装

Windows 安装方式

一. 新建项目(scrapy startproject)

二、明确目标(mySpider/items.py)

三、制作爬虫 （spiders/itcastSpider.py）

制作 Scrapy 爬虫一共需要4步：

三、制作爬虫（spiders/itcastSpider.py）