Scrapy学习篇（七）之Item Pipeline

zoukankan html css js c++ java

Scrapy学习篇（七）之Item Pipeline
在之前的Scrapy学习篇（四）之数据的存储的章节中，我们其实已经使用了Item Pipeline，那一章节主要的目的是形成一个笼统的认识，知道scrapy能干些什么，但是，为了形成一个更加全面的体系，我们在这一章节中，将会单独介绍Item Pipeline，方便以后你自定义你的item pipeline。

当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。
每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline，或是被丢弃而不再进行处理。

以下是item pipeline的一些典型应用：
- 清理HTML数据
- 验证爬取的数据(检查item包含某些字段)
- 查重(并丢弃)
- 将爬取结果保存到数据库或者文件中
编写item pipeline

每个item pipeline组件是一个独立的Python类，同时必须实现以下方法:
- process_item(self, item, spider)
  每个item pipeline组件都需要调用该方法，这个方法必须返回一个具有数据的dict，或是 Item (或任何继承类)对象，或是抛出 DropItem 异常，被丢弃的item将不会被之后的pipeline组件所处理。
  参数:
  
  item (Item 对象或者一个dict) – 被爬取的item
  
  spider (Spider 对象) – 爬取该item的spider
- open_spider(self, spider)
  当spider被开启时，这个方法被调用。
  参数:
  
  spider (Spider 对象) – 被开启的spider
- close_spider(self, spider)
  当spider被关闭时，这个方法被调用
  参数:
  
  spider (Spider 对象) – 被关闭的spider
- from_crawler(cls, crawler)
  如果给出，这个类方法将会被调用从Crawler创建一个pipeline实例，它必须返回一个pipeline的新的实例，Crawler对象提供了调用scrapy所有的核心组件的权限，比如你可以调用settings里面的设置项。事实上，在后面的学习中，你会发现，这是非常常用的一个方法，你会经常用到。
使用Item Pipeline去重

一个用于去重的过滤器，丢弃那些已经被处理过的item。假设我们的item有一个唯一的id，但是我们spider返回的多个item中包含有相同的id，我们就可以使用集合来去重，下面是一个例子：
```
from scrapy.exceptions import DropItem

class DuplicatesPipeline(object):

    def __init__(self):
        self.ids_seen = set()

    def process_item(self, item, spider):
        if item['id'] in self.ids_seen:
            raise DropItem("Duplicate item found: %s" % item)
        else:
            self.ids_seen.add(item['id'])
            return item
```
可以看到，我们设置了一个去重集合，用来存放具有唯一性的id字段，当我们抓取的item里面的id已经被处理过，那么将会直接丢弃这个item，否则，就会进行后续的处理并且把这个id放入去重集合之中，达到去重的目的。

保存到文件或数据库

具体的代码，可以参照Scrapy学习篇（四）之数据的存储这一章节，这里就不在赘述。

启用Item Pipeline组件

为了启用一个Item Pipeline组件，你必须将它的类添加到 ITEM_PIPELINES 配置，就像下面这个例子:
```
ITEM_PIPELINES = {
    'myproject.pipelines.PricePipeline': 300,
    'myproject.pipelines.JsonWriterPipeline': 800,
}
```
分配给每个类的整型值，确定了他们运行的顺序，item按数字从低到高的顺序，通过pipeline，通常将这些数字定义在0-1000范围内。
查看全文

相关阅读:
HTMLParser使用简介
 用自定义注解验证一些方法
 struts框架从.jsp页面直接访问action
Hibernate更新数据（不用update也可以）
设计模式的模板方式应用
 实现观察者模式设计方案
 struts2中的使用BaseAction获取Session
brew,gem,rvm 和 bundler软件包的管理工具
 oh my zsh命令
 Ruby Gem命令

原文地址：https://www.cnblogs.com/cnkai/p/7399195.html

Scrapy学习篇（七）之Item Pipeline

编写item pipeline

使用Item Pipeline去重

保存到文件或数据库

启用Item Pipeline组件