zoukankan      html  css  js  c++  java
  • Scrapy系列教程(2)------Item(结构化数据存储结构)

    Items

    爬取的主要目标就是从非结构性的数据源提取结构性数据,比如网页。 Scrapy提供 Item 类来满足这种需求。

    Item 对象是种简单的容器。保存了爬取到得数据。 其提供了 类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法。

    声明Item

    Item使用简单的class定义语法以及 Field 对象来声明。

    比如:

    import scrapy
    
    class Product(scrapy.Item):
        name = scrapy.Field()
        price = scrapy.Field()
        stock = scrapy.Field()
        last_updated = scrapy.Field(serializer=str)
    

    注解

    熟悉 Django 的朋友一定会注意到Scrapy Item定义方式与 Django Models 非常类似, 只是没有那么多不同的字段类型(Field type),更为简单。

    Item字段(Item Fields)

    Field 对象指明了每一个字段的元数据(metadata)。比如以下样例中 last_updated 中指明了该字段的序列化函数。

    您能够为每一个字段指明不论什么类型的元数据。 Field 对象对接受的值没有不论什么限制。也正是由于这个原因,文档也无法提供全部可用的元数据的键(key)參考列表。

     Field 对象中保存的每一个键能够由多个组件使用,而且仅仅有这些组件知道这个键的存在。您能够依据自己的需求,定义使用其它的Field 键。 设置 Field 对象的主要目的就是在一个地方定义好全部的元数据。

    一般来说,那些依赖某个字段的组件肯定使用了特定的键(key)。您必须查看组件相关的文档,查看其用了哪些元数据键(metadata key)。

    须要注意的是。用来声明item的 Field 对象并没有被赋值为class的属性。 只是您能够通过Item.fields 属性进行訪问。

    以上就是全部您须要知道的怎样声明item的内容了。

    与Item配合

    接下来以 下边声明 的 Product item来演示一些item的操作。您会发现API和 dict API 很相似。

    创建item

    >>> product = Product(name='Desktop PC', price=1000)
    >>> print product
    Product(name='Desktop PC', price=1000)
    

    获取字段的值

    >>> product['name']
    Desktop PC
    >>> product.get('name')
    Desktop PC
    
    >>> product['price']
    1000
    
    >>> product['last_updated']
    Traceback (most recent call last):
        ...
    KeyError: 'last_updated'
    
    >>> product.get('last_updated', 'not set')
    not set
    
    >>> product['lala'] # getting unknown field
    Traceback (most recent call last):
        ...
    KeyError: 'lala'
    
    >>> product.get('lala', 'unknown field')
    'unknown field'
    
    >>> 'name' in product  # is name field populated?
    True
    
    >>> 'last_updated' in product  # is last_updated populated?
    False
    
    >>> 'last_updated' in product.fields  # is last_updated a declared field?
    True
    
    >>> 'lala' in product.fields  # is lala a declared field?

    False

    设置字段的值

    >>> product['last_updated'] = 'today'
    >>> product['last_updated']
    today
    
    >>> product['lala'] = 'test' # setting unknown field
    Traceback (most recent call last):
        ...
    KeyError: 'Product does not support field: lala'
    

    获取全部获取到的值

    您能够使用 dict API 来获取全部的值:

    >>> product.keys()
    ['price', 'name']
    
    >>> product.items()
    [('price', 1000), ('name', 'Desktop PC')]
    

    其它任务

    复制item:

    >>> product2 = Product(product)
    >>> print product2
    Product(name='Desktop PC', price=1000)
    
    >>> product3 = product2.copy()
    >>> print product3
    Product(name='Desktop PC', price=1000)
    

    依据item创建字典(dict):

    >>> dict(product) # create a dict from all populated values
    {'price': 1000, 'name': 'Desktop PC'}
    

    依据字典(dict)创建item:

    >>> Product({'name': 'Laptop PC', 'price': 1500})
    Product(price=1500, name='Laptop PC')
    
    >>> Product({'name': 'Laptop PC', 'lala': 1500}) # warning: unknown field in dict
    Traceback (most recent call last):
        ...
    KeyError: 'Product does not support field: lala'
    

    扩展Item

    您能够通过继承原始的Item来扩展item(加入很多其它的字段或者改动某些字段的元数据)。

    比如:

    class DiscountedProduct(Product):
        discount_percent = scrapy.Field(serializer=str)
        discount_expiration_date = scrapy.Field()
    

    您也能够通过使用原字段的元数据,加入新的值或改动原来的值来扩展字段的元数据:

    class SpecificProduct(Product):
        name = scrapy.Field(Product.fields['name'], serializer=my_serializer)
    

    这段代码在保留全部原来的元数据值的情况下加入(或者覆盖)了 name 字段的 serializer 。

    Item对象

    classscrapy.item.Item([arg])

    返回一个依据给定的參数可选初始化的item。

    Item复制了标准的 dict API 。包含初始化函数也同样。Item唯一额外加入的属性是:

    fields

    一个包括了item全部声明的字段的字典。而不不过获取到的字段。该字典的key是字段(field)的名字,值是 Item声明 中使用到的 Field 对象。

    字段(Field)对象

    classscrapy.item.Field([arg])

    Field 不过内置的 dict 类的一个别名,并没有提供额外的方法或者属性。

    换句话说, Field对象完全然全就是Python字典(dict)。被用来基于类属性(class attribute)的方法来支持 item声明

  • 相关阅读:
    CreateDatabase is not supported by the provider
    SQLServer 查看耗时较多的SQL语句(转)
    Unity下调试ToLua(基于IDEA和VSCode)
    《Javascript高级程序设计》读书笔记——函数与闭包
    《Javascript高级程序设计》读书笔记——继承与原型链
    《Javascript高级程序设计》读书笔记——构造函数与原型
    客户端地图内寻路总结与优化
    《程序员的自我修养》读书笔记 第二章 编译和链接
    客户端GUI结构学习总结
    关于浏览器的页面渲染
  • 原文地址:https://www.cnblogs.com/mengfanrong/p/5108046.html
Copyright © 2011-2022 走看看