zoukankan      html  css  js  c++  java
  • Scrapy的Item_loader机制详解

    一、ItemLoaderItem的区别

      • ItemLoader是负责数据的收集、处理、填充,item仅仅是承载了数据本身
      • 数据的收集、处理、填充归功于item loader中两个重要组件:
        • 输入处理input processors
        • 输出处理output processors

    二、ItemLoader的使用

    • 1、创建一个项目并创建一个爬虫
    • 2、在item.py中使用

    import redis
    import scrapy
    from scrapy.loader import ItemLoader
    from scrapy.loader.processors import MapCompose, TakeFirst, Join
    from w3lib.html import remove_tags
    
    from utils.common import extract_num
    
    
    def add_jobbole(value):
        return value + 'zhangyafei'
    
    
    def date_convert(value):
        try:
            value = value.strip().replace('·', '').strip()
            create_date = datetime.datetime.strptime(value, "%Y/%m/%d").date()
        except Exception as e:
            create_date = datetime.datetime.now().date
        return create_date
    
    
    def get_nums(value):
        try:
            if re.match('.*?(d+).*', value).group(1):
                nums = int(re.match('.*?(d+).*', value).group(1))
            else:
                nums = 0
        except:
            nums = 0
        return nums
    
    
    def remove_comment_tags(value):
        if "评论" in value:
            return ''
        return value
    
    
    def return_value(value):
        return value
    
    
    def gen_suggests(index, info_tuple):
        # 根据字符串生成搜索建议数组
        used_words = set()
        suggests = []
        for text, weight in info_tuple:
            if text:
                # 调用es的analyze接口分析字符串
                words = es.indices.analyze(index=index, analyzer="ik_max_word", params={'filter': ["lowercase"]}, body=text)
                anylyzed_words = set([r["token"] for r in words["tokens"] if len(r["token"]) > 1])
                new_words = anylyzed_words - used_words
            else:
                new_words = set()
    
            if new_words:
                suggests.append({"input": list(new_words), "weight": weight})
    
        return suggests
    
    
    class ArticleItemLoader(ItemLoader):
        # 自定义itemloader
        default_output_processor = TakeFirst()
    
    
    class JobboleArticleItem(scrapy.Item):
        title = scrapy.Field()
        create_date = scrapy.Field(
            input_processor=MapCompose(date_convert),
        )
        url = scrapy.Field()
        url_object_id = scrapy.Field()
        front_image_url = scrapy.Field(
            output_processor=MapCompose(return_value)
        )
        front_image_path = scrapy.Field()
        praise_nums = scrapy.Field(
            input_processor=MapCompose(get_nums)
        )
        comment_nums = scrapy.Field(
            input_processor=MapCompose(get_nums)
        )
        fav_nums = scrapy.Field(
            input_processor=MapCompose(get_nums)
        )
        tags = scrapy.Field(
            input_processor=MapCompose(remove_comment_tags),
            output_processor=Join(",")
        )
        content = scrapy.Field()
    
        def get_insert_sql(self):
            insert_sql = """
                insert into jobbole_article(title, url, create_date, fav_nums)
                VALUES (%s, %s, %s, %s) ON DUPLICATE KEY UPDATE content=VALUES(fav_nums)
            """
            params = (self["title"], self["url"], self["create_date"], self["fav_nums"])
    
            return insert_sql, params
    
        def save_to_es(self):
            article = ArticleType()
            article.title = self['title']
            article.create_date = self["create_date"]
            article.content = remove_tags(self["content"])
            article.front_image_url = self["front_image_url"]
            if "front_image_path" in self:
                article.front_image_path = self["front_image_path"]
            article.praise_nums = self["praise_nums"]
            article.fav_nums = self["fav_nums"]
            article.comment_nums = self["comment_nums"]
            article.url = self["url"]
            article.tags = self["tags"]
            article.meta.id = self["url_object_id"]
    
            article.suggest = gen_suggests(ArticleType._doc_type.index, ((article.title, 10), (article.tags, 7)))
    
            article.save()
    
            redis_cli.incr("jobbole_count")
    
            return
    

     spider中的使用

     def parse(self, response):
            """
            1.获取文章列表页的文章url交给scrapy下载后并进行解析
            2.获取下一页的url交给scrapy进行下载,下载完成后交给parse解析
            """
            """
            解析文章列表页中的所有文章url交给scrapy下载并进行解析
            """
            if response.status == 404:
                self.fail_urls.append(response.url)
                self.crawler.stats.inc_value("failed_urls")
    
            post_nodes = response.css('#archive .post-thumb a')
            for post_node in post_nodes:
                img_url = post_node.css('img::attr(src)').extract_first()
                # img_url = [img_url if 'http:' in img_url else ('http:' + img_url)]
                post_url = post_node.css('::attr(href)').extract_first()
                yield scrapy.Request(url=parse.urljoin(response.url, post_url), meta={'img_url': img_url},
                                     callback=self.parse_detail)
            next_url = response.css('.next.page-numbers::attr(href)').extract_first()
            # 获取下一页的url交给scrapy下载并进行解析
            if next_url:
                yield scrapy.Request(url=next_url, callback=self.parse)
    
        def parse_detail(self, response):
            # 通过item loader加载item
            front_image_url = response.meta.get("front_image_url", "")  # 文章封面图
            item_loader = ArticleItemLoader(item=JobboleArticleItem(), response=response)
            item_loader.add_css("title", ".entry-header h1::text")
            item_loader.add_value("url", response.url)
            item_loader.add_value("url_object_id", get_md5(response.url))
            item_loader.add_css("create_date", "p.entry-meta-hide-on-mobile::text")
            item_loader.add_value("front_image_url", [front_image_url])
            item_loader.add_css("praise_nums", ".vote-post-up h10::text")
            item_loader.add_css("comment_nums", "a[href='#article-comment'] span::text")
            item_loader.add_css("fav_nums", ".bookmark-btn::text")
            item_loader.add_css("tags", "p.entry-meta-hide-on-mobile a::text")
            item_loader.add_css("content", "div.entry")
    
            article_item = item_loader.load_item()
    
            yield article_item

    三、常见的内置处理器

    • 1、Identity

      不对数据进行处理,直接返回原来的数据

    • 2、TakeFirst

      返回第一个非空值,常用于单值字段的输出处理

    • 3、Join

      相当于把列表中的元素拼接起来

    • 4、MapCompose把几个方法组合起来

    四、数据清洗方法详解

    processor

    scrapy提供了一个processors类,里面有下列几种方法:Join,TakeFirst,MapCompose,Compose,Identity,SelectJmes

    对这几种方法的用法简单介绍一下:

    from scrapy.loader.processors import Join,TakeFirst,MapCompose,Compose,Identity,SelectJmes
    
    #以特定字符连接,示例以空连接,对字符串也能操作
    c = Join('')
    c(['a','b'])
    >>>'ab'
    #********************
    
    #传入函数的列表的每一个元素都会经过第一个函数,
    #得到值在经过第二个函数,如果有返回值为None的,则抛弃,
    #最后返回一个列表
    c=MapCompose(str.strip,str.upper)
    c(['  a   ','b'])
    >>>['A', 'B']
    #********************
    
    #如果传入一个列表时则会报下面这个错误
    #descriptor 'strip' requires a 'str' object but received a 'list'
    #但如果Compose的第一个函数是取列表的第一个元素,不会报错
    #即Compose是处理单一数据,MapCompose是批量处理
    c=Compose(str.strip,str.upper)
    c('  ac   ')
    >>>'AC'
    #********************
    
    #拿到JSON格式数据时会有作用
    proc = SelectJmes('a') 
    proc({'a':'b','c':'d'})
    >>>'b'

     input--output

    Item Loader 为每个 Item Field 单独提供了一个 Input processor 和一个 Output processor;

    Input processor 一旦它通过 add_xpath()add_css()add_value() 方法收到提取到的数据便会执行,执行以后所得到的数据将仍然保存在 ItemLoader 实例中;当数据收集完成以后,ItemLoader 通过 load_item() 方法来进行填充并返回已填充的 Item 实例。

    即input_processor是在收集数据的过程中所做的处理,output_processor是数据yield之后进行的处理,通过下面这个例子会更加理解:

    #type字段取出来时是'type': ['2室2厅', '中楼层/共6层']
    
    #定义一个在第一个元素后面加a的函数
    def adda(value):
        return value[0]+'a'
    
    type = scrapy.Field(output_processor = Compose(adda))
    >>>'type': '2室2厅a'
    
    type = scrapy.Field(input_processor = Compose(adda))
    >>>'type': ['2室2厅a', '中楼层/共6层a']
    #如果使用MapCompose的话,两个结果会一样,这也是Compose和MapCompose的区别

    当指定了取列表的第一个元素后,有些信息想保留整个列表便可以使用name_out,Identity()是取自身的函数。

    class TeItem(ItemLoader):
        default_out_processor = TakeFirst()
        name_out = Identity()

    也可以在基于scrapy.Item的item中定义一些规则:

    class Scrapy1Item(scrapy.Item):
        name = scrapy.Field(output_processor=Identity())

    优先级

    scrapy提供了很多种方式去自定义输入输出的内容,具有一定的优先级,优先级最高的是name_out这种,其次是在scrapy.Field()中定义的output_processor和input_processor,最后是default_out_processor = TakeFirst()这种。

  • 相关阅读:
    android apk 防止反编译技术第四篇-对抗JD-GUI
    程序猿的健康之路
    webkit浏览器常见开发问题
    解密H264、AAC硬件解码的关键扩展数据处理
    HTTPS与证书
    【微软大法好】VS Tools for AI全攻略(3):低配置虚拟机也能玩转深度学习,无需NC/NV系列
    【微软大法好】VS Tools for AI全攻略(2)
    【微软大法好】VS Tools for AI全攻略
    【写论文历程】这几天的一个小总结
    不得不承认pretty-midi很好用,以及一些简单的上手
  • 原文地址:https://www.cnblogs.com/zhangyafei/p/11956000.html
Copyright © 2011-2022 走看看