zoukankan      html  css  js  c++  java
  • scrapy_图片下载

    需要安装第三方库:

           安装 pillow库

    pip install -i https://pypi.doubanio.com/simple pillow

    如何对图片进行自动下载?

           首先明白,图片去哪下?图片如何下?保存到哪?

           setting:

    ITEM_PIPELINES = {
       'ArticleSpider.pipelines.JobbolePipeline': 2,
      # 注册scrapy自带的下载器,后面带的值越小越先执行
       'scrapy.pipelines.images.ImageHandle': 1
    }
    # 指定获取图片url的字段名称
    IMAGES_URLS_FIELD = "img_url"
    # 指定图片的下载路径,同级目录的images目录下
    project_dir = os.path.abspath(os.path.dirname(__file__))
    IMAGES_STORE = os.path.join(project_dir, 'images') 

    如何获得图片的路径并保存?

           在pipelines.py中定义一个处理图片的类,继承scrapy中处理的图片的类

    from scrapy.pipelines.images import ImagesPipeline
    
    
    class JobboleImagerPipeline(ImagesPipeline):
        """
        获得图片下载路径
        """
        def item_completed(self, results, item, info):
         # 如果解析到图片的url,添加图片url字段 if 'img_url' in item: for key, value in results: # print(key) img_path = value['path'] # print(value['path']) item['img_path'] = img_path return item
  • 相关阅读:
    裴蜀定理
    上下界网络流
    寻找符合子序列要求的区间个数
    小猪分配 , 最大流
    floyd + 最大流 (奶牛分配问题)
    抛硬币问题
    消消乐
    Entity Framework(1)
    冒泡排序
    二分法查找数据
  • 原文地址:https://www.cnblogs.com/2bjiujiu/p/7237441.html
Copyright © 2011-2022 走看看