zoukankan      html  css  js  c++  java
  • Scrapy基础(七)————图片的简单下载

    scrapy 提供了自动下载图片到本地的功能,通过项目管道设置 

      : 在setting 文件中ITEM_PIPELINE添加: 'scrapy.pipelines.images.ImagesPipeline':1
    1为处理顺序,顺序越小,越先处理;
     : 继续在setting中添加图片URL地址获取,
             IMAGES_URLS_FIELD = "front_image_url"    #front_image_url为Item 中存储图片URL的字段,应该为list类型;所以我们应将前面存入Item时设置为list

        
      : 设置图片下载到本地的路径
                  绝对路径:IMAGES_STORE = ""

                  相对路径: 多用相对路径,工程迁移后绝对路径不能使用了
                  import os
                  project_dir = os.path.abspath(os.path.dirname(__file__))

         #__file__ 是本文件,dirname(__file__)获取本文件名称,abspath("文件名")获取文件的所在路径     
                  IMAGES_STORE = os.path.join(project_dir,'images')       #将两个路径连接起来


      四:运行main.py 可见 在项目文件下新生成了images文件,并下载了图片,自动生成了图片名字

     五:扩展功能: 对图片进行过滤:

      在setting 文件中设置:

        IMAGES_MIN_HEIGHT = 100

        IMAGES_MIN_WIDTH = 100 

      过滤掉宽度高度小于100的图片

  • 相关阅读:
    linux环境变量
    linux make configure make
    摘自(http://www.ruanyifeng.com/blog/2011/07/linux_load_average_explained.html)
    linux eaccelerator
    linux du df ls
    linux phpize
    mysql 分页
    mysql 执行计划和慢日志记录
    mysql 添加/删除列(column)
    mysql 索引
  • 原文地址:https://www.cnblogs.com/ruoniao/p/6891131.html
Copyright © 2011-2022 走看看