Scrapy基础(七)————图片的简单下载 - 走看看

zoukankan html css js c++ java

Scrapy基础(七)————图片的简单下载

scrapy 提供了自动下载图片到本地的功能，通过项目管道设置

一：在setting 文件中ITEM_PIPELINE添加: 'scrapy.pipelines.images.ImagesPipeline':1
1为处理顺序，顺序越小，越先处理；
二：继续在setting中添加图片URL地址获取，
       IMAGES_URLS_FIELD = "front_image_url"    #front_image_url为Item 中存储图片URL的字段，应该为list类型；所以我们应将前面存入Item时设置为list

　　　　
三：设置图片下载到本地的路径
           绝对路径：IMAGES_STORE = ""

           相对路径: 多用相对路径，工程迁移后绝对路径不能使用了
           import os
           project_dir = os.path.abspath(os.path.dirname(__file__))

　　　　　#__file__ 是本文件，dirname(__file__)获取本文件名称,abspath("文件名")获取文件的所在路径
           IMAGES_STORE = os.path.join(project_dir,'images')       #将两个路径连接起来

四：运行main.py 可见在项目文件下新生成了images文件，并下载了图片，自动生成了图片名字

五：扩展功能：对图片进行过滤：

　　在setting 文件中设置：

　　　　IMAGES_MIN_HEIGHT = 100

　　　　IMAGES_MIN_WIDTH = 100

　　过滤掉宽度高度小于100的图片

查看全文

相关阅读:
【待补充】Spark 集群模式 && Spark Job 部署模式
 Spark 集群管理命令
 Spark job 部署模式
 [Spark Core] Spark 核心组件
 [Spark RDD_1] RDD 基本概念
 【读书笔记】《天才在左疯子在右》
[Spark Core] Spark 使用第三方 Jar 包的方式
 [Spark Core] 在 Spark 集群上运行程序
 【待补充】[Spark Core] Spark 实现标签生成
 Spark 集群搭建

原文地址：https://www.cnblogs.com/ruoniao/p/6891131.html

Copyright © 2011-2022 走看看