zoukankan      html  css  js  c++  java
  • 爬虫学习之-管道说明

    图片管道启用:
    item中必须包含image_urls和images属性
    image_urls中必须是列表,每个元素是一个带有http的链接
    images里面数据任意,经过图片管道后会被重新赋值
    图片管道必须被启用
    配置文件中的选项:
    ITEM_PIPELINES = {
    'scrapy.pipelines.images.ImagesPipeline':2,
    # 'images.pipelines.ImagesPipeline': 1,
    }
    IMAGES_STORE = '图片存储路径'
    IMAGES_MIN_HEIGHT = 1000 # 图片最小高度限制
    IMAGES_MIN_WIDTH = 1200 # 图片最小宽度限制
    IMAGES_EXPIRES = 90 # 失效时间,单位:天
    IMAGES_THUMBS = { # 设置缩略图,可以多个键值对
    'small':(50,50),
    'big':(600,600)
    }
    文件管道总结
    文件管道启用:
    item中必须包含file_urls和files属性
    file_urls中必须是列表,每个元素是一个带有http的链接
    files里面数据任意,经过文件管道后会被重新赋值
    文件管道必须被启用
    配置文件中的选项:
    课程中涉及的知识点
    ITEM_PIPELINES = {
    # 'images.pipelines.ImagesPipeline': 1,
    'scrapy.pipelines.files.FilesPipeline':2,
    }
    FILES_STORE = '文件存储路径'
    1、 Xpath函数,contains(),前者是源,例如text(),@src;后者是比较的字
    符,例如http
    2、 if判断,如果问号在字符串中,表达式 if '?' in 字符串
    3、 列表操作,往列表中添加一个值,列表名.append(值)
    4、列表操作,for循环列表中的每个值,for i in 列表
    5、管道文件的位置,如下
    from scrapy.pipelines.images import ImagesPipeline
    from scrapy.pipelines.files import FilesPipeline
    from scrapy.pipelines.media import MediaPipeline
    

      

  • 相关阅读:
    NGINX反向代理与负载均衡
    kubernetes介绍
    Linux下yum出现no module named pycurl 解决办法
    MySQL中间件介绍
    Memcached做Tomcat的session共享
    MySQL高负载优化
    Centos下安装Tomcat7
    浅谈世界坐标系,相机坐标系,图像坐标系,像素坐标系的关系
    相机标定方法之初探
    ubuntu18.04安装kalibr相机标定工具
  • 原文地址:https://www.cnblogs.com/brady-wang/p/9695092.html
Copyright © 2011-2022 走看看