scrapy 爬取图片最基本操作

使用scrapy里自带的Image功能下载,下面贴代码，解释在代码的注释里。

items.py

1 import scrapy
2 
3 class ImageItem(scrapy.Item):
4     #注意这里的item是ImageItem

5     image_urls = scrapy.Field()
6     images = scrapy.Field()
7 
8 #image_urls和images是固定的,不能改名字

settings.py

 1 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
 2 #上面只是个访问header，加个降低被拒绝的保险
 3 
 4 ITEM_PIPELINES = {
 5     'scrapy.pipelines.images.ImagesPipeline': 1
 6 }
 7 #打开Images的通道
 8 
 9 IMAGES_STORE = 'F:\pics'
10 #一定要设置这个存储地址，要是真实的硬盘，可以不创建pics文件夹，会自己生成，还生成默认的full文件夹

spider.py(这里是carhome）

 1 import scrapy
 2 
 3 from car.items import ImageItem
 4 
 5 class CarhomeSpider(scrapy.Spider):
 6     name = 'carhome'
 7     allowed_domains = ['sohu.com']
 8     start_urls = ['http://www.sohu.com/a/337634404_100032610']
 9     download_delay = 1
10 
11     def parse(self, response):
12         item = ImageItem()
13         srcs = response.css('.article img::attr(src)').extract() #用css方法找到的所有图片地址
14         item['image_urls'] = srcs
15         yield item

pipelines.py

 1 from scrapy.pipelines.images import ImagesPipeline
 2 from scrapy.exceptions import DropItem
 3 from scrapy.http import Request
 4 #这里的两个函数get_media_requests和item_completed都是scrapy的内置函数，想重命名的就这这里操作
 5 #可以直接复制这里的代码就可以用了
 6 class MyImagesPipeline(ImagesPipeline) :
 7     def get_media_requests(self, item, info) :
 8         for image_url in item['image_urls'] :
 9             yield Request(image_url)
10 
11     def item_completed(self, results, item, info) :
12         image_path = [x['path'] for ok, x in results if ok]
13         if not image_path :
14             raise DropItem('Item contains no images')
15         item['image_paths'] = image_path
16         return item

代码就这么多，下面执行一下：

文件夹结果：

还不会的快去试试吧！

查看全文

相关阅读:
Atitit 服务器运维linux常用命令attilax总结.docx 1. 重要命令 1 1.1. 重启系列 1 1.2. 重启nginx 1 1.3. 重启tomcat 1 2. 其他 2 2
Atitit 云计算体系树.docx Atitit 云计算之道 attilax著艾龙著 serverless bomb 1. 什么才是云计算的根本特征.. 2 2. 云计算体系 2 3. “云
 Atitit uri url格式规范与解析器 .URIparser 理解URI和URL的区别，我们引入URN这个概念。 URI = Universal Resource Identifier 统一资
 Atitit 2017年的技术趋势与未来的大技术趋势 1. 2017年的技术趋势 2 1.1. Web not native 2 1.2. 更加移动优先，，more spa 3 1.3. Ar
Atitit 知识图谱管理谱存储选型与查询目录 1. 知识图谱存储系统的选型。 1 1.1. 图数据库 neo4j 适合大规模数据 1 1.2. 关系数据库小规模 2 2. 知识图谱查询语言
 Atitit rest框架选型总结 Resteasy 实现但是麻烦作为JAXRS的标准实现,RestEasy还具有以下亮点特性： 1）不需要配置文件，只要把JARs文件放到类路径里面
 Atitit 2016 技术趋势与没落技术目录 1.1. 流水线即代码通过编码而非配置CI/CD运行工具的方式，来定义部署流水线 1 1.2. 将APIs当作产品 1 1.3. 无服务器架构
 Atitit 开发效率的提升艺术艾提拉著目录 1. 主要几个层次上简化开发 2 1.1. 管理创新 2 1.2. 开发体系方法使用简单方法 2 1.3. 技术选型使用简单框架模式 2 1.4.
Atitit 2018 技术趋势与没落技术总结目录 1. 2018 技术雷达 1 1.1. HOSTED IDENTITY MANAGEMENT AS A SERVICE （SaaS）身份管理
 Atitit 知识图谱知识抽取信息抽取的总结艾提拉总结目录 1. 知识抽取 1 2. 数据源主要来自两种渠道（ 2 2.1. 内部结构化数据vs 外部网页数据 2 3. 2. 知识图谱的数据来

原文地址：https://www.cnblogs.com/passagain/p/11449178.html

scrapy 爬取图片 最基本操作

scrapy 爬取图片最基本操作