python3下scrapy爬虫(第三卷:初步抓取网页内容之抓取网页里的指定数据）

zoukankan html css js c++ java

python3下scrapy爬虫(第三卷:初步抓取网页内容之抓取网页里的指定数据）

上一卷中我们抓取了网页的所有内容，现在我们抓取下网页的图片名称以及连接

现在我再新建个爬虫文件，名称设置为crawler2

做爬虫的朋友应该知道，网页里的数据都是用文本或者块级标签包裹着的，scrapy框架里自带标签选择器HtmlXPathSelector,具体的使用规则可以查阅一下我就不介绍了

我们现在要爬取的内容是网页的图片标题，以及网页的图片链接，所以我们需要在网站浏览器的控制台上查看标签内容属性

在控制台上我们发现：

我们所要抓取的内容在类名为showlist的div下的li标签下

所以我们先获取下页面的指定LI标签

先看下打印结果：

内容哪去了不要慌这个选择器打印的结果没问题

下面进行下代码修改，获取LI里的内容，实现由父找子的过程

这个extract()函数是我一般用来获取标签

看下结果

一组LI里有好多内容，并不是一一对应看起来不方便，由此可见个做网站的前端是直接一个LI里封装多个图片的块级元素

看的不舒服来修改下代码，一个LI里有七个为了保证数据的准确性每一个父级LI元素我都设定一个编号

看下代码

来看下结果：

纵然文字不健康，但是数据的展现依旧清晰可见

现在图片的连接有了我们可以根据链接来下载图片那么我们使用urlretrieve函数，我们在当前爬虫的文件夹中与SPIDER文件同级建立一个IMG文件夹

来看下代码：

其实就像个公式一样读取公式+存储公式就能完成图片的下载：来现在看一下结果：

真的是豪无节操的网站我以后不会再爬取它了

查看全文

相关阅读:
Laravel 5.2 使用 JWT 完成多用户认证 | Laravel China 社区
 （上线时清缓存）laravel 5.1 的程序性能优化(配置文件)
linux计划任务及压缩归档
 用户及用户管理
 vim编辑器
 linux进阶命令
 权限管理
 linux基础命令2
linu基础命令1
连接Xshell

原文地址：https://www.cnblogs.com/woshiruge/p/8391620.html