上一卷中我们抓取了网页的所有内容,现在我们抓取下网页的图片名称以及连接
现在我再新建个爬虫文件,名称设置为crawler2
做爬虫的朋友应该知道,网页里的数据都是用文本或者块级标签包裹着的,scrapy框架里自带标签选择器HtmlXPathSelector,具体的使用规则可以查阅一下我就不介绍了
我们现在要爬取的内容是 网页的图片标题,以及网页的图片链接,所以我们需要在网站浏览器的控制台上查看标签内容属性
在控制台上我们发现:
我们所要抓取的内容在类名为showlist的div下的li标签下
所以我们先获取下页面的指定LI标签
先看下打印结果:
内容哪去了 不要慌这个选择器打印的结果没问题
下面进行下代码修改,获取LI里的内容,实现由父找子的过程
这个extract()函数是我一般用来获取标签
看下结果
一组LI里有好多内容,并不是一一对应看起来不方便,由此可见个做网站的前端是直接一个LI里封装多个图片的块级元素
看的不舒服 来修改下代码 ,一个LI里有七个 为了保证数据的准确性 每一个父级LI元素我都设定一个编号
看下代码
来看下结果:
纵然文字不健康,但是数据的展现依旧清晰可见
现在图片的连接有了 我们可以根据链接来下载图片 那么我们使用urlretrieve函数,我们在当前爬虫的文件夹中与SPIDER文件同级建立一个IMG文件夹
来看下代码:
其实就像个公式一样 读取公式+存储公式就能完成图片的下载:来现在看一下结果:
真的是豪无节操的网站 我以后不会再爬取它了