zoukankan      html  css  js  c++  java
  • python3下scrapy爬虫(第三卷:初步抓取网页内容之抓取网页里的指定数据)

    上一卷中我们抓取了网页的所有内容,现在我们抓取下网页的图片名称以及连接 

    现在我再新建个爬虫文件,名称设置为crawler2

    做爬虫的朋友应该知道,网页里的数据都是用文本或者块级标签包裹着的,scrapy框架里自带标签选择器HtmlXPathSelector,具体的使用规则可以查阅一下我就不介绍了

    我们现在要爬取的内容是 网页的图片标题,以及网页的图片链接,所以我们需要在网站浏览器的控制台上查看标签内容属性

    在控制台上我们发现:

    我们所要抓取的内容在类名为showlist的div下的li标签下

    所以我们先获取下页面的指定LI标签

    先看下打印结果:

    内容哪去了 不要慌这个选择器打印的结果没问题 

    下面进行下代码修改,获取LI里的内容,实现由父找子的过程

     

    这个extract()函数是我一般用来获取标签

    看下结果

    一组LI里有好多内容,并不是一一对应看起来不方便,由此可见个做网站的前端是直接一个LI里封装多个图片的块级元素

    看的不舒服 来修改下代码 ,一个LI里有七个 为了保证数据的准确性 每一个父级LI元素我都设定一个编号

    看下代码

    来看下结果:

    纵然文字不健康,但是数据的展现依旧清晰可见

    现在图片的连接有了 我们可以根据链接来下载图片 那么我们使用urlretrieve函数,我们在当前爬虫的文件夹中与SPIDER文件同级建立一个IMG文件夹

    来看下代码:

    其实就像个公式一样 读取公式+存储公式就能完成图片的下载:来现在看一下结果:

    真的是豪无节操的网站 我以后不会再爬取它了 

  • 相关阅读:
    vi命令大全
    理解proc文件系统
    读目录
    取得系统资源信息
    qtempinc
    我实现的一个正则表达式代码
    oracle内置函数大全
    STL算法
    unix基础教程
    两日期间的天数
  • 原文地址:https://www.cnblogs.com/woshiruge/p/8391620.html
Copyright © 2011-2022 走看看