zoukankan      html  css  js  c++  java
  • Scrapy下xpath基本的使用方法

      Scrapy是基于python的开源爬虫框架,使用起来也比较方便。具体的官网档:http://doc.scrapy.org/en/latest/

      之前以为了解python就可以直接爬网站了,原来还要了解HTML,XML的基本协议,在了解基础以后,在了解下xpath的基础上,再使用正则表达式(python下的re包提供支持)提取一定格式的信息(比如说url),就比较容易处理网页了。

      xpath是Scrapy下快速提取特定信息(如title,head,href等)的一个接口。

      

      几个简单的例子:

      /html/head/title: 选择HTML文档<head>元素下面的<title> 标签。
      /html/head/title/text(): 选择前面提到的<title> 元素下面的文本内容
      //td: 选择所有 <td> 元素
      //div[@class="mine"]: 选择所有包含 class="mine" 属性的div 标签元素

      基本的路径意义:

      

    表达式描述
    nodename 选取此节点的所有子节点。
    / 从根节点选取。
    // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
    . 选取当前节点。
    .. 选取当前节点的父节点。
    @ 选取属性。

      

      具体的使用实例:

      比如对http://www.dmoz.org/Computers/Programming/Languages/Python/Books/ 网站提取特定的信息

      1)、先在第一层tutorial文件夹下,在cmd中输入: scrapy shell http://www.dmoz.org/Computers/Programming/Languages/Python/Books/  

      2)、现在比如我们需要抓取该网页的tittle,由于前面的shell命令已经实例化了一个selector的对象sel, 就输入 sel.xpath('//title') 获取了网页的标题。

      3)、比如我们想要知道该网页下的www.****.com形式的链接,可以使用xpath 结合正则表达式re提取信息,输入   sel.xpath('//@href').re("www.[0-9a-zA-Z]+.com")

      

    部分参考:http://blog.csdn.net/pleasecallmewhy/article/details/19642329

    正则表达式参考:http://blog.csdn.net/pleasecallmewhy/article/details/8929576

  • 相关阅读:
    2017.0323.数字电路与系统-触发器
    2017.0322.数字电路与系统-触发器
    前端切图|点击按钮div变色
    当鼠标聚焦时输入框变色(focus事件实例)
    ajax实现简单的点击左侧菜单,右侧加载不同网页
    前端切图:自制简易音乐播放器
    移动开发之css3实现背景几种渐变效果
    jQuery实现多种切换效果的图片切换的五款插件
    jQuery实现点击开关图片切换
    三个Bootstrap免费字体和图标库
  • 原文地址:https://www.cnblogs.com/huhuuu/p/3701017.html
Copyright © 2011-2022 走看看