zoukankan      html  css  js  c++  java
  • Scrapy里Selectors 四种基础的方法

    在Scrapy里面,Selectors 有四种基础的方法
    xpath():返回一系列的selectors,每一个select表示一个xpath参数表达式选择的节点
    css():返回一系列的selectors,每一个select表示一个css参数表达式选择的节点
    extract():返回一个unicode字符串,为选中的数据
    re():返回一串一个unicode字符串,为使用正则表达式抓取出来的内容

    /html/head/title: 选择HTML文档<head>元素下面的<title> 标签。
    /html/head/title/text(): 选择前面提到的<title> 元素下面的文本内容
    //td: 选择所有 <td> 元素
    //div[@class="mine"]: 选择所有包含 class="mine" 属性的div 标签元素
    以上只是几个使用XPath的简单例子,但是实际上XPath非常强大。
    可以参照W3C教程

    我们可以用如下代码来抓取这个<li>标签:

    sel.xpath('//ul/li')  

    从<li>标签中,可以这样获取网站的描述:

    sel.xpath('//ul/li/text()').extract()  

    可以这样获取网站的标题:

    sel.xpath('//ul/li/a/text()').extract()  

    可以这样获取网站的超链接:

    sel.xpath('//ul/li/a/@href').extract()  
  • 相关阅读:
    vue-element-admin 权限的添加
    vue 图标通过组件的方式引用步骤
    linux系统环境下配置vue项目运行环境
    5.5 卷积神经网络(LeNet)
    5.4 池化层
    5.3 多输入通道和多输出通道
    5.2 填充和步幅
    html && CSS
    P2827 [NOIP2016 提高组] 蚯蚓
    5.1 二维卷积层
  • 原文地址:https://www.cnblogs.com/zhouwp/p/8312964.html
Copyright © 2011-2022 走看看