zoukankan      html  css  js  c++  java
  • 提取数据xpath,re,css

    XPATH

    (1)/ 逐层提取

    (2)text() 提取标签下面的文本

    (3)//标签名 提取所有的标签

    (4)//标签名[num>=1] 提取相同标签名的兄弟节点。
    <tr class="h">
    <td class="l" width="374">职位名称</td>
    <td class="">职位类别</td>
    <td class="">人数</td>
    <td class="">地点</td>
    <td class="">发布时间</td>
    </tr>
    xpath('/tr[@class="h"]/td[1]/text()') #职位名称
    xpath('/tr[@class="h"]/td[2]/text()') #职位类别
    xpath('/tr[@class="h"]/td[3]/text()') #人数
    xpath('/tr[@class="h"]/td[3]/text()') #地点

    (5)//标签名[@属性='属性值'] 提取属性为...的标签
    //a[@class='noactive']
    //a[@class='noactive' and @id='next']

    (6)@属性名 取某个属性

    =============================================================

    RE

    re.compile(pattern, flags=0)
    flags 标志位参数

    re.I(re.IGNORECASE)
    使匹配对大小写不敏感

    re.L(re.LOCAL)
    做本地化识别(locale-aware)匹配

    re.M(re.MULTILINE)
    多行匹配,影响 ^ 和 $

    re.S(re.DOTALL)
    使 . 匹配包括换行在内的所有字符

    re.U(re.UNICODE)
    根据Unicode字符集解析字符。这个标志影响 w, W, , B.

    re.X(re.VERBOSE)
    该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

    ============================================================

  • 相关阅读:
    07 监控100台服务器磁盘利用率
    算法提高 阮小二买彩票
    算法提高 日期计算
    算法提高 身份证号码升级
    算法提高 统计单词数
    算法提高 3000米排名预测
    算法提高 最长字符序列
    算法提高 种树
    算法训练 装箱问题
    算法训练 瓷砖铺放
  • 原文地址:https://www.cnblogs.com/7134g/p/11510509.html
Copyright © 2011-2022 走看看