zoukankan      html  css  js  c++  java
  • xml

    • lxml

    用于获取非结构化数据
    lxml模块可以利用XPath规则语法,来快速的定位HTMLXML 文档中特定元素以及获取节点信息(文本内容、属性值)
    XPath (XML Path Language) 是一门在 HTMLXML 文档中查找信息的语言,可用来在 HTMLXML 文档中对元素和属性进行遍历。
    提取xml、html中的数据需要lxml模块和xpath语法配合使用

    基于xpath语法

    配合使用:谷歌浏览器中的xpath helper插件,使用chrome插件选择标签时候,选中时,选中的标签会添加属性class="xh-highlight" ,所选部分就会高亮显示
    语法:

    选择所有的h2下的文本
    //h2/text()
    获取所有的a标签的href的值
    //a/@href
    获取html下的head下的title的文本
    /html/head/title/text()
    获取html下的head下的link标签的href
    /html/head/link/@href




  • 相关阅读:
    web.xml
    web.xml hello1代码分析
    annotation
    injection
    container
    build tool
    version control
    url与uri的区别
    函数式语言
    http协议解析过程
  • 原文地址:https://www.cnblogs.com/cizao/p/11484356.html
Copyright © 2011-2022 走看看