-
lxml
用于获取非结构化数据
lxml模块可以利用XPath规则语法,来快速的定位HTMLXML 文档中特定元素以及获取节点信息(文本内容、属性值)
XPath (XML Path Language) 是一门在 HTMLXML 文档中查找信息的语言,可用来在 HTMLXML 文档中对元素和属性进行遍历。
提取xml、html中的数据需要lxml模块和xpath语法配合使用
基于xpath语法
配合使用:谷歌浏览器中的xpath helper插件,使用chrome插件选择标签时候,选中时,选中的标签会添加属性class="xh-highlight" ,所选部分就会高亮显示
语法:
选择所有的h2下的文本
//h2/text()
获取所有的a标签的href的值
//a/@href
获取html下的head下的title的文本
/html/head/title/text()
获取html下的head下的link标签的href
/html/head/link/@href