1.lxml(转自简书)
1 from lxml import etree
2 import requests
3
4
5 url = " "
6 html = requests.get(url)
7 selector = etree.HTML(html.text)
8 content_field = selector.xpath('//div[@class="lesson-list"]/ul/li')
9 print(content_field)
Element是XML处理的核心类,Element对象可以直观的理解为XML的节点,大部分XML节点的处理都是围绕该类进行的。这部分包括三个内容:节点的操作、节点属性的操作、节点内文本的操作。
1节点操作
1创建节点
root = etree.Element("root")
2获取节点名称
print(root.tag)
3输出xml内容
print(root.tostring)
...
2属性操作
1创建属性
可以在创建Element对象时同步创建属性,第二个参数即为属性名和属性值:
root = etree.Element('root', interesting='totally')
root.set('hello', 'Huhu')
2获取属性
属性是以key-value的方式存储的,就像字典一样
print(root.get("interesting")
>>>totally
print(root.keys())
>>>["interesting","hello"]
3文本操作
print(root.text)
...
文件解析
文件解析常用的有fromstring、XML和HTML三个方法。接受的参数都是字符串。
1 >>> xml_data = '<root>data</root>' 2 3 # fromstring方法 4 >>> root1 = etree.fromstring(xml_data) 5 >>> print(root1.tag) 6 root 7 >>> print(etree.tostring(root1)) 8 b'<root>data</root>' 9 10 # XML方法,与fromstring方法基本一样 11 >>> root2 = etree.XML(xml_data) 12 >>> print(root2.tag) 13 root 14 >>> print(etree.tostring(root2)) 15 b'<root>data</root>' 16 17 # HTML方法,如果没有<html>和<body>标签,会自动补上 18 >>> root3 = etree.HTML(xml_data) 19 >>> print(root3.tag) 20 html 21 >>> print(etree.tostring(root3)) 22 b'<html><body><root>data</root></body></html>'
2.CSS和xpath
目标 | CSS | XPath |
---|---|---|
所有元素 | * | //* |
所有的P元素 | p | //p |
所有的p元素的子元素 | p * | //p/* |
根据ID获取元素 | #foo | //*[@id='foo'] |
根据Class获取元素 | .foo | //*[contains(@class,'foo')] 1 |
拥有某个属性的元素 | [title] | //*[@title] |
所有P元素的第一个子元素 | p > *:first-child | //p/*[0] |
所有拥有子元素a的P元素 |
无法实现 | //p[a] |
下一个兄弟元素 | p + * | //p/following-sibling::*[0] |
css 选择器:
li a 选取所有li下的所有a节点
li:nth-child(3)选取第三个li元素(从1开始)
xpath:
//p[1]