灵活,方便的网页解析库,处理高效
安装:
pip install beautifulsoup4
用法:
所谓python标准库,即不需要安装额外插件即可使用
基本使用
标签选择器
这种选择方式,它只返回第一个匹配到的内容
children方法返回一个迭代器,需用for循环来来获取元素,内容同content一样
descendants返回一个迭代器,内容为所有子节点包括孙子节点一并获取,子节点同孙子节点是并列的。
标准选择器
find_all(name,attrs,recursive,text,kwargs)**
可根据标签名,属性,内容查找文档,以列表的形式返回所有的匹配项
find(name,attrs,recursive,text,kwargs)**
返回第一个匹配到的元素
CSS选择器
通过select()直接传入CSS选择器即可完成选择
总结:一共三种选择器:标签选择器,标准选择器,CSS选择器。
- 推荐使用lxml解析库,必要时使用html.parser
- 标签选择器筛选功能弱但速度快
- 建议使用find(),find_all()查询匹配单个结果或多个结果
- 如对CSS选择器熟悉建议使用select()