zoukankan      html  css  js  c++  java
  • 解析网页---BeautifulSoup解析库

    灵活,方便的网页解析库,处理高效
    安装
    pip install beautifulsoup4

    用法:

    所谓python标准库,即不需要安装额外插件即可使用

    基本使用

    标签选择器

    这种选择方式,它只返回第一个匹配到的内容






    children方法返回一个迭代器,需用for循环来来获取元素,内容同content一样

    descendants返回一个迭代器,内容为所有子节点包括孙子节点一并获取,子节点同孙子节点是并列的。


    标准选择器
    find_all(name,attrs,recursive,text,kwargs)**
    可根据标签名,属性,内容查找文档,以列表的形式返回所有的匹配项




    find(name,attrs,recursive,text,kwargs)**
    返回第一个匹配到的元素

    CSS选择器
    通过select()直接传入CSS选择器即可完成选择


    总结:一共三种选择器:标签选择器,标准选择器,CSS选择器。

    • 推荐使用lxml解析库,必要时使用html.parser
    • 标签选择器筛选功能弱但速度快
    • 建议使用find(),find_all()查询匹配单个结果或多个结果
    • 如对CSS选择器熟悉建议使用select()
  • 相关阅读:
    洛谷P1501 动态树(LCT)
    Beijing Institute of Technology 2019.6 Monthly Contest (For grade 2018)
    [BJOI2018]求和
    [JSOI2015]最小表示
    简单题
    [Ynoi2016]掉进兔子洞
    乘积
    飞扬的小鸟
    [CTSC2008]网络管理
    Sequence
  • 原文地址:https://www.cnblogs.com/tingshu/p/13944891.html
Copyright © 2011-2022 走看看