zoukankan      html  css  js  c++  java
  • bs4.BeautifulSoup的基础用法

    导入模块

        from bs4 import BeautifulSoup
    
        soup = BeautifulSoup(html_doc,"html.parser")
    

      

    下面看下常见的用法

     print(soup.a)
        # 拿到soup中的第一个a标签
    
    
    
        print(soup.a.name)
        # 获取a标签的名称
    
    
        print(soup.a.string)
        # 获取a标签的文本内容
    
    
        print(soup.a.text)
        # 获取a标签的文本内容
    
    
        print(soup.a["href"])
        # 获取a标签的href属性的值
    
        print(soup.a.get("href"))
        # 查找第一个a标签的href的属性
    
        print(soup.a.attrs)
        # 获取a标签的所有的属性,返回一个字典
    
    
    
        print(soup.find("a"))
        # 查找第一个a标签
    
    
        print(soup.find_all("a"))
        # 查找所有的a标签
    
    
        print(soup.find_all(id="a1"))
        # 查找所有的的id为a1的标签
    
    
        print(soup.find_all(class_="sistex"))
        # 这里需要注意,如果需要通过class去查找,则需要一个下划线
    
    
        print(soup.find_all(["a","p","br"]))
        # 查找所有的啊标签,p标签和br标签
    
    
        soup.find("a").attrs["class"] = "2b"
        # 修改某个标签的属性值
    
        del soup.find(id="a1").attrs["class"]
        # 删除某个标签的class属性
    

      

        import re
    
        soup.find(re.compile("b"))
        # 标签中有b这个字符的标签
    
    
        soup.select("a.syster")
        # 这个可以放标签选择器
    
        soup.select(".syster .abcd")
        # 这个可以放标签选择器
    
    
        soup.find("a").decompose()
        # 从当前字符串中删除第一个a标签,是在原位置进行删除
    

      

  • 相关阅读:
    Codeforces Round #564 (Div. 1)
    Codeforces Round #569 (Div. 1)
    SDOI2019R2游记
    BZOJ 3555: [Ctsc2014]企鹅QQ
    SDOI2019R1游记
    计数的一些东西
    多项式的各种操作
    BZOJ 5424: 烧桥计划
    Codeforces Round #545 (Div. 1)
    概率期望学习笔记
  • 原文地址:https://www.cnblogs.com/bainianminguo/p/9986396.html
Copyright © 2011-2022 走看看