zoukankan      html  css  js  c++  java
  • BeautifulSoap库入门

    1. BeautifulSoup类的基本元素
    基本元素 说明
    Tag 标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾
    Name 标签的名字,<p>…</p>的名字是'p',格式:<tag>.name
    Attributes 标签的属性,字典形式组织,格式:<tag>.attrs
    NavigableString 标签内非属性字符串,<>…</>中字符串,格式:<tag>.string
    Comment 标签内字符串的注释部分,一种特殊的Comment类型
    注:任何存在于HTML语法中的标签都可以用soup.<tag>访问获得
    当HTML文档中存在多个相同<tag>对应内容时,soup.<tag>返回第一个
    #基本类型
    print(soup.title)
    print(soup.a)
    print(soup.a.parent.name)
    print(soup.a.parent.parent.name)
    print(soup.a.attrs)
    print(soup.a.attrs['class'])
    print(soup.a.attrs['href'])
    print(type(soup.a.attrs))
    print(type(soup.a))
    
    print(soup.a.string)
    print(soup.p)
    print(soup.p.string)
    print(type(soup.p.string))
    #
    
    #HTML注释
    newsoup = BeautifulSoup("<b><!--This is a comment--></b><p>This is not a comment</p>","html.parser")
    print(newsoup.b.string)
    print(type(newsoup.b.string))
    print(newsoup.p.string)
    print(type(newsoup.p.string))
    
    1. 基于bs4库的HTML格式输出
    print(soup.prettify())
    
  • 相关阅读:
    求数列的和
    统计字符
    保留最大的数
    POJ百练—IP地址转换
    HDOJ1213(并查集)
    HDOJ1059(多重背包)
    HDOJ1171(多重背包)
    多重背包(标准模板)
    HDOJ1251(前缀匹配---分块查找&map应用)
    hdoj1113(字符串map应用)
  • 原文地址:https://www.cnblogs.com/machine-lyc/p/10264006.html
Copyright © 2011-2022 走看看