zoukankan      html  css  js  c++  java
  • Beautiful Soup 4.2.0

    Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式
    
    快速开始
    
    pip install beautifulsoup4
    
    下面的一段HTML代码将作为例子
    
    
    content="""
    <div id="post_detail">
    	<div class="post">
    		<h2>
    			<a id="cb_post_title_url" href="http://www.cnblogs.com/Mainz/archive/2009/03/14/1411359.html">实用正则表达式匹配和替换</a>
    		</h2>
    		<div class="postText"><div id="cnblogs_post_body" class="blogpost-body"><p>正则表达式非常有用,查找、匹配、处理字符串、替换和转换字符串,输入输出等。而且各种语言都支持,例如.NET正则库,JDK正则包, Perl, JavaScript等各种脚本语言都支持正则表达式。下面整理一些常用的正则表达式。</p>
    <table style=" 710px;" border="1" cellspacing="0" cellpadding="2">
    
    """
    from bs4 import BeautifulSoup
    soup=BeautifulSoup(content,'html.parser')
    从文档中找到所有<p>标签的链接
    tag=soup.find(name="p")
    print(tag)
    从文档中找到所有<a>标签的链接:
    for link in soup.find_all('a'):
        print(link.get('href'))
    从文档中获取所有文字内容:
    print(soup.get_text())    
    
    每个tag都有自己的名字,通过 .name 来获取:
    tag.name = "div"
    tag.name
    一个tag可能有很多个属性. tag <b class="boldest"> 有一个 “class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:
    tag['class']
    也可以直接”点”取属性, 比如: .attrs
    tag.attrs
    tag的属性可以被添加,删除或修改. 再说一次, tag的属性操作方法与字典一样
    tag['class'] = 'post'
    tag['id'] = 1
    tag
    # <div class="post" id="1">Extremely bold</div>
    
    del tag['class']
    del tag['id']
    tag
    # <div>Extremely bold</div>
    tag['class']
    # KeyError: 'class'
    print(tag.get('class'))
    多值属性
    

      

  • 相关阅读:
    BZOJ4722 由乃
    LOJ6043 「雅礼集训 2017 Day7」蛐蛐国的修墙方案
    Luogu P2414 [NOI2011]阿狸的打字机
    Luogu P3193 [HNOI2008]GT考试
    Luogu P3167 [CQOI2014]通配符匹配
    Luogu P4503 [CTSC2014]企鹅QQ
    Luogu P5446 [THUPC2018]绿绿和串串
    Luogu P5329 [SNOI2019]字符串
    免密码ssh2登录
    mooon模板的automake、autoconf、m4和libtool版本信息
  • 原文地址:https://www.cnblogs.com/morgana/p/8485342.html
Copyright © 2011-2022 走看看