zoukankan      html  css  js  c++  java
  • bs4

    • bs4

    一个方便的网页解析库,处理高效,支持多种解析器。
    主流的是Python标准库html.parser,一个是lxml解析器

    # Python的标准库
    BeautifulSoup(html, 'html.parser')
    
    # lxml
    BeautifulSoup(html, 'lxml')
    

    内置标准库执行速度一般,在低版本的Python中,中文的容错能力比较差
    lxml解析器执行速度快,需要装C语言依赖库

    from bs4 import BeautifulSoup
    soup = BeautifulSoup(response.text, 'lxml')
    

    soup.prettify() >>> 进行自动补全,将缺失代码补齐。

    选择器

    标准选择器
    find_all(name, attrs, recursive, text, **kwargs)

    soup.find_all("title")
    # [<title>The Dormouse's story</title>]
    
    soup.find_all("p", "title")   多个参数传入是一个传递关系  p标签下的title  css样式
    # [<p class="title"><b>The Dormouse's story</b></p>]
    
    soup.find_all("a")
    # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
    #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
    #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
    
    soup.find_all(id="link2")
    # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
    

    soup.find_all('div', class_='top')
    # 这里注意下,class是Python的内部关键词,我们需要在css属性class后面加一个下划线'_',不然会报错。
    
    soup.find_all("a", limit=2)
    # [<a id="link1" class="sister" href="http://example.com/elsie">Elsie</a>,
    # <a id="link2" class="sister" href="http://example.com/lacie">Lacie</a>]
    

    find( name , attrs , recursive , string , **kwargs )
    与find_all的不同

    soup.find_all('title', limit=1)
    # [The Dormouse's story]
    
    soup.find('title')
    #The Dormouse's story
    

    find_all返回的是一个列表,找不到目标返回空列表,
    find直接返回结果,找不到目标返回None

    CSS选择器

    soup.select("title")
    # [The Dormouse's story]
    
    soup.select("body a")
    # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
    #  <a class="sister" href="http://example.com/lacie"  id="link2">Lacie</a>,
    #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
    
    soup.select("html head title")
    # [<title>The Dormouse's story</title>]
    soup.select("head > title")
    # [<title>The Dormouse's story</title>]
    
    soup.select("p > a")
    # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
    #  <a class="sister" href="http://example.com/lacie"  id="link2">Lacie</a>,
    #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
    
    soup.select("p > #link1")
    # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]×
    
    soup.select("body > a")
    # []
    
    soup.select(".sister")
    # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
    #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
    #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
    
    soup.select("#link1")
    # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
    
    soup.select("a#link2")
    # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
    soup.select("#link1,#link2")
    # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
    #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
    

    提取标签内容

    list = [<ahref="http://www.baidu.com/">百度</a>,
    <ahref="http://www.163.com/">网易</a>,
    <ahref="http://www.sina.com/"新浪</a>]
    
    for i inlist:
    print(i.get_text()) # 我们使用get_text()方法获得标签内容
    print(i.get['href']# get['attrs']方法获得标签属性
    print(i['href'])# 简写结果一样
    
    百度
    网易
    新浪
    http://www.baidu.com/
    http://www.163.com/
    http://www.sina.com/
    http://www.baidu.com/
    http://www.163.com/
    http://www.sina.com/
    



  • 相关阅读:
    使用 linux kernel +busybox 定制linux系统
    记一次golang的内存泄露
    关于Queries_per_sec 性能计数器
    NUMA导致的MySQL服务器SWAP问题分析
    Drop Table对MySQL的性能影响分析
    当MySQL数据库遇到Syn Flooding
    tcp_tw_recycle参数引发的数据库连接异常
    一例数据同步异常问题分析
    MySQL大量线程处于Opening tables的问题分析
    MySQL DeadLock故障排查过程
  • 原文地址:https://www.cnblogs.com/cizao/p/11484352.html
Copyright © 2011-2022 走看看