zoukankan      html  css  js  c++  java
  • 使用beautifulsoup4解析内容

    一、安装

      在cmd中直接运行pip install beautifulsoup4进行安装

    二、原理

      BeautifulSoup4(html)

        获取节点:find()、find_all()/select()

        获取属性:attrs

        获取文本:text

      原理:beautifulsoup4将复杂的HTML文档转换成一个树形结构,每个节点都是Python对象。

    三、使用

      

    from bs4 import BeautifulSoup
    import requests
    
    url = "http://wsjkw.sc.gov.cn/scwsjkw/gzbd/fyzt.shtml"
    res = requests.get(url)
    res.encoding = "utf-8"
    html = res.text
    soup = BeautifulSoup(html)
    soup.find("h2").text
    a = soup.find("a")
    print(a)
    print(a.attrs)
    print(a.attrs["href"]) 

      上面是通过BeautifulSoup(html)方法来解析得到的res.text信息,找到打印href

    url_new = "http://wsjkw.sc.gov.cn" + a.attrs["href"]
    res = requests.get(url_new)
    res.encoding = "utf-8"
    soup = BeautifulSoup(res.text)
    soup.find("p")

      用上面找到的href来进行url拼接,并且用过CSS样式的标签来找到需要的信息

    四、效果展示

     五、总结

      beautifulsoup4是将requests请求的text信息进行解析,然后可以通过不同的CSS标签来取到想要的信息或者内容。

  • 相关阅读:
    jsp tag
    加密算法
    webpack4.x 使用
    vue部分知识点
    数据赋值处理
    Promise markdown版
    Promise-github版
    vuex简单介绍-官网
    vue-router-官网
    vue官方实例-分例-14-19
  • 原文地址:https://www.cnblogs.com/renleiblog/p/12627381.html
Copyright © 2011-2022 走看看