zoukankan      html  css  js  c++  java
  • BeautifulSoup库的使用

    一、beautifulSoup库的安装

    pip install BeautifulSoup

    二、beautifulsoup库的使用

    1、调用beautifulsoup库

    from bs4 import beautifulsoup4

    import bs4

    2、beautifulsoup简单使用

    from bs4 import BeautifulSoup
    
    soup = BeautifulSoup("<html>data<html>","html.parser")
    soup2 = BeautifulSoup("<html>data<html>","html.parser")

    BeautifulSoup对应一个HTML/XML文档的全部内容

    3、beautifulsoup解析器

    bs4的HTML解析器    BeautifulSoup(mk,'html.parser')    安装bs4库

    lxml的HTML解析器    BeautifulSoup(mk,'lxml')         pip install lxml

    lxml的XML解析器       BeautifulSoup(mk,'xml')         pip install lxml

    html5lib的解析器       BeautifulSoup(mk,'html5lib')        pip install html5lib

    4、beautifulsoup类的基本元素

    Tag          标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾

    Name         标签的名字,<p>...</p>的名字是'p',格式:<tag>.name

    Attributes        标签的属性,字典形式组织,格式:<tag>.attrs

    NavigableString      标签内非属性字符串,<>...</>中的字符串,格式:<tag>.string

    Comment         标签内字符串的注释部分,一种特殊的Comment类型

    5、标签树的下行遍历

    .contents        子节点的列表,将<tag>所有的儿子节点存入列表

    .children         子节点的迭代类型,与.contents类似,用于循环遍历儿子节点

    .descendants      子节点的迭代类型,包括所有的子孙节点,用于循环遍历

     6、标签树上行遍历

    .parent      节点的父亲标签

    .parents       节点先辈标签的迭代类型,用于循环遍历先辈节点

     7、标签树的平行遍历属性

    .next_sibling        返回按照HTML文本顺序的下一个平行节点标签

    .previous_sibling      返回按照HTML文本顺序的上一个平行节点标签

    .next_siblings         迭代类型,返回按照HTML文本顺序的后续所有平行节点标签

    .previous_siblings       迭代类型,返回按照HTML文本顺序的前续所有平行节点标签

    条件:平行遍历必须发生在同一个父节点下的各节点间

  • 相关阅读:
    hadoop2 作业执行过程之作业提交
    Hadoop各个服务端口列表
    基于 Nginx 和 FFmpeg 搭建流媒体服务器
    prometheus
    ubuntu 下dbus的环境搭建和使用
    Hadoop-Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster —
    Exception message: /bin/bash: line 0: fg: no job control
    P3942 将军令 [贪心]
    P3941 入阵曲
    P3941 入阵曲
  • 原文地址:https://www.cnblogs.com/zihkj/p/12271096.html
Copyright © 2011-2022 走看看