zoukankan      html  css  js  c++  java
  • 2 HTML解析

    bs4 库 BeautifulSoup子模块中最常用的findAll和find函数:
    根据标签的不同属性,使用这两个函数对HTML页面过滤,查找需要的标签组或单个标签。
    findAll(tag,attribute,recursive,text,limit,keywords)
    find(tag,attribute,recursive,text,keywords)
    #标签参数和属性参数最常用

    标签参数tag:传一个标签的名称或多个标签名称组成的python列表做参数

    # 返回HTML文档中所有标题标签的列表
    findAll({'h1','h2','h3','h4','h5','h6'})或 findAll(['h1','h2','h3','h4','h5','h6'])

    属性参数attribute:用python字典封装一个标签的若干属性和对应的属性值

    findAll('span',{'class':{'green','red'}})
    #返回HTML文档中红,绿两种span标签

    递归参数recursive,默认是True即查找所有标签含子标签到底;若是False就查找一级标签

    文本参数text:通过标签的文本内容匹配

    findAll(text='the prince')

    范围限制参数limit

    关键词参数keyword

    BeautifulSoup库的对象:

    1、BeautifulSoup对象 bsobj

    bsobj = BeautifulSoup(html,'html.parser')  

    2、标签Tag对象,bsobj通过findAll和find或直接调用子标签获取的一列对象或单个对象

    3、NavigableString对象用来表示标签里的文字,不是标签

    4、Comment对象查找HTML文档的注释标签

    导航树(Navigating Trees):

    可通过标签在文档中位置来查找标签,HTML导航树有纵向导航和横向导航

    子标签children、后代标签descendants、兄弟标签如tr.next_siblings

    
    
    渐变 --> 突变
  • 相关阅读:
    005 Stream的创建
    006 虚拟主机
    002 nginx的进程模型
    001 胡说八道
    001 nginx的简介和安装
    004 docker配置国内镜像站
    012 SSH
    发放失败,此请求可能存在风险,已被微信拦截【未解决】
    项目使用Nuget,然后SVN checkout后显示缺少引用
    使用存储过程非常慢,但是直接执行SQL很快
  • 原文地址:https://www.cnblogs.com/lybpy/p/7820092.html
Copyright © 2011-2022 走看看