zoukankan      html  css  js  c++  java
  • python 之 BeautifulSoup 常用提取

    一、bs4信息提取后返回的数据类型

    soup.find('tbody')            ---> 返回结构是一个bs4.element.Tag
    
    soup.find('tbody').children   ---> 返回结果是一个 list.iter



    二、 常用查找之soup.find_all(), soup.find_all().children,soup.find()信息提取

    举例标签:

    <tbody>
        <tr>
            <td>1<td>
            <td>清华大学<td>
            <td>北京市<td>
            <td>98.00<td>
            <td>100.00<td>
            <td>-1<td>
        <tr>
    </tbody>


    (1)查找html中所有'tbody'标签;

    >>>> soup.find_all('tbody')


    (2)查找html中tbody标签的所有<tr>子标签,是所有的<tr>。

    >>>> soup.find('tbody').children


    (3)查找html文档中第一个tbody标签

    >>>> soup.find('tbody')



    三、 常用查找之"名称"、"属性"、"字符串"信息提取

    举例标签:

    <img src = 'http://www.abc.com/123.jpg'>

    (1) tag.name
    >>>> 标签名称提取

    (2) tag.get('attrs')    

    >>>> tag标签中属性内容提取,比如图片链接提取:

    >>>> for x in soup.find_all('img'):
             x.get('src')
    

     
    (3)tag.string
    >>>> tag标签中所有字符串提取。

  • 相关阅读:
    double相加(減)结果会有些误差
    创建表,操作表
    删除数据库
    DDL语句
    HCDA-12-配置基本静态路由
    HCDA-11-配置直连路由
    1-5配置STelnet登录系统
    HCDA-9-管理设备文件系统
    HCDA-8-了解设备系统文件
    Java生成随机汉字
  • 原文地址:https://www.cnblogs.com/my1e3/p/6649419.html
Copyright © 2011-2022 走看看