zoukankan      html  css  js  c++  java
  • python 之 BeautifulSoup 常用提取

    一、bs4信息提取后返回的数据类型

    soup.find('tbody')            ---> 返回结构是一个bs4.element.Tag
    
    soup.find('tbody').children   ---> 返回结果是一个 list.iter



    二、 常用查找之soup.find_all(), soup.find_all().children,soup.find()信息提取

    举例标签:

    <tbody>
        <tr>
            <td>1<td>
            <td>清华大学<td>
            <td>北京市<td>
            <td>98.00<td>
            <td>100.00<td>
            <td>-1<td>
        <tr>
    </tbody>


    (1)查找html中所有'tbody'标签;

    >>>> soup.find_all('tbody')


    (2)查找html中tbody标签的所有<tr>子标签,是所有的<tr>。

    >>>> soup.find('tbody').children


    (3)查找html文档中第一个tbody标签

    >>>> soup.find('tbody')



    三、 常用查找之"名称"、"属性"、"字符串"信息提取

    举例标签:

    <img src = 'http://www.abc.com/123.jpg'>

    (1) tag.name
    >>>> 标签名称提取

    (2) tag.get('attrs')    

    >>>> tag标签中属性内容提取,比如图片链接提取:

    >>>> for x in soup.find_all('img'):
             x.get('src')
    

     
    (3)tag.string
    >>>> tag标签中所有字符串提取。

  • 相关阅读:
    Python装饰器
    Python常用内建模块
    Python文件的操作
    Python集合的操作
    Python字典的操作
    Python列表元组的操作
    os.path
    Python字符串的操作
    线性回归
    随机森林
  • 原文地址:https://www.cnblogs.com/my1e3/p/6649419.html
Copyright © 2011-2022 走看看