zoukankan      html  css  js  c++  java
  • 吴关于第三周BeautifulSoup个人作业中的易错点

    在BeautifulSoup类库中可用html_parser进行解析

    在html的文件中,要获得某标签的文本内容时,可用   对象名.select

    ('*')[0].text     其中[0]表示索引     *表示标签名

    例题:

    <h1  id=''tittle''>  Hello World    </h1>\

    <a  href=''#'' class=''link'' >   This is link1        </a>\

    <a   href=''# link2 ''  class=''link''>   This is link2   </a>\

    找出id为tittle属性所在的节点文本soup.select(''#tittle'')[0].text

    而找class为link的第一个节点的文本,则用soup.select(.link)[0].text

    在爬取数据时,在多层class关系中,用#表示id,用.表示class,用空格表示下一层关系

    pandas 类库中的DateFrame函数,可把列表转换成表格

    在BeautifulSoup中将内容格式化可用prettify()

    在继承关系(children/descendants/parent/parents)中,继承的返回结果为迭代器,需用enumerate来获取想要看到的内容

  • 相关阅读:
    LeetCode 128. 最长连续序列
    MySQL的information_schema
    maven项目板块的pom.xml配置
    mybatis打印SQL日志
    MySQL的时间字段转换
    mysql的csv数据导入与导出
    一致性协议
    分布式事务
    事务基本信息
    分布式系统定义及特点
  • 原文地址:https://www.cnblogs.com/ZHONGmy/p/9704202.html
Copyright © 2011-2022 走看看