zoukankan      html  css  js  c++  java
  • 爬虫日记-html的遍历

    基于bs4库的HTML遍历方法

    img

    标签树的下行遍历

    img

    来手打栗子,依然是用上一节的demo

    import requests
    from bs4 import BeautifulSoup
    r=requests.get('https://python123.io/ws/demo.html')
    demo=r.text
    soup = BeautifulSoup(demo,'html.parser')
    print(soup.prettify())
    

    img

    contents打印出了所有子标签,存在列表里展示

    也可以通过索引取值。

    img

    标签树的上行遍历

    img

    img

    html已经是html的最高级标签了,没有父标签,所以他的父标签就是它本身。

    因为 soup的父节点没有,所以返回了一个空

    标签树的上行遍历

    img

    这里拿出了一个parents,注意不是parent,所以这里是以上所有的父标签,放入一个列表之中,就可以迭代了,他就会每次都输出一个父标签的名字了。

    标签树的平行遍历

    img

    需要注意的是,平行遍历只发生在同一个父亲节点之下,若是另一个节点之下的标签,是不算他的平行节点的。

    img

    最后一个打印结果为None,因为他的上上个已经没有平行节点了,所以为空。

    img

    这个平行遍历就不多讲了。就是这样实现的,和遍历父节点是一个原理。

    img

    这就是今天的总结图

  • 相关阅读:
    Lotus Sametime Server R8.x 标准版部署排错
    group by的测试
    了解lpk.dll是什么病毒以及lpk.dll病毒专杀方法
    jquery练习5
    win7中配置iis
    jquery的动画
    lamp下mysql安全加固
    jquery的冒泡事件
    MySQL性能优化的最佳20+条经验
    MySQL数据库服务器优化详细
  • 原文地址:https://www.cnblogs.com/chanyuli/p/11403043.html
Copyright © 2011-2022 走看看