zoukankan      html  css  js  c++  java
  • python之beautifulsoap知识点

            beautifusoap库简称bs在爬虫中比较方便。

    1.  find_all()函数返回的是list,即使只有一个数据,find()函数返回的是查找到的第一个数据。

    2. 如果查找抓取数据div的参数属性,可以通过div[属性]或者div.attrs或者div.get(属性)等方法。其中attrs是一个字典形式,需要继续提取

    3.  div.string 使用这个需要这样的条件:div标签里面有且仅有一个内容。如果div标签或者其子标签也有内容,则可以使用div.strings,其返回为列表。

    4. div.contents 抓取div的所有直接子节点,以list形式;div.children与contents雷同,只是其输出为生成器,需要使用for。div.descendants 抓取div的所有子节点,从大到小。这三个关键字抓取的数据较杂

    5. div.parent 和div.parents较简单

    6. div.next_sibling 和div.previous_sibling 是前后兄弟节点,分等级的

    7.next_element 是下一节点,部分等级,就是下一个tag,可以遍历文档中所有的内嵌节点

  • 相关阅读:
    【PS】Colorful and flowing word tutorials 彩色流光字教程
    【Language】Popular Javascript Convention on Github
    java 题目
    swift 构造过程
    swift 继承相关
    swift 方法功能
    javascript闭包
    IOS swift学习地址
    guava 工具包
    数字和大写字母字符串
  • 原文地址:https://www.cnblogs.com/xuehaiwuya0000/p/10471103.html
Copyright © 2011-2022 走看看