网络爬虫（3）--Beautiful页面解析

zoukankan html css js c++ java

网络爬虫（3）--Beautiful页面解析
前面2节中对页面内容的访问都是直接通过标签访问的，这样虽然也可以达到解析页面内容的目的，但是在网页复杂，页面结构发生变化时，爬虫就失效了。为了使爬虫能够更加鲁棒的工作，我们需要学习通过属性查找标签的方法。
BeautifulSoup的find()和findAll()方法：
findAll(tag, attribute, recursive, text, limit, keywords)

find(tag, attribute, recursive, text, limit, keywords)

tag: 需要查找元素的标签，可以是一个标签也可以是多个标签名组成的列表

attribute: 要查找的标签属性，是用一个字典封装的标签的属性和对应的属性值

recursive: 递归参数，bool类型。设置为True，findAll就会查找标签参数的所有子标签，否则只查找一级标签。默认为True。

text: 文本参数，用标签的文本内容去匹配，而不是用标签的属性。

limit: 范围限制参数，只用于findAll方法，表示获取前多少项结果。

keywords: 关键词参数，选择具有指定属性的标签。
四种BeautifulSoup对象：
BeautifulSoup对象

BeautifulSoup.tag对象

NavigableString对象：

用来表示标签里的文字，而不是标签。

Comment对象：

用来查找HTML文档的注释标签，
导航树
如果想要通过标签在文档中的位置来查找标签，则需要导航树。BeautifulSoup对象本身就是一个导航树，我们直接通过标签来访问。

除此之外，我们还可以通过children来访问一个标签的子标签，descendants来访问后代标签，parent来访问父标签，next_siblings来访问兄弟标签，previpus_sibling来访问前一个兄弟标签等。

来自为知笔记(Wiz)
查看全文

相关阅读:
Manthan, Codefest 19 (open for everyone, rated, Div. 1 + Div. 2) D
HDU 2036 求任意多边形面积板子题
 HDU 6703 array（主席树）
2019牛客暑期多校训练营（第九场）H Cutting BamboosO（二分、主席树）
lintcode-425-电话号码的字母组合
 lintcode-81-数据流中位数
 lintcode-424-逆波兰表达式求值
 lintcode-423-有效的括号序列
 lintcode-422-最后一个单词的长度
 lintcode-421-简化路径

原文地址：https://www.cnblogs.com/haoliuhust/p/5618080.html