基于bs4库的HTML内容查找方法和HTML格式化和编码 - 走看看

zoukankan html css js c++ java

基于bs4库的HTML内容查找方法和HTML格式化和编码
bs4库的prettify()方法：



将某一个标签打印：

对于中文的HTML代码，也可以直接打印：


基于bs4库的HTML内容查找方法

<>.find_all(name,attrs,recursive,string,**kwargs)：返回一个列表类型，存储查找的结果

name：对标签名称的检索字符串。



       其中的(import re)是导入正则表达式库。

attrs：对标签属性值的检索字符串，可标注属性检索。



recursive：是否对子孙全部检索，默认为Ture。



string：<>...</>中字符串区域的检索字符串。



find_all函数的简写形式：

<tag>(..)等价于<tag>.find_all(..)

soup(..)等价于soup.find_all(..)

find_all函数的扩展方法：

<>.find()：搜索且只返回一个结果，字符串类型，同.find_all()参数

<>.find.parents()：在先辈节点中搜索，返回列表类型，同.find_all参数

<>.find.parent()：在先辈节点中返回一个结果，字符串类型，同.find_all()参数

<>.find_next_siblings()：在后续平行节点中搜索，返回列表类型，同.find_all()参数

<>.find.next_sibling ()：在后续平行节点中返回一个结果，字符串类型，同.find_all()参数

<>.find_previous_siblings()：在前序平行节点中搜索，返回列表类型，同.find_all()参数

<>.find_previous_sibling()：在前序平行节点中返回一个结果，字符串类型，同.find_all()参数
北音执念i
查看全文

相关阅读:
android提供ToolBar实现划动菜单的陷阱
 style="display"之后不能获取offsetHeight或clientWidth这类测量的值
 onmouseenter与onmouseover
使用Dom的Range对象处理chrome和IE文本光标位置
 js严格模式“use strict”
正则表达式lastIndex属性浅析
 IE中的fireEvent和webkit中的dispatchEvent
readonly=“readonly”与readonly=“true”
【杂文】
【洛谷p1015】【一本通p1309】回文数（noip1999）

原文地址：https://www.cnblogs.com/beiyin/p/9129515.html

Copyright © 2011-2022 走看看