学习进度条45 - 走看看

zoukankan html css js c++ java

学习进度条45

文档解析错误

文档解析错误有两种.一种是崩溃,Beautiful Soup尝试解析一段文档结果却抛除了异常,通常是 HTMLParser.HTMLParseError .还有一种异常情况,是Beautiful Soup解析后的文档树看起来与原来的内容相差很多.

这些错误几乎都不是Beautiful Soup的原因,这不会是因为Beautiful Soup得代码写的太优秀,而是因为Beautiful Soup没有包含任何文档解析代码.异常产生自被依赖的解析器,如果解析器不能很好的解析出当前的文档,那么最好的办法是换一个解析器.更多细节查看安装解析器章节.

最常见的解析错误是 HTMLParser.HTMLParseError: malformed start tag 和 HTMLParser.HTMLParseError: bad end tag .这都是由Python内置的解析器引起的,解决方法是安装lxml或html5lib

最常见的异常现象是当前文档找不到指定的Tag,而这个Tag光是用眼睛就足够发现的了. find_all() 方法返回 [] ,而 find() 方法返回 None .这是Python内置解析器的又一个问题: 解析器会跳过那些它不知道的tag.解决方法还是安装lxml或html5lib

查看全文

相关阅读:
转：1分钟解决git clone 速度慢的问题
 进程冻结学习笔记
 RT调度学习笔记（1）
tracer ftrace笔记（2）——添加与使用
 Regeultor内核文档翻译_学习笔记
 一、Linux cpuidle framework(1)_概述和软件架构
 Python 将私有包自动上传Nexus私服
 Pychram 取消自动添加版本控制
 Python 3DES CBC 模式加密解密
 1588. 所有奇数长度子数组的和

原文地址：https://www.cnblogs.com/hhw12345/p/14910381.html

Copyright © 2011-2022 走看看