爬虫之beautifulsoup篇之一 - 走看看

zoukankan html css js c++ java

爬虫之beautifulsoup篇之一
一个网页的节点太多，一个个的用正则表达式去查找不方便且不灵活。BeautifulSoup将html文档转换成一个属性结构，每个节点都是python对象。这样我们就能针对每个结点进行操作。参考如下代码：
```
from urllib.request import urlopen
from urllib import error
from bs4 import BeautifulSoup

try:
    html = urlopen("http://www.pythonscraping.com/pages/page1.html")
    bsObj = BeautifulSoup(html.read())
except error.HTTPError as e:
    print("HTTPError:.....")
except error.URLError as e:
    print("URLError....")

else:
    print(bsObj.h1)
```
BeautifulSoup中传入的就是urlopen中反馈的html网页。
```
运行结果报错：
```
解决方法：

这个提示的意思是没有给BeautifulSoup中传递一个解析网页的方式。有2中方式可以使用:html.parser以及lxml。这里我们先用html.parser，lxml。

看源码：

需要传入这四种解析方式。
查看全文

相关阅读:
Linux系统中如何查找大文件或目录文件夹的方法
 SELinux 宽容模式(permissive) 强制模式(enforcing) 关闭(disabled) 几种模式之间的转换
 使用纯css代码实现div的“回”字型“叠放”效果
 中国剩余定理求解“六位教授必须首次都停止上课”问题
 Java基础篇Socket网络编程中的应用实例
 计算正互反矩阵的特征值及特征向量
 维吉尼亚密码java代码实现根据密钥长度计算IC值过程
 维吉尼亚密码java完整版
 容器常用操作注意事项
 HashMap源码分析

原文地址：https://www.cnblogs.com/jerryspace/p/9871561.html

Copyright © 2011-2022 走看看