zoukankan      html  css  js  c++  java
  • 爬虫之beautifulsoup篇之一

    一个网页的节点太多,一个个的用正则表达式去查找不方便且不灵活。BeautifulSouphtml文档转换成一个属性结构,每个节点都是python对象。这样我们就能针对每个结点进行操作。参考如下代码:


    from urllib.request import urlopen
    from urllib import error
    from bs4 import BeautifulSoup

    try:
    html = urlopen("http://www.pythonscraping.com/pages/page1.html")
    bsObj = BeautifulSoup(html.read())
    except error.HTTPError as e:
    print("HTTPError:.....")
    except error.URLError as e:
    print("URLError....")

    else:
    print(bsObj.h1)

    BeautifulSoup中传入的就是urlopen中反馈的html网页。

    运行结果报错:

    解决方法:

    这个提示的意思是没有给BeautifulSoup中传递一个解析网页的方式。有2中方式可以使用:html.parser以及lxml。这里我们先用html.parser,lxml。

    看源码:

      

    需要传入这四种解析方式。

  • 相关阅读:
    零碎
    Python学习 day03 (续day02)
    Python学习 day02
    Python学习 Day1
    线性表——顺序表
    纠删码简介
    小数转化为分数
    C语言多线程操作
    转载:RAMCloud
    转载:全球级分布式数据库Google Spanner
  • 原文地址:https://www.cnblogs.com/jerryspace/p/9871561.html
Copyright © 2011-2022 走看看