zoukankan      html  css  js  c++  java
  • python爬虫---beautifulsoup(2)

      之前我们使用的是python的自带的解析器html.parser。官网上面还有一些其余的解析器,我们分别学习一下。

    解析器 使用方法 优点 缺点
    htm.parser BeautifulSoup(markup,'html.parser')

    1、python自带的

    2、解析速度过得去

    3、容错强

    2.7之前的版本,和3.3之前不包括2.7的都不支持
    lxml`s HTML parser BeautifulSoup(markup,'lxml')

    1、非常快

    2、容错强

    要安装C语言库
    lxml`s xml parser 

    BeautifulSoup(markup,['lxml','xml'])

    BeautifulSoup(markup,'xml')

    1、速度快

    2、唯一支持xml的解析器 

    需安装C语言库
    html5lib BeautifulSoup(markup,'html5lib')

    1、容错性最强

    2、以浏览器方式解析文档

    3、生成html5格式文档

    1、速度慢

    2、不依赖外部扩展

      这个了解一下就可以了

      

  • 相关阅读:
    EasyARM-Linux工具
    EasyARM-Linux文件系统
    EasyARM-Linux使用
    公差-PCBA
    novoton-USBDevice使用
    novoton-RTC使用
    novoton-ADC使用
    novoton-I2C使用
    novoton-timer使用
    novoton-usart使用
  • 原文地址:https://www.cnblogs.com/Sample1994/p/6666585.html
Copyright © 2011-2022 走看看