zoukankan      html  css  js  c++  java
  • python爬虫beautifulsoup4系列1

    前言

    以博客园为例,爬取我的博客上首页的发布时间、标题、摘要,本篇先小试牛刀,先了解下它的强大之处,后面讲beautifulsoup4的详细功能。

    一、安装

    1.打开cmd用pip在线安装beautifulsoup4

    >pip install beautifulsoup4

    二、解析器

    1.我们主要用第一个html.parser,这个是python的标准库,可以直接用。其它几个需要安装对应解析器,

    下表列出了主要的解析器,以及它们的优缺点:

    三、打印首页博客的时间

    1.这里直接定位不好定位到,可以先定位它的父元素:class="dayTitle"

  • 相关阅读:
    附加作业
    我的个人总结
    进度更新
    结对编程——电梯调度
    程序阅读的改进
    WordCount
    阅读程序
    VS2013单元测试
    附加作业
    个人最终总结
  • 原文地址:https://www.cnblogs.com/king8/p/10079336.html
Copyright © 2011-2022 走看看