zoukankan      html  css  js  c++  java
  • Python静态网页爬虫相关知识

    想要开发一个简单的Python爬虫案例,并在Python3以上的环境下运行,那么需要掌握哪些知识才能完成一个简单的Python爬虫呢?

     爬虫的架构实现

        爬虫包括调度器,管理器,解析器,下载器和输出器。调度器可以理解为主函数的入口作为整个爬虫的头部,管理器实现包括对URL是否重复进行 判断,将已经爬到的URL加入到列表防止重复爬取。解析器则是对网页内容进行解析,解析出新的URL和网页内容。下载器则是下载解析器解析出的URL。输 出器则是顾名思义。

      1.1 调度器

        我的理解为类似主函数的入口,可以启动爬虫,停止爬虫和监视爬虫的运行情况。

     1.2 管理器

        管理器主要对url进行管理,包括已经爬取的URL和待爬取的URL,分类并加入两个set中,为什么采用set这个数据结构?后面会做介绍。

        1.3下载器

        下载器接受来自URL管理器传入的URL将其转换成一个字符串,到此完成下载器的功能。

        1.4解析器

        功能包括解析出有价值的数据,这里要了解基本的HTML的知识才能对指定数据进行爬取。网页中包括很多URL,解析出之后将加入管理器进行下一次的循环工作。

        1.5输出器

        

    后续将更新其他内容,希望大家能一起学习Python web开发

  • 相关阅读:
    算法---十大经典排序算法
    算法---待整理
    iOS面试题整理---[难度]***
    spring mvc(注解)上传文件的简单例子
    面试感悟:3年工作经验程序员应有的技能
    一个 IT 青年北漂四年的感悟
    成为更优秀程序员的关键:更多的阅读
    数组参数 有params 区别
    对C# 集合类的总结
    c#前缀
  • 原文地址:https://www.cnblogs.com/dnaoba/p/5429008.html
Copyright © 2011-2022 走看看