zoukankan      html  css  js  c++  java
  • Python静态网页爬虫相关知识

    想要开发一个简单的Python爬虫案例,并在Python3以上的环境下运行,那么需要掌握哪些知识才能完成一个简单的Python爬虫呢?

     爬虫的架构实现

        爬虫包括调度器,管理器,解析器,下载器和输出器。调度器可以理解为主函数的入口作为整个爬虫的头部,管理器实现包括对URL是否重复进行 判断,将已经爬到的URL加入到列表防止重复爬取。解析器则是对网页内容进行解析,解析出新的URL和网页内容。下载器则是下载解析器解析出的URL。输 出器则是顾名思义。

      1.1 调度器

        我的理解为类似主函数的入口,可以启动爬虫,停止爬虫和监视爬虫的运行情况。

     1.2 管理器

        管理器主要对url进行管理,包括已经爬取的URL和待爬取的URL,分类并加入两个set中,为什么采用set这个数据结构?后面会做介绍。

        1.3下载器

        下载器接受来自URL管理器传入的URL将其转换成一个字符串,到此完成下载器的功能。

        1.4解析器

        功能包括解析出有价值的数据,这里要了解基本的HTML的知识才能对指定数据进行爬取。网页中包括很多URL,解析出之后将加入管理器进行下一次的循环工作。

        1.5输出器

        

    后续将更新其他内容,希望大家能一起学习Python web开发

  • 相关阅读:
    TCP协议实现双工通信
    搭建本地FTP服务器
    CSS 3 选择器root、not、empty、target
    CSS 3 中的伪类选择器
    CSS 3 中的属性选择器
    Entity Framework Code First属性映射约定
    Entity Framework数据库初始化四种策略
    HTML 5 Base 64 编码
    HTML 5 离线程序
    HTML5 本地数据库IndexedDB数据库
  • 原文地址:https://www.cnblogs.com/dnaoba/p/5429008.html
Copyright © 2011-2022 走看看