Python静态网页爬虫相关知识 - 走看看

zoukankan html css js c++ java

Python静态网页爬虫相关知识

想要开发一个简单的Python爬虫案例，并在Python3以上的环境下运行，那么需要掌握哪些知识才能完成一个简单的Python爬虫呢？

爬虫的架构实现

    爬虫包括调度器，管理器，解析器，下载器和输出器。调度器可以理解为主函数的入口作为整个爬虫的头部，管理器实现包括对URL是否重复进行判断，将已经爬到的URL加入到列表防止重复爬取。解析器则是对网页内容进行解析，解析出新的URL和网页内容。下载器则是下载解析器解析出的URL。输出器则是顾名思义。

  1.1 调度器

    我的理解为类似主函数的入口，可以启动爬虫，停止爬虫和监视爬虫的运行情况。

1.2 管理器

    管理器主要对url进行管理，包括已经爬取的URL和待爬取的URL，分类并加入两个set中，为什么采用set这个数据结构？后面会做介绍。

    1.3下载器

    下载器接受来自URL管理器传入的URL将其转换成一个字符串，到此完成下载器的功能。

    1.4解析器

    功能包括解析出有价值的数据，这里要了解基本的HTML的知识才能对指定数据进行爬取。网页中包括很多URL，解析出之后将加入管理器进行下一次的循环工作。

    1.5输出器

    略

后续将更新其他内容，希望大家能一起学习Python web开发。

查看全文

相关阅读:
awk 正则匹配指定字段次数统计
 base64图片内容下载转为图片保存
 基于keras的fasttext短文本分类
 ubuntu 更换为mac主题
 ubuntu crontab python 定时任务备记
 ubuntu14.04 安装jdk1.8及以上
 fastext 中文文本分类
 django 多线程下载图片
 中文词向量训练
 mongodb 安装使用备记

原文地址：https://www.cnblogs.com/dnaoba/p/5429008.html

Copyright © 2011-2022 走看看