Python简单爬虫架构 - 走看看

zoukankan html css js c++ java

Python简单爬虫架构
目录
概览
项目需求
应用过程
爬虫
简单爬虫架构
URL管理器
网页下载器
网页解析器
概览

慕课网python开发简单爬虫课程(https://www.imooc.com/learn/563)学习笔记，项目实践代码见 https://github.com/L-rookie/python_spider.git

项目需求

提取价值数据并输出

应用过程

爬虫

简单爬虫架构

URL管理器

用于管理待爬取及已抓取的url

网页下载器

下载待爬取url对应的网页(html)并将其存储为本地文件或内存字符串。Python常用网页下载器为urllib2(Python2.x)或urllib.request(Python3.x)。urllib为Python官方自带模块，不需要额外安装。

网页解析器

解析爬取的html字符串，提取有价值的数据、新的url等
查看全文

相关阅读:
oracle重命名数据库
 GridView分页的实现
 vb发post信息，非常简单，就一个函数
 第六周进度条
 软件工程作业
 进度条第五周
 四则运算设计03
进度条03
单元测试课堂作业
 个人作业02

原文地址：https://www.cnblogs.com/rookieveteran/p/13325318.html

Copyright © 2011-2022 走看看